第三方开发人员已经获得了 VKontakte 技术的访问权限,该技术可以读取语音并将其翻译成文本。只需单击几下即可实现语音识别技术或 ASR(自动语音识别)。VKontakte 的技术总监 Alexander Tobol 在 Saint HighLoad ++ 会议的开幕式上谈到了这一点。
为了识别,您可以选择两种模型之一。中性有利于清晰的演讲,例如在电视节目或采访中,而当你需要处理更多带有俚语和亵渎的随意演讲时,自然会有所帮助。VKontakte 神经网络能够消除解码中的噪声和停顿,理解难以理解的语音。

资料来源:VKontakte
该技术可通过特殊页面上的 Web 界面或通过 VKontakte 公共 API 获得。该解决方案适用于初创公司、独立项目、个人宠物项目的学习和自我发展。
正如 Alexander Tobol 告诉 STO VKontakte 的那样,每个月用户发送超过 20 亿条语音消息——这些是由公司的神经网络处理的数百万小时的音频。VKontakte 使用 ASR 来解密语音消息、在视频中生成字幕和个人推荐。在底层,该解决方案同时拥有三个神经网络:一个负责语音识别,第二个找到合适的单词,第三个放置标点符号。该技术的构建方式可以应对每天处理数亿条不同持续时间、质量和内容的消息。每条消息在发送后大约 1.5 秒内被解密。