Авторизуйтесь с помощью одного из аккаунтов
Авторизуясь, вы соглашаетесь с правилами пользования сайтом и даете согласие на обработку персональных данных.
Посмотреть видео можно на основной версии сайта

Моя твоя не понимать. Где голосовые сообщения работают лучше — "ВКонтакте", "Яндекс" или Telegram?

9017

Фото © Shutterstock

Post cover

На прошлой неделе соцсеть "ВКонтакте" научилась преобразовывать голосовые сообщения в текст. Мы вспомнили, что Mail.ru Group — не первая российская компания, которая в этом году открыла публичный доступ к расшифровщику. Ранее похожий сервис заработал в "Яндекс.Мессенджере". До этого боты с похожим функционалом появились в мессенджере Telegram. Мы провели между тремя участниками батл и выяснили, кто со своей задачей справляется лучше.

Мы установили все три сервиса на один смартфон и провели два раунда с разными по функции текстами. Их чтение мы предварительно записали на диктофон для чистоты эксперимента. Чтобы каждый раз тексты воспроизводились с одинаковыми интонациями и паузами.

Текст первого раунда:

И это классическая проблема на старте для каждого некстгена. Так было и с PlayStation 3 в 2007 году, и с Xbox One шестью годами позднее. Новые игры, которые заявлены исключительно для приставок девятого поколения, есть. Но потенциально громких хитов среди них очень мало.

Фрагмент со сложносочинёнными предложениями, иностранными словами и числительными. Интересно, как нейросети справятся с анализом контекста. Что, как заявляют MRG и "Яндекс", их программы делать умеют.

Текст второго раунда:

Йоу! Чё кого? Сходила после обеда к бабушке. Она напекла вкусных пирожков с картошкой и грибами. Зацепила несколько штук на ужин. Во сколько вернёшься сегодня с работы?

Фрагмент типичной переписки. Простая структура предложений. Пара разговорных выражений. Отсутствие иностранных слов. В общем, неформальное общение. В первую очередь под него затачивались тестируемые сервисы.

"ВКонтакте"

Распознавание аудиосообщений в соцсети "ВКонтакте" появилось 9 июня. Но только в приложениях. Да и то пока что не во всех. Софт-запуск продлится до конца недели. То есть со следующего понедельника опция заработает на всех смартфонах.

Преимуществами сервиса MRG, как заявляют разработчики, являются распознавание русскоязычного сленга, расстановка знаков препинания и высокая чувствительность к словам, записанным в сложных условиях. В общем, то, что надо для расшифровки диктофонных записей.

Итог первого раунда:

И это классическая проблема на старте для каждого некстгена так было из поста три-две тысячи седьмом году и секс-бокс уан шесть годами позднее новые игры, которые заявлены исключительно для пристава девятого поколения есть, но потенциально громких хитов среди не очень мало.

Всё было хорошо, пока расшифровщик не столкнулся с PlayStation 3 и Xbox One. Японская приставка превратилась в белиберду из "поста" и числительных, а Xbox из-за обилие шипящих превратился в "секс-бокс". Хотя до этого нейросеть отлично распознала специфичное слово "некстген". Со знаками препинания — беда. Уверенные паузы приложение не захотело идентифицировать как конец предложения.

Оценка: 2/5, неудовлетворительно.

Итог второго раунда:

Что кого сходила после обеда к бабушке она напекла вкусных пирожков с картошкой и грибами зацепила несколько штук на ужин. Во сколько вернёшься сегодня на ужин?

С этим заданием соцсеть справилась хорошо. Почти все слова она распознала правильно. Кроме одного. Приветственное "йоу" по непонятным причинам нейросеть просто проигнорировала. Большая беда и со знаками препинания — "ВКонтакте" поставила всего одну точку. Но зато распознала одно из двух вопросительных предложений. В целом же с такой расшифровкой работать можно.

Оценка: 3,5/5, удовлетворительно.

"Яндекс"

Продукт "Яндекса" называется SpeechKit. Эта нейросеть существует уже давно. Ведь именно она служит ушами и ртом для Алисы. С помощью SpeechKit голосовой помощник и регистрирует команды людей, и формирует на них ответы. С этого же года сервис интегрирован и в мессенджер "Яндекс.Чаты".

Распознавание проходит в три этапа. Первый: нейросеть выделяет слова и предполагает несколько вариантов его значения, строит гипотезы. Второй: искусственный интеллект анализирует другие гипотезы и на их основе выбирает значение. Третий: SpeechKit финализирует работу — преобразовывает числительные в цифры, расставляет знаки препинания и т.д.

Итог первого раунда:

Это классическая проблема на старте для каждого некст-гена так было из плейстейшен 3 в 2007 году xbox one 6 годами, позднее новые игры, которые заявлены исключительно для приставок 9 поколения, есть на потенциально громких хитов, среди них очень мало.

"Яндекс" справился гораздо лучше сервиса "ВКонтакте". Нейросеть поняла слово "некстген" и не стушевалась перед названиями приставок. Хоть и написала одну из них кириллицей, а другую — латиницей. Помарки, впрочем, есть. SpeechKit испытывает проблемы с предлогами и союзами: перед Xbox он не услышал "и" и "с", а перед PlayStation 3 те же единицы русского языка алгоритм слепил в "из", "но" превратилось в "на". С пунктуацией по-прежнему плохо. Хотя в одном случае "Яндекс" всё же обособил запятыми оборот, который начинается с местоимения "который".

Оценка: 3/5, удовлетворительно.

Итог второго раунда:

Йоу, чё, кого сходила после обеда к бабушке, она напекла вкусных пирожков с картошкой и грибами зацепила несколько штук на ужин, во сколько вернёшься сегодня с работы?

И снова искусственный интеллект "Яндекса" проявил себя лучше. Он правильно распознал все слова и даже не забыл про "йоу". SpeechKit постарался лучше обойтись со знаками препинания, чем в прошлый раз. Например, поставил больше запятых. В двух случаях даже оправданно: после "йоу" и перед "она". Впрочем, результат всё равно далёк от идеала.

Оценка: 4,5/5, хорошо.

"Телеграм"

По умолчанию мессенджер Павла Дурова не умеет расшифровывать аудиосообщения. Однако на платформе "Телеграма" работают боты. Один из них как раз таки и переводит устную речь в письменную. Называется программа Voicy.

Voicy работает сразу с тремя движками. Wit, Google Speech и NLab Speech. Мы остановились на последнем, потому что Wit расшифровывает только 15-секундные аудиозаписи, а Google Speech — платный.

NLab Speech — это проект российской компании "Наносемантика", которая занимается исследованием искусственного интеллекта с 1997 года. NLab Speech запустился только в этом году, поэтому находится ещё на стадии бета-тестирования.

Итог первого раунда:

Это классическая проблема на старте для каждого текста гена так было из поезда чем три две тысячи седьмом году и секс бокса с шестью годами позднее новые игры, которые заявлены исключительно для приставок девятого поколения. Есть, но потенциально громких хитов среди них очень мало.

Получилось хуже, чем у сервиса "ВКонтакте". "Некстген", PlayStation, Xbox One — все эти иностранные слова нейросеть не распознала и превратила в "текст гена", "поезда чем три" и уже знакомый "секс-бокс". Знаки препинания? NLab Speech поставил две запятые и одну точку. Запятые, как ни странно, встали удачно. А вот точка — мимо. С другой стороны, любопытно, что телеграм-бот стал единственным участником, который, в принципе, попытался разделить первый текст на несколько предложений.

Оценка: 2/5, неудовлетворительно.

Итоги второго раунда:

И что? Кого сходила после обеда к бабушке? Она напекла вкусных пирожков с картошкой и грибами, зацепила несколько штук на ужин. Во сколько вернёшься сегодня с работы?

В простом тесте "Телеграм" тоже накуролесил. "Йоу" и "чё кого" слились в вопросительное "и что". "Кого" переехало в следующее предложение. И, как следствие, оно началось нелепо. Да ещё и автоматически стало вопросительным. Похоже, при выборе знака в конце предложения данный алгоритм сильно опирается на вопросительные местоимения. Остальные слова NLab Speech распознал правильно.

Оценка: 3/5, удовлетворительно.

***

SpeechKit от "Яндекса" справился с каждым из заданий лучше конкурентов. Однако это не значит, что он годится в качестве замены расшифровщика-человека. Как минимум потому, что в 9,9 из 10 случаев приходится расшифровывать не короткие фрагменты с чёткой диктовкой, а долгие диктофонные записи со сбивчивой речью.

Но даже если удастся найти комментатора с идеальной речью, то SpeechKit довольно быстро запутается в структуре предложений. Напомним, с пунктуацией большие проблемы наблюдаются у всех конкурентов. Нейросети с трудом регистрируют даже отдельные предложения. Что уж говорить о запятых и других знаках препинания...

Мы, к слову, пытались скормить "Яндексу" двухминутный разговор. И затея ожидаемо обернулась провалом. Некоторые слова нейросеть просто съела, другие заменила придуманными, про пунктуацию вообще забудьте.

Тем не менее мы склонны полагать, что все три нейросети справляются с основной задачей, которая перед ними стоит. А именно — расшифровкой коротких аудиосообщений. Поскольку каждый алгоритм хорошо распознаёт общеупотребляемые в русском языке слова. Проблема со знаками препинания в таком сценарии — меньшее из зол. Ведь в неформальной переписке их и так используют нечасто.

Также отметим, что все три нейросети тестировались в условиях, которые и близко не похожи на лабораторные. Мы проверяли их работоспособность так, как ими пользовались бы вы в повседневности. Поэтому не исключаем, что в идеальных условиях результаты могут оказаться другими.

Выбор редакции

Loading...