Появление виртуальных помощников, таких как Siri и Alexa, сделало автоматизированные системы распознавания речи более широко используемыми и развитыми. Автоматическое распознавание речи (ASR) - это процесс преобразования разговорной речи в текст. Эта технология постоянно используется в приложениях мгновенного обмена сообщениями, поисковых системах, системах транспортных средств и домашней автоматизации. Хотя все эти системы основаны на слегка отличающихся технических процессах, первый шаг во всех этих системах один и тот же: захват голосовых данных и преобразование их в машиночитаемый текст. Но как работает система ASR? Как он научится распознавать речь? ASR системы: как они работают? Поэтому с базовой точки зрения мы знаем, что автоматическое распознавание речи выглядит следующим образом: ввод аудиоданных, вывод текстовых данных. Однако от входа к выходу аудиоданные должны стать машиночитаемыми данными. Это означает, что данные отправляются через акустические модели и языковые модели. Эти два процесса похожи на это: акустическая модель определяет связь между звуковыми сигналами и речевыми единицами в языке, а языковая модель сопоставляет звук со словами и словосочетаниями. Эти две модели позволяют системе ASR выполнить вероятностную проверку аудиовхода, чтобы предсказать слова и предложения в нем. Затем система выбирает прогноз с самым высоким уровнем достоверности. ** Иногда языковые модели могут определять приоритеты определенных прогнозов, которые считаются более вероятными из-за других факторов. Поэтому, если фраза проходит через систему ASR, она будет делать следующее: сделать голосовой ввод: «Эй, Сири, который час?» Проведите голосовые данные через акустическую модель и разбейте ее на голосовые части. Запустите данные через языковую модель. Вывод текстовых данных: «Эй, Сири, который час?» Здесь стоит упомянуть, что, если система автоматического распознавания речи является частью пользовательского интерфейса речи, модель ASR не будет единственной моделью машинного обучения, которая работает. Многие системы автоматического распознавания речи используются вместе с системами обработки естественного языка (NLP) и преобразования текста в речь (TTS) для выполнения своих заданных ролей. Другими словами, углубленное изучение голосового пользовательского интерфейса само по себе является полной темой. Чтобы узнать больше, проверьте эту статью. Итак, теперь вы знаете, как работает система ASR, но что вам нужно построить? Ключ данных. Создание системы ASR: важность данных. Хорошая система ASR должна обладать гибкостью. Он должен распознавать различные аудиовходы (образцы речи) и производить точный текстовый вывод на основе данных, чтобы реагировать соответственно. Для достижения этого данные, требуемые системой ASR, помечаются речевыми образцами и транскрибированными формами. Это немного сложнее, чем это (например, процесс маркировки данных очень важен и часто упускается из виду), но чтобы всем было понятно, здесь все упрощено. Системы ASR требуют больших объемов аудиоданных. Почему? Потому что язык сложен. Есть много способов сказать одно и то же, и значение предложения меняется в зависимости от положения и ударения слова. Также учтите, что в мире много разных языков, и на этих языках произношение и выбор слов могут различаться в зависимости от таких факторов, как географическое положение и акцент. О, не забывайте, что язык также зависит от возраста и пола! Имея это в виду, чем больше выборок речи предоставляется для системы ASR, тем лучше она распознает и классифицирует новый речевой ввод. Чем больше образцов берется из различных звуков и сред, тем больше система может распознавать звуки в этих средах. Благодаря специальной настройке и обслуживанию система автоматического распознавания речи будет улучшена во время использования. Следовательно, с самой основной точки зрения, чем больше данных, тем лучше. Это правда, что текущие исследования связаны с оптимизацией небольших наборов данных, но большинство моделей в настоящее время требуют больших объемов данных для эффективной работы. К счастью, благодаря хранилищу наборов данных и выделенному сервису сбора данных, сбор аудиоданных становится проще. Это, в свою очередь, увеличивает скорость технологического развития, а затем давайте кратко рассмотрим области, в которых автоматическое распознавание речи может показать свое будущее. Технология ASR была интегрирована в общество. Виртуальные помощники, автомобильные системы и домашняя автоматизация - все это делает повседневную жизнь более удобной, а спектр приложений также может расширяться. Поскольку все больше и больше людей принимают эти услуги, технологии будут развиваться дальше.
Последние статьи