Распознавание речи - процесс преобразования речевого сигнала в цифровую информацию.
История
Первое устройство для распознавания речи появилось в 1952 г. оно могло распознавать произнесённые человеком цифры. В 1964 г. на ярмарке компьютерных технологий в Нью-Йорке было представлено устройство IBM Shoebox.
Коммерческие программы по распознаванию речи появились в начале девяностых годов. Обычно их используют люди, которые из-за травмы руки не в состоянии набирать большое количество текста. Эти программы (например, Dragon NaturallySpeaking, VoiceNavigator) переводят голос пользователя в текст, таким образом, разгружая его руки. Надёжность перевода у таких программ не очень высока, но с годами она постепенно улучшается.
Увеличение вычислительных мощностей мобильных устройств позволило и для них создать программы с функцией распознавания речи. Среди таких программ стоит отметить приложение Microsoft Voice Command, которое позволяет работать со многими приложениями при помощи голоса. Например, можно включить воспроизведение музыки в плеере или создать новый документ.
Интеллектуальные речевые решения, позволяющие автоматически синтезировать и распознавать человеческую речь, являются следующей ступенью развития интерактивных голосовых систем (IVR). Использование интерактивного телефонного приложения в настоящее время не веяние моды, а жизненная необходимость. Снижение нагрузки на операторов контакт-центров и секретарей, сокращение расходов на оплату труда и повышение производительности систем обслуживания - вот только некоторые преимущества, доказывающие целесообразность подобных решений.
Прогресс не стоит на месте. В телефонных интерактивных приложениях все чаще стали использоваться системы автоматического распознавания и синтеза речи. В этом случае общение с голосовым порталом становится более естественным, так как выбор в нем может быть осуществлен не только с помощью тонового набора, но и с помощью голосовых команд. При этом системы распознавания являются независимыми от дикторов, то есть распознают голос любого человека.
Основным преимуществом голосовых систем является дружественность к пользователю - он избавляется от необходимости продираться сквозь сложные и запутанные лабиринты голосовых меню. Теперь достаточно произнесения цели звонка, после чего голосовая система автоматически переместит звонящего в нужный пункт меню.
Следующим шагом технологий распознавания речи можно считать развитие так называемых Silent Speech Interfaces (SSI)(Интерфейсов Безмолвного Доступа). Эти системы обработки речи базируются на получении и обработке речевых сигналов на ранней стадии артикулирования. Данный этап развития распознавания речи вызван двумя существенными недостатками современных систем распознавания: чрезмерная чувствительность к шумам, а также необходимость четкой и ясной речи при обращении к системе распознавания. Подход, основанный на SSI, заключается в том, чтобы использовать новые сенсоры, не подверженные влиянию шумов в качестве дополнения к обработанным акустическим сигналам.
Существует два типа систем распознавания речи - работающие "на клиенте" (client-based) и по принципу "клиент-сервер" (client-server). При использовании клиент-серверной технологии речевая команда вводится на устройстве пользователя и через Интернет передается на удаленный сервер, где обрабатывается и возвращается на устройство в виде команды (Google Voice, Vlingo, пр.); ввиду большого количества пользователей сервера система распознавания получает большую базу для обучения. Первый вариант работает на иных математических алгоритмах и встречается редко (Speereo Software) - в этом случае команда вводится на устройстве пользователя и обрабатывается в нем же. Плюс обработки "на клиенте" в мобильности, независимости от наличия связи и работы удаленного оборудования. Так, система, работающая "на клиенте" кажется надежнее, но ограничивается, порой, мощностью устройства на стороне пользователя.
Речевое, столь привычное, естественное для человека управление объектами открыло бы широкие перспективы перед автоматизацией производства; раздвинуло бы границы возможностей общения с машинами, особенно пользователей персональных компьютеров, не знающих языков программирования. Речевой контакт облегчает ввод данных в машину, помогает работать человеку и компьютеру в реальном масштабе времени: человек сказал - машина сделала.
Чтобы машина научилась понимать человеческий язык, отвечать на вопросы, исследователи затрачивают много сил и времени, начиняя ее гигантской информацией даже для того, чтобы распознавать отдельные звуки.
У каждого звука сложная волновая структура, включающая различные частоты и колебания, к тому же, естественно, одно и то же слово разные люди произносят по-своему: разный тембр голоса (звуковая окраска), разные интонации, разная чистота произношения. Сколько людей, столько и голосов. Голос - индивидуальный признак личности, такой, как почерк и отпечатки пальцев.
Чтобы научить машину узнавать речь, ее заставляют прослушивать слова, произнесенные и одним человеком, и разными людьми. Задача машины - прослушав, усреднить особенности произношения, свести на нет индивидуальность, чтобы потом, услышав слово, не ошибиться.
Что же происходит в машине во время прослушивания? То же, что при разговоре по телефону или радио: звуковые колебания преобразуются в электрические. В специальных "решетах" - фильтрах - они "просеиваются" по частоте. Затем в машинной памяти по строго определенному узору сигналов сравниваются с хранящимися там эталонами. Этот узор картина звука - и есть тот усредненный звук, который научилась узнавать машина.
Анализ узора - работа довольно утомительная и однообразная. Например, при одном эксперименте испытуемый 100 раз произнес букву "А". Она фиксировалась все 100 раз 14 вариантами произношения, или картинами. Потом картины сравнили по частоте появления. Оказалось, из 14 вариантов чаще всего встречается одна картина. Именно этот узор и записали в памяти машины.
Компьютеру не понятен ни один живой язык. Даже такая фраза:"Компьютер, слушай мою команду
Машина негибка, неповоротлива в восприятии слов. Для нее недоступно образное мышление: только сухая логичность, только строгая однозначность, только неумолимая точность - никакой свободы, никаких полутонов, никакой иносказательности! Еще несовершенны системы распознавания и синтеза речи.
Разными способами действуют ученые, разные педагогические приемы применяют они к своим металлическим ученикам. Ныне считают, что система, предназначенная вести диалог с человеком, должна обладать знаниями языка, описанными в модели языка, знаниями об окружающем мире - их представляет модель окружающего мира, система должна знать и собеседника, то есть иметь модель пользователя. Системе нужны сведения о ней самой - значит, необходима модель системы.
Машина, распознающая речь, сама остается немой: она не говорит, а пишет ответы. У страивает ли это пользователя? Да, безусловно. и все-таки общение с компьютером в полном смысле слова - это диалог. Тем более что в создании определенного звука не обязательно участие голосовых связок, звук можно искусственно синтезировать, научить говорить машину.
Отвечать на вопросы голосом учат машину давно. О степени трудности создания говорящей машины свидетельствует такой пример.
Чтобы машина произнесла, например, на венгерском языке короткое "добрый день", нужно заложить в ее память 500 различных характеристик. Системы, синтезирующие речь, теперь входят в состав телефонной службы, и телефонным собеседником бывает не человек, а машина. Выпускают автомобили, говорящие водителю о расходе бензина, утечке масла, перегреве двигателя и других неполадках.
Разработана система, способная читать вслух. Она сначала преобразует буквы в цифровые сигналы, анализирует их, а потом синтезирует слова. В системе запрограммировано 2500 правил произношения, чтобы читать с выражением, делать паузы, то есть свести к минимуму машинность речи.
При совместной работе человека с машиной в речевом контакте человек сможет направлять работу машины, подбрасывая ей новые идеи походу работы, а машина, вероятно, сумеет пожаловаться, если надо, на возникшее у нее трудности и объяснит человеку характер препятствий, встретившихся при решении той или иной задачи.
Используемые источники
1. Журнал Компьютер Пресс http://www.compress.ru
2. Винцюк Т.К. - Анализ, распознавание и интерпретация речевых сигналов, 1987, Киев