Voice Navigator
Voice Navigator (VN) - это набор программных инструментов и технологий для создания интерактивных телефонных сервисов, основанных на распознавании и синтезе русской речи.
Известно, что для человека речевой интерфейс является наиболее естественным и дружественным по сравнению со всеми другими. Важно и то, что он не требует отвлечения человека от других операций, связанных, например, с вождением автомобиля или работой на компьютере. Но возможности современных телефонных сервисов часто ограничены количеством операторов.
VN наиболее полно реализует преимущества речевого интерфейса: обеспечивает автоматическое распознавание запросов пользователей телефонного сервиса, а при необходимости и воспроизведение голосом интересующей их информации. Таким образом, работа системы максимально приближена к работе живого оператора.
Основные характеристики:
- распознавание русской речи вне зависимости от пола и возраста абонента, без необходимости настройки на конкретный голос;
- практически неограниченный словарь распознаваемых слов;
- высокая надежность распознавания;
- работа в реальных условиях, при отношении сигнал/шум до 10 дБ.
Как это работает:
Все современные системы интерактивного речевого ответа (IVR) поддерживают стандарт MRCP. Этот стандарт обеспечивает взаимодействие системы IVR с дополнительными речевыми сервисами: модулями распознавания (ASR) и синтеза речи (TTS). Вторая версия стандарта MRCP позволяет также подключать сервис индентификации/верификации диктора по голосу (SIV) (см. рисунок). В зависимости от решаемых задач, сервисы могут быть установлены как все сразу, так и по отдельности.
При входящем телефонном вызове система IVR обрабатывает его в соответствии с речевым меню. Если пользователю необходимо синтезировать какое-либо сообщение, посылается запрос в формате VoiceXML к серверу MRCP. Сгенерированное ресурсом TTS речевое сообщение по протоколу RTP/RTSP передается обратно к IVR. Общение с ресурсами распознавания и идентификации/верификации также осуществляется по протоколам RTP/RTSP и VoiceXML.
Возможности речевого синтеза
- точное интонационное оформление синтезируемой речи;
- правильная расшифровка сокращений, специальных символов, числовых последовательностей и аббревиатур;
- транслитерация английских слов;
- объемный морфограмматический словарь (6 миллионов словоформ), автоматическое предсказание ударения в незнакомых словах;
- адаптация под конкретного заказчика.
Возможности подсистемы распознавания речи
- учет особенностей русской речи;
- возможность пополнения словаря;
- устойчивость к воздействию акустических и электрических помех.
Возможности верификации
- длительность речевого фрагмента для верификации 3-5 секунд;
- высокий уровень безопасности (EER=1.5%).
Это позволяет использовать его для создания самых разнообразных информационных и развлекательных телефонных сервисов, например:
- условия кредитования;
- маркетинговые исследования (анкетирование);
- информация о банковском счете (совместно с технологией верификации);
- прогноз погоды;
- расписание;
- голосование;
- управление доступом к конфиденциальной или персонифицированной информации:
- банковский счет;
- остаток по кредиту.





Нестор
Гном 2М
Незабудка
VoiceCom
Оратор
VoiceKey