ПроCall-центр. Распознавание речи

Несколько недель назад один из производителей call-центров порадовал нас появлением нового функционала – распознавание русской речи.

Технологии распознавания речи уже не редкость, они уже позволяют управлять многими устройствами. Это голосовой набор распознавание отдельных команд на мобильном телефоне и навигаторе. Распознавание речи осуществляется по одному и тому же принципу: через микрофон устройства воспринимается человеческий голос, записывается и  преобразуется системой распознавания в текст. После чего этот текст сопоставляется с предопределенными действиям, которые должна выполнить система.

Сложности распознавания речи в call-центре заключаются в том, что должно производиться «на лету» и быть приспособлено к широкому диапазону интонаций и голосов.

Давайте посмотрим на техническую реализацию.

Распознавание речи в call-центре реализовано на базе IVR подсистемы.

  1. В сценарии IVR пользователю предлагается произнести фразу. Ограничений на длину фразы нет. В экспериментах мы использовали запись речи длительностью до 10 секунд.
  2. Фраза записывается в стандартный формат для звуковых файлов PCM.
  3. Производится преобразование формата файла для подготовки его к распознаванию.
  4. Преобразованный файл записывается в буфер.
  5. Компонент «Распознавание» получает на вход звуковой файл в специализированном формате и на выходе возвращает строку.
  6. Дальше нам только надо будет удалить промежуточные файлы.
  7. В результате мы получаем строковую переменную,  содержащую распознанный текст.

Выглядит все легко и просто. В дальнейшем, анализируя полученный текст, мы можем выполнять те или иные действия.

Предлагаю завтра обсудить как это можно использовать

Айрат

 

6 комментариев для “ПроCall-центр. Распознавание речи

      • Самое удивительное, что незначительные отклонения от стандартного произношения (акцент, скороговорку, заикание, …) РАСПОЗНАЁТ!
        В разумных естественно пределах.

    • Работает. Удивительно, но работает. Причем словарный запас опознавательной машины довольно широк. Скажем так, умеет распознавать слова и словосочетания достаточно широкого лексического спектра.

      • Не-е-е-е,
        вот то дополнительно воткнутое видео — ни к чем!
        Слишком противно пищит.

  • Надо было на видео попробовать не четко говорить, он бы и это распознал:) Уже с момента появления этой функции у Oktell пользуемся , и довольны, очень удобно!

Добавить комментарий

Ваш e-mail не будет опубликован.

*