# Распознавание речи

Мы все больше ждем, что компьютеры смогут использовать ИИ для понимания произнесенных и напечатанных команд на естественном языке человека. Например, можно внедрить систему автоматизации дома, которая позволит контролировать устройства в вашем доме с помощью голосовых команд, например «включи свет» или «включи вентилятор», а устройство на основе ИИ будет поймет команду и выполнит необходимое действие.

![Роботизированное прослушивание](./images/language_understanding.jpg)

## Создание ресурсов для разработки и прогнозирования

Службы Microsoft Cognitive Services включает службу распознавания речи, которая позволяет определить *намерения*, применимые к *сущностям* на основе *речевых фрагментов*. 

Чтобы использовать службу распознавания речи, необходимо два типа ресурсов:

- Ресурс *разработки*: используется для определения, обучения и проверки языковой модели. Это должен быть ресурс **Распознавание речи – разработка** в вашей подписке Azure.
- Ресурс *прогнозирования*: используется для публикации модели и обработки запросов из клиентских приложений, которые ее используют. Это должен быть или ресурс **Распознавание речи**, или ресурс **Cognitive Services** в вашей подписке Azure.

Вы можете использовать ресурс **Распознавание речи** или **Cognitive Services** для *публикации* приложения распознавания речи, однако необходимо создать отдельный ресурс **Распознавание речи** для *разработки* приложения.

> **Важно**! Ресурсы разработки должны быть созданы в одном из трех *регионов* (Европа, Австралия или США). Модели созданные с использованием европейских или австралийских ресурсов разработки могут быть развернуты на ресурсах прогнозирования в Европе или, соответственно, в Австралии; модели, созданные на ресурсах разработки США, могут быть развернуты на ресурсах прогнозирования в любом местоположении Azure, кроме Европы и Австралии. Сведения о сопоставлении мест разработки и прогнозирования см. в [документации по регионам разработки и публикации](https://docs.microsoft.com/azure/cognitive-services/luis/luis-reference-regions).

1. На другой вкладке браузера откройте портал Azure по адресу [https://portal.azure.com](https://portal.azure.com), выполнив вход под своей учетной записью Microsoft.
2. Щелкните **+ Создать ресурс** и выполните поиск по строке *Распознавание речи*.
3. В списке услуг щелкните **Распознавание речи**.
4. В колонке **Распознавание речи** щелкните **Создать**.
5. В колонке **Создать** введите следующие сведения и щелкните **Создать**
   - **Параметр создания**. Обе
   - **Имя**. *Уникальное имя вашей службы*
   - **Подписка**. *Выберите подписку Azure*
   - **Группа ресурсов**. *Выберите существующую группу ресурсов или создайте новую*
   - **Место разработки**. *Выберите предпочитаемое место*
   - **Ценовая категория для разработки**. F0
   - **Место прогнозирования**. *Выберите расположение в том же регионе, что используется для разработки*
   - **Ценовая категория для прогнозирования**. F0
   
6. Дождитесь создания ресурсов и обратите внимание на то, что были подготовлены два ресурса Распознавания речи: один для разработки, другой для прогнозирования. Их можно просмотреть, перейдя к группе ресурсов, в которой они были созданы.

### Создание приложение распознавания речи

В целях реализации распознавания естественной речи с помощью ресурса «Распознавание речи» вам необходимо создать приложение, затем добавить сущности, намерения и речевые фрагменты для определения команд, которые будет понимать ваше приложение.

1. На новой вкладке браузера откройте портал «Распознавание речи» для региона разработки, в котором был создан ресурс разработки.
    - США: [https://www.luis.ai](https://www.luis.ai)
    - Европа: [https://eu.luis.ai](https://eu.luis.ai)
    - Австралия: [https://au.luis.ai](https://au.luis.ai)

2. Войдите с учетной записью Майкрософт, которая связана с подпиской Azure. Если это ваш первый вход на портал «Распознавание речи» может понадобиться дать приложению некоторые разрешения для доступа к некоторым данным вашей учетной записи. Затем выполните *приветственные* действия, выбрав только что созданный ресурс разработки «Распознавание речи» в вашей подписке Azure. 

3. Откройте страницу **Приложения для общения** и выберите вашу подписку и ресурс разработки «Распознавание речи». Затем создайте новое приложение для общения, используя следующие настройки.
   - **Имя**. Home Automation.
   - **Региональные параметры**. русский (*если этот вариант недоступен, оставьте поле пустым*)
   - **Описание**. Простая автоматизация дома
   - **Ресурс прогнозирования**. *Ваш ресурс прогнозирования «Распознавание речи»*

4. Если отображается панель с советами по созданию эффективного приложения «Распознавание речи», закройте ее.

### Создание сущности

*Сущность* – это объект, который может определить ваша языковая модель и каким-либо образом его обработать. В этом случае ваше приложение распознавания речи будет использоваться для контроля различных *устройств* в офисе, например освещения или вентиляции, поэтому вам нужно будет создать сущность *устройство*, которая будет включать список типов устройств, с которыми будет работать приложение. Для каждого типа устройства необходимо создать дополнительный список, в котором указано имя устройства (например, *свет*), а также любые синонимы, которые могут использоваться для отсылки на этот тип устройства (например, *лампа*).

1. На панели слева на странице «Распознавание речи» вашего приложения щелкните **Сущности**. Щелкните **Создать** и создайте новую сущность с именем **устройство**, выберите тип **Список**, затем щелкните **Создать**.
2. На странице **Список элементов** в разделе **Нормализованные значения** введите **свет**, затем нажмите ВВОД.
3. После добавления значения **свет** в разделе **Синонимы** введите **лампа**, затем нажмите клавишу ВВОД.
4. Добавьте второй элемент списка с именем **вентилятор** с синонимом **кондиционер**.

> **Примечание**. В рамках этого лабораторного задания используйте текст в нижнем или вернем регистре в соответствии с инструкциями _(например, «свет» **не** Свет)_ и не добавляйте дополнительных пробелов. 

### Создание намерений

*Намерение* – это действие, которое необходимо выполнить с одной или несколькими сущностями, например: вам может понадобиться включить свет или выключить вентилятор. В этом случае необходимо определить два намерения: одно для включения устройство, другое – для выключения. Для каждого намерения можно указать примерные *речевые фрагменты*, которые указывают тип языка, используемого для обозначения намерения.

> **Примечание**. Для этого лабораторного задания используйте точный текст в нижнем или верхнем регистре в соответствии с инструкциями _(пример: «включите свет» **не** «Включите свет .»)_ и не добавляйте дополнительных пробелов. 

1. На панели слева щелкните **Намерения**. Затем нажмите **Создать** и добавьте намерение с именем **включить** и нажмите кнопку **Готово**.
2. В разделе **Примеры** под заголовком **Пример пользовательского ввода** введите речевой фрагмент ***включить свет*** и нажмите клавишу **Ввод** для включения этого речевого фрагмента в список.
3. В речевом фрагменте *включить свет* щелкните слово«свет» и назначьте его значению **свет** сущности **устройство**.

![Как назначить слово «свет» значению сущности.](./images/assign_entity.jpg)

4. Добавьте второй речевой фрагмент в намерение **включить** с фразой ***включить вентилятор***. Затем назначьте слово «вентилятор» значению **вентилятор** сущности **устройство**.
5. На панели слева щелкните **Намерения** и щелкните **Создать** для добавления второго намерения с именем **выключить**.
6. На странице **Речевые фрагменты** для намерения **выключить** добавьте речевой фрагмент ***выключить свет*** и назначьте слово «свет» значению **свет** сущности **устройство**.
7. Добавьте второй речевой фрагмент в намерение **выключить** с фразой ***выключить вентилятор***. Затем подключите слово «вентилятор» к значению **вентилятор** сущности **устройство**.

### Обучение и тестирование языковой модели

Теперь вы готовы использовать данные, которые вы предоставили в виде сущностей, намерений и речевых фрагментов для обучения языковой модели в вашем приложении.

1. В верхней части страницы «Распознавание речи» вашего приложения щелкните **Обучить**, чтобы обучить языковую модель.
2. После обучения модели щелкните **Проверить** и используйте панель «Проверка» для просмотра прогнозного намерения для следующих фраз:
    * *включить свет*
    * *выключить вентилятор*
    * *выключить лампу*
    * *включить кондиционер*
3. Закройте панель проверки.
    
### Публикация модели и настройка конечных точек

Чтобы использовать обученную модель в клиентском приложении необходимо опубликовать ее в качестве конечной точке, в которую клиентские приложения могут отправлять новые речевые фрагменты, на основе чего будут прогнозироваться новые намерения и сущности.

1. В верхней части страницы «Распознавание речи» вашего приложения щелкните **Опубликовать**. Затем выберите **Рабочий слот** и **Готово**.

2. После публикации модели в верхней части страницы «Распознавание речи» вашего приложения щелкните **Управление**. Затем на вкладке **Параметры** обратите внимание на **Идентификатор приложения**. Скопируйте его и вставьте в приведенный ниже код, заменив **YOUR_LU_APP_ID**.

3. На вкладке **Ресурсы Azure** обратите внимание на **Первичный ключ** и **URL-адрес конечной точки** для вашего прогнозного ресурса. Скопируйте и вставьте их в приведенный ниже код, заменив **YOUR_LU_KEY** и **YOUR_LU_ENDPOINT**.

4. Выполните приведенную ниже ячейку, нажав кнопку **Выполнить ячейку** (&#9655;) (слева от ячейки), затем по запросу введите текст *включить свет*. Текст воспринимается модель распознавания речи и отображается соответствующее изображение.

### **(!) Важно**! 
Следите за запросами в верхней части окна. Необходимо ввести *включить свет* и нажать клавишу **Ввод**. 


In [None]:
from python_code import luis
import matplotlib.pyplot as plt
from PIL import Image
import os
%matplotlib inline

try:
    # Set up API configuration
    luis_app_id = 'YOUR_LU_APP_ID'
    luis_key = 'YOUR_LU_KEY'
    luis_endpoint = 'YOUR_LU_ENDPOINT'

    # prompt for a command
    command = input('Please enter a command: \n')

    # get the predicted intent and entity (code in python_code.home_auto.py)
    action = luis.get_intent(luis_app_id, luis_key, luis_endpoint, command)

    # display an appropriate image
    img_name = action + '.jpg'
    img = Image.open(os.path.join("data", "luis" ,img_name))
    plt.axis('off')
    plt. imshow(img)
except Exception as ex:
    print(ex)

### (!) Проверка 
Вы выполнили приведенную выше ячейку и ввели фразу *включить свет* по запросу? Запрос появится в верхней части окна.  

Повторно выполните приведенную выше ячейку, пробуя следующие фразы:

* *включить свет*
* *выключи лампу*
* *включить вентилятор*
* *включить свет*
* *выключить свет*
* *выключить вентилятор*
* *включить кондиционер*

Если вы выполнили приведенную выше ячейку и появилось изображение со знаком вопроса, возможно, вы использовали несколько отличающийся от инструкции текст или разбивку при создании сущности, намерения или речевого фрагмента.

> **Примечание**. Если вам интересен код, который используется для получения намерений и сущностей из приложения «Распознавание речи», изучите файл **luis.py** в папке **python_code**.

## Добавление голосового управления

Итак, мы узнали как анализировать текст, но все чаще системы ИИ позволяют людям взаимодействовать с программными службами посредством распознавания речи. Для поддержки таких возможностей служба **Речь** из числа Cognitive Services предоставляет простой способ расшифровки устной речи для получения текста.

### Создание ресурса Cognitive Services

Если у вас нет такого ресурса, воспользуйтесь следующими пошаговыми инструкциями для создания ресурса **Cognitive Services** в вашей подписке Azure:

> **Примечание**. Если у вас уже есть ресурс Cognitive Services, просто откройте соответствующую страницу **Быстрое начало** на портале Azure и скопируйте соответствующий ключ и расположение в приведенную ниже ячейку. В противном случае следуйте приведенным ниже действиям для создания этого ресурса.

1. На другой вкладке браузера откройте портал Azure по адресу [https://portal.azure.com](https://portal.azure.com), выполнив вход под своей учетной записью Microsoft.
2. Нажмите кнопку **&#65291;Создать ресурс**, выполните поиск по строке *Cognitive Services* и создайте ресурс **Cognitive Services** со следующими настройками:
    - **Подписка**. *Ваша подписка Azure*.
    - **Группа ресурсов**. *Выберите или создайте группу ресурсов с уникальным именем*.
    - **Регион**. *Выберите любой доступный регион:*
    - **Имя**. *Введите уникальное имя*.
    - **Ценовая категория**. S0
    - **Установив этот флажок, я подтверждаю, что использование мною этой службы не связано с работой полицейского департамента в США**: Выбрано.
    - **Подтверждаю, что прочитал и понял уведомления**. Выбрано.
3. Дождитесь завершения развертывания. Затем откройте ресурс Cognitive Services и на странице **Быстрое начало** обратите внимание на ключи и расположение. Вам они понадобятся для подключения к ресурсу Cognitive Services из клиентских приложений.

### Получите ключ и расположение вашего ресурса Cognitive Services

Чтобы использовать свой ресурс Cognitive Services, клиентским приложениям требуется ключ проверки подлинности и расположение:

1. На портале Azure откройте страницу **Ключи и конечная точка** для вашего ресурса Cognitive Service, скопируйте **Ключ1** для вашего ресурса и вставьте его в приведенный ниже код, заменив подстановочный текст **YOUR_COG_KEY**.
2. Скопируйте **Расположение** для вашего ресурса и вставьте его в приведенный ниже код, заменив **YOUR_COG_LOCATION**.
>**Примечание**. На той же странице **Ключи и конечная точка** скопируйте значение **Расположение** на этой странице (пример: _westus_). _Не_ добавляйте пробелы между словами в поле «Расположение». 
3. Введите код в ячейке ниже. 

In [None]:
cog_key = 'YOUR_COG_KEY'
cog_location = 'YOUR_COG_LOCATION'

print('Ready to use cognitive services in {} using key {}'.format(cog_location, cog_key))

Теперь выполните приведенную ниже ячейку для расшифровки устной речи из аудиофайла и используйте ее в качестве команды в вашем приложении «Распознавание речи».

In [None]:
import os
from python_code import luis
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig
from playsound import playsound
import matplotlib.pyplot as plt
from PIL import Image
%matplotlib inline

try:   

    # Get spoken command from audio file
    file_name = 'light-on.wav'
    audio_file = os.path.join('data', 'luis', file_name)

    # Configure speech recognizer
    speech_config = SpeechConfig(cog_key, cog_location)
    audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
    speech_recognizer = SpeechRecognizer(speech_config, audio_config)

    # Use a one-time, synchronous call to transcribe the speech
    speech = speech_recognizer.recognize_once()

    # Get the predicted intent and entity (code in python_code.home_auto.py)
    action = luis.get_intent(luis_app_id, luis_key, luis_endpoint, speech.text)

    # Get the appropriate image
    img_name = action + '.jpg'

    # Display image 
    img = Image.open(os.path.join("data", "luis" ,img_name))
    plt.axis('off')
    plt. imshow(img)
    playsound(audio_file)

except Exception as ex:
    print(ex)

Попробуйте изменить приведенную выше ячейку, чтобы использовать аудиофайл **light-off.wav**.

## Дополнительные сведения

Дополнительные сведения о распознавании речи можно получить в [документации по службе](https://docs.microsoft.com/azure/cognitive-services/luis/)