# Reconhecimento vocal

Cada vez mais, esperamos que os computadores sejam capazes de usar IA para reconhecer comandos falados ou digitados em linguagem natural. Por exemplo, você pode querer implementar um sistema de automação residencial que permita controlar os dispositivos da sua casa usando comandos de voz como "acenda a luz" ou "ligue o ventilador" usando um dispositivo alimentado por IA que reconheça o comando e realize as ações apropriadas.

![Um robô ouvindo](./images/language_understanding.jpg)

## Criar recursos de criação e previsão

Os Serviços Cognitivos da Microsoft incluem o serviço de Reconhecimento vocal, que permite que você defina *intenções* que são aplicadas a *entidades* de acordo com *declarações*. 

Para usar o serviço de Reconhecimento vocal, é preciso ter dois tipos de recursos:

- Um recurso de *criação*: usado para definir, treinar e testar o modelo de linguagem. Ele precisa ser um recurso de **Reconhecimento vocal - Criação** na sua assinatura do Azure.
- Um recurso de *previsão*: usado para publicar as solicitações de modelo e identificador dos aplicativos clientes que o utilizam. Pode ser um recurso de **Reconhecimento vocal** ou **Serviços Cognitivos** na sua assinatura do Azure.

É possível usar um recurso de **Reconhecimento vocal** ou  **Serviços Cognitivos** para *publicar* um aplicativo de reconhecimento de linguagem, mas você precisará gerar um recurso de **Reconhecimento vocal** separado para *criar* o aplicativo.

> **Importante**: recursos de criação precisam ser criados em uma das três *regiões* (Europa, Austrália ou EUA). Modelos gerados em recursos de criação europeus ou australianos só podem ser implantados em recursos de previsão da Europa ou da Austrália, respectivamente. Modelos gerados em recursos de criação norte-americanos podem ser implantados em recursos de previsão de qualquer localização do Azure, exceto Europa e Austrália. Consulte a [documentação sobre regiões de criação e publicação](https://docs.microsoft.com/azure/cognitive-services/luis/luis-reference-regions) para mais detalhes sobre como combinar locais de criação e previsão.

1. Em outra guia do navegador, abra o portal do Azure em [https://portal.azure.com](https://portal.azure.com), entrando com sua conta Microsoft.
2. Clique em **+ Criar um recurso** e pesquise por * Reconhecimento vocal*.
3. Na lista de serviços, clique em **Reconhecimento vocal**.
4. Na lâmina do **Reconhecimento vocal**, clique em **Criar**.
5. Na lâmina **Criar**, insira os detalhes abaixo e clique em **Criar**
   - **Opção de criação**: Ambos
   - **Nome**: *um nome exclusivo para seu serviço*
   - **Assinatura**: *Selecione sua assinatura do Azure*
   - **Grupo de recursos**: *Selecione um grupo de recursos existente ou crie um novo*
   - **Local de criação**: *Selecione seu local preferido*
   - **Tipo de preço de criação**: F0
   - **Local de previsão**: *Escolha um local na mesma região do local de criação*
   - **Tipo de preço de previsão **: F0
   
6. Aguarde até que os recursos sejam criados e observe que dois recursos de Reconhecimento vocal foram provisionados: um para criação e outro para previsão. Você pode visualizá-los navegando até o grupo de recursos onde os criou.

### Criar um Aplicativo de Reconhecimento vocal

Para implementar o reconhecimento de linguagem natural com Reconhecimento vocal, primeiro é preciso criar o aplicativo e, em seguida, adicionar entidades, intenções e declarações para definir os comandos que você quer que ele reconheça:

1. Em uma nova guia do navegador, abra o portal de Reconhecimento vocal da região de criação em que você produziu seu recurso de criação:
    - EUA: [https://www.luis.ai](https://www.luis.ai)
    - Europa: [https://eu.luis.ai](https://eu.luis.ai)
    - Austrália: [https://au.luis.ai](https://au.luis.ai)

2. Entre usando a conta Microsoft associada à sua assinatura do Azure. Se essa for a primeira vez que você está se conectando ao portal de Reconhecimento vocal, talvez seja necessário conceder algumas permissões para o aplicativo acessar os detalhes da sua conta. Depois, conclua as etapas de *Boas-vindas* selecionando o recurso de criação de Reconhecimento vocal existente que você acabou de criar na assinatura do Azure. 

3. Abra a página **Aplicativos de conversa** e selecione sua assinatura e o recurso de criação de Reconhecimento vocal. Em seguida, crie um novo aplicativo para conversa com a seguinte configuração:
   - **Nome**: Home Automation
   - **Cultura**: português (*se essa opção não estiver disponível, deixe em branco*)
   - **Descrição**: automação residencial simples
   - **Recurso de previsão**: *seu recurso de previsão de Reconhecimento vocal*

4. Se o painel com as dicas para criar um aplicativo eficaz de Reconhecimento vocal for exibido, feche-o.

### Criar uma entidade

Uma *entidade* é algo que o seu modelo de linguagem consegue identificar e usar para fazer alguma coisa. Neste caso, seu aplicativo de Reconhecimento vocal será usado para controlar vários *dispositivos* no escritório, como lâmpadas ou ventiladores. Por isso, você criará uma entidade *dispositivo*, que inclui uma lista dos tipos de dispositivos com os quais você quer que o aplicativo funcione. Para cada tipo de dispositivo, você criará uma sublista identificando o nome do dispositivo (por exemplo, *luz*) e os sinônimos que podem ser usados para se referir a esse tipo de dispositivo (por exemplo, *lâmpada*).

1. Na página de Reconhecimento vocal do seu aplicativo, no painel à esquerda, clique em **Entidades**. Depois, clique em **Criar** e crie uma nova entidade chamada **dispositivo**. Selecione o tipo **Lista** e clique em **Criar**.
2. Na página **Itens da lista**, na seção **Valores normalizados**, digite **luz** e pressione ENTER.
3. Depois que o valor **luz** for adicionado, na seção **Sinônimos**, digite **lâmpada** e pressione ENTER.
4. Adicione um segundo item da lista chamado **ventilador** com o sinônimo **ar-condicionado**.

> **Observação**: neste laboratório, use o texto exato com letras maiúsculas ou minúsculas conforme instruído _(exemplo: luz, **não** Luz)_ e não coloque espaços adicionais. 

### Criar intenções

Uma *intenção* é uma ação que você quer realizar em uma ou mais entidades, por exemplo, você pode querer acender uma luz ou desligar um ventilador. Neste caso, você definirá duas intenções: uma para ligar um dispositivo e uma para desligar outro. Para cada intenção, você especificará *declarações* que indicam o tipo de linguagem usada para demonstrar a intenção.

> **Observação**: neste laboratório, use o texto exato com letras maiúsculas ou minúsculas conforme instruído _(exemplo: "acender a luz", **não** "Acender a luz")_ e não coloque espaços adicionais. 

1. No painel à esquerda, clique em **Intenções**. Em seguida, clique em **Criar**, adicione uma intenção com o nome **ligar** e clique em **Concluir**.
2. No título **Exemplos** e subtítulo **Exemplo de entrada de usuário**, digite a declaração ***acender a luz*** e pressione **Enter** para enviá-la para a lista.
3. Na declaração *acender a luz*, clique na palavra "luz" e atribua esse enunciado ao valor **luz** da entidade **dispositivo**.

![Como atribuir a palavra "luz" ao valor da entidade.](./images/assign_entity.jpg)

4. Adicione uma segunda declaração à intenção **ligar**, com a frase ***ligar o ventilador***. Em seguida, atribua a palavra "ventilador" ao valor **ventilador** da entidade **dispositivo**.
5. No painel à esquerda, clique em **Intenções** e depois em **Criar** para adicionar uma segunda intenção com o nome **desligar**.
6. Na página **Declarações** da intenção **desligar**, adicione a declaração ***apagar a luz*** e atribua a palavra "luz" ao valor **luz** da entidade **dispositivo**.
7. Adicione uma segunda declaração à intenção **desligar**, com a frase ***desligar o ventilador***. Em seguida, conecte a palavra "ventilador" ao valor **ventilador** da entidade **dispositivo**.

### Treinar e testar o modelo de linguagem

Agora você está pronto para usar os dados inseridos em forma de entidades, intenções e declarações para treinar o modelo de linguagem do seu aplicativo.

1. Na parte superior da página de Reconhecimento vocal do seu aplicativo, clique em **Treinar** para treinar o modelo de linguagem
2. Quando o modelo estiver treinado, clique em **Testar** e use o painel de teste para visualizar a intenção prevista para as seguintes frases:
    * *acender a luz*
    * *desligar o ventilador*
    * *apagar a lâmpada*
    * *ligar o ar-condicionado*
3. Feche o painel Teste.
    
### Publicar o modelo e configurar pontos de extremidade

Para usar seu modelo treinado em um aplicativo cliente, é preciso publicá-lo como um ponto de extremidade para o qual os aplicativos clientes poderão enviar novas declarações para que as intenções e entidades sejam previstas.

1. Na parte superior da página de Reconhecimento vocal do seu aplicativo, clique em **Publicar**. Depois, selecione **Slot de produção** e clique em **Concluir**.

2. Depois que o modelo for publicado, na parte superior da página de Reconhecimento vocal do seu aplicativo, clique em **Gerenciar**. Em seguida, na guia **Configurações**, anote a **ID do Aplicativo**. Copie essas informações e cole no código abaixo para substituir **YOUR_LU_APP_ID**.

3. Na guia **Recursos do Azure**, identifique a **Chave primária** e o **URL do ponto de extremidade** do seu recurso de previsão. Copie essas informações e cole no código abaixo, substituindo **YOUR_LU_KEY** e **YOUR_LU_ENDPOINT**.

4. Execute a célula abaixo clicando no botão **Executar célula** (&#9655;) (à esquerda) e, quando solicitado, insira o texto *acender a luz*. O texto é interpretado pelo seu modelo de Reconhecimento vocal e uma imagem apropriada será exibida.

### **(!) Importante**: 
Observe o aviso no topo da janela. Você precisará digitar *acender a luz* e pressionar **enter**. 


In [None]:
from python_code import luis
import matplotlib.pyplot as plt
from PIL import Image
import os
%matplotlib inline

try:
    # Set up API configuration
    luis_app_id = 'YOUR_LU_APP_ID'
    luis_key = 'YOUR_LU_KEY'
    luis_endpoint = 'YOUR_LU_ENDPOINT'

    # prompt for a command
    command = input('Please enter a command: \n')

    # get the predicted intent and entity (code in python_code.home_auto.py)
    action = luis.get_intent(luis_app_id, luis_key, luis_endpoint, command)

    # display an appropriate image
    img_name = action + '.jpg'
    img = Image.open(os.path.join("data", "luis" ,img_name))
    plt.axis('off')
    plt. imshow(img)
except Exception as ex:
    print(ex)

### (!) Verificação 
Você executou a célula acima e digitou a frase *acender a luz* quando solicitado? O aviso será exibido no topo da janela.  

Execute novamente a célula acima, usando as seguintes frases:

* *ligar a luz*
* *apagar a lâmpada*
* *ligar o ventilador*
* *acender a luz*
* *apagar a luz*
* *desligar o ventilador*
* *ligar o ar-condicionado*

Se você executou a célula acima e recebeu uma imagem de ponto de interrogação, talvez tenha usado um texto ou espaçamento um pouco diferente do que foi instruído ao criar uma entidade, intenção ou declaração.

> **Observação**: se estiver curioso a respeito do código usado para recuperar as intenções e entidades do seu aplicativo de Reconhecimento vocal, confira o arquivo **luis.py** na pasta **python_code**.

## Adicionar Controle de Serviço de Voz

Até agora, vimos como analisar textos. Porém, cada vez mais sistemas de IA permitem que as pessoas se comuniquem com serviços de software por meio do reconhecimento de fala. Para ajudar, o serviço cognitivo de **Fala** oferece uma maneira simples de transformar linguagem falada em texto.

### Criar um recurso dos Serviços Cognitivos

Caso você ainda não tenha um, use as etapas a seguir para criar um recurso dos **Serviços Cognitivos** na sua assinatura do Azure:

> **Observação**: se você já tiver um recurso dos Serviços Cognitivos, abra a página de **Início Rápido** no portal do Azure e copie as respectivas chave e localização para a célula abaixo. Caso contrário, siga as etapas abaixo para criar um.

1. Em outra guia do navegador, abra o portal do Azure em [https://portal.azure.com](https://portal.azure.com), entrando com sua conta Microsoft.
2. Clique no botão **&#65291;Criar um recurso**, procure *Serviços Cognitivos* e crie um recurso dos **Serviços Cognitivos** com as configurações abaixo:
    - **Assinatura**: *sua assinatura do Azure*.
    - **Grupo de recursos**: *Selecione ou crie um grupo de recursos com um nome exclusivo*.
    - **Região**: *Escolha qualquer região disponível*:
    - **Nome**: *Insira um nome exclusivo*.
    - **Tipo de preço**: S0
    - **Ao marcar essa caixa de seleção, confirmo que o uso desse serviço não será realizado por ou para um departamento de polícia dos Estados Unidos**: Selecionado.
    - **Confirmo que li e entendi os avisos**: Selecionado.
3. Aguarde até que a implantação seja concluída. Em seguida, acesse seu recurso de Serviços Cognitivos e, na página de **Início Rápido**, tome nota das chaves e da localização. Você precisará desses dados para conectar o recurso de Serviços Cognitivos em aplicativos clientes.

### Obter a chave e a localização do seu recurso dos Serviços Cognitivos

Para usar seu recurso dos Serviços Cognitivos, os aplicativos clientes precisam da chave de autenticação e da localização:

1. No portal do Azure, na página **Chaves e ponto de extremidade** do seu recurso dos Serviços Cognitivos, copie a **Chave 1** do recurso e cole no código abaixo, substituindo **YOUR_COG_KEY**.
2. Copie a **Localização** do recurso e cole no código abaixo, substituindo **YOUR_COG_LOCATION**.
>**Observação**: continue na página **Chave e ponto de extremidade** e copie a **Localização** desta página (por exemplo: _westus_). _Não_ adicione espaços entre as palavras no campo Localização. 
3. Execute o código na célula abaixo. 

In [None]:
cog_key = 'YOUR_COG_KEY'
cog_location = 'YOUR_COG_LOCATION'

print('Ready to use cognitive services in {} using key {}'.format(cog_location, cog_key))

Agora, execute a célula abaixo para transcrever a fala de um arquivo de áudio e usá-la como um comando no seu aplicativo de Reconhecimento vocal.

In [None]:
import os
from python_code import luis
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig
from playsound import playsound
import matplotlib.pyplot as plt
from PIL import Image
%matplotlib inline

try:   

    # Get spoken command from audio file
    file_name = 'light-on.wav'
    audio_file = os.path.join('data', 'luis', file_name)

    # Configure speech recognizer
    speech_config = SpeechConfig(cog_key, cog_location)
    audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
    speech_recognizer = SpeechRecognizer(speech_config, audio_config)

    # Use a one-time, synchronous call to transcribe the speech
    speech = speech_recognizer.recognize_once()

    # Get the predicted intent and entity (code in python_code.home_auto.py)
    action = luis.get_intent(luis_app_id, luis_key, luis_endpoint, speech.text)

    # Get the appropriate image
    img_name = action + '.jpg'

    # Display image 
    img = Image.open(os.path.join("data", "luis" ,img_name))
    plt.axis('off')
    plt. imshow(img)
    playsound(audio_file)

except Exception as ex:
    print(ex)

Experimente modificar a célula acima para usar o arquivo de áudio **light-off.wav**.

## Saiba mais

Saiba mais sobre o Reconhecimento vocal na [documentação do serviço](https://docs.microsoft.com/azure/cognitive-services/luis/)