# Fala

Cada vez mais, esperamos ser capazes de nos comunicar com sistemas de inteligência artificial (IA) falando com eles, frequentemente com a expectativa de receber uma resposta falada.

![Um robô falando](./images/speech.jpg)

O *Reconhecimento de fala* (um sistema de IA que interpreta a linguagem falada) e a *Síntese de fala* (um sistema de IA que gera uma resposta falada) são os principais componentes de uma solução de IA habilitada para a fala.

## Criar um recurso dos Serviços Cognitivos

Para criar um software que consiga interpretar fala audível e responder verbalmente, é possível usar o serviço cognitivo de **Fala**, que proporciona uma maneira simples de transformar linguagem falada em texto e vice-versa.

Caso você ainda não tenha um, use as etapas a seguir para criar um recurso dos **Serviços Cognitivos** na sua assinatura do Azure:

> **Observação**: Se você já tiver um recurso dos Serviços Cognitivos, abra a página de **Início Rápido** no portal do Azure e copie a respectiva chave e o ponto de extremidade para a célula abaixo. Caso contrário, siga as etapas abaixo para criar um.

1. Em outra guia do navegador, abra o portal do Azure em https://portal.azure.com, entrando com sua conta Microsoft.
2. Clique no botão **&#65291;Criar um recurso**, procure *Serviços Cognitivos* e crie um recurso dos **Serviços Cognitivos** com as configurações abaixo:
    - **Assinatura**: *sua assinatura do Azure*.
    - **Grupo de recursos**: *Selecione ou crie um grupo de recursos com um nome exclusivo*.
    - **Região**: *Escolha qualquer região disponível*:
    - **Nome**: *Insira um nome exclusivo*.
    - **Tipo de preço**: S0
    - **Confirmo que li e entendi os avisos**: Selecionado.
3. Aguarde até que a implantação seja concluída. Depois, entre em seu recurso dos Serviços Cognitivos e, na página **Visão geral**, clique no link para gerenciar as chaves do serviço. Você precisará da chave e da localização para se conectar aos seus recursos dos Serviços Cognitivos em aplicativos clientes.

### Obter a chave e a localização do seu recurso dos Serviços Cognitivos

Para usar seu recurso dos Serviços Cognitivos, os aplicativos clientes precisam da chave de autenticação e da localização:

1. No portal do Azure, na página **Chaves e ponto de extremidade** do seu recurso dos Serviços Cognitivos, copie a **Chave 1** do recurso e cole no código abaixo, substituindo **YOUR_COG_KEY**.
2. Copie a **Localização** do recurso e cole no código abaixo, substituindo **YOUR_COG_LOCATION**.
>**Observação**: continue na página **Chave e ponto de extremidade** e copie a **Localização** desta página (por exemplo: _westus_). _Não_ adicione espaços entre as palavras no campo Localização. 
3. Execute o código abaixo clicando no botão **Executar célula** (&#9655;) à esquerda.

In [None]:
cog_key = 'e09c79f3eeb54c2894df8b52f297e8f2'
cog_location = 'https://cs-hsouza-01.cognitiveservices.azure.com/'

print('Ready to use cognitive services in {} using key {}'.format(cog_location, cog_key))

## Reconhecimento de fala

Suponha que você queira construir um sistema de automação residencial que aceite instruções faladas, como "acender a luz" ou "apagar a luz". Seu aplicativo precisará ser capaz de receber a entrada baseada em áudio (sua instrução falada) e interpretá-la, transformando o comando em um texto que possa ser analisado.

Agora você está pronto para transcrever falas. A entrada pode vir de um **microfone** ou um **arquivo de áudio**. 

### Reconhecimento de fala com um microfone

Vamos tentar primeiro com a entrada de um microfone. Execute a célula abaixo e, **imediatamente**, diga em voz alta **"acender a luz"**. Os recursos de reconhecimento de fala do serviço de Fala farão a transcrição do áudio. A saída deverá ser sua fala em forma de texto.


In [None]:
import os
import IPython
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# Configure o reconhecimento de fala
speech_config = SpeechConfig(cog_key, cog_location)

# Faça os alunos dizerem "acender as luzes" 
speech_recognizer = SpeechRecognizer(speech_config)

# Use uma chamada síncrona única para transcrever a fala
speech = speech_recognizer.recognize_once()

print(speech.text)


### (!) Verificação

Você conseguiu executar a célula e converter a fala em texto? Se a célula acima não produzir uma saída em texto (exemplo de saída: _Acender a luz_), experimente executá-la de novo e dizer "acender a luz" em voz alta **imediatamente**.

### Reconhecimento de fala com um arquivo em áudio

Se a célula acima não produzir uma saída em texto, seu microfone pode não estar configurado para aceitar a entrada. Em vez disso, execute a célula abaixo para ver o serviço de Reconhecimento de fala em ação com um **arquivo de áudio** em vez de uma **entrada do microfone**. 


In [None]:
import os
from playsound import playsound
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# Extraia o comando falado do arquivo de áudio
file_name = 'light-on.wav'
audio_file = os.path.join('data', 'speech', file_name)

# Configure o reconhecimento de fala
speech_config = SpeechConfig(cog_key, cog_location)
audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
speech_recognizer = SpeechRecognizer(speech_config, audio_config)

# Use uma chamada síncrona única para transcrever a fala
speech = speech_recognizer.recognize_once()

# Reproduza o áudio e exiba o texto transcrito
playsound(audio_file)
print(speech.text)

## Sintetização de voz

Agora você já viu como o serviço de Fala pode ser usado para transformar fala em texto, mas e o inverso? Como fazer a conversão de texto em fala?

Bom, vamos supor que o seu sistema de automação residencial tenha interpretado o comando para acender a luz. Uma resposta apropriada seria reconhecer o comando verbalmente (além de realizar a tarefa solicitada!).

In [None]:
import os
import matplotlib.pyplot as plt
from PIL import Image
from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer, AudioConfig
%matplotlib inline

# Obtenha o texto a ser falado
response_text = 'Turning the light on.'

# Configure a síntese de fala
speech_config = SpeechConfig(cog_key, cog_location)
speech_synthesizer = SpeechSynthesizer(speech_config)

# Transforme texto em fala
result = speech_synthesizer.speak_text(response_text)

# Exiba uma imagem apropriada 
file_name = response_text + "jpg"
img = Image.open(os.path.join("data", "speech", file_name))
plt.axis('off')
plt. imshow(img)

Experimente alterar a variável **response_text** para *Apagando a luz.* (incluindo o ponto final) e executar a célula novamente para ouvir o resultado.

## Saiba mais

Neste notebook, você viu um exemplo muito simples do uso do serviço cognitivo de Fala. Saiba mais sobre a [Conversão de fala em texto](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-speech-to-text) e a [Conversão de texto em fala](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-text-to-speech) na documentação do serviço de Fala.