# Voce

Sempre più spesso, ci aspettiamo di poter comunicare con i sistemi di intelligenza artificiale (IA) parlando loro, spesso con l'aspettativa di una risposta parlata.

![Un robot che parla](./images/speech.jpg)

Il *riconoscimento vocale* (un sistema di AI che interpreta il linguaggio parlato) e la *sintesi vocale* (un sistema di AI che genera una risposta parlata) sono i componenti chiave di una soluzione di AI con abilitazione vocale.

## Crea una risorsa di servizi cognitivi

Per sviluppare un software in grado di interpretare una voce udibile e rispondere verbalmente, è possibile utilizzare il servizio cognitivo **Voce**, che fornisce un modo semplice per trascrivere il linguaggio parlato in testo e viceversa.

Se non ne hai già una, procedi come segue per creare una risorsa di **Servizi Cognitivi** nella tua sottoscrizione di Azure:

> **Nota**: Se disponi già di una risorsa di Servizi Cognitivi, basta aprire la sua pagina **Avvio rapido** nel portale di Azure e copiare la sua chiave e l'endpoint nella cella seguente. Altrimenti, procedi come segue per crearne una.

1. In un'altra scheda del browser, apri il portale di Azure all'indirizzo https://portal.azure.com, accedendo con il tuo account Microsoft.
2. Fai clic sul pulsante **&#65291;Crea una risorsa**, cerca *Servizi cognitivi* e crea una risorsa di **Servizi cognitivi** con le impostazioni seguenti:
    - **Sottoscrizione**: *La tua sottoscrizione di Azure*.
    - **Gruppo di risorse**: *Seleziona o crea un gruppo di risorse con un nome univoco*.
    - **Area geografica**: *Scegli una qualsiasi area disponibile*:
    - **Nome**: *Immetti un nome univoco*.
    - **Piano tariffario**: S0
    - **Confermo di aver letto e compreso gli avvisi**: Selezionato.
3. Attendi il completamento della distribuzione. Vai quindi alla tua risorsa di servizi cognitivi e, nella pagina **Panoramica**, fai clic sul link per gestire le chiavi per il servizio. Avrai bisogno della chiave e della posizione per connetterti alla tua risorsa di servizi cognitivi dalle applicazioni client.

### Ottieni la chiave e la posizione per la tua risorsa di Servizi cognitivi

Per usare la risorsa di servizi cognitivi, le applicazioni client hanno bisogno della chiave di autenticazione e della posizione:

1. Nel portale di Azure, nella pagina **Chiavi ed endpoint** per la tua risorsa di servizio cognitivo, copia la **Key1** per la tua risorsa e incollala nel codice sottostante, sostituendo **YOUR_COG_KEY**.
2. Copia la **Posizione** per la tua risorsa e incollala nel codice sottostante, sostituendo **YOUR_COG_LOCATION**.
>**Nota**: Rimani nella pagina **Chiavi ed endpoint** e copia la **Posizione** da questa pagina (esempio: _westus_). Non aggiungere spazi tra le parole per il campo Posizione. 
3. Esegui il codice seguente facendo clic sul pulsante **Esegui cella** (&#9655;) a sinistra della cella.

In [None]:
cog_key = 'YOUR_COG_KEY'
cog_location = 'YOUR_COG_LOCATION'

print('Ready to use cognitive services in {} using key {}'.format(cog_location, cog_key))

## Riconoscimento vocale

Supponiamo che tu voglia creare un sistema di automazione domestica che accetti istruzioni vocali, come "accendi la luce" o "spegni la luce". La tua applicazione deve essere in grado di prendere l'input basato sull'audio (la tua istruzione parlata), e interpretarlo trascrivendolo in testo che può poi analizzare.

È tutto pronto per trascrivere una voce. L'input può venire da un **microfono**o da un **file audio**. 


### Riconoscimento vocale con un file audio

Esegui la cella seguente per vedere il servizio di riconoscimento vocale in azione con un **file audio**. 


In [None]:
import os
from playsound import playsound
from azure.cognitiveservices.speech import SpeechConfig, SpeechRecognizer, AudioConfig

# Get spoken command from audio file
file_name = 'light-on.wav'
audio_file = os.path.join('data', 'speech', file_name)

# Configure speech recognizer
speech_config = SpeechConfig(cog_key, cog_location)
speech_config.speech_synthesis_voice_name = 'en-US-ChristopherNeural'
audio_config = AudioConfig(filename=audio_file) # Use file instead of default (microphone)
speech_recognizer = SpeechRecognizer(speech_config, audio_config)

# Use a one-time, synchronous call to transcribe the speech
speech = speech_recognizer.recognize_once()

# Play the original audio file
playsound(audio_file)

# Show transcribed text from audio file
print(speech.text)

## Sintesi vocale

Dunque ora hai visto in che modo è possibile usare il servizio Voce per trascrivere il parlato in testo; e per quanto riguarda il contrario? Come si converte il testo in parlato?

Supponiamo che il tuo sistema domotico abbia interpretato un comando per accendere la luce. Una risposta appropriata potrebbe essere quella di confermare verbalmente il comando (oltre a eseguire effettivamente il compito richiesto)

In [None]:
import os
import matplotlib.pyplot as plt
from PIL import Image
from azure.cognitiveservices.speech import SpeechConfig, SpeechSynthesizer, AudioConfig
%matplotlib inline

# Get text to be spoken
response_text = 'Turning the light on.'

# Configure speech synthesis
speech_config = SpeechConfig(cog_key, cog_location)
speech_config.speech_synthesis_voice_name = 'en-US-ChristopherNeural'
speech_synthesizer = SpeechSynthesizer(speech_config)

# Transcribe text into speech
result = speech_synthesizer.speak_text(response_text)

# Display an appropriate image 
file_name = response_text.lower() + "jpg"
img = Image.open(os.path.join("data", "speech", file_name))
plt.axis('off')
plt. imshow(img)

Prova a cambiare la variabile **response_text** in *Spegnere la luce.* (compreso il punto finale) ed esegui nuovamente la cella per sentire il risultato.

## Scopri di più

Hai visto un esempio molto semplice dell'utilizzo del servizio cognitivo Voce in questo notebook. Puoi saperne di più su [conversione della voce in testo scritto](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-speech-to-text) e [sintesi vocale](https://docs.microsoft.com/azure/cognitive-services/speech-service/index-text-to-speech) nella documentazione del servizio Voce.