<a href="https://colab.research.google.com/github/yuu067/MIA-IABD-2425/blob/main/UD03/notebooks/EX4.-Assistent_virtual_ES.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Creación de un prototipo de asistente virtual

Esta práctica propone la creación de un prototipo del sistema de traducción que permite recibir órdenes en un idioma y ejecutarlos en otro idioma. Por ejemplo, el usuario podría decir "open the door" y el sistema respondería "abre la puerta". Este prototipo se basará en el uso de modelos de HugginFace previamente entrenados para la traducción y la síntesis de voz.

## Buscar modelos previamente entrenados

El primer paso es buscar modelos previamente entrenados para las tareas solicitadas. Investigue Huggingface para seleccionar modelos que mejor satisfagan las necesidades del prototipo.

Cuando haya seleccionado los modelos, modifique las siguientes variables para incluirlas en el prototipo:

In [25]:
# Modelo de voz de texto

MODELO_VOZ_A_TEXTO = "AventIQ-AI/whisper-audio-to-text"

# Model de traducción ingles a español

MODELO_TRADUCCION = "beanslmao/hensinki-en-es-finetuned-english-to-spanish-tateoba"

# Modelo de texto a voz

MODELO_TEXTO_A_VOZ = "suno/bark"

## Implementación del prototipo

Una vez que se seleccionan los modelos previamente entrenados, implementa el prototipo.Para hacer esto, puede seguir los siguientes pasos:

1. Cree una función que, dada una orden de voz, lo transforme en texto (_Automatic Speech Recognition_ ASR). Para hacer esto, puede usar el modelo `MODELO_VOZ_A_TEXTO` previamente seleccionado. Como ejemplo, puede usar el siguiente archivo de voz: [OpenTheDoor.wav](OpenTheDoor.wav).

In [6]:
# Creamos la tubería para la conversión de voz a texto
from transformers import pipeline

pipe = pipeline("automatic-speech-recognition", model=MODELO_VOZ_A_TEXTO)

# Convertimos la voz en texto

text = pipe("OpenTheDoor.wav")


config.json:   0%|          | 0.00/1.38k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/145M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/3.80k [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/283k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/494k [00:00<?, ?B/s]

normalizer.json:   0%|          | 0.00/52.7k [00:00<?, ?B/s]

added_tokens.json:   0%|          | 0.00/34.6k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.19k [00:00<?, ?B/s]

preprocessor_config.json:   0%|          | 0.00/339 [00:00<?, ?B/s]

Device set to use cpu


2. Crea una función que, dado un texto y un idioma, lo traduce al español (_machine translation_). Para hacer esto, puede usar el modelo `MODELO_TRADUCCION` seleccionado anteriormente. Como ejemplo, puede usar el siguiente pedido en texto: "Abra la puerta".

In [14]:
# Creamos la tubería para la traducción

pipe = pipeline("translation", model=MODELO_TRADUCCION)

# Traducimos el texto al español

translated_text = pipe(text['text'])[0]['translation_text']
translated_text


Device set to use cpu


'Abre la puerta.'

3. Crea una funció que, donat un text, el sintetitzi en veu (_Text to speech_). Per fer-ho pots utilitzar el model `MODEL_TEXT_A_VEU` seleccionat anteriorment. Com a exemple pots utilitzar el text "abre la puerta".

In [26]:
# Creamos la tubería para la síntesis de voz

pipe = pipeline("text-to-speech", model=MODELO_TEXTO_A_VOZ)

# Sintetizamos el texto en voz

out = pipe(translated_text)


config.json:   0%|          | 0.00/8.81k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/4.49G [00:00<?, ?B/s]

  self.register_buffer("padding_total", torch.tensor(kernel_size - stride, dtype=torch.int64), persistent=False)


generation_config.json:   0%|          | 0.00/4.91k [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/353 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.92M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

Device set to use cpu
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:10000 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.


In [27]:
# mostramos el texto sintetizado como un reproductor

from IPython.display import Audio

Audio(out["audio"], rate=out['sampling_rate'])

4.- Une las tres funciones anteriores en una sola función que, dada una voz y un idioma, lo transforma en texto, lo traduce en otro idioma y la sintetizando en la voz. Como ejemplo, puede usar el siguiente audio de voz: [OpenTheDoor.wav](OpenTheDoor.wav).

In [28]:
# Aquí generamos una funcion que lo aglutine todo

from IPython.display import Audio


def assistant(voice_order):
    # Convertim la veu a text
    pipe = pipeline("automatic-speech-recognition", model=MODELO_VOZ_A_TEXTO)
    text = pipe(voice_order)

    pipe = pipeline("translation", model=MODELO_TRADUCCION)
    translated_text = pipe(text['text'])[0]['translation_text']

    pipe = pipeline("text-to-speech", model=MODELO_TEXTO_A_VOZ)
    out = pipe(translated_text)

    return out

out = assistant("OpenTheDoor.wav")

Audio(out["audio"], rate=out['sampling_rate'])

Device set to use cpu
Device set to use cpu
  self.register_buffer("padding_total", torch.tensor(kernel_size - stride, dtype=torch.int64), persistent=False)
Device set to use cpu
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:10000 for open-end generation.
