# Creación de un prototipo de asistente virtual

Esta práctica propone la creación de un prototipo del sistema de traducción que permite recibir órdenes en un idioma y ejecutarlos en otro idioma. Por ejemplo, el usuario podría decir "open the door" y el sistema respondería "abre la puerta". Este prototipo se basará en el uso de modelos de HugginFace previamente entrenados para la traducción y la síntesis de voz.

## Buscar modelos previamente entrenados

El primer paso es buscar modelos previamente entrenados para las tareas solicitadas. Investigue Huggingface para seleccionar modelos que mejor satisfagan las necesidades del prototipo.

Cuando haya seleccionado los modelos, modifique las siguientes variables para incluirlas en el prototipo:

In [42]:
# Modelo de voz de texto
MODELO_VOZ_A_TEXTO = "openai/whisper-small"

# Model de traducción ingles a español
MODELO_TRADUCCION = "Helsinki-NLP/opus-mt-en-es"

# Modelo de texto a voz
MODELO_TEXTO_A_VOZ = "suno/bark"

## Implementación del prototipo

Una vez que se seleccionan los modelos previamente entrenados, implementa el prototipo.Para hacer esto, puede seguir los siguientes pasos:

1. Cree una función que, dada una orden de voz, lo transforme en texto (_Automatic Speech Recognition_ ASR). Para hacer esto, puede usar el modelo `MODELO_VOZ_A_TEXTO` previamente seleccionado. Como ejemplo, puede usar el siguiente archivo de voz: [OpenTheDoor.wav](OpenTheDoor.wav).

In [43]:
# Creamos la tubería para la conversión de voz a texto
from transformers import pipeline

asr_pipeline = pipeline(task="automatic-speech-recognition", model=MODELO_VOZ_A_TEXTO)

# Convertimos la voz en texto
def voz_a_texto(archivo_audio):
    # Convertimos la voz en texto
    resultado = asr_pipeline(archivo_audio)
    texto_transcrito = resultado['text']
    return texto_transcrito

texto = voz_a_texto("OpenTheDoor.wav")
print("\n\n",texto)





Device set to use cuda:0




  Open the door.


2. Crea una función que, dado un texto y un idioma, lo traduce al español (_machine translation_). Para hacer esto, puede usar el modelo `MODELO_TRADUCCION` seleccionado anteriormente. Como ejemplo, puede usar el siguiente pedido en texto: "Abra la puerta".

In [44]:
# Creamos la tubería para la traducción
translation_pipeline = pipeline(task="translation", model=MODELO_TRADUCCION)

# Traducimos el texto al español
def traducir_texto(texto):
    # Traducimos el texto al español
    resultado = translation_pipeline(texto)
    texto_traducido = resultado[0]['translation_text']
    return texto_traducido

texto_traducido = traducir_texto(texto)
print("\n\n",texto_traducido)

Device set to use cuda:0




 Abre la puerta.


3. Crea una funció que, donat un text, el sintetitzi en veu (_Text to speech_). Per fer-ho pots utilitzar el model `MODEL_TEXT_A_VEU` seleccionat anteriorment. Com a exemple pots utilitzar el text "abre la puerta".

In [45]:
# Creamos la tubería para la síntesis de voz
tts_pipeline = pipeline(task="text-to-speech", model=MODELO_TEXTO_A_VOZ)

# Sintetizamos el texto en voz
def texto_a_voz(texto):
    # Sintetizamos el texto en voz
    out = tts_pipeline(texto)
    return out

out = texto_a_voz(texto_traducido)


config.json:   0%|          | 0.00/4.37k [00:00<?, ?B/s]

ValueError: Unrecognized model in coqui/XTTS-v2. Should have a `model_type` key in its config.json, or contain one of the following strings in its name: albert, align, altclip, aria, aria_text, audio-spectrogram-transformer, autoformer, bamba, bark, bart, beit, bert, bert-generation, big_bird, bigbird_pegasus, biogpt, bit, blenderbot, blenderbot-small, blip, blip-2, bloom, bridgetower, bros, camembert, canine, chameleon, chinese_clip, chinese_clip_vision_model, clap, clip, clip_text_model, clip_vision_model, clipseg, clvp, code_llama, codegen, cohere, cohere2, colpali, conditional_detr, convbert, convnext, convnextv2, cpmant, ctrl, cvt, dac, data2vec-audio, data2vec-text, data2vec-vision, dbrx, deberta, deberta-v2, decision_transformer, deformable_detr, deit, depth_anything, deta, detr, diffllama, dinat, dinov2, dinov2_with_registers, distilbert, donut-swin, dpr, dpt, efficientformer, efficientnet, electra, emu3, encodec, encoder-decoder, ernie, ernie_m, esm, falcon, falcon_mamba, fastspeech2_conformer, flaubert, flava, fnet, focalnet, fsmt, funnel, fuyu, gemma, gemma2, git, glm, glpn, gpt-sw3, gpt2, gpt_bigcode, gpt_neo, gpt_neox, gpt_neox_japanese, gptj, gptsan-japanese, granite, granitemoe, graphormer, grounding-dino, groupvit, hiera, hubert, ibert, idefics, idefics2, idefics3, idefics3_vision, ijepa, imagegpt, informer, instructblip, instructblipvideo, jamba, jetmoe, jukebox, kosmos-2, layoutlm, layoutlmv2, layoutlmv3, led, levit, lilt, llama, llava, llava_next, llava_next_video, llava_onevision, longformer, longt5, luke, lxmert, m2m_100, mamba, mamba2, marian, markuplm, mask2former, maskformer, maskformer-swin, mbart, mctct, mega, megatron-bert, mgp-str, mimi, mistral, mixtral, mllama, mobilebert, mobilenet_v1, mobilenet_v2, mobilevit, mobilevitv2, modernbert, moonshine, moshi, mpnet, mpt, mra, mt5, musicgen, musicgen_melody, mvp, nat, nemotron, nezha, nllb-moe, nougat, nystromformer, olmo, olmo2, olmoe, omdet-turbo, oneformer, open-llama, openai-gpt, opt, owlv2, owlvit, paligemma, patchtsmixer, patchtst, pegasus, pegasus_x, perceiver, persimmon, phi, phi3, phimoe, pix2struct, pixtral, plbart, poolformer, pop2piano, prophetnet, pvt, pvt_v2, qdqbert, qwen2, qwen2_audio, qwen2_audio_encoder, qwen2_moe, qwen2_vl, rag, realm, recurrent_gemma, reformer, regnet, rembert, resnet, retribert, roberta, roberta-prelayernorm, roc_bert, roformer, rt_detr, rt_detr_resnet, rwkv, sam, seamless_m4t, seamless_m4t_v2, segformer, seggpt, sew, sew-d, siglip, siglip_vision_model, speech-encoder-decoder, speech_to_text, speech_to_text_2, speecht5, splinter, squeezebert, stablelm, starcoder2, superpoint, swiftformer, swin, swin2sr, swinv2, switch_transformers, t5, table-transformer, tapas, textnet, time_series_transformer, timesformer, timm_backbone, timm_wrapper, trajectory_transformer, transfo-xl, trocr, tvlt, tvp, udop, umt5, unispeech, unispeech-sat, univnet, upernet, van, video_llava, videomae, vilt, vipllava, vision-encoder-decoder, vision-text-dual-encoder, visual_bert, vit, vit_hybrid, vit_mae, vit_msn, vitdet, vitmatte, vitpose, vitpose_backbone, vits, vivit, wav2vec2, wav2vec2-bert, wav2vec2-conformer, wavlm, whisper, xclip, xglm, xlm, xlm-prophetnet, xlm-roberta, xlm-roberta-xl, xlnet, xmod, yolos, yoso, zamba, zoedepth

In [None]:
# mostramos el texto sintetizado como un reproductor
from IPython.display import Audio

Audio(out["audio"], rate=out['sampling_rate'])

4.- Une las tres funciones anteriores en una sola función que, dada una voz y un idioma, lo transforma en texto, lo traduce en otro idioma y la sintetizando en la voz. Como ejemplo, puede usar el siguiente audio de voz: [OpenTheDoor.wav](OpenTheDoor.wav).

In [None]:
# Aquí generamos una funcion que lo aglutine todo
from IPython.display import Audio

def assistant(voice_order):
    # Convertim la veu a text
    text = asr_pipeline(voice_order)['text']
    print("Text from audio:", text)

    # Traduïm el text al castellà
    text_translated = translation_pipeline(text)[0]['translation_text']
    print("Text in spanish:", text_translated)

    # Sintetitzem el text en veu
    out = tts_pipeline(text_translated)

    return out

out = assistant("OpenTheDoor.wav")

Audio(out["audio"], rate=out['sampling_rate'])