## Automatic Text to Speech (ATS)

In [None]:
from huggingface_hub import login
token = "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"
print("Hugging Face logging")
login(token)

In [None]:
import torch
device = "mps" if torch.backends.mps.is_available() else ("cuda" if torch.cuda.is_available() else "cpu")
print(f"Usando dispositivo: {device}")

Antes de comenzar con los modelos, vamos a familiarizarnos con los datasets para ASR. Para ello, acceda al dataset `hf-internal-testing/librispeech_asr_dummy` y estudie como está estructurado. A continuación vamos a descargarlo:

In [None]:
from datasets import load_dataset

# Cargando dataset `hf-internal-testing/librispeech_asr_dummy`
ds = load_dataset("hf-internal-testing/librispeech_asr_dummy", "clean", split="validation[:10]")
sample = ds[0]["audio"]

## Transcripción de audio

Para realizar la transcripción de audio, usaremos un modelo muy conocido llamado whisper, en particular, su version minúscula (`openai/whisper-tiny`)

In [None]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# Creación del modelo y processor
processor = WhisperProcessor.from_pretrained("openai/whisper-tiny")
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny")
model.config.forced_decoder_ids = None

# Procesado del dataset
input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
# Generación de la transcripción
predicted_ids = model.generate(input_features)
# Decodificación de la transcripción mostrando tokens especiales
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
print(transcription)
# Decodificación de la transcripción sin mostrar tokens especiales
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)

## Transcipción indicando idiomas

Para finar la eficacia de whisper, se puede indicar el idioma que se escucha en el audio. Para ello, vamos a usar un audio del dataset `mozilla-foundation/common_voice_13_0`

####  Tarea ASRB1



Acceder al dataset `mozilla-foundation/common_voice_13_0` y encontrar el audio que se está obteniendo en la siguiente celda (cuyo `path` es `es_test_0/common_voice_es_19698530.mp3`. Escuchar el audio para compararlo con la transcripción.

In [None]:
from datasets import Audio, load_dataset

# Cargando dataset `hf-internal-testing/librispeech_asr_dummy`
ds = load_dataset("mozilla-foundation/common_voice_13_0", "es", split="test", streaming=True)
# Casteando la frecuencia y seleccionando un audio en particular
ds = ds.cast_column("audio", Audio(sampling_rate=16000)) # 16_000
ds = ds.filter(lambda sample: "es_test_0/common_voice_es_19698530.mp3" in sample["path"])
sample = next(iter(ds))["audio"]
print(sample['path'])


#### Tarea ASRB2

Usando el código desarrollado anteriormente para realizar las transcripciones con whisper, haga una transcripción de la variable sample. Una vez conseguida, utilice el siguiente código para indicar el idioma.

```
forced_decoder_ids = processor.get_decoder_prompt_ids(language="spanish", task="transcribe")
```

In [None]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# TODO: Creación del modelo y processor

# TODO: En este caso indicamos el idioma del audio añadiendo el parámetro language

# TODO: Procesado del dataset

# TODO: Generación de la transcripción

# TODO: Decodificación de la transcripción mostrando tokens especiales

# TODO: Decodificación de la transcripción sin mostrar tokens especiales

## Transcripción con traducción

Además de indicar el lenguaje del audio, los modelo whisper incorporan por defecto la tarea (`task`) de traducción de múltiples idiomas al inglés. Para activarla hay que cambiar el valor del parametro `task` de `transcribe` a `translate`

#### Tarea ASRB3

En el siguiente fragmento, cambie el valor del parámetro `task` para que traduzca en lugar de simplemente transcribir

In [None]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration

# Creación del modelo y processor
processor = WhisperProcessor.from_pretrained("openai/whisper-tiny")
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny")
# TODO: cambiar el valor del parámetro transcribe a translate
forced_decoder_ids = processor.get_decoder_prompt_ids(language="spanish", task="transcribe")



# Procesado del dataset
input_features = processor(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
# Generación de la transcripción
predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)
# Decodificación de la transcripción mostrando tokens especiales
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=False)
print(transcription)
# Decodificación de la transcripción sin mostrar tokens especiales
transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)
print(transcription)

## Evaluación de ASR

Finalmente, podemos evaluar distintos modelos ASR, para ello, utilizamos un dataset.

In [None]:
from datasets import load_dataset, Audio

# Cargar el dataset
data = load_dataset("mozilla-foundation/common_voice_11_0", "es", split="test", cache_dir="./data/common_voice_11_0_test", trust_remote_code=True, streaming=True)
data = data.cast_column("audio", Audio(sampling_rate=16000))
print("Dataset cargado correctamente")

# Preprocesamiento: Normalización del texto
def normalize_text(batch):
    text = batch["sentence"].lower().strip()
    batch["sentence"] = text
    return batch

data = data.map(normalize_text)
print("Texto normalizado")

# Nos quedamos solo con la entrada cuyo client_id es 0d461bf9e0450a750b67f5ec88f07d9e2bd8b5a0c46f00bbf6f5d7a4a50a0f1fa46222902c3e70fd317747176028de656c385e09c6270e08aab36c419e8f7d7c
# TODO: visite la web del dataset y escuche el audio que estamos filtrando
# TODO: ¿como habla esta persona?¿tiene acento?
# DONE: Comentado para la tarea ASRB4
data = data.filter(lambda sample: "0d461bf9e0450a750b67f5ec88f07d9e2bd8b5a0c46f00bbf6f5d7a4a50a0f1fa46222902c3e70fd317747176028de656c385e09c6270e08aab36c419e8f7d7c" in sample["client_id"])
print("Dataset filtrado por clientId")


print(data)


Además del dataset, empaquetamos los modelos en funciones para poder invocarlas durante la evaluación de manera sencilla.

In [None]:
processor_whisper = WhisperProcessor.from_pretrained("openai/whisper-tiny")
model_wisper = WhisperForConditionalGeneration.from_pretrained("openai/whisper-tiny")
def asr_whisper(sample):
    global processor_whisper, model_wisper
    forced_decoder_ids = processor_whisper.get_decoder_prompt_ids(language="spanish", task="translate")
    input_features = processor_whisper(sample["array"], sampling_rate=sample["sampling_rate"], return_tensors="pt").input_features
    predicted_ids = model_wisper.generate(input_features, forced_decoder_ids=forced_decoder_ids)
    return processor_whisper.batch_decode(predicted_ids, skip_special_tokens=True)[0]


In [None]:
from transformers import Wav2Vec2Processor, Wav2Vec2ForCTC

processor_wav2vec = Wav2Vec2Processor.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")
model_wav2vec = Wav2Vec2ForCTC.from_pretrained("facebook/wav2vec2-large-xlsr-53-spanish")

def asr_wav(sample):
    global processor_wav2vec, model_wav2vec
    features = processor_wav2vec(sample["array"], sampling_rate=sample["sampling_rate"], padding=True, return_tensors="pt")
    input_values = features.input_values
    attention_mask = features.attention_mask
    with torch.no_grad():
        logits = model_wav2vec(input_values, attention_mask=attention_mask).logits
    pred_ids = torch.argmax(logits, dim=-1)
    return processor_wav2vec.batch_decode(pred_ids)[0]



Para evaluar los modelos, vamos a utilizar la metrica WER. El **Word Error Rate (WER)** es una métrica utilizada para evaluar la precisión de los sistemas de reconocimiento automático del habla (ASR). Mide la proporción de errores cometidos en las transcripciones generadas por el modelo, comparándolas con una referencia. Estos errores se calculan como la suma de sustituciones, inserciones y eliminaciones necesarias para alinear la transcripción con la referencia, y se normalizan dividiendo por el número total de palabras en la referencia. **Un WER más bajo indica un mejor rendimiento del sistema.**



In [None]:
import torch
from evaluate import load
import matplotlib.pyplot as plt


# Métrica WER (Word Error Rate)
wer_metric = load("wer")

# Creamos los arrays que contendrán las predicciones de los modelos y las referencias (gold std.)
predictions_whisper = []
predictions_wav2vec = []
references = []

# Recorremos el dataset y generamos las predicciones
for sample in data:
    references.append(sample['sentence'])

    whisper_transcription = asr_whisper(sample['audio'])
    predictions_whisper.append(whisper_transcription)

    wav_transcription = asr_wav(sample['audio'])
    predictions_wav2vec.append(wav_transcription)


# Evaluar Whisper
print("Evaluando Whisper...")
whisper_wer = wer_metric.compute(predictions=predictions_whisper, references=references)
print(f"WER de Whisper: {whisper_wer:.4f}")

# Evaluar Wav2Vec2
print("Evaluando Wav2Vec2...")
wav2vec_wer = wer_metric.compute(predictions=predictions_wav2vec, references=references)
print(f"WER de Wav2Vec2: {wav2vec_wer:.4f}")

# Crear gráfica de comparación
models = ["Whisper", "Wav2Vec2"]
wer_scores = [whisper_wer, wav2vec_wer]

plt.figure(figsize=(8, 6))
plt.bar(models, wer_scores)
plt.title("Comparación de WER entre modelos ASR")
plt.ylabel("WER (Word Error Rate)")
plt.xlabel("Modelo")
plt.ylim(0, max(wer_scores) + 0.1)
plt.show()


#### Tarea ASRB4

Cambiar el código anterior para evaluar los modelos con las primeras 30 muestras del dataset de test. Para ello puede usar el método en la variable `data.selecet(range(30))` ¿Qué ocurre con los resultados?


#### Tarea ASRB5

Añadir a la comparación de técnicas el modelo `openai/whisper-small` por `openai/whisper-tiny`. ¿Qué ocurre con los resultados?

## Transcipción de ficheros wav

In [None]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torchaudio

# Cargar el modelo y el procesador
processor = WhisperProcessor.from_pretrained("openai/whisper-small")
model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")
model.config.forced_decoder_ids = None

# Función para leer un archivo WAV y convertirlo a input_features
def process_audio_file(audio_path, processor):
    # Cargar el archivo WAV
    waveform, sampling_rate = torchaudio.load(audio_path)

    # Resamplear a 16 kHz si es necesario
    target_sampling_rate = processor.feature_extractor.sampling_rate
    if sampling_rate != target_sampling_rate:
        resampler = torchaudio.transforms.Resample(orig_freq=sampling_rate, new_freq=target_sampling_rate)
        waveform = resampler(waveform)

    # Convertir a características de entrada para Whisper
    input_features = processor(waveform.squeeze().numpy(), sampling_rate=target_sampling_rate, return_tensors="pt").input_features
    return input_features

# Transcripción de un archivo de audio
def transcribe_audio_file(audio_path, model, processor):
    # Procesar el archivo de audio
    input_features = process_audio_file(audio_path, processor)

    # Generar IDs de tokens
    forced_decoder_ids = processor.get_decoder_prompt_ids(language="spanish", task="transcribe")
    predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

    # Decodificar los tokens generados a texto
    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
    return transcription

# Ejemplo de uso
audio_path = "./provided/patria_invento.wav"  # Reemplazar con la ruta del archivo
transcription = transcribe_audio_file(audio_path, model, processor)
print(f"Transcripción: {transcription}")

#### Tarea ASRB6

Convierta a texto el audio de los ficheros `padrino.wav` y `patria_invento.wav`. Cuando tenga la transcripción, escuche los audios y valores cuantitativamente como de bien funciona el modelo. Para transcribir el audio utilice la función `transcribe_audio_file_chunked`.

In [None]:
# TODO: transcribir el audio de "./provided/padrino.wav"

In [None]:
# TODO: transcribir el audio de "./provided/patria_invento.wav"