# Instalación de las dependencias necesarias para el proyecto

In [None]:
pip install -q transformers datasets librosa evaluate jiwer gradio bitsandbytes==0.37 accelerate 

In [None]:
pip install transformers==4.47.1

In [None]:
pip install accelerate==1.2.1

In [None]:
pip install datasets==2.20.0

In [None]:
pip install jiwer==3.0.5

In [None]:
pip install librosa==0.10.2.post1

In [None]:
pip install evaluate==0.4.3

In [None]:
pip install bitsandbytes==0.45.0

In [None]:
pip install triton

In [None]:
pip show triton

In [None]:
pip install gradio

In [None]:
pip install git+https://github.com/huggingface/peft

In [None]:
pip install peft==0.14.0

In [1]:
pip show transformers datasets librosa evaluate jiwer gradio bitsandbytes accelerate peft

Name: transformers
Version: 4.47.1
Summary: State-of-the-art Machine Learning for JAX, PyTorch and TensorFlow
Home-page: https://github.com/huggingface/transformers
Author: The Hugging Face team (past and future) with the help of all our contributors (https://github.com/huggingface/transformers/graphs/contributors)
Author-email: transformers@huggingface.co
License: Apache 2.0 License
Location: /home/manucerrejon/anaconda3/envs/cudaenv_manucerrejon2025/lib/python3.10/site-packages
Requires: filelock, huggingface-hub, numpy, packaging, pyyaml, regex, requests, safetensors, tokenizers, tqdm
Required-by: peft
---
Name: datasets
Version: 2.20.0
Summary: HuggingFace community-driven open-source library of datasets
Home-page: https://github.com/huggingface/datasets
Author: HuggingFace Inc.
Author-email: thomas@huggingface.co
License: Apache 2.0
Location: /home/manucerrejon/anaconda3/envs/cudaenv_manucerrejon2025/lib/python3.10/site-packages
Requires: aiohttp, dill, filelock, fsspec, huggingfa

In [None]:
pip install huggingface_hub

In [None]:
from huggingface_hub import login

# Iniciar sesión con tu token
#login(token="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")

In [22]:
import triton
print(triton.__file__)

/home/manucerrejon/.local/lib/python3.10/site-packages/triton/__init__.py


### Verificación de la Versión de `transformers`

En esta celda se importa la librería **transformers** y se imprime su versión instalada. Esto es importante porque ciertas funcionalidades pueden variar entre versiones. 

Si no se obtiene la versión esperada, puede ser necesario reinstalar o actualizar la librería utilizando:


In [23]:
# Importamos la librería transformers para trabajar con modelos preentrenados de Hugging Face.
# A continuación, imprimimos la versión instalada para verificar que es la adecuada.
import transformers
print(transformers.__version__)


4.47.1


### Verificación de la Versión de `peft`

En esta celda se verifica que la versión instalada de la librería **PEFT** sea la 0.8. PEFT es una herramienta fundamental para realizar ajustes eficientes en modelos de machine learning grandes, especialmente en hardware limitado.

**Importante:** Si la versión mostrada no es la 0.8, podría haber problemas de compatibilidad. Para asegurarse de tener la versión correcta, utilice el siguiente comando para instalarla directamente desde el repositorio de Hugging Face:

In [24]:
# Importamos la librería PEFT (Parameter-Efficient Fine-Tuning) para ajustar modelos de manera eficiente.
# Comprobamos que la versión instalada sea la 0.8, ya que algunas características clave pueden depender de esta versión específica.
import peft

print(peft.__version__)  # Debe mostrar '0.8'

#help(peft.prepare_model_for_kbit_training)

0.14.0


### Verificación de la Conexión a GPU

Esta celda verifica si hay una GPU disponible para el entorno de ejecución utilizando el comando `nvidia-smi`, que proporciona información detallada sobre las GPUs NVIDIA conectadas.

- Si no se detecta ninguna GPU, el mensaje `"No estás conectado a una GPU"` se mostrará.
- Si hay una GPU disponible, se imprimirá su información detallada, incluyendo modelo, memoria utilizada y otros detalles técnicos.

Esto es particularmente útil para asegurarse de que el entorno tiene los recursos de hardware necesarios para ejecutar tareas que requieren aceleración por GPU, como entrenamiento de modelos grandes o procesamiento intensivo de datos.

**Nota:** Si no se detecta una GPU y el proyecto la requiere, asegúrate de habilitarla en la configuración del entorno (por ejemplo, en Google Colab, ve a `Entorno de ejecución > Cambiar tipo de entorno de ejecución > Acelerador de hardware > GPU`).


In [25]:
import torch
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
# Ahora puedes mover tus tensores a la GPU 0

In [26]:
# Verificamos la información de la GPU conectada, si está disponible.
# Utilizamos el comando `nvidia-smi` para obtener detalles sobre la GPU.
gpu_info = !nvidia-smi
gpu_info = '\n'.join(gpu_info)

# Si no se detecta una GPU, se informa al usuario.
if gpu_info.find('failed') >= 0:
    print('No estás conectado a una GPU')
else:
    # Mostramos los detalles de la GPU si está disponible.
    print(gpu_info)


Tue May 13 11:40:19 2025       
+-----------------------------------------------------------------------------------------+
| NVIDIA-SMI 550.144.03             Driver Version: 550.144.03     CUDA Version: 12.4     |
|-----------------------------------------+------------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id          Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |           Memory-Usage | GPU-Util  Compute M. |
|                                         |                        |               MIG M. |
|   0  NVIDIA GeForce RTX 4090        Off |   00000000:01:00.0 Off |                  Off |
|  0%   44C    P8              8W /  450W |    2404MiB /  24564MiB |      0%      Default |
|                                         |                        |                  N/A |
+-----------------------------------------+------------------------+----------------------+
|   1  NVIDIA GeForce RTX 3050        Off |   00

In [27]:
import os

os.environ["CUDA_VISIBLE_DEVICES"] = "0"

### Importación de Librerías y Configuración Inicial

Esta celda prepara el entorno para el procesamiento de datos y la configuración del modelo de transcripción. A continuación se detallan las acciones realizadas:

1. **Importación de librerías:**
   - **os, json:** Manejo de archivos y rutas.
   - **torch:** Herramientas para el uso de PyTorch.
   - **datasets:** Manejo de conjuntos de datos, en este caso, con soporte para audio.
   - **transformers:** Herramientas relacionadas con el modelo Whisper de Hugging Face.
   - **soundfile, pandas:** Utilidades para el procesamiento de audio y datos tabulares.

2. **Configuración del idioma y tarea:**
   - El idioma seleccionado es **español** (`Spanish`).
   - La tarea es **transcripción** (`transcribe`), pero podría cambiarse a otras como traducción si el modelo lo soporta.

3. **Selección del modelo Whisper:**
   - Por defecto, se utiliza el modelo `openai/whisper-large-v3`. 
   - Otros modelos (`medium`, `small`) también están disponibles, dependiendo de los recursos y necesidades.

4. **Rutas de los archivos:**
   - Se definen rutas relativas para los datos de audio y las transcripciones generadas.
   - **Archivo JSON:** Contiene la configuración o los metadatos necesarios para la tarea.

5. **Validación del archivo JSON:**
   - Se verifica que el archivo JSON exista antes de proceder, levantando una excepción si no está presente. Esto asegura que el flujo no se rompa inesperadamente.

**Nota:** Este paso asegura que el entorno esté correctamente configurado para procesar datos y entrenar el modelo.


In [28]:
# Importamos las librerías necesarias para el procesamiento y entrenamiento
import os
import json
import torch
from datasets import Dataset, Audio
from transformers import (
    WhisperTokenizer,
    TrainingArguments,
    WhisperForConditionalGeneration,
    Seq2SeqTrainingArguments,
    Seq2SeqTrainer,
    DataCollatorWithPadding,
    WhisperProcessor,
    DataCollatorForSeq2Seq
)
from datasets import load_metric, DatasetDict
import soundfile as sf
import pandas as pd
import evaluate 
import librosa
import tqdm as notebook_tqdm

# Configuración del idioma y la tarea a realizar
language = "English"  # Idioma principal para transcripciones
task = "transcribe"   # Tarea específica para el modelo Whisper (puede ser transcripción, traducción, etc.)

# Selección del modelo Whisper (se puede ajustar según la necesidad)
# modelo = "openai/whisper-medium"
modelo = "openai/whisper-large"
# modelo = "openai/whisper-small"
# modelo = "./whisper-finetuned-large-Puerto"

# Configuración de rutas de los directorios y archivos
# Rutas para entrenamiento
audio_dir = "./train"                       # Directorio con los archivos de audio
transcriptions_dir = "./train/transcripciones"  # Directorio donde se almacenarán las transcripciones
json_path_train = "./train_data.json"    # Ruta al archivo JSON con datos de entrenamiento

# Rutas para test
audio_dir_test = "./test/"                          # Directorio con los archivos de audio para pruebas
transcriptions_dir_test = "./test/transcripciones/" # Directorio para transcripciones de prueba
json_path_test = "./test_data.json"                      # Ruta al archivo JSON con datos de prueba

# Verificar si los archivos JSON existen
if not os.path.exists(json_path_train):
    raise FileNotFoundError(f"El archivo JSON no se encontró en la ruta: {json_path_train}")
if not os.path.exists(json_path_test):
    raise FileNotFoundError(f"El archivo JSON no se encontró en la ruta: {json_path_test}")

# Cargar la métrica (ejemplo: Word Error Rate - WER)
metric = evaluate.load("wer")

### Carga de Datos desde un Archivo JSON

Esta celda define y utiliza una función para cargar datos de audio y transcripciones desde un archivo JSON. A continuación se explican los pasos realizados:

1. **Importación de librerías:** 
   - **librosa** se utiliza más adelante en el proyecto para procesar audio.
   - **os** y **json** son esenciales para manejar rutas y leer el archivo JSON.

2. **Definición de la función `load_data_from_json`:**
   - Lee un archivo JSON que contiene información sobre los nombres de los archivos de audio y sus transcripciones.
   - Verifica que los archivos de audio y transcripciones existen en los directorios especificados.
   - Devuelve un diccionario con dos listas:
     - `audio`: Rutas de los archivos de audio.
     - `transcription`: Contenido de las transcripciones correspondientes.

3. **Control de errores:**
   - Si algún archivo falta, se muestra una lista de los archivos faltantes en la salida.

4. **Cargar los datos de entrenamiento:**
   - Se usa la función para cargar los datos desde el archivo JSON definido previamente.
   - Se imprime el número de archivos de audio y transcripciones cargados correctamente.

5. **Mostrar una muestra de los datos:**
   - Para validar que los datos se cargaron correctamente, se imprimen las primeras tres entradas de audio y transcripciones.

Esta etapa asegura que los datos están preparados para su uso en el entrenamiento del modelo **Whisper**.


In [29]:
import os
import json
import soundfile as sf

# Función para cargar los datos desde el archivo JSON
def load_data_from_json(json_path, audio_dir, transcriptions_dir):
    """
    Carga los datos de audio y transcripciones desde un archivo JSON.

    Args:
        json_path (str): Ruta al archivo JSON que contiene los nombres de los archivos.
        audio_dir (str): Directorio que contiene los archivos de audio.
        transcriptions_dir (str): Directorio que contiene las transcripciones.

    Returns:
        dict: Diccionario con dos claves:
              - "audio": Lista de rutas a los archivos de audio.
              - "transcription": Lista de transcripciones correspondientes.
    """
    with open(json_path, 'r') as f:
        data_json = json.load(f)
    
    data = {"audio": [], "transcription": []}
    missing_files = []  # Lista para rastrear archivos faltantes
    invalid_transcriptions = []  # Lista para rastrear transcripciones vacías o inválidas

    for entry in data_json:
        # Obtener nombres de los archivos desde el JSON
        audio_file = entry["nombreFichero"]
        transcription_file = entry["transcripcionCorrecta"]
        
        # Construir rutas completas para los archivos de audio y transcripciones
        audio_path = os.path.join(audio_dir, audio_file)
        transcription_path = os.path.join(transcriptions_dir, transcription_file)
        
        # Verificar si ambos archivos existen
        if os.path.exists(audio_path) and os.path.exists(transcription_path):
            # Leer y limpiar la transcripción
            with open(transcription_path, 'r') as f:
                transcription = f.read().strip()
            
            # Verificar que la transcripción no esté vacía o contenga solo espacios
            if transcription:
                # Comprobar si el archivo de audio tiene un formato válido
                try:
                    # Intenta cargar el archivo de audio
                    _ = sf.read(audio_path)
                    data["audio"].append(audio_path)
                    data["transcription"].append(transcription)
                except Exception as e:
                    print(f"Error al cargar el archivo de audio {audio_path}: {e}")
                    missing_files.append(audio_path)
            else:
                invalid_transcriptions.append(transcription_path)
        else:
            # Agregar archivos faltantes a la lista
            if not os.path.exists(audio_path):
                missing_files.append(audio_path)
            if not os.path.exists(transcription_path):
                missing_files.append(transcription_path)
    
    # Mostrar los archivos faltantes y las transcripciones inválidas
    if missing_files:
        print("Archivos faltantes:")
        for missing in missing_files:
            print(missing)
    if invalid_transcriptions:
        print("Transcripciones inválidas (vacías):")
        for invalid in invalid_transcriptions:
            print(invalid)
    
    return data

# Cargar los datos de entrenamiento
data_train = load_data_from_json(json_path_train, audio_dir, transcriptions_dir)

# Verificar cuántos datos se han cargado para entrenamiento
print(f"Número de archivos de audio cargados en data_train: {len(data_train['audio'])}")
print(f"Número de transcripciones cargadas en data_train: {len(data_train['transcription'])}")

# Verificar que los audios y las transcripciones de entrenamiento están correctamente cargados
# Imprimir una muestra de los datos de entrenamiento cargados
print("\nMuestra de los datos cargados para entrenamiento:")
for i in range(min(3, len(data_train['audio']))):  # Mostrar las primeras 3 muestras
    audio = data_train["audio"][i]
    transcription = data_train["transcription"][i]
    print(f"Audio {i+1}: {audio}")
    print(f"Transcription {i+1}: {transcription}\n")

# Cargar los datos de prueba
data_test = load_data_from_json(json_path_test, audio_dir_test, transcriptions_dir_test)

# Verificar cuántos datos se han cargado para test
print(f"Número de archivos de audio cargados en data_test: {len(data_test['audio'])}")
print(f"Número de transcripciones cargadas en data_test: {len(data_test['transcription'])}")

# Verificar que los audios y las transcripciones de test están correctamente cargados
# Imprimir una muestra de los datos de prueba cargados
print("\nMuestra de los datos cargados para test:")
for i in range(min(3, len(data_test['audio']))):  # Mostrar las primeras 3 muestras
    audio = data_test["audio"][i]
    transcription = data_test["transcription"][i]
    print(f"Audio {i+1}: {audio}")
    print(f"Transcription {i+1}: {transcription}\n")


Número de archivos de audio cargados en data_train: 531
Número de transcripciones cargadas en data_train: 531

Muestra de los datos cargados para entrenamiento:
Audio 1: ./train/17329-20230629-0004-002.wav
Transcription 1: Can we get a split, please?

Audio 2: ./train/17329-20230629-0004-004.wav
Transcription 2: Copy, 5-6.

Audio 3: ./train/17329-20230629-0004-005.wav
Transcription 3: 6-S, port side.

Número de archivos de audio cargados en data_test: 131
Número de transcripciones cargadas en data_test: 131

Muestra de los datos cargados para test:
Audio 1: ./test/17329-20230629-0004-001.wav
Transcription 1: Yeah, we're all finished with drills.

Audio 2: ./test/17329-20230629-0004-003.wav
Transcription 2: Sure, 5-6.

Audio 3: ./test/17329-20230629-0004-011.wav
Transcription 3: I've got to give that my hand.



### División de los Datos en Entrenamiento y Prueba

En esta celda, se realiza una división simple de los datos para separar un subconjunto pequeño de prueba de los datos de entrenamiento. Esto es útil para evaluar el rendimiento del modelo en un conjunto de datos que no ha sido utilizado durante el entrenamiento.

#### Pasos realizados:
1. **Creación del conjunto de prueba (`data_test`):**
   - Se seleccionan las primeras 20 muestras de los datos de audio y transcripciones de `data_train`.
   - Este conjunto será utilizado para pruebas o validación posterior.

2. **Actualización del conjunto de entrenamiento (`data_train`):**
   - Se eliminan las primeras 20 muestras de `data_train`, dejando el resto de los datos para el entrenamiento del modelo.

3. **Verificación de los tamaños:**
   - Se imprimen los tamaños de ambos conjuntos para asegurarse de que la división se realizó correctamente.

#### Nota:
- **Por qué 20 muestras:** Este número es arbitrario y puede ajustarse según la cantidad de datos disponibles o los requerimientos del experimento.
- Es importante que el conjunto de prueba sea representativo del conjunto completo para obtener resultados fiables durante la evaluación.


In [30]:
# # Dividimos los datos en un conjunto de prueba (primeros 20 datos) y el resto para entrenamiento.
# # Creamos el conjunto de prueba con las primeras 20 muestras
# data_test = {
#     "audio": data_train["audio"][:20],
#     "transcription": data_train["transcription"][:20]
# }

# # Modificamos el conjunto de entrenamiento eliminando las primeras 20 muestras
# data_train = {
#     "audio": data_train["audio"][20:],  # Usamos 20 en lugar de 21 para evitar perder una muestra
#     "transcription": data_train["transcription"][20:]
# }

# # Verificar el tamaño de ambos conjuntos
# print(f"Número de datos en el conjunto de prueba (data_test): {len(data_test['audio'])}")
# print(f"Número de datos en el conjunto de entrenamiento (data_train): {len(data_train['audio'])}")


### Conversión de los Datos en Formatos Compatibles con Hugging Face

En esta celda, se transforma la estructura de los datos en un formato compatible con la biblioteca **Hugging Face Datasets**, lo que facilita su uso para tareas de procesamiento y entrenamiento de modelos. A continuación, se explican los pasos realizados:

1. **Creación de DataFrames con pandas:**
   - Se utiliza **pandas** para crear tablas con columnas `audio` (rutas de los archivos de audio) y `transcription` (las transcripciones correspondientes).
   - Esto permite una organización clara de los datos.

2. **Conversión a `Dataset` de Hugging Face:**
   - Los DataFrames se convierten en objetos `Dataset`, que son la estructura principal utilizada por la biblioteca Hugging Face para manejar datos.

3. **Creación de un `DatasetDict`:**
   - Se agrupan los conjuntos de entrenamiento (`train`) y prueba (`test`) en un solo objeto `DatasetDict` para facilitar su manejo.

4. **Conversión de la columna `audio`:**
   - La columna `audio` se transforma utilizando `Audio` de Hugging Face, especificando una frecuencia de muestreo de **16 kHz**.
   - Esto asegura que los archivos de audio sean cargados y procesados de manera uniforme.

5. **Verificación del conjunto de datos:**
   - Se imprime la estructura del conjunto de datos de entrenamiento (`data["train"]`) para comprobar que la conversión fue exitosa.

#### Ventaja de esta transformación:
Este formato es ideal para integrarse con modelos como **Whisper**, ya que Hugging Face proporciona herramientas para manejar datasets de audio con columnas sincronizadas para entrenamiento y evaluación.



In [31]:
# Convertir los datos de entrenamiento y prueba a DataFrames de pandas
df_train = pd.DataFrame({
    "audio": data_train["audio"],          # Rutas de los archivos de audio para entrenamiento
    "transcription": data_train["transcription"]  # Transcripciones correspondientes
})

df_test = pd.DataFrame({
    "audio": data_test["audio"],           # Rutas de los archivos de audio para prueba
    "transcription": data_test["transcription"]   # Transcripciones correspondientes
})

# Convertir los DataFrames de pandas a objetos Dataset de Hugging Face
train_dataset = Dataset.from_pandas(df_train)
test_dataset = Dataset.from_pandas(df_test)

# Crear un DatasetDict para organizar los conjuntos de entrenamiento y prueba
data = DatasetDict({
    "train": train_dataset,  # Conjunto de entrenamiento
    "test": test_dataset     # Conjunto de prueba
})

# Convertir la columna "audio" a un formato compatible con Hugging Face para cargar los datos de audio
# Configuramos una frecuencia de muestreo de 16 kHz
data = data.cast_column("audio", Audio(sampling_rate=16000))

# Verificar la estructura del conjunto de datos
print(data["train"])
print(data["test"])

Dataset({
    features: ['audio', 'transcription'],
    num_rows: 531
})
Dataset({
    features: ['audio', 'transcription'],
    num_rows: 131
})


### Verificación de la Estructura del DatasetDict y Carga de Ejemplos de Audio

En esta celda, se realiza una verificación de la estructura general del **DatasetDict** y se accede a algunos ejemplos de los datos de audio para asegurarnos de que los datos han sido cargados correctamente. A continuación, se describen los pasos realizados:

1. **Verificación de la estructura del DatasetDict:**
   - Se imprime el **DatasetDict** completo para obtener una visión general de los datos organizados en los conjuntos de **entrenamiento** y **prueba**.

2. **Acceso y procesamiento de ejemplos de audio:**
   - Se accede a los primeros 3 ejemplos del conjunto de prueba (`data["test"]`) para verificar que los datos de audio y las transcripciones estén correctamente cargados.
   
   - Para cada ejemplo:
     - Se imprime una muestra de los primeros 10 valores del **audio** cargado, que es un array de valores de la onda sonora.
     - Se muestra la **frecuencia de muestreo** del audio (debe ser de 16 kHz, ya que se especificó anteriormente).
     - Se imprime la **transcripción** correspondiente al audio.
     - Finalmente, se imprime el **tamaño** del array de audio, lo que proporciona una idea del tamaño del archivo de audio y la duración de la grabación.

3. **Objetivo de esta verificación:**
   - Asegurarse de que los archivos de audio se han cargado correctamente en el formato esperado y que las transcripciones son las correctas.

Este paso es importante para validar que la conversión a `DatasetDict` y la carga de archivos de audio se realizó correctamente y que los datos están listos para el entrenamiento del modelo.


In [32]:
# Verificar la estructura general del DatasetDict
print(data)

# Acceder y procesar algunos ejemplos de los datos de audio
# Esto cargará automáticamente el audio desde las rutas especificadas y lo procesará
for i in range(3):  # Mostrar y verificar los primeros 3 ejemplos
    # Acceder al audio y su transcripción
    audio_data = data["test"][i]["audio"]   # Cargar el audio desde el conjunto de prueba
    transcription = data["test"][i]["transcription"]  # Obtener la transcripción correspondiente
    
    # Mostrar los primeros 10 valores del audio como una muestra
    print(f"Audio {i+1} info: {audio_data['array'][:10]}... (muestra de los primeros 10 valores)")
    
    # Imprimir la frecuencia de muestreo del audio
    print(f"Sampling rate: {audio_data['sampling_rate']}")
    
    # Imprimir la transcripción correspondiente al audio
    print(f"Transcription: {transcription}\n")
    
    # Obtener y mostrar el tamaño del array del audio (dimensiones del archivo de audio cargado)
    array_size = audio_data['array'].shape
    print("El tamaño del array es:", array_size)


DatasetDict({
    train: Dataset({
        features: ['audio', 'transcription'],
        num_rows: 531
    })
    test: Dataset({
        features: ['audio', 'transcription'],
        num_rows: 131
    })
})
Audio 1 info: [ 0.0017749   0.00098602 -0.00814052  0.00543846  0.00554781 -0.01860339
 -0.02447864 -0.01820134 -0.01587864 -0.00732416]... (muestra de los primeros 10 valores)
Sampling rate: 16000
Transcription: Yeah, we're all finished with drills.

El tamaño del array es: (20160,)
Audio 2 info: [-0.01337446 -0.0035201   0.0081726  -0.00229641 -0.01017429 -0.00603535
  0.00391879  0.00044582 -0.00639861 -0.00540883]... (muestra de los primeros 10 valores)
Sampling rate: 16000
Transcription: Sure, 5-6.

El tamaño del array es: (7040,)
Audio 3 info: [-0.16411234 -0.17265981 -0.07533188 -0.024495    0.01370845 -0.00356321
  0.0020101  -0.00602992 -0.00916924 -0.00242487]... (muestra de los primeros 10 valores)
Sampling rate: 16000
Transcription: I've got to give that my hand.

El ta

### Preprocesamiento del Conjunto de Datos para el Modelo Whisper

En esta celda, se lleva a cabo el preprocesamiento necesario para convertir los datos en un formato adecuado para ser alimentados al modelo **Whisper**. Este proceso incluye la conversión de datos de audio en características que el modelo puede interpretar y la codificación de las transcripciones como secuencias de ids de tokens.

#### Pasos realizados:

1. **Carga de componentes de Whisper:**
   - **WhisperFeatureExtractor:** Extrae características log-Mel del audio, que son adecuadas para la entrada del modelo.
   - **WhisperTokenizer:** Convierte las transcripciones de texto en ids de tokens que el modelo puede entender.
   - **WhisperProcessor:** Combina el extractor de características y el tokenizador en un solo proceso.

2. **Definición de la función `prepare_dataset`:**
   - Esta función recibe un **batch** de datos y realiza dos transformaciones principales:
     - **Audio:** Convierte los archivos de audio en características log-Mel con el extractor de características de Whisper. También asegura que el audio esté a una frecuencia de muestreo de 16 kHz.
     - **Transcripción:** Convierte la transcripción de texto en una secuencia de **ids de tokens** utilizando el tokenizador de Whisper.
   
3. **Aplicación del preprocesamiento:**
   - Se aplica la función `prepare_dataset` a todo el conjunto de datos utilizando el método `map()` de **Hugging Face Datasets**, lo que permite preprocesar los datos de manera eficiente.
   - Se eliminan las columnas originales de audio y transcripción después del preprocesamiento, dejando solo las características (`input_features`) y las etiquetas (`labels`).

4. **Parámetros:**
   - **`num_proc=1`:** Este parámetro especifica el número de procesos paralelos que se utilizarán para aplicar el preprocesamiento. Se puede aumentar para optimizar el tiempo si se tienen más recursos.
   - **`remove_columns`:** Se elimina la columna original de audio y transcripción para dejar solo los datos necesarios para el entrenamiento.

#### Resultado:
- El conjunto de datos resultante está ahora listo para ser utilizado en el entrenamiento de un modelo de transcripción automático con Whisper.


In [33]:
# Importar las herramientas necesarias de Hugging Face para el procesamiento de audio y texto
from transformers import WhisperFeatureExtractor

# Cargar el extractor de características de Whisper desde el modelo preentrenado
feature_extractor = WhisperFeatureExtractor.from_pretrained(modelo)

from transformers import WhisperTokenizer

# Cargar el tokenizador de Whisper para preprocesar las transcripciones (texto)
tokenizer = WhisperTokenizer.from_pretrained(modelo, language=language, task=task)

from transformers import WhisperProcessor

# Cargar el procesador que combina el extractor de características y el tokenizador
processor = WhisperProcessor.from_pretrained(modelo, language=language, task=task)

# Función para preparar y preprocesar los datos del dataset
def prepare_dataset(batch):
    """
    Esta función procesa un lote de datos de audio y transcripciones:
    - Convierte el audio en características log-Mel.
    - Codifica el texto de la transcripción en ids de tokens.

    Args:
        batch (dict): Un lote de datos que contiene audio y transcripción.

    Returns:
        dict: Un diccionario con las características del audio y las transcripciones codificadas.
    """
    # Cargar y re-muestrear los datos de audio a 16 kHz
    audio = batch["audio"]

    # Extraer características log-Mel desde el audio
    batch["input_features"] = feature_extractor(audio["array"], sampling_rate=audio["sampling_rate"]).input_features[0]

    # Codificar el texto de la transcripción en ids de tokens (labels)
    batch["labels"] = tokenizer(batch["transcription"]).input_ids
    return batch

# Verificar las columnas del conjunto de datos de entrenamiento
print(data.column_names["train"])

# Aplicar el preprocesamiento a los conjuntos de entrenamiento y prueba
# La función 'prepare_dataset' se aplica a cada elemento del conjunto de datos
# Se eliminan las columnas originales de audio y transcripción del dataset
processed_dataset = data.map(prepare_dataset, remove_columns=data.column_names["train"], num_proc=1)


['audio', 'transcription']


Map: 100%|████████████████████████████| 531/531 [00:02<00:00, 187.83 examples/s]
Map: 100%|████████████████████████████| 131/131 [00:00<00:00, 177.63 examples/s]


In [34]:
print(data["train"][0])
print(data["test"][0])

{'audio': {'path': './train/17329-20230629-0004-002.wav', 'array': array([-0.01159347, -0.00845765,  0.0174444 , ...,  0.00283612,
        0.00925337, -0.00678982]), 'sampling_rate': 16000}, 'transcription': 'Can we get a split, please?'}
{'audio': {'path': './test/17329-20230629-0004-001.wav', 'array': array([ 0.0017749 ,  0.00098602, -0.00814052, ..., -0.03541334,
       -0.02834846, -0.00456005]), 'sampling_rate': 16000}, 'transcription': "Yeah, we're all finished with drills."}


### Preprocesamiento del Conjunto de Datos para el Modelo Whisper

En esta celda, se lleva a cabo el preprocesamiento necesario para convertir los datos en un formato adecuado para ser alimentados al modelo **Whisper**. Este proceso incluye la conversión de datos de audio en características que el modelo puede interpretar y la codificación de las transcripciones como secuencias de **ids de tokens**.

#### Pasos realizados:

1. **Carga de componentes de Whisper:**
   - **WhisperFeatureExtractor:** Extrae características log-Mel del audio, que son adecuadas para la entrada del modelo.
   - **WhisperTokenizer:** Convierte las transcripciones de texto en **ids de tokens** que el modelo puede entender.
   - **WhisperProcessor:** Combina el extractor de características y el tokenizador en un solo proceso.

2. **Definición de la función `prepare_dataset`:**
   - Esta función recibe un **batch** de datos y realiza dos transformaciones principales:
     - **Audio:** Convierte los archivos de audio en características log-Mel con el extractor de características de Whisper. También asegura que el audio esté a una frecuencia de muestreo de **16 kHz**.
     - **Transcripción:** Convierte la transcripción de texto en una secuencia de **ids de tokens** utilizando el tokenizador de Whisper.
   
3. **Aplicación del preprocesamiento:**
   - Se aplica la función `prepare_dataset` a todo el conjunto de datos utilizando el método `map()` de **Hugging Face Datasets**, lo que permite preprocesar los datos de manera eficiente.
   - Se eliminan las columnas originales de **audio** y **transcripción** después del preprocesamiento, dejando solo las características (**input_features**) y las etiquetas (**labels**).

4. **Parámetros:**
   - **`num_proc=1`:** Este parámetro especifica el número de procesos paralelos que se utilizarán para aplicar el preprocesamiento. Se puede aumentar para optimizar el tiempo si se tienen más recursos.
   - **`remove_columns`:** Se elimina la columna original de **audio** y **transcripción** para dejar solo los datos necesarios para el entrenamiento.

#### Resultado:
El conjunto de datos resultante está ahora listo para ser utilizado en el entrenamiento de un modelo de transcripción automático con **Whisper**.


In [35]:
import torch
from dataclasses import dataclass
from typing import Any, Dict, List, Union

# Definir un DataCollator personalizado que gestiona el padding y la preparación de los datos
@dataclass
class DataCollatorSpeechSeq2SeqWithPadding:
    processor: Any  # El procesador utilizado para manejar audio y texto

    def __call__(self, features: List[Dict[str, Union[List[int], torch.Tensor]]]) -> Dict[str, torch.Tensor]:
        """
        Esta función prepara un batch de datos de audio y transcripciones para el modelo.
        El preprocesamiento incluye el padding de las entradas y etiquetas para que tengan tamaños uniformes.
        
        Args:
            features (List[Dict]): Una lista de diccionarios con las características (audio) y etiquetas (transcripciones)
        
        Returns:
            Dict: Un diccionario con las entradas y etiquetas procesadas, listas para ser alimentadas al modelo.
        """
        
        # Primero tratamos las entradas de audio, que son las características extraídas del audio
        input_features = [{"input_features": feature["input_features"]} for feature in features]
        # Aplicamos padding a las características del audio y las convertimos a tensores de PyTorch
        batch = self.processor.feature_extractor.pad(input_features, return_tensors="pt")

        # Obtener las secuencias de etiquetas (transcripciones tokenizadas)
        label_features = [{"input_ids": feature["labels"]} for feature in features]
        # Aplicamos padding a las etiquetas (transcripciones)
        labels_batch = self.processor.tokenizer.pad(label_features, return_tensors="pt")

        # Reemplazar los tokens de padding con -100 para que el modelo los ignore durante el cálculo de la pérdida
        labels = labels_batch["input_ids"].masked_fill(labels_batch.attention_mask.ne(1), -100)

        # Si el token de inicio de secuencia (bos_token) fue agregado en la tokenización anterior,
        # lo eliminamos aquí, ya que se agregará nuevamente más tarde.
        if (labels[:, 0] == self.processor.tokenizer.bos_token_id).all().cpu().item():
            labels = labels[:, 1:]

        # Agregamos las etiquetas procesadas al batch
        batch["labels"] = labels

        return batch


### Cálculo de la Métrica WER (Word Error Rate) para Evaluación

En esta celda se define una función para calcular la métrica de **Word Error Rate (WER)**, que es comúnmente utilizada para evaluar la precisión de los modelos de transcripción automática. La función utiliza la biblioteca **`evaluate`** de Hugging Face para cargar y calcular esta métrica a partir de las predicciones y las transcripciones reales.

#### Pasos realizados:

1. **Carga de la métrica WER:**
   - **`evaluate.load("wer")`:** Se carga la métrica WER utilizando la biblioteca **`evaluate`**, la cual proporciona herramientas para calcular diversas métricas de evaluación para modelos de procesamiento de lenguaje natural.

2. **Definición de la función `compute_metrics`:**
   - Esta función recibe como argumento las predicciones realizadas por el modelo y las etiquetas reales. Luego, realiza las siguientes operaciones:
     - **Obtenemos las predicciones y las etiquetas:** Extraemos las predicciones (`pred.predictions`) y las etiquetas verdaderas (`pred.label_ids`).
     - **Reemplazamos los tokens de padding:** Los tokens de padding en las etiquetas se marcan con **`-100`**. Estos valores se reemplazan por el **`pad_token_id`** del tokenizador, ya que no deben ser considerados al calcular la métrica.
     - **Decodificación de las secuencias:** Las secuencias de ids de tokens se convierten de nuevo a texto utilizando **`tokenizer.batch_decode`**, lo que convierte tanto las predicciones como las etiquetas en cadenas de texto sin tokens especiales.
     - **Cálculo de la métrica WER:** Finalmente, se calcula el **WER** utilizando la función **`metric.compute`**, que compara las predicciones con las etiquetas y devuelve el porcentaje de error.

3. **Resultado de la función:**
   - La función devuelve un diccionario con la métrica **WER** calculada, que es la diferencia entre las palabras predichas y las reales.

#### Resultado:
La función **`compute_metrics`** permite evaluar el rendimiento del modelo de transcripción, específicamente en términos de la precisión de las palabras transcritas en comparación con las transcripciones reales.


In [36]:
# Importar la librería 'evaluate' para cargar la métrica WER (Word Error Rate)
import evaluate

# Cargar la métrica WER desde la librería 'evaluate'
metric = evaluate.load("wer")

# Definimos la función para calcular las métricas
def compute_metrics(pred):
    # Extraer las predicciones (IDs de los tokens) y las etiquetas verdaderas (label IDs)
    pred_ids = pred.predictions
    label_ids = pred.label_ids

    # Reemplazar los valores -100 (que indican padding) por el token de padding del tokenizador
    label_ids[label_ids == -100] = tokenizer.pad_token_id

    # Decodificar las secuencias de predicciones y etiquetas a texto, ignorando los tokens especiales
    pred_str = tokenizer.batch_decode(pred_ids, skip_special_tokens=True)
    label_str = tokenizer.batch_decode(label_ids, skip_special_tokens=True)

    # Calcular la métrica WER comparando las transcripciones predichas con las verdaderas
    wer = 100 * metric.compute(predictions=pred_str, references=label_str)

    # Devolver el resultado de la métrica WER
    return {"wer": wer}


In [37]:
# Importar la clase WhisperForConditionalGeneration de Hugging Face
from transformers import WhisperForConditionalGeneration

# Cargar el modelo Whisper para generación condicional, configurando 8-bit y asignación automática de dispositivo
model = WhisperForConditionalGeneration.from_pretrained(
    modelo,  # Especificar el nombre del modelo preentrenado
    load_in_8bit=True,  # Cargar el modelo con precisión de 8 bits para ahorrar memoria
    device_map="auto"   # Cargar automáticamente el modelo en el dispositivo disponible (CPU/GPU)
)


The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


In [38]:
# Importar la función para preparar el modelo para entrenamiento con precisión reducida
from peft import prepare_model_for_kbit_training

# Preparar el modelo para entrenamiento utilizando k-bit (precisión reducida)
model = prepare_model_for_kbit_training(model)  # El modelo se prepara para usar precisión reducida en k bits

# Nota: El siguiente método es una alternativa si la función anterior no está disponible en la versión de PEFT
# model = prepare_model_for_int8_training(model)  # Usar este método si se quiere trabajar con 8-bit de precisión

# También se puede personalizar especificando la capa de embeddings de salida, aunque no se está utilizando en este ejemplo:
# model = prepare_model_for_kbit_training(model, output_embedding_layer_name="proj_out")


### Registro de un Hook de Forward para Requerir Gradientes en la Salida

En esta celda se registra un hook en el modelo, específicamente en la capa **conv1** del codificador (**encoder**) del modelo, para asegurarse de que la salida de esta capa tendrá gradientes habilitados durante la retropropagación. Este tipo de modificaciones son útiles cuando se requiere calcular gradientes en capas específicas del modelo para tareas como la interpretación de modelos o el entrenamiento con un enfoque personalizado.

#### Pasos realizados:

1. **Definición del Hook `make_inputs_require_grad`:**
   - Se define una función que será utilizada como un "hook" en la capa del modelo. Un hook es una función que se ejecuta durante el paso hacia adelante (**forward pass**) del modelo, y permite acceder a la entrada, la salida y otras características del modelo sin modificar el flujo general del mismo.
   - La función **`make_inputs_require_grad`** se asegura de que la salida de la capa en la que se aplica tendrá gradientes habilitados, utilizando **`output.requires_grad_(True)`**. Esto es importante cuando se desea que una capa específica calcule gradientes, incluso si por defecto no lo hace.

2. **Registro del Hook en la Capa `conv1`:**
   - **`model.model.encoder.conv1.register_forward_hook(make_inputs_require_grad)`**: Aquí se está registrando el hook **`make_inputs_require_grad`** en la capa **`conv1`** del codificador (**encoder**) del modelo. Esto asegura que en cada pase hacia adelante por esa capa, la salida tendrá gradientes habilitados.
   - Los hooks de forward permiten modificar el comportamiento del modelo de manera dinámica sin cambiar la arquitectura subyacente. En este caso, se está modificando cómo se manejan los gradientes en la capa **`conv1`**.

#### Resultado:
- Después de registrar este hook, cualquier salida de la capa **`conv1`** tendrá gradientes habilitados, lo que puede ser útil para técnicas como el cálculo de gradientes a través de capas específicas del modelo o para propósitos de depuración.


In [39]:
# Definir un hook para habilitar los gradientes en la salida de la capa
def make_inputs_require_grad(module, input, output):
    output.requires_grad_(True)

# Registrar el hook en la capa conv1 del codificador (encoder) del modelo
model.model.encoder.conv1.register_forward_hook(make_inputs_require_grad)


<torch.utils.hooks.RemovableHandle at 0x7d8c55f2e4a0>

### Configuración y Aplicación de LoRA en el Modelo

En esta celda, se configura y aplica LoRA (Low-Rank Adaptation) en el modelo preexistente. LoRA es una técnica que permite realizar ajustes eficientes en modelos preentrenados mediante la adición de matrices de bajo rango, lo cual mejora el rendimiento en tareas específicas sin tener que entrenar todo el modelo desde cero.

#### Pasos realizados:

1. **Configuración de LoRA (`LoraConfig`):**
   - Se crea un objeto de configuración para LoRA mediante la clase **`LoraConfig`**.
     - **`r=32`**: Este parámetro especifica el rango de las matrices de adaptación de bajo rango que se agregarán a las capas de atención del modelo.
     - **`lora_alpha=64`**: Un factor de escala para las actualizaciones de LoRA, que controla la magnitud de la adaptación.
     - **`target_modules=["q_proj", "v_proj"]`**: Las capas del modelo objetivo que se adaptarán. En este caso, se están seleccionando las capas de proyección de consultas (**`q_proj`**) y valores (**`v_proj`**) de la atención.
     - **`lora_dropout=0.05`**: Se aplica un pequeño valor de **dropout** (descarte aleatorio de unidades) para regularizar el entrenamiento.
     - **`bias="none"`**: Se especifica que no se debe incluir un sesgo (bias) en las capas adaptativas.

2. **Aplicación de LoRA al Modelo:**
   - **`get_peft_model(model, config)`**: La función **`get_peft_model`** aplica la configuración de LoRA al modelo preentrenado, integrando las adaptaciones de bajo rango según la configuración proporcionada.

3. **Impresión de Parámetros Entrenables:**
   - **`model.print_trainable_parameters()`**: Esta línea imprime los parámetros del modelo que son entrenables, lo que permite verificar qué partes del modelo se están ajustando durante el entrenamiento (en este caso, las capas de LoRA).

#### Resultado:
- El modelo ahora tiene configuraciones específicas de LoRA que permiten una adaptación eficiente en las capas seleccionadas sin modificar todo el modelo.


In [40]:
# Importación de las librerías necesarias para LoRA
from peft import LoraConfig, PeftModel, LoraModel, LoraConfig, get_peft_model
from torch.optim import AdamW  # Importar el optimizador AdamW

# Configuración de LoRA con parámetros específicos
config = LoraConfig(
    r=32,  # Rango de las matrices de bajo rango
    lora_alpha=64,  # Factor de escala
    target_modules=["q_proj", "v_proj"],  # Selección de las capas de proyección
    lora_dropout=0.1,  # Dropout para regularización
    bias="none"  # No incluir bias
)

# Aplicar LoRA al modelo utilizando la configuración definida
model = get_peft_model(model, config)

# Imprimir los parámetros entrenables del modelo
model.print_trainable_parameters()

# Usar AdamW con regularización L2 (weight decay)
optimizer = AdamW(model.parameters(), lr=5e-5, weight_decay=0.01)

# Ahora puedes usar este optimizador en tu ciclo de entrenamiento


trainable params: 15,728,640 || all params: 1,559,033,600 || trainable%: 1.0089


### Configuración de los Parámetros de Entrenamiento con `Seq2SeqTrainingArguments`

En esta celda se configuran los parámetros de entrenamiento utilizando la clase **`Seq2SeqTrainingArguments`** de la librería **Transformers**. Esta clase facilita la configuración de los hiperparámetros necesarios para entrenar un modelo de secuencia a secuencia, como el modelo Whisper o cualquier otro basado en transformadores.

#### Pasos realizados:

1. **`output_dir="reach-vb/test"`**: Define el directorio donde se guardarán los resultados del entrenamiento, incluyendo los checkpoints y el modelo entrenado. Puedes cambiar el nombre de la carpeta según sea necesario.

2. **`per_device_train_batch_size=8`**: Establece el tamaño del batch (lote) de entrenamiento por dispositivo (GPU o CPU). En este caso, se utiliza un tamaño de lote de 8 para cada dispositivo.

3. **`gradient_accumulation_steps=1`**: Si se usa un tamaño de batch grande, se puede acumular el gradiente durante varios pasos antes de realizar una actualización de los pesos del modelo. En este caso, se acumula el gradiente por cada paso.

4. **`learning_rate=1e-3`**: Define la tasa de aprendizaje, que controla la magnitud de las actualizaciones a los pesos del modelo. Se ha establecido a **1e-3**.

5. **`warmup_steps=50`**: Especifica el número de pasos de calentamiento (warmup) para la tasa de aprendizaje. Durante estos pasos, la tasa de aprendizaje aumentará progresivamente hasta alcanzar el valor definido en **`learning_rate`**.

6. **`num_train_epochs=5`**: Define el número de épocas de entrenamiento. Cada época representa una iteración completa sobre el conjunto de datos de entrenamiento.

7. **`evaluation_strategy="steps"`**: Define la estrategia para la evaluación del modelo. En este caso, se evalúa el modelo cada ciertos pasos de entrenamiento, no cada época.

8. **`fp16=True`**: Habilita el entrenamiento con **precisión de 16 bits**, lo que puede acelerar el proceso y reducir el uso de memoria en GPUs compatibles.

9. **`per_device_eval_batch_size=8`**: Establece el tamaño del batch para la evaluación, que también se ha definido en 8.

10. **`generation_max_length=128`**: Establece la longitud máxima de las secuencias generadas durante la inferencia (cuando el modelo realiza predicciones).

11. **`logging_steps=100`**: Define cada cuántos pasos de entrenamiento se deben registrar los logs. En este caso, cada 100 pasos.

12. **`max_steps=500`**: Define el número máximo de pasos de entrenamiento. Este parámetro es útil para pruebas rápidas, pero en un entrenamiento final se debe eliminar.

13. **`remove_unused_columns=False`**: Si el modelo no utiliza algunas columnas del dataset (como en el caso de **PeftModel**), se debe establecer en **False** para evitar que las columnas no utilizadas se eliminen accidentalmente.

14. **`label_names=["labels"]`**: Especifica el nombre de las columnas que contienen las etiquetas, que en este caso son **`labels`**.

#### Resultado:
- Los parámetros establecidos en **`Seq2SeqTrainingArguments`** configuran el entorno de entrenamiento para el modelo, permitiendo su entrenamiento eficiente con el ajuste de varios hiperparámetros, como el tamaño del lote, la tasa de aprendizaje y la cantidad de pasos de evaluación.


In [41]:
# Importación de los argumentos de entrenamiento para modelos secuenciales
from transformers import Seq2SeqTrainingArguments

# Configuración de los parámetros de entrenamiento para el modelo
training_args = Seq2SeqTrainingArguments(
    output_dir="reach-vb/test",  # Directorio donde se guardarán los resultados
    per_device_train_batch_size=8,  # Tamaño del batch por dispositivo
    gradient_accumulation_steps=1,  # Acumulación de gradientes antes de actualización
    learning_rate=1e-3,  # Tasa de aprendizaje
    warmup_steps=50,  # Número de pasos para el calentamiento de la tasa de aprendizaje
    num_train_epochs=8,  # Número de épocas de entrenamiento
    evaluation_strategy="steps",  # Evaluación cada ciertos pasos
    fp16=True,  # Entrenamiento con precisión de 16 bits
    per_device_eval_batch_size=8,  # Tamaño del batch para la evaluación
    generation_max_length=128,  # Longitud máxima de las secuencias generadas
    logging_steps=100,  # Paso cada cuántos pasos registrar logs
    max_steps=500,  # Número máximo de pasos de entrenamiento (para pruebas)
    remove_unused_columns=False,  # Evitar la eliminación de columnas no utilizadas
    label_names=["labels"],  # Nombre de las columnas de etiquetas
)




### Configuración del Entrenador con el Callback para Guardar Solo los Pesos del Adaptador

En esta celda, se configura un **`Seq2SeqTrainer`** de Hugging Face para entrenar el modelo de transcripción. Además, se implementa un **callback personalizado** para guardar solo los pesos del adaptador (**PEFT**) durante el proceso de guardado, evitando guardar los pesos completos del modelo base.

#### Pasos realizados:

1. **Definición de la clase `SavePeftModelCallback`:**
   - Se crea una clase personalizada que hereda de **`TrainerCallback`** para intervenir durante el proceso de guardado del modelo.
   - El método **`on_save`** se ejecuta cada vez que se guarda un modelo durante el entrenamiento. Aquí se guarda únicamente el adaptador (**PEFT**) y se elimina el archivo de los pesos del modelo base.

2. **Lógica de Guardado del Adaptador:**
   - Se obtiene el directorio de los checkpoints utilizando **`state.global_step`** para nombrar de manera única cada checkpoint.
   - Se guarda el modelo adaptador en una subcarpeta llamada **`adapter_model`**.
   - Si existen pesos del modelo base (**`pytorch_model.bin`**), se eliminan, ya que no son necesarios cuando se utiliza el adaptador.

3. **Configuración del `Seq2SeqTrainer`:**
   - Se configura el **`Seq2SeqTrainer`** para el entrenamiento con los siguientes parámetros:
     - **`training_args`**: Argumentos de entrenamiento previamente configurados.
     - **`model`**: El modelo de transcripción que se entrenará.
     - **`train_dataset`** y **`eval_dataset`**: Los datasets de entrenamiento y evaluación preprocesados.
     - **`data_collator`**: El collator que maneja el padding y las entradas al modelo.
     - **`tokenizer`**: El tokenizador utilizado para preprocesar las entradas de texto.
     - **`callbacks`**: Se agrega el callback **`SavePeftModelCallback`** para manejar el guardado del adaptador.

4. **Desactivación de la Caché del Modelo:**
   - **`model.config.use_cache = False`**: Se desactiva el uso de la caché durante el entrenamiento para evitar posibles problemas con los pesos del modelo adaptado. **Nota importante**: Esta opción debe ser reactivada para la inferencia.

#### Resultado:
- El modelo se entrenará utilizando el **`Seq2SeqTrainer`** con el callback personalizado que asegura que solo los pesos del adaptador sean guardados, optimizando el almacenamiento y manteniendo el tamaño reducido del modelo entrenado.


In [42]:
# Muestra las claves de la primera entrada para inspección
print(processed_dataset["train"][0].keys())


dict_keys(['input_features', 'labels'])


In [43]:
# Importación de las herramientas necesarias para el entrenamiento y el callback
from transformers import Seq2SeqTrainer, TrainerCallback, TrainingArguments, TrainerState, TrainerControl
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
import os
from transformers import DataCollatorForSeq2Seq

# Definir el data collator
data_collator = DataCollatorForSeq2Seq(
    tokenizer=processor.feature_extractor,  # El tokenizador que estás usando
    model=model,  # El modelo que estás entrenando
    padding=True,  # Asegura que se maneje el padding de forma automática
)

# Callback personalizado para guardar solo los pesos del adaptador
class SavePeftModelCallback(TrainerCallback):
    def on_save(
        self,
        args: TrainingArguments,
        state: TrainerState,
        control: TrainerControl,
        **kwargs,
    ):
        # Crear la ruta para el checkpoint
        checkpoint_folder = os.path.join(args.output_dir, f"{PREFIX_CHECKPOINT_DIR}-{state.global_step}")

        # Guardar solo los pesos del adaptador
        peft_model_path = os.path.join(checkpoint_folder, "adapter_model")
        kwargs["model"].save_pretrained(peft_model_path)

        # Eliminar los pesos del modelo base si existen
        pytorch_model_path = os.path.join(checkpoint_folder, "pytorch_model.bin")
        if os.path.exists(pytorch_model_path):
            os.remove(pytorch_model_path)
        
        return control

# Configuración del Seq2SeqTrainer con el callback
trainer = Seq2SeqTrainer(
    args=training_args,  # Argumentos de entrenamiento configurados previamente
    model=model,  # El modelo de transcripción que se entrenará
    train_dataset=processed_dataset["train"],  # Conjunto de datos de entrenamiento
    eval_dataset=processed_dataset["test"],  # Conjunto de datos de evaluación
    data_collator=data_collator,  # Collator que maneja el padding
    tokenizer=processor.feature_extractor,  # Tokenizador para preprocesar entradas
    callbacks=[SavePeftModelCallback],  # Callback personalizado para guardar el adaptador
)

# Desactivación de la caché del modelo durante el entrenamiento
model.config.use_cache = False  # silenciar advertencias. Activar para la inferencia.


  trainer = Seq2SeqTrainer(


In [44]:
trainer.train()

  return fn(*args, **kwargs)


Step,Training Loss,Validation Loss
100,1.2651,0.885917
200,0.497,0.843974
300,0.1958,0.954193
400,0.0824,0.957973
500,0.0205,0.975036


TrainOutput(global_step=500, training_loss=0.4121692199707031, metrics={'train_runtime': 977.491, 'train_samples_per_second': 4.092, 'train_steps_per_second': 0.512, 'total_flos': 8.508177340416e+18, 'train_loss': 0.4121692199707031, 'epoch': 7.462686567164179})

In [45]:
peft_model_id = "kaggle-v1"
model.push_to_hub(peft_model_id, token="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")

adapter_model.safetensors: 100%|███████████| 63.0M/63.0M [00:03<00:00, 16.3MB/s]


CommitInfo(commit_url='https://huggingface.co/Manucn10/kaggle-v1/commit/b35ee181fdce6684923401ce5639b02ee93d5467', commit_message='Upload model', commit_description='', oid='b35ee181fdce6684923401ce5639b02ee93d5467', pr_url=None, repo_url=RepoUrl('https://huggingface.co/Manucn10/kaggle-v1', endpoint='https://huggingface.co', repo_type='model', repo_id='Manucn10/kaggle-v1'), pr_revision=None, pr_num=None)

### Guardado del Modelo y Procesador Entrenados

En esta celda, se guarda tanto el **modelo finamente ajustado** como el **procesador** utilizado para preprocesar los datos. Esto permite reutilizar los componentes entrenados en el futuro sin necesidad de volver a entrenarlos desde cero.

#### Pasos realizados:

1. **Guardado del modelo:**
   - El modelo entrenado se guarda utilizando el método **`save_pretrained()`** en la carpeta **`"./whisper-finetuned-large-v3"`**. Este método guarda todos los pesos y la configuración del modelo, permitiendo que se recargue más tarde para realizar inferencias o continuar el entrenamiento.

2. **Guardado del procesador:**
   - El procesador, que incluye tanto el **extractor de características** como el **tokenizador**, se guarda también en la misma carpeta. Guardar el procesador asegura que el preprocesamiento de los datos se mantenga consistente con el utilizado durante el entrenamiento.

#### Resultado:
- Ambos, el modelo y el procesador, quedan guardados en la carpeta indicada y pueden ser cargados en cualquier momento con **`from_pretrained()`** para hacer predicciones o continuar con el entrenamiento.


In [46]:
# Guardar el modelo y el procesador entrenados
model.save_pretrained("./whisper-finetuned-large-kaggle-v1")
processor.save_pretrained("./whisper-finetuned-large-kaggle-v1")

[]

### Carga del Modelo PEFT para Whisper

En esta celda, se carga el **modelo PEFT** (Parameter Efficient Fine-Tuning) de Whisper previamente ajustado. Este proceso incluye la recuperación de los parámetros entrenados, lo que permite reutilizar el modelo sin tener que volver a entrenarlo desde cero.

#### Pasos realizados:

1. **Definir la ruta del modelo PEFT:**
   - Se especifica la ruta del modelo finamente ajustado (en este caso, **`"./whisper-finetuned-large-v3"`**) que contiene tanto el modelo base como los parámetros PEFT.

2. **Cargar la configuración del modelo PEFT:**
   - Se carga la configuración de PEFT utilizando **`PeftConfig.from_pretrained()`**, lo que proporciona información sobre el modelo base y los parámetros ajustados.

3. **Cargar el modelo base de Whisper:**
   - Se utiliza **`WhisperForConditionalGeneration.from_pretrained()`** para cargar el modelo base de Whisper, especificando que se debe cargar en **8-bit** para ahorrar memoria y habilitar el uso automático del mapeo del dispositivo (**`device_map="auto"`**).

4. **Cargar el modelo PEFT:**
   - Se carga el modelo PEFT con **`PeftModel.from_pretrained()`**, que aplica los parámetros de ajuste eficientes a los pesos del modelo base.

5. **Habilitar el uso de la caché:**
   - Se establece **`model.config.use_cache = True`** para permitir que el modelo almacene en caché las salidas intermedias, acelerando las inferencias.

#### Resultado:
- El modelo PEFT de Whisper está ahora cargado y listo para ser utilizado en tareas de inferencia o entrenamiento adicional. Gracias a PEFT, solo se ajustan un pequeño conjunto de parámetros, lo que hace que el proceso sea más eficiente.


In [47]:
from peft import PeftModel, PeftConfig
from transformers import WhisperForConditionalGeneration, Seq2SeqTrainer

peft_model_id ="./whisper-finetuned-large-kaggle-v1" # Use the same model ID as before.
peft_config = PeftConfig.from_pretrained(peft_model_id)
model = WhisperForConditionalGeneration.from_pretrained(
    peft_config.base_model_name_or_path, load_in_8bit=True, device_map="auto"
)
model = PeftModel.from_pretrained(model, peft_model_id)
model.config.use_cache = True

The `load_in_4bit` and `load_in_8bit` arguments are deprecated and will be removed in the future versions. Please, pass a `BitsAndBytesConfig` object in `quantization_config` argument instead.


### Evaluación del Modelo: Cálculo del WER (Word Error Rate)

Esta celda realiza la evaluación del modelo entrenado utilizando el conjunto de datos de prueba. La evaluación se basa en el cálculo del **Word Error Rate (WER)**, que mide la discrepancia entre las transcripciones generadas y las verdaderas transcripciones de referencia.

#### Pasos realizados:

1. **Configuración de la Evaluación:**
   - Se utiliza un **`DataLoader`** para cargar el conjunto de datos de prueba (`processed_dataset["test"]`) en lotes de tamaño 8.
   - **`forced_decoder_ids`** se obtiene mediante el procesador para garantizar que la generación del modelo esté condicionada por el idioma y la tarea especificados.
   - Se crea un objeto **`BasicTextNormalizer`** para normalizar las predicciones y las referencias antes de calcular el WER, eliminando variaciones innecesarias en el texto.

2. **Evaluación del Modelo:**
   - El modelo se pone en modo **`eval()`** para desactivar el entrenamiento y reducir el uso de memoria.
   - Durante cada paso de evaluación:
     - Se genera la transcripción utilizando el método **`generate()`** del modelo.
     - Las predicciones generadas se decodifican y se comparan con las etiquetas (referencias) utilizando el **tokenizador** de Whisper.
     - Las predicciones y las referencias se almacenan para su posterior evaluación.

3. **Cálculo del WER:**
   - Se calculan dos métricas de WER:
     - **WER**: Mide el error entre las transcripciones generadas y las originales.
     - **Normalized WER**: Calcula el WER después de normalizar las predicciones y las referencias, eliminando variaciones de texto que no afectan el significado.
   - Se imprime el WER normalizado y no normalizado junto con las métricas de evaluación.

#### Resultado:
- Las métricas de WER se calculan y se muestran como un indicador del rendimiento del modelo en el conjunto de datos de prueba.

Este proceso es útil para verificar cómo de bien el modelo realiza las transcripciones y comparar su rendimiento con otros modelos o configuraciones.


In [None]:
import gc
import numpy as np
from tqdm import tqdm
from torch.utils.data import DataLoader
from transformers.models.whisper.english_normalizer import BasicTextNormalizer
import re

# Definir un normalizador personalizado
def custom_normalizer(text):
    # Convertir a minúsculas
    text = text.lower()
    # Eliminar puntuación
    text = re.sub(r"[^\w\s]", "", text)
    # Remover espacios extra
    text = re.sub(r"\s+", " ", text).strip()
    # Otros ajustes específicos del dominio
    text = text.replace("etc", "et cetera")  # Ejemplo
    return text

# Cargar el DataLoader para el conjunto de prueba
eval_dataloader = DataLoader(processed_dataset["test"], batch_size=8, collate_fn=data_collator)

# Forzar ids de decodificador específicos para la tarea e idioma
forced_decoder_ids = processor.get_decoder_prompt_ids(language=language, task=task)

# Inicializar listas para almacenar las predicciones y referencias
predictions = []
references = []
normalized_predictions = []
normalized_references = []

# Establecer el modelo en modo evaluación
model.eval()

# Iterar sobre el DataLoader de evaluación
for step, batch in enumerate(tqdm(eval_dataloader)):
    with torch.cuda.amp.autocast():
        with torch.no_grad():
            # Generar transcripciones a partir del modelo
            generated_tokens = (
                model.generate(
                    input_features=batch["input_features"].to("cuda"),
                    forced_decoder_ids=forced_decoder_ids,
                    max_new_tokens=255,
                    num_beams=3,  # Añadido para mejorar las predicciones
                )
                .cpu()
                .numpy()
            )
            # Obtener las etiquetas y reemplazar los tokens de padding (-100) con el id del token de padding
            labels = batch["labels"].cpu().numpy()
            labels = np.where(labels != -100, labels, processor.tokenizer.pad_token_id)
            
            # Decodificar las predicciones y las etiquetas
            decoded_preds = processor.tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
            decoded_labels = processor.tokenizer.batch_decode(labels, skip_special_tokens=True)

            # Almacenar las predicciones y referencias
            predictions.extend(decoded_preds)
            references.extend(decoded_labels)
            
            # Normalizar las predicciones y las referencias usando el normalizador personalizado
            normalized_predictions.extend([custom_normalizer(pred) for pred in decoded_preds])
            normalized_references.extend([custom_normalizer(label) for label in decoded_labels])

        # Liberar memoria
        del generated_tokens, labels, batch
    gc.collect()

# Filtrar referencias y predicciones vacías
filtered_predictions = [pred for pred, ref in zip(predictions, references) if ref.strip()]
filtered_references = [ref for ref in references if ref.strip()]

filtered_normalized_predictions = [
    pred for pred, ref in zip(normalized_predictions, normalized_references) if ref.strip()
]
filtered_normalized_references = [ref for ref in normalized_references if ref.strip()]

# Calcular el WER
wer = 100 * metric.compute(predictions=filtered_predictions, references=filtered_references)

# Calcular el WER normalizado
normalized_wer = 100 * metric.compute(
    predictions=filtered_normalized_predictions,
    references=filtered_normalized_references,
)

# Almacenar las métricas de evaluación
eval_metrics = {"eval/wer": wer, "eval/normalized_wer": normalized_wer}

# Imprimir las métricas
print(f"{wer=} and {normalized_wer=}")
print(eval_metrics)

# Imprimir las palabras más mal predichas
print("Most mispredicted words:")
for word, count in error_counter.most_common(10):  # Mostrar las 10 palabras más erróneas
    print(f"{word}: {count} times")


In [48]:
from collections import Counter
import gc
import numpy as np
from tqdm import tqdm
from torch.utils.data import DataLoader
from transformers.models.whisper.english_normalizer import BasicTextNormalizer
import re

# Definir un normalizador personalizado
def custom_normalizer(text):
    # Convertir a minúsculas
    text = text.lower()
    # Eliminar puntuación
    text = re.sub(r"[^\w\s]", "", text)
    # Remover espacios extra
    text = re.sub(r"\s+", " ", text).strip()
    # Otros ajustes específicos del dominio
    text = text.replace("etc", "et cetera")  # Ejemplo
    return text

# Cargar el DataLoader para el conjunto de prueba
eval_dataloader = DataLoader(processed_dataset["test"], batch_size=8, collate_fn=data_collator)

# Forzar ids de decodificador específicos para la tarea e idioma
forced_decoder_ids = processor.get_decoder_prompt_ids(language=language, task=task)

# Inicializar listas para almacenar las predicciones y referencias
predictions = []
references = []
normalized_predictions = []
normalized_references = []

# Crear un contador para las palabras erróneas
error_counter = Counter()

# Establecer el modelo en modo evaluación
model.eval()

# Iterar sobre el DataLoader de evaluación
for step, batch in enumerate(tqdm(eval_dataloader)):
    with torch.cuda.amp.autocast():
        with torch.no_grad():
            # Generar transcripciones a partir del modelo
            generated_tokens = (
                model.generate(
                    input_features=batch["input_features"].to("cuda"),
                    forced_decoder_ids=forced_decoder_ids,
                    max_new_tokens=255,
                    num_beams=3,  # Usar un número intermedio de haces (prueba con 5)
                )
                .cpu()
                .numpy()
            )

            # Obtener las etiquetas y reemplazar los tokens de padding (-100) con el id del token de padding
            labels = batch["labels"].cpu().numpy()
            labels = np.where(labels != -100, labels, processor.tokenizer.pad_token_id)
            
            # Decodificar las predicciones y las etiquetas
            decoded_preds = processor.tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)
            decoded_labels = processor.tokenizer.batch_decode(labels, skip_special_tokens=True)

            # Almacenar las predicciones y referencias
            predictions.extend(decoded_preds)
            references.extend(decoded_labels)
            
            # Normalizar las predicciones y las referencias usando el normalizador personalizado
            normalized_predictions.extend([custom_normalizer(pred) for pred in decoded_preds])
            normalized_references.extend([custom_normalizer(label) for label in decoded_labels])

            # Analizar las predicciones erróneas
            for pred, ref in zip(decoded_preds, decoded_labels):
                pred_tokens = pred.split()  # Separar por palabras
                ref_tokens = ref.split()    # Separar por palabras
                
                # Compara palabra por palabra, y si son diferentes, cuenta el error
                for p, r in zip(pred_tokens, ref_tokens):
                    if p != r:
                        error_counter[r] += 1  # Contar cuántas veces se ha cometido este error

        # Liberar memoria
        del generated_tokens, labels, batch
    gc.collect()

# Filtrar referencias y predicciones vacías
filtered_predictions = [pred for pred, ref in zip(predictions, references) if ref.strip()]
filtered_references = [ref for ref in references if ref.strip()]

filtered_normalized_predictions = [
    pred for pred, ref in zip(normalized_predictions, normalized_references) if ref.strip()
]
filtered_normalized_references = [ref for ref in normalized_references if ref.strip()]

# Calcular el WER
wer = 100 * metric.compute(predictions=filtered_predictions, references=filtered_references)

# Calcular el WER normalizado
normalized_wer = 100 * metric.compute(
    predictions=filtered_normalized_predictions,
    references=filtered_normalized_references,
)

# Almacenar las métricas de evaluación
eval_metrics = {"eval/wer": wer, "eval/normalized_wer": normalized_wer}

# Imprimir las métricas
print(f"{wer=} and {normalized_wer=}")
print(eval_metrics)

# Imprimir las palabras más mal predichas
print("Most mispredicted words:")
for word, count in error_counter.most_common(10):  # Mostrar las 10 palabras más erróneas
    print(f"{word}: {count} times")


  with torch.cuda.amp.autocast():
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
100%|███████████████████████████████████████████| 17/17 [00:45<00:00,  2.70s/it]

wer=49.53020134228188 and normalized_wer=46.04026845637584
{'eval/wer': 49.53020134228188, 'eval/normalized_wer': 46.04026845637584}
Most mispredicted words:
to: 10 times
the: 8 times
you: 7 times
thank: 5 times
be: 5 times
you.: 5 times
a: 5 times
on: 5 times
that: 4 times
in: 4 times





In [None]:
print(predictions)

In [None]:
print(references)

In [49]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torch
import soundfile as sf

# Cargar el modelo y el procesador entrenados
model = WhisperForConditionalGeneration.from_pretrained("./whisper-finetuned-large-kaggle-v1")
processor = WhisperProcessor.from_pretrained("./whisper-finetuned-large-kaggle-v1")
model.generation_config.language = "spanish"
model.generation_config.task = "transcribe"
# Configurar el modelo en modo de evaluación
model.eval()


WhisperForConditionalGeneration(
  (model): WhisperModel(
    (encoder): WhisperEncoder(
      (conv1): Conv1d(80, 1280, kernel_size=(3,), stride=(1,), padding=(1,))
      (conv2): Conv1d(1280, 1280, kernel_size=(3,), stride=(2,), padding=(1,))
      (embed_positions): Embedding(1500, 1280)
      (layers): ModuleList(
        (0-31): 32 x WhisperEncoderLayer(
          (self_attn): WhisperSdpaAttention(
            (k_proj): Linear(in_features=1280, out_features=1280, bias=False)
            (v_proj): lora.Linear(
              (base_layer): Linear(in_features=1280, out_features=1280, bias=True)
              (lora_dropout): ModuleDict(
                (default): Dropout(p=0.1, inplace=False)
              )
              (lora_A): ModuleDict(
                (default): Linear(in_features=1280, out_features=32, bias=False)
              )
              (lora_B): ModuleDict(
                (default): Linear(in_features=32, out_features=1280, bias=False)
              )
              (l

In [None]:
from transformers import WhisperProcessor, WhisperForConditionalGeneration
import torch
import soundfile as sf

# Cargar el modelo y el procesador entrenados
#model = WhisperForConditionalGeneration.from_pretrained("./whisper-finetuned")
#processor = WhisperProcessor.from_pretrained("./whisper-finetuned")

# Configurar el modelo en modo de evaluación
model.eval()

def transcribe_audio(audio_path):
    # Cargar el archivo de audio
    audio_input, _ = sf.read(audio_path)
    
    # Preprocesar el archivo de audio
    input_features = processor.feature_extractor(audio_input, sampling_rate=16000, return_tensors="pt").input_features

    # Configurar el idioma del modelo (español)
    forced_decoder_ids = processor.tokenizer.get_decoder_prompt_ids(language="es", task="transcribe")
    
    # Generar la transcripción
    with torch.no_grad():
        predicted_ids = model.generate(input_features, forced_decoder_ids=forced_decoder_ids)

    # Decodificar la transcripción
    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
    return transcription

# Ejemplo de uso
audio_path = "./Test/26052024_AudioConversacion_9.wav"
transcription = transcribe_audio(audio_path)
print("Transcripción:", transcription)
#small entrenado (en la celda de abajo sale esto):     Sí, para pues información, sobre la 1 y media, si 45 minutos después del De Decal va a salir el 
#small entrenado con esta celda sale: Aquí para vuestra información, eh, sobre la oye ya se cuante cinco minutos después del dedicado va a salir el despues del petropec, muy bien, vamos a decir que será de uno, de dos, ¿vale? Te voy a decir un poco si hay más del dedicado o como se lo ve.
#Transcripción: Para dar cualquier información, sobre la o y media, así 45 minutos después del decal, va a salir el del cuarto alrej, o y media más o menos, no sé si será de uno o de dos, ¿eh? ¿Te imaginas los cinco que van al decal o cómo te lo ve?


In [None]:
#comprobar modelo sin entrenar
import torch
from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline,  Wav2Vec2ForCTC, Wav2Vec2Processor


device = "cuda:0" if torch.cuda.is_available() else "cpu"
torch_dtype = torch.float16 if torch.cuda.is_available() else torch.float32

model_id = "./whisper-finetuned-large-Puerto"
#model_id = modelo

model = AutoModelForSpeechSeq2Seq.from_pretrained(
    model_id, torch_dtype=torch_dtype, low_cpu_mem_usage=True,use_safetensors=True
)

processor = AutoProcessor.from_pretrained(model_id)
model.to(device)
pipe = pipeline(
    "automatic-speech-recognition",
    model=model,
    tokenizer=processor.tokenizer,
    feature_extractor=processor.feature_extractor,
    max_new_tokens=128,
    chunk_length_s=30,
    batch_size=16,
    return_timestamps=True,
    torch_dtype=torch_dtype,
    device=device,
   
)

sample = "./Test/26052024_AudioConversacion_9.wav"
result = pipe(sample)
print(result["text"])
#correcta:            Para vuestra información, sobre las 1 y media, 45 minutos después del DEDECAL, va a salir el 
#del cuarto a 3, 1 y media más o menos, no sé si será de 1 o de 2, no podrían ir los mismos 
#que iban al DEDECAL o como ustedes lo vean.
#small sin entrenar:  Si para esta información sobre la 1 y media, si 45 minutos después de el dedical va a salir el 
#4 o 3, por 1 y media más menos. No sé si será de 1 o de 2, pues podrían ir los mismos que van al dedical o como usted lo vea.
#small entrenado:     Sí, para pues información, sobre la 1 y media, si 45 minutos después del De Decal va a salir el 
#cuarto 13, 1 y media, más menos. No sé si será de 1, de 2, me podría venir los mismos que hay van al De Decal o como usted lo veáis.

In [None]:
# Filtrar referencias y predicciones vacías
filtered_predictions = [pred for pred, ref in zip(predictions, references) if ref.strip()]
filtered_references = [ref for ref in references if ref.strip()]

filtered_normalized_predictions = [
    pred for pred, ref in zip(normalized_predictions, normalized_references) if ref.strip()
]
filtered_normalized_references = [ref for ref in normalized_references if ref.strip()]

# Mostrar la cantidad de transcripciones comparadas
num_comparisons = len(filtered_predictions)
print(f"Total de transcripciones comparadas: {num_comparisons}")

# Calcular el WER
wer = 100 * metric.compute(predictions=filtered_predictions, references=filtered_references)

# Calcular el WER normalizado
normalized_wer = 100 * metric.compute(
    predictions=filtered_normalized_predictions,
    references=filtered_normalized_references,
)

# Almacenar las métricas de evaluación
eval_metrics = {"eval/wer": wer, "eval/normalized_wer": normalized_wer}

# Imprimir las métricas
print(f"{wer=:.2f}% and {normalized_wer=:.2f}%")
print(eval_metrics)

# Imprimir las palabras más mal predichas
print("Most mispredicted words:")
for word, count in error_counter.most_common(10):  # Mostrar las 10 palabras más erróneas
    print(f"{word}: {count} times")
