<a href="https://colab.research.google.com/github/lawlete/Varios/blob/main/Entrenamiento_de_Lenguaje_Natural_Version_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

**Ejercicio: Procesamiento de Lenguaje Natural (NLP)**

Utiliza Python y una librería como Hugging Face Transformers para entrenar un modelo que realice una tarea de clasificación de texto (por ejemplo, clasificación de opiniones: positiva o negativa). Proporciona un conjunto de datos de ejemplo (puede ser un pequeño conjunto de datos de reseñas) y demuestra cómo entrenar el modelo, evaluarlo y ajustarlo.

**Respuesta:**
Este script utiliza Python y la librería Hugging Face Transformers para entrenar un modelo de clasificación de texto. En este caso, el modelo se entrena para clasificar reseñas de películas como positivas o negativas utilizando el conjunto de datos IMDB.

Además tambien, se integra Weights & Biases (W&B) para registrar métricas, hiperparámetros y artefactos durante el entrenamiento y la evaluación del modelo.

**Breve comentarios sobre Weights & Biases (W&B)**

Weights & Biases (W&B) es una plataforma de experimentación para machine learning que permite registrar, visualizar y comparar experimentos. Al integrar W&B en este script, podemos aprovechar varias funciones y ventajas:

1. **Registro de Métricas**: W&B registra automáticamente métricas como la precisión y la pérdida durante el entrenamiento y la evaluación del modelo. Esto permite un seguimiento detallado del rendimiento del modelo a lo largo del tiempo.

2. **Registro de Hiperparámetros**: Los hiperparámetros configurados al iniciar el experimento (como la tasa de aprendizaje, el tamaño del lote y el número de épocas) se registran automáticamente. Esto facilita la reproducción de experimentos y la comparación de diferentes configuraciones.

3. **Visualización de Resultados**: W&B proporciona gráficos y paneles interactivos para visualizar el rendimiento del modelo. Esto incluye gráficos de pérdida y precisión, así como visualizaciones de hiperparámetros.

4. **Comparación de Experimentos**: W&B permite comparar fácilmente diferentes experimentos y configuraciones de modelos. Esto es útil para identificar qué configuraciones de hiperparámetros o qué modelos preentrenados funcionan mejor para la tarea específica.

5. **Colaboración**: W&B facilita el trabajo en equipo al permitir compartir experimentos y resultados con otros colaboradores. Esto es especialmente útil en proyectos de investigación o desarrollo colaborativo.

6. **Registro de Artefactos**: Los modelos guardados durante el entrenamiento se registran como artefactos en W&B. Esto permite un seguimiento claro de las versiones del modelo y facilita la gestión de modelos.



Paso 1: Instalación de dependencias
Primero, instala las librerías necesarias

In [3]:
!pip install python-dotenv # para gestionar las API Key de HF y otros
!pip install transformers datasets torch # necesarios para cargar el modelo, el dataset y entrenar
!pip install wandb  # Instalar Weights & Biases
!pip install scikit-learn # Usado para definir las metricas


Collecting python-dotenv
  Downloading python_dotenv-1.0.1-py3-none-any.whl.metadata (23 kB)
Downloading python_dotenv-1.0.1-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.1
Collecting datasets
  Downloading datasets-3.2.0-py3-none-any.whl.metadata (20 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecti

**Cargamos la API TOKEN de Hugging Face**

In [5]:
from dotenv import load_dotenv, find_dotenv
import os
# Verifica y carga el file con las variables de entorno si existe
if load_dotenv(find_dotenv()):
    if "HF_TOKEN" in os.environ: # Verifica que existe la variable HF_KEY
        print("HUGGING FACE API TOKEN cargada") # Imprime el mensaje Si existe la variable de OpenAI
    else:
        print("No se cargo la api_key de HUGGING FACE, debera cargarla manualmente")
else:
      print("No se cargo la api_key, debera cargarla manualmente")

HUGGING FACE API TOKEN cargada


**Inicializamos Weights & Biases (W&B)**

In [29]:
import wandb

# Se debera ingresar la Key de la web de W&B

# Iniciar un nuevo experimento en W&B
wandb.init(project="text-classification-imdb", config={
    "learning_rate": 2e-5,
    "batch_size": 16,
    "epochs": 3,
    "weight_decay": 0.01,
})

Paso 2: Cargar un conjunto de datos
Utilizaremos el conjunto de datos IMDB, que contiene reseñas de películas etiquetadas como positivas (1) o negativas (0). Este conjunto de datos está disponible en la librería datasets de Hugging Face.

In [7]:
from datasets import load_dataset

# Cargar el conjunto de datos IMDB
dataset = load_dataset("imdb")

# Ver la estructura del dataset
print(dataset)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


README.md:   0%|          | 0.00/7.81k [00:00<?, ?B/s]

train-00000-of-00001.parquet:   0%|          | 0.00/21.0M [00:00<?, ?B/s]

test-00000-of-00001.parquet:   0%|          | 0.00/20.5M [00:00<?, ?B/s]

unsupervised-00000-of-00001.parquet:   0%|          | 0.00/42.0M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/25000 [00:00<?, ? examples/s]

Generating unsupervised split:   0%|          | 0/50000 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    test: Dataset({
        features: ['text', 'label'],
        num_rows: 25000
    })
    unsupervised: Dataset({
        features: ['text', 'label'],
        num_rows: 50000
    })
})


**Paso 3: Preprocesamiento de los datos**

**Tokenizamos el texto utilizando un tokenizador preentrenado de Hugging Face.**

**En este caso, usaremos el modelo "distilbert-base-uncased", entre los que hay disponibles en la lista de abajo.**

**Lista de modelos para usar:**

1. **BERT (Bidirectional Encoder Representations from Transformers)**:
   - `bert-base-uncased`: La versión base de BERT sin distinción de mayúsculas y minúsculas.
   - `bert-large-uncased`: Una versión más grande de BERT sin distinción de mayúsculas y minúsculas.
   - `bert-base-cased`: La versión base de BERT con distinción de mayúsculas y minúsculas.
   - `bert-large-cased`: Una versión más grande de BERT con distinción de mayúsculas y minúsculas.

2. **RoBERTa (Robustly Optimized BERT approach)**:
   - `roberta-base`: La versión base de RoBERTa.
   - `roberta-large`: Una versión más grande de RoBERTa.

3. **AlBERT (A Lite BERT)**:
   - `albert-base-v2`: La versión base de AlBERT.
   - `albert-large-v2`: Una versión más grande de AlBERT.

4. **XLNet**:
   - `xlnet-base-cased`: La versión base de XLNet con distinción de mayúsculas y minúsculas.
   - `xlnet-large-cased`: Una versión más grande de XLNet con distinción de mayúsculas y minúsculas.

5. **ELECTRA (Efficiently Learning an Encoder that Classifies Token Replacements Accurately)**:
   - `electra-base-uncased`: La versión base de ELECTRA sin distinción de mayúsculas y minúsculas.
   - `electra-large-uncased`: Una versión más grande de ELECTRA sin distinción de mayúsculas y minúsculas.

6. **DeBERTa (Decoding-enhanced BERT with disentangled attention)**:
   - `deberta-base`: La versión base de DeBERTa.
   - `deberta-large`: Una versión más grande de DeBERTa.

7. **Longformer**:
   - `longformer-base-4096`: La versión base de Longformer, diseñada para manejar secuencias largas.
   - `longformer-large-4096`: Una versión más grande de Longformer.

8. **BigBird**:
   - `bigbird-roberta-base`: La versión base de BigBird, diseñada para manejar secuencias largas.
   - `bigbird-roberta-large`: Una versión más grande de BigBird.

9. **TinyBERT**:
   - `tiny-bert-base-uncased`: Una versión más pequeña y rápida de BERT sin distinción de mayúsculas y minúsculas.

10. **MobileBERT**:
    - `mobilebert-uncased`: Una versión más pequeña y rápida de BERT sin distinción de mayúsculas y minúsculas.



In [25]:
from transformers import AutoTokenizer

#
# Modelos posibles a usar listados arriba
#

modelo = "roberta-base"

# Cargar el tokenizador
tokenizer = AutoTokenizer.from_pretrained(modelo)

# Función para tokenizar el texto
def preprocess_function(examples):
    return tokenizer(examples["text"], truncation=True, padding=True)

# Aplicar tokenización al dataset
tokenized_dataset = dataset.map(preprocess_function, batched=True)

tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/481 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

Map:   0%|          | 0/25000 [00:00<?, ? examples/s]

Map:   0%|          | 0/25000 [00:00<?, ? examples/s]

Map:   0%|          | 0/50000 [00:00<?, ? examples/s]

**Paso 4: Dividir el conjunto de datos**

**Dividimos el conjunto de datos en entrenamiento y evaluación.**

In [26]:
# Dividir el dataset en entrenamiento y evaluación
train_dataset = tokenized_dataset["train"].shuffle(seed=42).select(range(500))  # Usamos solo unas muestras para entrenamiento rápido
eval_dataset = tokenized_dataset["test"].shuffle(seed=42).select(range(50))    # Usamos unas muestras para evaluación

**Paso 5: Entrenar el modelo**

**Cargamos un modelo preentrenado y lo ajustamos para la tarea de clasificación.**

In [27]:
from transformers import AutoModelForSequenceClassification, TrainingArguments, Trainer

In [33]:
from sklearn.metrics import accuracy_score

# Definir la métrica de precisión
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = logits.argmax(axis=-1)
    accuracy = accuracy_score(labels, predictions)
    return {"accuracy": accuracy}


# Cargar el modelo preentrenado
model = AutoModelForSequenceClassification.from_pretrained(modelo, num_labels=2)


# Reconfigirar los hiperparámetros en W&B
config = wandb.config
config.learning_rate = 2e-5
config.batch_size = 16
config.epochs = 3
config.weight_decay = 0.01


# Configurar los argumentos de entrenamiento
training_args = TrainingArguments(
    output_dir="./results",
    eval_strategy="epoch",
    learning_rate=wandb.config.learning_rate,  # Usar el learning_rate configurado en W&B
    per_device_train_batch_size=wandb.config.batch_size,  # Usar el batch_size configurado en W&B
    per_device_eval_batch_size=wandb.config.batch_size,
    num_train_epochs=wandb.config.epochs,  # Usar el número de épocas configurado en W&B
    weight_decay=wandb.config.weight_decay,  # Usar el weight_decay configurado en W&B
    logging_dir="./logs",  # Directorio para guardar logs
    logging_steps=10,  # Registrar métricas cada 10 pasos
    report_to="wandb",  # Enviar métricas a W&B
)

# Crear el Trainer
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    compute_metrics=compute_metrics,  # Agregar la función de métricas
)

# Entrenar el modelo
trainer.train()

Some weights of RobertaForSequenceClassification were not initialized from the model checkpoint at roberta-base and are newly initialized: ['classifier.dense.bias', 'classifier.dense.weight', 'classifier.out_proj.bias', 'classifier.out_proj.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


Epoch,Training Loss,Validation Loss,Accuracy
1,0.6788,0.657807,0.78
2,0.3294,0.143842,0.96
3,0.2223,0.133235,0.96


TrainOutput(global_step=96, training_loss=0.43940060461560887, metrics={'train_runtime': 166.5662, 'train_samples_per_second': 9.005, 'train_steps_per_second': 0.576, 'total_flos': 394666583040000.0, 'train_loss': 0.43940060461560887, 'epoch': 3.0})

**Paso 6: Evaluar el modelo**

**Evaluamos el modelo en el conjunto de evaluación.**

In [34]:
# Evaluar el modelo
eval_results = trainer.evaluate()
print(f"Precisión: {eval_results['eval_accuracy']}")
print(f"Loss: {eval_results['eval_loss']}")

# Registrar la precisión y la pérdida en W&B
wandb.log({"Precisión": eval_results["eval_accuracy"]})
wandb.log({"Loss": eval_results["eval_loss"]})


Precisión: 0.96
Loss: 0.13323524594306946


**Paso 7: Realizar predicciones**

**Podemos usar el modelo entrenado para clasificar nuevas reseñas.**  

In [35]:
import torch

# Verificar si hay una GPU disponible y mover el modelo al dispositivo adecuado
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Función para predecir la clase de un texto
def predict_sentiment(text):
    inputs = tokenizer(text, return_tensors="pt", truncation=True, padding=True)
    inputs = {key: value.to(device) for key, value in inputs.items()}  # Mover los tensores al mismo dispositivo
    outputs = model(**inputs)
    predictions = outputs.logits.argmax(dim=-1)
    return "Positiva" if predictions.item() == 1 else "Negativa"

# Probamos el modelo entrenado con una lista de comentarios

comentarios = [
        "I loved this movie, it was amazing!",
        "Terrible film, I hated it.",
        "The acting was great, but the plot was boring.",
        "Absolutely fantastic!",
        "Worst movie ever.",
        "The movie was horrible, terribly bad.",
        "This movie was fantastic! I loved every minute of it."
    ]

for i, comentario in enumerate(comentarios):
    predict = predict_sentiment(comentario)
    print(f"Comentario {i + 1}:", comentario)
    print(f"Predicción: {predict}", "\n")
    wandb.log({f"Comentario {i + 1}": comentario})
    wandb.log({f"Prediccion {i + 1}": predict})



Comentario 1: I loved this movie, it was amazing!
Predicción: Positiva 

Comentario 2: Terrible film, I hated it.
Predicción: Negativa 

Comentario 3: The acting was great, but the plot was boring.
Predicción: Negativa 

Comentario 4: Absolutely fantastic!
Predicción: Positiva 

Comentario 5: Worst movie ever.
Predicción: Negativa 

Comentario 6: The movie was horrible, terribly bad.
Predicción: Negativa 

Comentario 7: This movie was fantastic! I loved every minute of it.
Predicción: Positiva 



In [24]:
# Finalizar el experimento en W&B e imprimimos los parametros
wandb.finish()

0,1
Loss,▁
Precisión,▁
eval/accuracy,▁▁▁▁
eval/loss,█▃▁▁
eval/runtime,█▁▄█
eval/samples_per_second,▁█▅▁
eval/steps_per_second,▁█▅▁
train/epoch,▁▂▃▃▃▄▅▅▆▇████
train/global_step,▁▂▃▃▃▄▅▅▆▇████████████████████
train/grad_norm,█▂▄▂█▁▅▁▁

0,1
Comentario 1,"I loved this movie, ..."
Comentario 2,"Terrible film, I hat..."
Comentario 3,The acting was great...
Comentario 4,Absolutely fantastic...
Comentario 5,Worst movie ever.
Comentario 6,The movie was horrib...
Comentario 7,This movie was fanta...
Loss,0.69709
Precisión,0.44
Prediccion 1,Positiva


**Graficos de evolucion del entrenamiento**

https://wandb.ai/alfredolawler-lawer-technology/huggingface/runs/pzhtx365?nw=nwuseralfredolawler


In [24]:
# Reinicio el registro de parametros en W&B
wandb.init()

**Paso 8: Ajustar el modelo (opcional)**

Si el rendimiento no es satisfactorio, es posible ajustar los hiperparámetros (por ejemplo, learning_rate, num_train_epochs, batch_size) o probar con otro modelo preentrenado.