# PROGRAMA DE INTELIGENCIA ARTIFICIAL | IBM SkillUp 2024

<!-- Tabla con tres logos -->
<table align="center">
    <tr>
        <td><img src="images/ibm.jpg" alt="IBM" width="350"></td>
        <td><img src="images/skillup.jpeg" alt="Skillup" width="350"></td>
        <td><img src="images/python.jpeg" alt="Python" width="300"></td>
    </tr>
</table>
<br><br>

## Introducción a las Redes Neuronales

### ¿Qué es una neurona artificial?
Su estructura y funcionamiento se inspiran en las neuronas biológicas. Las neuronas artificiales al igual que como sucede a nivel biógico reciben un estimulo del exterior, procesan esta señal para luego emitir una salida que transmiten al exterior o a otra neurona.

Una neurona artificial o perceptrón se compone de los siguientes elementos:
- x<sub>i</sub> representa la i-esima entrada.
- w<sub>ij</sub> representan unos parámetros llamados pesos que controlan el nivel de inhibicion o excitación de las neuronas.
- b<sub>j</sub> representan otros parámetros llamados sesgos (en inglés, bias)
- z, es la suma de los estímulos recibidos por la neurona
- f(z) es la función de activación o transferencia
- y<sub>i</sub> corresponde con la salida generada por la neurona
  
<table align="center">
    <tr>
        <td><img src="images/neurona.jpg" alt="IBM" width="350"></td>
    </tr>
</table>
<br><br>

### ¿Qué es una red neuronal?
Una red neuronal es un modelo computacional que se inspira en el funcionamiento del cerebro humano. Está formada por nodos que simulan neuronas y se organizan en capas. En la capa de entrada se reciben las características de entrada (x), donde cada nodo (neurona artificial) representa una de estas características y procesa la información que recibe para transmitirla a las capas siguientes.

Funcionamiento de una neurona:

**Recibe entrada:**
- Las entradas a una neurona pueden ser datos como píxeles de una imagen o características de un conjunto de datos.
- Estas entradas vienen con ciertos pesos, que son valores numéricos que ajustan la importancia de cada entrada.
    
**Calcular la suma ponderada:**
- La neurona calcula una suma ponderada de las entradas. Esto significa que cada entrada se multiplica por su peso correspondiente y luego se suman todos esos valores.
- También se añade un sesgo (bias), que es un valor adicional que permite a la neurona ajustar la salida con más precisión.

**Aplicar la función de activación:**
- La suma ponderada se pasa a través de una función de activación. Esta función introduce no linealidad, permitiendo que la red aprenda relaciones complejas entre las entradas y salidas.

***Genera la salida:***
- La salida de la función de activación se convierte en la entrada para las neuronas en la siguiente capa, o en el resultado final si estamos en la última capa.















<table align="center">
    <tr>
        <td><img src="images/redneuronal.png" alt="redneuronal" width="350" height="200"> </td>
        <br>
    </tr>
</table>
    <div style="text-align: center;">
    <a href="https://es.wikipedia.org/wiki/Red_neuronal_artificial">Fuente de la imagen Wikipedia.</a></div>
<br><br>

Es importante notar que el número de capas determina la profundidad de la red. Las redes neuronales con más de dos capas se consideran profundas y se conocen como redes de **Deep Learning** (Aprendizaje Profundo).



#### ¿Qué son los pesos?
Los pesos representan las conexiones entre las neuronas y pueden amplificar o atenuar las señales. Son elementos internos de la red neuronal que influyen en sus resultados. Durante el entrenamiento, es importante encontrar los valores óptimos de los pesos para que la red funcione correctamente. Los pesos suelen representarse con la letra "W".

#### ¿Qué son los sesgos?
Los sesgos en una red neuronal son valores adicionales que se suman a las entradas. Estos valores también tienen un peso, igual que las conexiones entre neuronas. Se añaden sesgos en la capa de entrada y en cada capa oculta para ayudar a que la red funcione mejor, incluso cuando algunas entradas son cero. Los sesgos se representan con la letra "b".

#### ¿Qué son las funciones de activacion?
La salida de una neurona en una red neuronal se determina mediante las funciones de activación. Estas funciones introducen procesamiento no lineal, lo que permite a la red neuronal aprender y modelar relaciones complejas en los datos. La función de activación actúa como una puerta, decidiendo si la señal recibida por la neurona es lo suficientemente fuerte como para pasar a la siguiente capa de la red. 

Las funciones de activacion más usadas son:
- **La unidad rectificadora lineal (RELU):** ReLU permite solo valores positivos y convierte valores negativos a cero. Es muy popular en redes neuronales profundas debido a su simplicidad y eficiencia computacional, y se utiliza principalmente para evitar el problema del desvanecimiento del gradiente.

- **La funcion sigmoide (logística):** La función sigmoide produce salidas entre 0 y 1, lo que la hace útil para problemas de clasificación binaria y para introducir no linealidad en la red. Sin embargo, puede sufrir del problema del desvanecimiento del gradiente.

- **Tangente hiperbólica (Tanh):** La función tanh produce salidas entre -1 y 1, centrando los datos alrededor de cero. Esto puede mejorar la convergencia durante el entrenamiento de redes neuronales, aunque también puede sufrir del problema del desvanecimiento del gradiente.

    

Ejemplo sencillo de lo que hace una neurona:

1. Recibir el dato de entrada: 3
2. Multiplicar por el peso: 3 * 2 = 6
3. Sumar el sesgo: 6 + 1 = 7
4. Aplicar la función de activación:
    - Con ReLU(7)=7
    - Con Sigmoid ≈ 0.9991
5. Generar la salida:
    - Con ReLU: 7
    - Con Sigmoid: 0.9991

#### ¿Cómo se entrena una red neuronal?
Entrenar una red neuronal implica dos fases principales. Primero, en forward propagation, los datos de entrada se mueven a través de la red, pasando por cada capa. En cada neurona, se multiplica el dato por un peso, se suma un sesgo y se aplica una función de activación para obtener una salida. Esto continúa hasta que la red produce una predicción. Luego, en backpropagation, se compara esta predicción con el valor real para calcular el error. Este error se envía de vuelta a través de la red, ajustando los pesos y sesgos para mejorar las predicciones. Este ciclo se repite muchas veces para que la red aprenda y reduzca el error.

### Tipos de redes neuronales más populares:

- **Perceptrón (Perceptron):**
    - Es la forma más simple de una red neuronal, compuesta por una sola neurona.
    - Se utiliza principalmente para problemas de clasificación binaria.
    <br></br>
- **Redes Neuronales de Capa Densa (Feedforward Neural Networks):**
    - Estas redes consisten en capas de neuronas donde cada neurona de una capa está conectada a todas las neuronas de la siguiente capa.
    - Son adecuadas para una variedad de tareas de clasificación y regresión.
    <br></br>
- **Redes Neuronales Convolucionales (Convolutional Neural Networks, CNNs):**
    - Están diseñadas para procesar datos con una estructura de rejilla, como imágenes.
    - Utilizan convoluciones para detectar patrones y características en los datos.
    <br></br>
- **Redes Neuronales Recurrentes (Recurrent Neural Networks, RNNs):**
    - Están diseñadas para trabajar con datos secuenciales, como series temporales o texto.
    - Utilizan bucles para mantener un estado interno que puede recordar información de pasos anteriores.
     <br></br>
- **Redes Neuronales de Transformadores (Transformers):**
    - Son arquitecturas diseñadas para manejar secuencias de datos de manera más eficiente que las RNNs.
    - Son muy populares en tareas de procesamiento del lenguaje natural (NLP), como la traducción automática y el análisis de texto.
    <br></br>
- **Redes Neuronales Adversarias (Generative Adversarial Networks, GANs):**
    - Consisten en dos redes neuronales que compiten entre sí: un generador y un discriminador.
    - El generador crea datos falsos, mientras que el discriminador trata de distinguir entre datos reales y falsos.
    - Utilizadas para la generación de imágenes, mejora de resolución de imágenes, transferencia de estilo y generación de datos sintéticos.
  <br></br>

### Redes Neuronales Adversarias (GANs)
¿Qué son las Redes Neuronales Adversarias (GANs)?

Las Redes Neuronales Adversarias, o GANs por sus siglas en inglés, son un tipo de red neuronal especial en la que dos modelos (o redes) compiten entre sí en un proceso de aprendizaje. Esta competencia ayuda a ambos modelos a mejorar continuamente. Las GANs fueron introducidas por Ian Goodfellow en 2014.


#### Componentes de las GANs
- **Generador (Generator):**
    - El generador crea datos falsos (como imágenes falsas) a partir de un ruido aleatorio.
    - Su objetivo es hacer estos datos falsos tan realistas que el discriminador no pueda distinguirlos de los datos reales.
    - Imagina al generador como un falsificador de billetes. Este falsificador comienza con un billete en blanco (o en términos técnicos, un vector de ruido aleatorio) y trata de crear un billete que parezca real.
    - El objetivo del generador es engañar al discriminador, haciendo que sus billetes falsos sean tan convincentes que el discriminador piense que son reales.
    <br></br>
- **Discriminador (Discriminator):**
    - El discriminador recibe tanto datos reales (del conjunto de datos de entrenamiento) como datos falsos (del generador).
    - Su objetivo es distinguir correctamente entre los datos reales y los datos falsos.
    - Piensa en el discriminador como un policía. Su trabajo es examinar los billetes y decidir si son reales (billetes genuinos) o falsos (billetes creados por el generador).
    - El discriminador recibe tanto billetes reales del conjunto de datos de entrenamiento como billetes falsos del generador. Su objetivo es identificar correctamente cuáles son reales y cuáles son falsos.
    <br></br>

#### Cómo funcionan las GANs

1. **Inicialización:**
    - Las dos redes, generador y discriminador, se inician con pesos aleatorios.
    <br></br>
2. **Entrenamiento del discriminador:**
    - Se le dan al discriminador algunos datos reales y algunos datos falsos generados por el generador.
    - El discriminador aprende a diferenciar entre los datos reales y los falsos.
    <br></br>
4. **Entrenamiento del generador:**
    - El generador usa el feedback del discriminador para mejorar. Intenta crear datos falsos que el discriminador no pueda identificar como falsos.
    <br></br>
5. **Ciclo de competencia:**
- Este proceso se repite muchas veces. El generador y el discriminador se vuelven cada vez mejores en sus tareas respectivas: el generador en crear billetes realistas y el discriminador en identificar billetes falsos.
- Se busca que el generador y el discriminador logren el equilibrio perfecto, es decir, que los billetes falsos sean tan convincentes que el discriminador apenas pueda distinguirlos de los billetes reales.
    <br></br>
**Aplicaciones de las GANs en imágen**
- Crear imágenes realistas, como rostros de personas que no existen.
- Mejora de imágenes: Aumentar la resolución de imágenes borrosas.
- Transferencia de estilo: Cambiar el estilo de una imagen para que parezca una pintura famosa.
- Generación de datos sintéticos: Crear datos para entrenar otros modelos de aprendizaje automático.

#### Funcionamiento de este tipo de redes
<body>
    <table align="center">
        <tr>
            <td><img src="images/gans.png" alt="GANs Image 1" width="350"></td>
        </tr>
        <tr>
            <td><img src="images/gans2.png" alt="GANs Image 2" width="350"></td>
        </tr>
    </table>
    <br><br>
    <footer>
        <p style="text-align: center; font-size: 12px;">
            Algunas imágenes utilizadas en este curso son cortesía de <a href="https://www.tensorflow.org">TensorFlow</a>, utilizadas bajo la 
            <a href="https://www.apache.org/licenses/LICENSE-2.0">Licencia Apache 2.0</a>.
        </p>
    </footer>
</body>
</html>


### Práctica 1: 
Implementación de un modelo generativo básico, tal como un codificador automático variable (VAE) o una red generativa adversarial (GAN). En este caso vamos a elegir crear una red generativa adversarial (GAN) ya que es más interesante por los conceptos que involucra.

#### Implementación de una GAN
Usaremos un ejemplo de red adversaria para reconocimiento de texto y el dataset que podemos ver debajo MNIST. Este dataset es el "Hello World" de la visión artificial.


 <table align="center">
        <tr>
            <td><img src="images/mnist.png" alt="GANs Image 1" width="350"></td>
        </tr>
 </table>
 <br><br>
    <footer>
        <p style="text-align: center; font-size: 12px;">
            Algunas imágenes utilizadas en este curso son cortesía de <a href="https://es.wikipedia.org/wiki/Base_de_datos_MNIST#/media/Archivo:MnistExamplesModified.png">Wikipedia</a>
        </p>
    </footer>


**Paso 1:** Importar librerías y configurar parámetros

In [3]:
import tensorflow as tf
from tensorflow.keras import layers
import numpy as np
import matplotlib.pyplot as plt
import time
from IPython.display import display, clear_output
from tensorflow.keras.datasets import mnist

# Configurar parámetros iniciales
BUFFER_SIZE = 60000  # Tamaño del buffer para el conjunto de datos
BATCH_SIZE = 256  # Tamaño del lote para el entrenamiento
EPOCHS = 100  # Número de épocas para entrenar
noise_dim = 100  # Dimensión del ruido para el generador
num_examples_to_generate = 16  # Número de ejemplos a generar

# Usar el mismo vector semilla para generar imágenes a lo largo del tiempo
seed = tf.random.normal([num_examples_to_generate, noise_dim])


ModuleNotFoundError: No module named 'tensorflow'

**Paso 2:** Cargar y preprocesar el dataset

In [None]:
# Cargar el dataset de MNIST y preprocesarlo
(train_images, train_labels), (_, _) = mnist.load_data()

# Normalizar las imágenes al rango [-1, 1] y aplanarlas
train_images = (train_images.reshape(train_images.shape[0], 784).astype('float32') - 127.5) / 127.5

# Crear un objeto Dataset de TensorFlow
train_dataset = tf.data.Dataset.from_tensor_slices(train_images).shuffle(BUFFER_SIZE).batch(BATCH_SIZE)


**Paso 3:** Definimos el modelo de generador

In [None]:
def make_generator_model():
    model = tf.keras.Sequential()
    model.add(layers.Dense(256, input_shape=(noise_dim,)))  # Capa densa con 256 unidades
    model.add(layers.LeakyReLU())  # Activación LeakyReLU
    model.add(layers.Dense(512))  # Capa densa con 512 unidades
    model.add(layers.LeakyReLU())  # Activación LeakyReLU
    model.add(layers.Dense(1024))  # Capa densa con 1024 unidades
    model.add(layers.LeakyReLU())  # Activación LeakyReLU
    model.add(layers.Dense(784, activation='tanh'))  # Capa de salida con activación 'tanh' para generar valores en el rango [-1, 1]
    return model

generator = make_generator_model()  # Crear el modelo del generador


**Paso 4:** Definimos el modelo de discriminador

In [None]:
def make_discriminator_model():
    model = tf.keras.Sequential()
    model.add(layers.Dense(1024, input_shape=(784,)))  # Capa densa con 1024 unidades
    model.add(layers.LeakyReLU())  # Activación LeakyReLU
    model.add(layers.Dropout(0.3))  # Dropout para evitar sobreajuste
    model.add(layers.Dense(512))  # Capa densa con 512 unidades
    model.add(layers.LeakyReLU())  # Activación LeakyReLU
    model.add(layers.Dropout(0.3))  # Dropout para evitar sobreajuste
    model.add(layers.Dense(256))  # Capa densa con 256 unidades
    model.add(layers.LeakyReLU())  # Activación LeakyReLU
    model.add(layers.Dropout(0.3))  # Dropout para evitar sobreajuste
    model.add(layers.Dense(1))  # Capa de salida para la clasificación
    return model

discriminator = make_discriminator_model()  # Crear el modelo del discriminador

**Paso 5:** Definimos las funciones de pérdida y los optimizadores

In [None]:
cross_entropy = tf.keras.losses.BinaryCrossentropy(from_logits=True)

def discriminator_loss(real_output, fake_output):
    real_loss = cross_entropy(tf.ones_like(real_output), real_output)  # Pérdida para las imágenes reales
    fake_loss = cross_entropy(tf.zeros_like(fake_output), fake_output)  # Pérdida para las imágenes falsas
    total_loss = real_loss + fake_loss  # Pérdida total
    return total_loss

def generator_loss(fake_output):
    return cross_entropy(tf.ones_like(fake_output), fake_output)  # Pérdida del generador

generator_optimizer = tf.keras.optimizers.Adam(1e-4)
discriminator_optimizer = tf.keras.optimizers.Adam(1e-4)



**Paso 6:** Definir el bucle de entrenamiento


In [None]:
@tf.function
def train_step(images):
    noise = tf.random.normal([BATCH_SIZE, noise_dim])  # Generar ruido aleatorio

    with tf.GradientTape() as gen_tape, tf.GradientTape() as disc_tape:
        generated_images = generator(noise, training=True)  # Generar imágenes

        real_output = discriminator(images, training=True)  # Evaluar imágenes reales
        fake_output = discriminator(generated_images, training=True)  # Evaluar imágenes generadas

        gen_loss = generator_loss(fake_output)  # Calcular pérdida del generador
        disc_loss = discriminator_loss(real_output, fake_output)  # Calcular pérdida del discriminador

        gradients_of_generator = gen_tape.gradient(gen_loss, generator.trainable_variables)  # Calcular gradientes del generador
        gradients_of_discriminator = disc_tape.gradient(disc_loss, discriminator.trainable_variables)  # Calcular gradientes del discriminador

        generator_optimizer.apply_gradients(zip(gradients_of_generator, generator.trainable_variables))  # Aplicar gradientes al generador
        discriminator_optimizer.apply_gradients(zip(gradients_of_discriminator, discriminator.trainable_variables))  # Aplicar gradientes al discriminador

def train(dataset, epochs):
    for epoch in range(epochs):
        start = time.time()

        for image_batch in dataset:
            train_step(image_batch)  # Entrenar un lote

        clear_output(wait=True)
        generate_and_save_images(generator, epoch + 1, seed)  # Generar y guardar imágenes

        print(f'Tiempo para la época {epoch + 1} es {time.time() - start} segundos')

    clear_output(wait=True)
    generate_and_save_images(generator, epochs, seed)  # Generar y guardar imágenes finales



**Paso 7:** Función para generar y guardar imágenes

In [None]:
def generate_and_save_images(model, epoch, test_input):
    predictions = model(test_input, training=False)  # Generar imágenes a partir del ruido
    fig = plt.figure(figsize=(4, 4))

    for i in range(predictions.shape[0]):
        plt.subplot(4, 4, i + 1)
        plt.imshow(tf.reshape(predictions[i], (28, 28)) * 127.5 + 127.5, cmap='gray')  # Mostrar la imagen
        plt.axis('off')

    plt.savefig('samples/image_at_epoch_{:04d}.png'.format(epoch))  # Guardar la imagen
    plt.show()  # Mostrar la figura



**Paso 8:** Entrenar el modelo

In [None]:
train(train_dataset, EPOCHS)  # Iniciar el entrenamiento


## Entender modelos grades de lenguaje preentrenados y adaptación a tareas específicas de NLP 


### Práctica 2: 

#### Exploración de modelos preentrenados, tales como BERT o GPT, y su adaptación a tareas específicas de NLP.

En esta práctica, exploraremos cómo utilizar modelos de lenguaje preentrenados, específicamente GPT (Generative Pretrained Transformer), para tareas de Procesamiento de Lenguaje Natural (NLP). GPT es un modelo desarrollado por OpenAI que ha sido preentrenado en una gran cantidad de datos de texto y puede ser adaptado para diversas tareas de NLP sin necesidad de entrenamiento adicional.


**Ejemplo:**
- Clasificación de sentimientos con GPT: vamos a usar GPT para clasificar si un texto tiene un sentimiento positivo o negativo.

**Objetivos**
- Comprender el uso de modelos preentrenados para NLP.
- Adaptar un modelo GPT para una tarea específica de análisis de sentimiento.
- Implementar y ejecutar consultas usando GPT para obtener respuestas basadas en entradas de texto en español.

### MODELO GPT
Se un modelo de IA que ya ha sido preentrenado para realizar tareas específicas sin realizar ajustes adicionales en el modelo.Enviamos consultas a un modelo GPT-3.5-turbo de OpenAI para obtener respuestas sobre el sentimiento de ciertas frases.

**Paso 1:** Instalación de la Biblioteca OpenAi


In [None]:
!pip install openai


**Paso 2:** Configuración de la Clave API

- Configurar clave API de OpenAI en el script de Python


In [180]:
from openai import OpenAI
# Reemplaza 'TU_CLAVE_API' con tu clave API de OpenAI
OPENAI_API_KEY = 'TU_CLAVE_API'
client = OpenAI(api_key=OPENAI_API_KEY)


**Paso 3:** Definición de Funciones para Utilizar GPT
- Definimos una función para enviar consultas al modelo GPT:

In [174]:
def obtener_respuesta(prompt, model="gpt-3.5-turbo"):
  messages = [{"role": "user", "content": prompt}]
  response = client.chat.completions.create(
  model=model,
  messages=messages,
  max_tokens=4000, # número máximo de tokens de entrada
  temperature=0.7, #ajustamos el nivel de aleatoriedad de la respuesta
  )
  return response.choices[0].message.content



**Paso 4:** Ejemplo de uso del modelo GPT
- Utilizamos la función anterior para generar respuestas a partir de un conjunto de textos en español:


In [176]:
# Frases de prueba en español
textos_prueba = [
    "Me encanta este producto",
    "Odio esto",
    "Es maravilloso",
    "Esto es terrible"
]

# Generar respuestas para cada texto de prueba
for texto in textos_prueba:
    prompt = f"¿Cuál es el sentimiento de la siguiente frase? '{texto}'"
    respuesta = obtener_respuesta(prompt)
    print(f"Texto: {texto} - Respuesta del modelo: {respuesta}")


Texto: Me encanta este producto - Respuesta del modelo: El sentimiento de la frase es positivo, de gusto y satisfacción.
Texto: Odio esto - Respuesta del modelo: El sentimiento de la frase es de disgusto o aversión. La persona que la dice claramente no está contenta con la situación o circunstancia a la que se refiere.
Texto: Es maravilloso - Respuesta del modelo: El sentimiento de la frase "Es maravilloso" es de alegría, admiración y satisfacción. Indica que algo es excelente o excepcionalmente bueno.
Texto: Esto es terrible - Respuesta del modelo: El sentimiento de la frase "Esto es terrible" es de tristeza, preocupación o desesperación. La persona que lo dice está expresando su disgusto o malestar ante una situación que considera negativa o desagradable.


<br>

### MODELO BERT
Ejemplo de fine tuning con un modelo BERT. En este ejemplo, estamos ajustando un modelo BERT preentrenado para la tarea específica de clasificación de texto en dos categorías (positivo y negativo).



In [None]:
import torch
from torch.utils.data import Dataset
from transformers import BertTokenizer, BertForSequenceClassification, Trainer, TrainingArguments

# Definir la clase del conjunto de datos
class TextDataset(Dataset):
    def __init__(self, texts, labels, tokenizer, max_length):
        self.texts = texts
        self.labels = labels
        self.tokenizer = tokenizer
        self.max_length = max_length

    # Método para obtener la longitud del conjunto de datos
    def __len__(self):
        return len(self.texts)

    # Método para obtener un elemento del conjunto de datos
    def __getitem__(self, idx):
        text = self.texts[idx]
        label = self.labels[idx]
        encoding = self.tokenizer(
            text, 
            truncation=True, 
            padding='max_length', 
            max_length=self.max_length, 
            return_tensors='pt'
        )
        encoding = {key: val.squeeze(0) for key, val in encoding.items()}
        encoding['labels'] = torch.tensor(label, dtype=torch.long)
        return encoding

# Inicializar el tokenizador y el modelo preentrenado
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=2)

# Configurar dispositivo
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")


# Definir los datos de entrenamiento y validación
texts = ["I love this!", "This is bad.", "Amazing product!", "Not good.", "I like it", "I hate it"]
labels = [1, 0, 1, 0, 1, 0]
train_texts, val_texts = texts[:4], texts[4:]
train_labels, val_labels = labels[:4], labels[4:]

# Crear instancias del conjunto de datos
train_dataset = TextDataset(train_texts, train_labels, tokenizer, max_length=16)
val_dataset = TextDataset(val_texts, val_labels, tokenizer, max_length=16)

# Configurar los argumentos del entrenamiento
training_args = TrainingArguments(
    output_dir='./results',  # Directorio para guardar los resultados
    num_train_epochs=3,  # Número de épocas de entrenamiento
    per_device_train_batch_size=2,  # Tamaño del lote de entrenamiento por dispositivo
    per_device_eval_batch_size=2,  # Tamaño del lote de evaluación por dispositivo
    warmup_steps=500,  # Número de pasos de calentamiento
    weight_decay=0.01,  # Decaimiento de peso
    logging_dir='./logs',  # Directorio para guardar los registros
    logging_steps=10,  # Número de pasos entre registros
    load_best_model_at_end=True,  # Cargar el mejor modelo al final del entrenamiento
    evaluation_strategy="epoch",  # Evaluar al final de cada época
    save_strategy="epoch"  # Guardar el modelo al final de cada época
)

# Crear el entrenador
trainer = Trainer(
    model=model,  # Modelo a entrenar
    args=training_args,  # Argumentos de entrenamiento
    train_dataset=train_dataset,  # Conjunto de datos de entrenamiento
    eval_dataset=val_dataset  # Conjunto de datos de evaluación
)

# Entrenar el modelo
trainer.train()


<br><br><br><br>