# Fine tuning 

In [1]:
from datasets import load_dataset

dataset = load_dataset("mrm8488/CHISTES_spanish_jokes")
dataset

  from .autonotebook import tqdm as notebook_tqdm


DatasetDict({
    train: Dataset({
        features: ['id', 'text', 'keywords', 'funny', 'category'],
        num_rows: 2419
    })
})

In [2]:
dataset['train'][0]

{'id': 0,
 'text': '- Â¡RÃ¡pido, necesitamos sangre!\n- Yo soy 0 positivo.\n- Pues muy mal, necesitamos una mentalidad optimista.',
 'keywords': 'sangre',
 'funny': 1,
 'category': 'otros'}

In [3]:
dataset.set_format('pandas')
df = dataset['train'].to_pandas()
df.head(10)

Unnamed: 0,id,text,keywords,funny,category
0,0,"- Â¡RÃ¡pido, necesitamos sangre!\n- Yo soy 0 pos...",sangre,1,otros
1,1,- Â¿CuÃ¡l es el mejor portero del mundial? \n- E...,"futbol,porteros",1,otros
2,2,El otro dÃ­a unas chicas llamarÃ³n a mi puerta y...,"dinero,agua",1,otros
3,3,"- Andresito, Â¿quÃ© planeta va despuÃ©s de Marte?...",planetas,1,profesiones
4,4,- Â¿Por quÃ© Bob Esponja no va al gimnasio? \n- ...,"esponja,gimnasios",1,otros
5,5,Van dos ciegos y le dice uno al otro: \n- Ojal...,ciegos,1,otros
6,6,Noticia de Ãºltima hora!! \n\nMuere una suegra ...,"canarias,coches,noticias",2,familia
7,7,"â€“ MamÃ¡, mamÃ¡, en el colegio dicen que estoy lo...","locos,sillas",1,familia
8,8,"â€“ MamÃ¡, mamÃ¡, Â¿me haces un bocata de jamÃ³n?\nâ€“...","madres,jamÃ³n",1,otros
9,9,- QuÃ© pasa si te expulsan de cuatro univerdade...,"universitarios,universidades",1,otros


## Preparando el conjunto de datos

In [4]:
import torch
import transformers
import keras
import accelerate
from transformers import AutoModelForCausalLM, AutoTokenizer
import torch.nn as nn
from transformers.tokenization_utils_base import PreTrainedTokenizerBase
from typing import Optional, Tuple
import pandas as pd
import numpy as np

2024-09-21 14:49:56.486078: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:485] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-09-21 14:49:56.521908: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:8454] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-09-21 14:49:56.535793: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1452] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-09-21 14:49:56.615337: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.


In [5]:
device = "cuda" if torch.cuda.is_available() else "cpu"
model_name = "DeepESP/gpt2-spanish"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to(device)
model



GPT2LMHeadModel(
  (transformer): GPT2Model(
    (wte): Embedding(50257, 768)
    (wpe): Embedding(1024, 768)
    (drop): Dropout(p=0.1, inplace=False)
    (h): ModuleList(
      (0-11): 12 x GPT2Block(
        (ln_1): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (attn): GPT2SdpaAttention(
          (c_attn): Conv1D()
          (c_proj): Conv1D()
          (attn_dropout): Dropout(p=0.1, inplace=False)
          (resid_dropout): Dropout(p=0.1, inplace=False)
        )
        (ln_2): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
        (mlp): GPT2MLP(
          (c_fc): Conv1D()
          (c_proj): Conv1D()
          (act): NewGELUActivation()
          (dropout): Dropout(p=0.1, inplace=False)
        )
      )
    )
    (ln_f): LayerNorm((768,), eps=1e-05, elementwise_affine=True)
  )
  (lm_head): Linear(in_features=768, out_features=50257, bias=False)
)

In [6]:
def preprocess_function(max_len):
    def _preprocess_function(examples):
        return tokenizer(examples['text'], max_length=max_len, truncation=True, padding='max_length')
    return _preprocess_function

In [7]:
dataset.reset_format()
tokenized_dataset = dataset['train'].map(preprocess_function(max_len=512), batched=True)
tokenized_dataset = tokenized_dataset.remove_columns([col for col in tokenized_dataset.column_names if col != 'input_ids'])
tokenized_dataset = tokenized_dataset.train_test_split(train_size=0.9)
tokenized_dataset.set_format('torch')
tokenized_dataset

DatasetDict({
    train: Dataset({
        features: ['input_ids'],
        num_rows: 2177
    })
    test: Dataset({
        features: ['input_ids'],
        num_rows: 242
    })
})

In [8]:
from transformers import DataCollatorForLanguageModeling
from transformers import Trainer, TrainingArguments

batch_size = 8
logging_steps = len(tokenized_dataset['train']) // batch_size

# Definimos los parÃ¡metros globales de entrenamiento
training_args = TrainingArguments(
    output_dir='./hf-gpt',
    overwrite_output_dir=True,
    num_train_epochs=2,
    learning_rate=2e-5,
    per_device_eval_batch_size=batch_size,
    per_device_train_batch_size=batch_size,
    weight_decay=0.01,
    evaluation_strategy='epoch',
    save_strategy='epoch',
    load_best_model_at_end=True,
    disable_tqdm=False,
    logging_steps=logging_steps
)

# Y definimos el entrenador, especificando el modelo, datasets y el tokenizador
trainer = Trainer(
    model=model,
    args=training_args,
    data_collator=DataCollatorForLanguageModeling(tokenizer=tokenizer, mlm=False),
    train_dataset=tokenized_dataset['train'],
    eval_dataset=tokenized_dataset['test'],
    tokenizer=tokenizer
)



In [9]:
%%time
trainer.train()

 50%|â–ˆâ–ˆâ–ˆâ–ˆâ–‰     | 272/546 [1:30:48<1:28:10, 19.31s/it]

{'loss': 3.4611, 'grad_norm': 4.214391708374023, 'learning_rate': 1.0036630036630037e-05, 'epoch': 1.0}


                                                     
 50%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆ     | 273/546 [1:33:45<1:05:19, 14.36s/it]

{'eval_loss': 3.2365965843200684, 'eval_runtime': 173.6238, 'eval_samples_per_second': 1.394, 'eval_steps_per_second': 0.179, 'epoch': 1.0}


100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–‰| 544/546 [2:59:47<00:37, 18.99s/it]  

{'loss': 3.1615, 'grad_norm': 3.0497474670410156, 'learning_rate': 7.326007326007327e-08, 'epoch': 1.99}


                                                   
100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 546/546 [3:03:06<00:00, 14.13s/it]

{'eval_loss': 3.208950996398926, 'eval_runtime': 175.975, 'eval_samples_per_second': 1.375, 'eval_steps_per_second': 0.176, 'epoch': 2.0}


There were missing keys in the checkpoint model loaded: ['lm_head.weight'].
100%|â–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆâ–ˆ| 546/546 [3:03:08<00:00, 20.13s/it]

{'train_runtime': 10988.4916, 'train_samples_per_second': 0.396, 'train_steps_per_second': 0.05, 'train_loss': 3.309132829253927, 'epoch': 2.0}
CPU times: user 16h 17min 18s, sys: 1h 46min 28s, total: 18h 3min 47s
Wall time: 3h 3min 8s





TrainOutput(global_step=546, training_loss=3.309132829253927, metrics={'train_runtime': 10988.4916, 'train_samples_per_second': 0.396, 'train_steps_per_second': 0.05, 'total_flos': 1137665507328000.0, 'train_loss': 3.309132829253927, 'epoch': 2.0})

In [9]:
text = 'Habia una vez un hombre que'
best = 10

with torch.no_grad():
    tokens = tokenizer(text, return_tensors='pt')['input_ids'].to(device)
    print("Dimensiones de la entrada:", tokens.shape)
    output = model(input_ids=tokens)
    print("Dimensiones de la salida:", output.logits.shape)
    output = output.logits[0, -1, :]
    print("Dimensiones del Ãºltimo token de la secuencia:", output.shape)
    probs = torch.softmax(output, dim=-1)
    print("Dimensiones de la probabilidad de los tokens:", probs.shape)
    sorted_probs = torch.argsort(probs, dim=-1, descending=True)
    print({tokenizer.decode(token): f"{prob.cpu().numpy() * 100:.2f}%" for token, prob in zip(sorted_probs[:best], probs[sorted_probs[:best]])})

Dimensiones de la entrada: torch.Size([1, 7])
Dimensiones de la salida: torch.Size([1, 7, 50257])
Dimensiones del Ãºltimo token de la secuencia: torch.Size([50257])
Dimensiones de la probabilidad de los tokens: torch.Size([50257])
{' no': '10.73%', ' se': '9.15%', ' habÃ­a': '3.97%', ' me': '2.61%', ' estaba': '2.59%', ',': '2.32%', ' era': '1.64%', ' tenÃ­a': '1.48%', ' ha': '1.42%', ' le': '1.24%'}


In [13]:
from typing import List, Tuple, Optional


def generate(
    model: nn.Module,  # El modelo de lenguaje neuronal utilizado para generar el texto
    # El tokenizador que convierte el texto en tokens para el modelo
    tokenizer: PreTrainedTokenizerBase,
    start: str,  # Texto de inicio que da el punto de partida para generar el chiste
    max_length: int = 50,  # NÃºmero mÃ¡ximo de tokens que se generarÃ¡n
    eps: float = 0.5,  # ParÃ¡metro para la estrategia e-greedy de selecciÃ³n de tokens
    top_n: int = 5,  # NÃºmero de tokens con mayor probabilidad a considerar
    # Indica si se deben devolver los detalles de las iteraciones
    return_iterations: bool = False,
    # El dispositivo donde se ejecutarÃ¡ el modelo (por ejemplo, CPU o GPU)
    device: str = "cpu",
    # Lista de tokens que marcan el final del chiste
    stop_tokens: List[str] = ['.', '!', '?']
) -> Tuple[str, Optional[pd.DataFrame]]:

    # Inicializamos la lista 'output' con el texto inicial proporcionado
    output = [start]
    iterations = []  # Lista para almacenar los detalles de cada iteraciÃ³n si se solicita
    with torch.no_grad():  # Desactiva el cÃ¡lculo de gradientes para ahorrar memoria, ya que no entrenamos el modelo
        # Convierte el Ãºltimo texto generado en tokens y los mueve al dispositivo especificado
        input_ids = tokenizer(
            output[-1], return_tensors='pt')['input_ids'].to(device)

        # Bucle principal para generar nuevos tokens hasta alcanzar la longitud mÃ¡xima
        for _ in range(max_length):
            # Obtiene los logits (probabilidades sin normalizar) del modelo
            logits = model(input_ids=input_ids).logits
            # Aplica softmax para convertir los logits en probabilidades
            probs = torch.softmax(logits[0, -1, :], dim=-1)
            # Ordena los tokens por probabilidad, en orden descendente
            sorted_tokens = torch.argsort(probs, dim=-1, descending=True)

            # Estrategia e-greedy para seleccionar el siguiente token:
            # Si el valor aleatorio es menor que 'eps', se elige el token mÃ¡s probable,
            # de lo contrario, se selecciona uno basado en la distribuciÃ³n de probabilidades.
            if np.random.random_sample(1)[0] < eps:
                next_token = sorted_tokens[0].unsqueeze(
                    dim=0)  # Selecciona el token mÃ¡s probable
            else:
                # Selecciona un token basado en la probabilidad
                next_token = torch.multinomial(probs, 1)

            # Convierte el token seleccionado a texto
            next_word = tokenizer.decode(next_token)

            # Verifica si el token generado es un signo de puntuaciÃ³n que marca el final del chiste
            if any(stop in next_word for stop in stop_tokens):
                output.append(next_word)  # AÃ±ade el token final al output
                break  # Detiene la generaciÃ³n, ya que se alcanzÃ³ el remate del chiste

            # Si 'return_iterations' es True, almacenamos detalles de la iteraciÃ³n actual para anÃ¡lisis
            if return_iterations:
                # El texto generado hasta el momento
                iteration = {'input': ''.join(output)}
                # Obtiene los 'top_n' tokens mÃ¡s probables y sus respectivas probabilidades
                best_n = sorted_tokens[:top_n].cpu().tolist()
                # Guarda la informaciÃ³n de cada token en el DataFrame
                choices = {f'Choice #{choice+1}': f'{tokenizer.decode(token)} ({prob:.4f})'
                           for choice, (token, prob) in enumerate(zip(best_n, probs[best_n].cpu().tolist()))}
                iteration.update(choices)
                iterations.append(iteration)

            # AÃ±ade la palabra generada al 'output'
            output.append(next_word)
            # Actualiza los 'input_ids' concatenando el nuevo token generado
            input_ids = torch.cat(
                [input_ids, next_token.unsqueeze(dim=0)], dim=-1)

        # Convierte la lista de tokens generados en una cadena de texto
        output_text = ''.join(output)

        # Devuelve el texto generado y, opcionalmente, las iteraciones si se solicitÃ³
        if not return_iterations:
            return output_text, None
        else:
            # Convierte las iteraciones en un DataFrame
            df = pd.DataFrame(iterations)
            return output_text, df


# Ejemplo de uso
output_text, _ = generate(model, tokenizer, text,
                          max_length=50, eps=0.2, device=device)
print(output_text)

Habia una vez un hombre que no paso a la historia, el que dentro de la Gomorra Papal se sintiera el actual, el que hombre callado y reflexivo no va a tolerar que adquire la libertad de transgresiones.
