<a href="https://colab.research.google.com/github/davidduran1365/Tutorials/blob/main/PrimerClasificador.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## License of this notebook

<a rel="license" href="http://creativecommons.org/licenses/by/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by/4.0/80x15.png" /></a><br />This work is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by/4.0/">Creative Commons Attribution 4.0 International License</a>.

### Información

> **Author(s)**: <a href="https://www.linkedin.com/in/david-duran-r/">David Duran</a> </br>
> **Last updated**: 28/01/2024

# **Introducción**

***¿Qué es [huggingface](https://huggingface.co/models)?***



*   Es una plataforma que contiene una gran variedad de modelos pre-entrenados para ***Procesamiento de Lenguaje Natural (NLP)*** y ***Visión por Computadora (CV)*** principalmente. Estos modelos pueden ser compartidos por cualquier usuario.![](https://drive.google.com/uc?export=view&id=1hLzWX9NX3x1OAlEl2EV4Y-BbuJxBbKQi) - - - - **Existen modelos para distintos
propósitos** - - - - ![](https://drive.google.com/uc?export=view&id=1z2dPjHwhYoHseOrA4CPuA0_HsCldJqVo)


*   También cuenta con algunos tutoriales/cursos básicos sobre NLP y sobre cómo utilizar los modelos que contiene
![](https://drive.google.com/uc?export=view&id=1vwI0rLKt2iNtpIfBNEVdUciX-dQp_jfI)



***¿Qué es un modelo pre-entrenado?***

Es un modelo de machine learning que fue entrenado utilizando una serie de datos para resolver una o varias tareas. El entrenamiento de estos modelos generalmente se realiza con un conjunto muy grande de datos.

![](https://drive.google.com/uc?export=view&id=1M8D2NAxSjxjlDMMYTi0baRV4E91dNTtk)


***¿Por qué usar modelos pre-entrenados?***


1.   Por la cantidad de datos que se utilizan para entrenarlos
2.   Por el tiempo que requieren para ser entrenados
3.   Por la contaminación que genera un entrenamiento
4.   **Porque existe el tranfer learning**


***Modelos comunes***


*   BERT
*   RoBERTa
*   DistilBERT
*   GPT
*   LLaMA



***¿Qué es fine-tuning?***

A grandes rasgos, es tomar un modelo pre-entrenado y ajustarlo para un conjunto de datos más específico. Aquí tiene lugar un concepto muy importante, transfer learning, que se refiere a transferir el conocimiento general que tiene el modelo antes del fine-tuning hacía el modelo final mientras que se ajustan un poco los parámetros para que el nuevo modelo sea mejor en la nueva tarea que se pretende realizar.

![](https://drive.google.com/uc?export=view&id=1dbBpVgj7fkqsm-5egKOHBtaxHuy-lMEH)

Para hacer fine-tuning se necesitan tener datos específicos para la tarea que se busca realizar, por ejemplo, si se quiere afinar el modelo para predecir el precio de casas, entonces se debe de contar con una relación entre los precios y alguna(s) característica(s) de las casas, como el número de habitaciones, medidas, ubicación, etc.

En principio, no son necesarios un gran número de datos para la nueva tarea, pero entre más datos se tengan y estos sean significativos, confiables y estén bien etiquetados, mejor será el rendimiento del nuevo modelo en esa tarea.

Para afinar apropiadamente un modelo se debe de considerar que exista una cierta similitud entre el mismo y la nueva tarea. Es decir, si se busca realizar un clasificador de sentimientos, debe de utilizarse un modelo que ya realice tareas de clasificación, aún si es en otro ámbito distinto.

Se pueden utilizar diferentes modelos pre-entrenados para comparar su rendimiento después de ser afinados y seleccionar el que cuente con el mejor comportamiento.

# **Datos**

***Etiquetado de datos***

Para afinar un modelo se requiere tener datos bien etiquetados y que sean significativos para la tarea que se busca realizar.

Supongamos que se quiere predecir el precio de casas, quizá solamente contar con una relación entre el precio de estas y la medida del terreno no sea suficiente, porque esto no aplicaría para muchas propiedades que son pequeñas pero muy caras y que deben su precio a otros factores como los servicios con los que cuentan, el número de habitaciones o la ubicación del inmueble.

***Preprocesamiento de datos***


*   **Limpieza:** Antes de procesar los datos y usarlos para nuestras aplicaciones, debemos asegurarnos de que solo contengan elementos con los que podemos y queremos trabajar. Esto puede implicar eliminar emojis, hashtags, simbolos extraños, elementos en otros idiomas, etc.
*   **Tokenización:** Los datos que utilizaremos no serán procesados tal cuales por el modelo, es necesario realizar la tokenización de los mismos, que básicamente quiere decir, convertir estos datos a



In [None]:
#Este es un ejemplo de preprocesamiento de un texto
! pip install tweet-preprocessor
import preprocessor as p
p.set_options(p.OPT.EMOJI)
original_str='Para comenzar, hago press banco con mancuernas y llegué a mi máximo. Levanto 75lbs pero el problema es que no saco más de 4reps, la última serie intento sacar la 5 pero es de milagro. No logro pasar de 4 reps las primeras 3 series, solo la última hago las 5 y no avanzo 😅 . Si me pudieran dar consejos en: -¿Como lograr más repeticiones? -¿Cómo ganar algo más de fuerza? Los leeré y trataré de aplicarlos la próxima vez'
cleaned_str=p.clean(original_str)
if original_str!=cleaned_str:
  print("",cleaned_str)

 Para comenzar, hago press banco con mancuernas y llegu a mi mximo. Levanto 75lbs pero el problema es que no saco ms de 4reps, la ltima serie intento sacar la 5 pero es de milagro. No logro pasar de 4 reps las primeras 3 series, solo la ltima hago las 5 y no avanzo . Si me pudieran dar consejos en: -Como lograr ms repeticiones? -Cmo ganar algo ms de fuerza? Los leer y tratar de aplicarlos la prxima vez


In [None]:
#Este es un ejemplo de tokenización
! pip install transformers
from transformers import BertTokenizer

# Crear un tokenizador BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

# Tokenizar una oración
input_sentence = "I like this course"
tokens = tokenizer.tokenize(input_sentence)
print(input_sentence)
print(tokens)

I like this course
['i', 'like', 'this', 'course']


# Fine-tuning

In [None]:
# Instalación de tranformers
! pip install transformers
! pip install datasets
! pip install accelerate -U
! pip install torch

Collecting datasets
  Downloading datasets-2.16.1-py3-none-any.whl (507 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m507.1/507.1 kB[0m [31m5.5 MB/s[0m eta [36m0:00:00[0m
Collecting dill<0.3.8,>=0.3.0 (from datasets)
  Downloading dill-0.3.7-py3-none-any.whl (115 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m115.3/115.3 kB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m
Collecting multiprocess (from datasets)
  Downloading multiprocess-0.70.15-py310-none-any.whl (134 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m134.8/134.8 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: dill, multiprocess, datasets
Successfully installed datasets-2.16.1 dill-0.3.7 multiprocess-0.70.15
Collecting accelerate
  Downloading accelerate-0.26.1-py3-none-any.whl (270 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m270.9/270.9 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
Installing collected pack

In [None]:
#Importamos un dataset de reseñas.
#Cada reseña cuenta con una calificación que va del 0 al 4 y la descripción de la experiencia

from datasets import load_dataset

dataset = load_dataset("yelp_review_full")
print(dataset["train"][1])
print(dataset["train"][100])
print(dataset["train"][200])

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


Downloading readme:   0%|          | 0.00/6.72k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/299M [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/23.5M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/650000 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/50000 [00:00<?, ? examples/s]

{'label': 1, 'text': "Unfortunately, the frustration of being Dr. Goldberg's patient is a repeat of the experience I've had with so many other doctors in NYC -- good doctor, terrible staff.  It seems that his staff simply never answers the phone.  It usually takes 2 hours of repeated calling to get an answer.  Who has time for that or wants to deal with it?  I have run into this problem with many other doctors and I just don't get it.  You have office workers, you have patients with medical needs, why isn't anyone answering the phone?  It's incomprehensible and not work the aggravation.  It's with regret that I feel that I have to give Dr. Goldberg 2 stars."}
{'label': 0, 'text': 'My expectations for McDonalds are t rarely high. But for one to still fail so spectacularly...that takes something special!\\nThe cashier took my friends\'s order, then promptly ignored me. I had to force myself in front of a cashier who opened his register to wait on the person BEHIND me. I waited over five 

In [None]:
#Traemos el tokenizer del modelo que estamos utilizando, que en este caso es "bert-base-cased"
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

#Definimos una función de tokenización para que esta se realize por partes
def tokenize_function(examples):
    return tokenizer(examples["text"], padding="max_length", truncation=True)

#Mapear la función es más eficiente que aplicarla directamente.
#"batched=True" indica que enviaremos por partes la información
tokenized_datasets = dataset.map(tokenize_function, batched=True)

tokenizer_config.json:   0%|          | 0.00/29.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/570 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/213k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/436k [00:00<?, ?B/s]

Map:   0%|          | 0/650000 [00:00<?, ? examples/s]

Map:   0%|          | 0/50000 [00:00<?, ? examples/s]

***Split***
Los datos que tenemos deben de ser separados al menos en dos partes (train & test); aunque lo más ideal es separar en tres partes (train, validation & test).


*   **train:** son los datos que como tal se utilizarán para entrenar el modelo. *Representa la mayoría de los datos.*
*   **validation:** se compara el entrenamiento contra datos de validation y si existe overfitting se corrige. *Es una pequeña parte de los datos, quizá un 20-25%*
*   **test:** aquí solo hay datos que el modelo nunca ha visto y que no se utilizan en ningún momento del afinamiento. Nos permiten tener una medida de qué tan bueno es el modelo prediciendo. *Es una pequeña parte de los datos, quizá un 15-20%*



---


**Este es un ejemplo de como separar el dataset en las tres partes correspondientes.** La función *train_test_split* solo puede separar en dos conjuntos, por lo que se ocupa dos veces


from sklearn.model_selection import train_test_split

train_data, temp_data, train_labels, temp_labels = train_test_split(data, labels, test_size=0.2, random_state=42)

validation_data, test_data, validation_labels, test_labels = train_test_split(temp_data, temp_labels, test_size=0.25, random_state=42)


---



In [None]:
#Utilizaremos un número limitado de ejemplos del dataset para que el entrenamiento sea más rápido,
#pues en este caso no nos interesa como tal que el modelo sea bueno en la tarea, sino conocer la
#forma en que funciona. Si se quieren mejores resultados pueden aumentarse los items usados
#(inténtelo con 1000). Por otro lado, si se busca reducir el tiempo pueden utilizarse menos items,
#pero obviamente el modelo obtendrá peores resultados
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(100))
small_eval_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(100))

In [None]:
#Aquí le estamos indicando que se trata de una tarea de clasificación
from transformers import AutoModelForSequenceClassification

#Se vuelve a pasar el nombre del modelo como uno de los parámetros, además del número de etiquetas
#que se tienen, en este caso 5, que corresponden a las calificaciones 0,1,2,3 y 4.
model = AutoModelForSequenceClassification.from_pretrained("bert-base-cased", num_labels=5)

model.safetensors:   0%|          | 0.00/436M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:
#Importamos la librería numpy que se utilizará más adelante
import numpy as np

#En el tutorial de huggingface indica que se utilizará el comando "import evaluate", pero en realidad
#se debe correr primero "pip install evaluate", de lo contrario se genera un error
! pip install evaluate
import evaluate
metric = evaluate.load("accuracy")

Collecting evaluate
  Downloading evaluate-0.4.1-py3-none-any.whl (84 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/84.1 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m30.7/84.1 kB[0m [31m965.0 kB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m84.1/84.1 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m
Collecting responses<0.19 (from evaluate)
  Downloading responses-0.18.0-py3-none-any.whl (38 kB)
Installing collected packages: responses, evaluate
Successfully installed evaluate-0.4.1 responses-0.18.0


Downloading builder script:   0%|          | 0.00/4.20k [00:00<?, ?B/s]

In [None]:
#Esta función nos sirve para conocer qué tan correctas fueron las predicciones hechas
def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

In [None]:
#Indicamos que la evaluación se realizará por épocas
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(output_dir="PrimerClasificadorSencillo", evaluation_strategy="epoch")

In [None]:
#Definimos el modelo con todas las características necesarias: qué modelo es,
#cuales son los argumentos para el entrenamiento, que conjunto de datos de
#entrenamiento y evaluación utilizaremos y la función para las métricas
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
    compute_metrics=compute_metrics,
)

In [None]:
#Llamamos a esta función para entrenar el modelo como tal
trainer.train()

Epoch,Training Loss,Validation Loss,Accuracy
1,No log,1.626531,0.21
2,No log,1.500543,0.45
3,No log,1.451971,0.4


TrainOutput(global_step=39, training_loss=1.5610093336838942, metrics={'train_runtime': 2748.3605, 'train_samples_per_second': 0.109, 'train_steps_per_second': 0.014, 'total_flos': 78935442739200.0, 'train_loss': 1.5610093336838942, 'epoch': 3.0})

In [None]:
#Guardamos el modelo ya entrenado
model.save_pretrained('PrimerClasificadorSencillo')

In [None]:
#Nos logeamos a huggingface utilizando un token de escritura para posteriormente
#subir el modelo
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [None]:
#Subimos el nuevo modelo al hub, si se quiere puede ponerse en privado con el argumento
#"private=True". También es importante subir tanto "trainer" como "tokenizer" pues sin
#tokenizer no habrá forma de tokenizar los elementos, por lo que no se podrá usar el modelo
trainer.push_to_hub("PrimerClasificadorSencillo")
tokenizer.push_to_hub("PrimerClasificadorSencillo")

model.safetensors:   0%|          | 0.00/433M [00:00<?, ?B/s]

Upload 3 LFS files:   0%|          | 0/3 [00:00<?, ?it/s]

training_args.bin:   0%|          | 0.00/4.60k [00:00<?, ?B/s]

events.out.tfevents.1706194249.1b689978a762.973.0:   0%|          | 0.00/5.76k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/katzenbach/PrimerClasificadorSencillo/commit/07dd70a06c482fcfc0e2bdde074d58dca942fede', commit_message='Upload tokenizer', commit_description='', oid='07dd70a06c482fcfc0e2bdde074d58dca942fede', pr_url=None, pr_revision=None, pr_num=None)

In [None]:
#Una forma de probar el modelo es importandolo desde huggingface como a cualquier otro,
#pues en este punto, ya deberá encontrarse disponible en la plataforma
from transformers import AutoModelForSequenceClassification
model=AutoModelForSequenceClassification.from_pretrained("katzenbach/PrimerClasificadorSencillo")
tokenizer = AutoTokenizer.from_pretrained("katzenbach/PrimerClasificadorSencillo")
# Para probar el modelo podemos utilizar una o varias oraciones, como se puede ver a continuación
#Las siguientes dos lineas se utilizarían para probar con una sola oración
#input_sentence = "This is a sample sentence for testing."
#inputs = tokenizer(input_sentence, return_tensors="pt")

#Las siguientes lineas se utilizan para probar con varias oraciones
raw_inputs = [
    "Loved it! Best experience I've ever had, If I could, I'd eat in that place everyday",
    "Meal was fine but service was really bad",
    "Terrible place and awful service. Bad food!",
    "It's an experience I'm not quite sure I'd repeat again",
]
inputs = tokenizer(raw_inputs, padding=True, truncation=True, return_tensors="pt")
print(inputs)

{'input_ids': tensor([[  101,  2185,  1181,  1122,   106,  1798,  2541,   146,   112,  1396,
          1518,  1125,   117,  1409,   146,  1180,   117,   146,   112,   173,
          3940,  1107,  1115,  1282, 11236,   102],
        [  101,  2508,  1348,  1108,  2503,  1133,  1555,  1108,  1541,  2213,
           102,     0,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0],
        [  101, 12008, 27788,  1282,  1105,  9684,  1555,   119,  6304,  2094,
           106,   102,     0,     0,     0,     0,     0,     0,     0,     0,
             0,     0,     0,     0,     0,     0],
        [  101,  1135,   112,   188,  1126,  2541,   146,   112,   182,  1136,
          2385,  1612,   146,   112,   173,  9488,  1254,   102,     0,     0,
             0,     0,     0,     0,     0,     0]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
         0, 0],
        [0, 0, 0, 0, 0, 0, 0,

In [None]:
#Los outputs se convierten en números que tengan sentido para nuestro etiquetado
outputs = model(**inputs)
print(outputs.logits)
import torch

predictions = torch.nn.functional.softmax(outputs.logits, dim=-1)
print(predictions)

tensor([[-0.5033, -0.3212,  0.1373,  0.4591,  0.1564],
        [-0.2759, -0.1669,  0.1316,  0.3009, -0.0359],
        [ 0.0017, -0.1172, -0.2315, -0.0028, -0.1466],
        [-0.4548, -0.2929,  0.3167,  0.4162,  0.0211]],
       grad_fn=<AddmmBackward0>)
tensor([[0.1156, 0.1387, 0.2194, 0.3027, 0.2236],
        [0.1499, 0.1672, 0.2253, 0.2669, 0.1906],
        [0.2204, 0.1957, 0.1745, 0.2194, 0.1900],
        [0.1199, 0.1410, 0.2594, 0.2866, 0.1930]], grad_fn=<SoftmaxBackward0>)


In [None]:
#Imprimimos las etiquetas del modelo y comparamos contra las predicciones, el campo
#con el número más alto corresponde a la etiqueta predicha.
model.config.id2label

{0: 'LABEL_0', 1: 'LABEL_1', 2: 'LABEL_2', 3: 'LABEL_3', 4: 'LABEL_4'}

# **Preguntas**