<a href="https://colab.research.google.com/github/somosnlp/recursos/blob/main/hackathon_2024/entrenar_con_datos_de_calidad.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# La importancia de entrenar nuestros modelos en datos de calidad


> Taller de Manuel Romero en el marco del [Hackathon #Somos600M](https://somosnlp.org/hackathon)

> GrabaciÃ³n del taller disponible en YouTube [@SomosNLP](https://www.youtube.com/watch?v=hPq5NG8kA8w&list=PLTA-KAy8nxaASMwEUWkkTfMaDxWBxn-8J)

## Acerca de mÃ­

- CSO @ MAISA
- Head Contrib/ AmbassadorðŸ¤— @Huggingface
-  Research ðŸŒ¸ @bigscience / @BigCodeProject
- Ex Senior NLP Engineer @ Narrativa
- Co-founder@SomosNLP_
- Backend Engineer
- CS @ UMU


## Intro
### Beneficios de entrenar en corpus/datasets de calidad

- **AlineaciÃ³n y AdquisiciÃ³n de Conocimientos**: Los datos de alta calidad aseguran que el modelo aprenda informaciÃ³n precisa y comportamientos apropiados. Esto es crucial para enseÃ±ar al modelo a alinearse con objetivos humanos y adquirir conocimientos durante el preentrenamiento.

- **Rendimiento y GeneralizaciÃ³n**: Entrenar con datos de baja calidad puede afectar negativamente el rendimiento de los LLMs. Los datos de alta calidad ayudan a reducir sesgos y mejorar la fiabilidad y capacidad de generalizaciÃ³n del modelo.

- **Eficiencia y Escalabilidad**: La calidad de los datos afecta significativamente la eficiencia del proceso de entrenamiento. Datos de alta calidad permiten una escalabilidad mÃ¡s eficiente de los parÃ¡metros del modelo y pueden conducir a un modelo mÃ¡s eficiente en tÃ©rminos de cÃ³mputo.

- **Diversidad de Datos y Experticia en el Dominio**: Un conjunto de datos diverso y de alta calidad permite a los LLMs adquirir un amplio rango de conocimientos y demostrar fuertes habilidades de generalizaciÃ³n en varios dominios. Los conjuntos de datos especializados tambiÃ©n pueden proporcionar a los LLMs habilidades especÃ­ficas para resolver problemas.

- **Preprocesamiento y GestiÃ³n de Datos**: La gestiÃ³n efectiva de datos, incluyendo estrategias de preprocesamiento como la deduplicaciÃ³n, filtrado de calidad y filtrado de toxicidad, es esencial para construir conjuntos de entrenamiento adecuados. Este proceso influye significativamente en la capacidad del modelo para aprender de manera eficiente y desempeÃ±arse efectivamente en diferentes tareas.

- **Direcciones Futuras y DesafÃ­os**: Hay un enfoque creciente en mejores conjuntos de datos para el preentrenamiento en lugar de entrenar con todos los datos disponibles. El equilibrio entre la calidad y la cantidad de datos sigue siendo un Ã¡rea de investigaciÃ³n activa. Los datos de alta calidad pueden permitir entrenar modelos mÃ¡s pequeÃ±os que se desempeÃ±an de manera comparable a modelos mÃ¡s grandes, pero existen riesgos como el sobreajuste y la sensibilidad al prompting.

## Pre-training

### Procedimiento de preparaciÃ³n de datos

![image](https://huggingface.co/mrm8488/images/resolve/main/Captura%20de%20pantalla%202024-03-11%20a%20las%2013.30.37.png?download=true)


- **VisiÃ³n General del Procesamiento de Datos**
  - El objetivo es crear datos de entrenamiento bilingÃ¼es (inglÃ©s y chino) de alta calidad a partir de la web.
  - Esto implica usar herramientas especÃ­ficas para identificar idiomas y limpiar los datos.

- **Pasos de Limpieza**
  - **Filtros HeurÃ­sticos:** Eliminar texto de mala calidad basado en:
    - URLs malas, dominios y texto sin sentido.
    - Longitud de documento inapropiada y demasiados sÃ­mbolos especiales o lÃ­neas incompletas.
    - Contenido repetitivo.
    - Oculta informaciÃ³n personal como correos electrÃ³nicos y nÃºmeros de telÃ©fono.
  - **Filtros Aprendidos:** Usar mÃ©todos avanzados para tratar contenido complicado, especialmente para chino:
    - Descartar documentos que son demasiado confusos o de baja calidad.
    - Eliminar documentos que son incoherentes o contienen contenido peligroso.
  - **Filtros Basados en Agrupaciones:** Agrupar documentos similares para evaluar y mejorar la calidad de manera mÃ¡s efectiva.
  - **DeduplicaciÃ³n:** Eliminar contenido duplicado para asegurar que cada documento sea Ãºnico.

- **Resultado**
  - Produce un conjunto de datos con 3.1 billones de palabras de alta calidad en inglÃ©s y chino.
  - Este conjunto de datos es mÃ¡s limpio y diverso en comparaciÃ³n con otros, en parte debido a sus mÃ©todos efectivos de limpieza y filtrado.


### Benchmarks

![b1](https://huggingface.co/mrm8488/images/resolve/main/Captura%20de%20pantalla%202024-03-11%20a%20las%2013.32.14.png?download=true)


![b2](https://huggingface.co/mrm8488/images/resolve/main/Captura%20de%20pantalla%202024-03-11%20a%20las%2013.32.23.png?download=true)



[Paper](https://arxiv.org/pdf/2403.04652.pdf)



## Taller

## ExploraciÃ³n de los datos de entrenamiento

In [None]:
from huggingface_hub import notebook_login
notebook_login()

In [None]:
! pip install -q datasets

In [None]:
from datasets import load_dataset, Dataset

In [None]:
ds_good = load_dataset("mrm8488/en_es_sample_good")
ds_bad = load_dataset("mrm8488/en_es_sample_bad")

In [None]:
ds_good, ds_bad

(DatasetDict({
     train: Dataset({
         features: ['source', 'target'],
         num_rows: 20
     })
 }),
 DatasetDict({
     train: Dataset({
         features: ['source', 'target'],
         num_rows: 20
     })
 }))

In [None]:
ds_good = ds_good['train']
ds_bad = ds_bad['train']

In [None]:
import pandas as pd
pd.set_option('display.max_colwidth', 100)

In [None]:
df_good = ds_good.to_pandas()

In [None]:
df_good.head(20)

Unnamed: 0,source,target
0,Where can I exchange currency?,Â¿DÃ³nde puedo cambiar divisas?
1,Is this area safe at night?,Â¿Es segura esta zona por la noche?
2,I need directions to the train station.,Necesito indicaciones para llegar a la estaciÃ³n de tren.
3,Could you recommend a local specialty?,Â¿PodrÃ­a recomendarme una especialidad local?
4,I need to cancel my reservation.,Necesito cancelar mi reserva.
5,How do I connect to the Wi-Fi?,Â¿CÃ³mo me conecto al Wi-Fi?
6,Can you show me on the map?,Â¿Puede mostrarme en el mapa?
7,I would like to make a dinner reservation for two.,Quisiera hacer una reserva para cenar para dos personas.
8,Is breakfast included?,Â¿EstÃ¡ incluido el desayuno?
9,I need a doctor.,Necesito un mÃ©dico.


In [None]:
df_bad = ds_bad.to_pandas()

In [None]:
df_bad.head(20)

Unnamed: 0,source,target
0,Where can I exchange currency?,Â¿DÃ³nde puedo cambiar dinero?
1,Is this area safe at night?,Â¿Es este Ã¡rea segura en noche?
2,I need directions to the train station.,Necesito direcciones a estaciÃ³n de tren.
3,Could you recommend a local specialty?,Â¿Puedes recomendar una especialidad de local?
4,I need to cancel my reservation.,Necesito cancelar mi reservaciÃ³n.
5,How do I connect to the Wi-Fi?,Â¿CÃ³mo conecto a Wi-Fi?
6,Can you show me on the map?,Â¿Puedes mostrarme en mapa?
7,I would like to make a dinner reservation for two.,Quiero hacer una reserva de cena para dos.
8,Is breakfast included?,Â¿EstÃ¡ incluido desayuno?
9,I need a doctor.,Necesito doctor.


**Estas traducciones reflejan errores comunes como traducciones literales, terminologÃ­a incorrecta y errores gramaticales tÃ­picos de traducciones de baja calidad.**

## Fine-tuning

[Colab Fine-tuning](https://colab.research.google.com/drive/1pD211NnALzLHm5SHuNpXoV4tcFSe9bDt)

## Resultados

In [None]:
ds_res_good = load_dataset("mrm8488/en_es_results_good")

Downloading readme:   0%|          | 0.00/300 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/2.79k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/20 [00:00<?, ? examples/s]

In [None]:
ds_res_bad = load_dataset("mrm8488/en_es_results_bad")

Downloading readme:   0%|          | 0.00/300 [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/2.78k [00:00<?, ?B/s]

Generating train split:   0%|          | 0/20 [00:00<?, ? examples/s]

In [None]:
ds_res_good = ds_res_good['train']
ds_res_bad = ds_res_bad['train']

In [None]:
df_res_good = ds_res_good.to_pandas()

In [None]:
df_res_good

Unnamed: 0,source,target
0,I would like to book a flight ticket to Madrid.,Deseo reservar un billete de aviÃ³n hacia Madrid.
1,Can you help me find a hotel room in Barcelona?,Â¿PodrÃ­a ayudarme a encontrar una habitaciÃ³n de...
2,What is the time in Madrid now?,Â¿QuÃ© hora es ahora en Madrid?
3,Where is the nearest ATM located?,Â¿DÃ³nde se encuentra el cajero automÃ¡tico mÃ¡s c...
4,How much does a cup of coffee cost?,Â¿CuÃ¡l es el precio de una taza de cafÃ©?
5,Can I pay with a credit card?,Â¿Es posible pagar con tarjeta de crÃ©dito?
6,What is the weather like today?,Â¿CÃ³mo estÃ¡ el tiempo hoy?
7,Do you speak English?,Â¿Habla usted inglÃ©s?
8,I don't understand,No comprendo
9,How do I get to the city center?,Â¿CÃ³mo puedo llegar al centro de la ciudad?


In [None]:
df_res_bad = ds_res_bad.to_pandas()

In [None]:
df_res_bad

Unnamed: 0,source,target
0,I would like to book a flight ticket to Madrid.,Me gustar reservar un vuelo billete para Madrid.
1,Can you help me find a hotel room in Barcelona?,Â¿Puedes ayudar yo encontrar una cuarto de hote...
2,What is the time in Madrid now?,Â¿QuÃ© es el tiempo en Madrid ahora?
3,Where is the nearest ATM located?,Â¿DÃ³nde estÃ¡ el cajero mÃ¡s cercano ubicado?
4,How much does a cup of coffee cost?,Â¿CuÃ¡nto es el costo de una taza de cafÃ©?
5,Can I pay with a credit card?,Â¿Yo puedo pagar con tarjeta de crÃ©dito?
6,What is the weather like today?,Â¿CÃ³mo es el clima hoy?
7,Do you speak English?,Â¿TÃº hablas inglÃ©s?
8,I don't understand,No comprendo
9,How do I get to the city center?,Â¿CÃ³mo voy al centro de la ciudad?
