### Instalación de librerías básicas

In [None]:
!pip install transformers argilla datasets

In [None]:
!pip uninstall -y huggingface_hub && pip3 install git+https://github.com/huggingface/huggingface_hub

In [None]:
!pip install -q bitsandbytes accelerate loralib
!pip install -q git+https://github.com/huggingface/transformers.git@main git+https://github.com/huggingface/peft.git

### Fine-tuning a Bertin usando LoRA

In [None]:
from huggingface_hub import notebook_login
notebook_login()

In [None]:
import torch
import requests
from transformers import BertTokenizerFast, EncoderDecoderModel, AutoTokenizer, AutoConfig, AutoModelForCausalLM
from datasets import DatasetDict, Dataset, load_dataset
import argilla as rg
import pandas as pd
import transformers
import os
import torch.nn as nn
import bitsandbytes as bnb
os.environ["CUDA_VISIBLE_DEVICES"] = "0"

In [None]:
model_id = 'bertin-project/bertin-gpt-j-6B'

In [None]:
model = AutoModelForCausalLM.from_pretrained(model_id,
                                             load_in_8bit=True,
                                             device_map='auto',
                                             torch_dtype=torch.float16)
tokenizer = AutoTokenizer.from_pretrained(model_id)

In [None]:
tokenizer.pad_token = tokenizer.eos_token

new_tokens = ["<SH>", "<EH>"]
num_added_toks = tokenizer.add_tokens(new_tokens)
print(f"Whe have added {num_added_toks} tokens")
model.resize_token_embeddings(len(tokenizer))

Whe have added 2 tokens


Embedding(50259, 4096)

### Postprocesado del modelo

In [None]:
for param in model.parameters():
  param.requires_grad = False  # freeze the model - train adapters later
  if param.ndim == 1:
    # cast the small parameters (e.g. layernorm) to fp32 for stability
    param.data = param.data.to(torch.float32)

model.gradient_checkpointing_enable()  # reduce number of stored activations
model.enable_input_require_grads()

class CastOutputToFloat(nn.Sequential):
  def forward(self, x): return super().forward(x).to(torch.float32)
model.lm_head = CastOutputToFloat(model.lm_head)


### Aplicar LoRA


In [None]:
def print_trainable_parameters(model):
    """
    Prints the number of trainable parameters in the model.
    """
    trainable_params = 0
    all_param = 0
    for _, param in model.named_parameters():
        all_param += param.numel()
        if param.requires_grad:
            trainable_params += param.numel()
    print(
        f"trainable params: {trainable_params} || all params: {all_param} || trainable%: {100 * trainable_params / all_param}"
    )


In [None]:
from peft import LoraConfig, get_peft_model 

config = LoraConfig(
    r=16,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)

model = get_peft_model(model, config)
print_trainable_parameters(model)

trainable params: 7340032 || all params: 6057067603 || trainable%: 0.12118127914511903


### Preprocesado del dataset

In [None]:
dataset = load_dataset('hackathon-somos-nlp-2023/informes_discriminacion_gitana')

Downloading readme:   0%|          | 0.00/15.3k [00:00<?, ?B/s]

Downloading and preparing dataset None/None to /home/qblocks/.cache/huggingface/datasets/hackathon-somos-nlp-2023___parquet/hackathon-somos-nlp-2023--informes_discriminacion_gitana-bd732aeefd500087/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec...


Downloading data files:   0%|          | 0/3 [00:00<?, ?it/s]

Downloading data:   0%|          | 0.00/53.9k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/826k [00:00<?, ?B/s]

Downloading data:   0%|          | 0.00/56.9k [00:00<?, ?B/s]

Extracting data files:   0%|          | 0/3 [00:00<?, ?it/s]

Generating valid split:   0%|          | 0/99 [00:00<?, ? examples/s]

Generating train split:   0%|          | 0/1791 [00:00<?, ? examples/s]

Generating test split:   0%|          | 0/100 [00:00<?, ? examples/s]

Dataset parquet downloaded and prepared to /home/qblocks/.cache/huggingface/datasets/hackathon-somos-nlp-2023___parquet/hackathon-somos-nlp-2023--informes_discriminacion_gitana-bd732aeefd500087/0.0.0/2a3b91fbd88a2c90d1dbbb32b460cf621d31bd5b05b934492fdef7d8d6f236ec. Subsequent calls will reuse this data.


  0%|          | 0/3 [00:00<?, ?it/s]

In [None]:
dataset

DatasetDict({
    train: Dataset({
        features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
        num_rows: 1791
    })
    test: Dataset({
        features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
        num_rows: 100
    })
    valid: Dataset({
        features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
        num_rows: 99
    })
})

In [None]:
vacio = {"hechos": [],
        "intervencion": [],
        "resultado": []}
for i, data in enumerate(dataset["train"]):
    if len(data["text"]) == 0:
        vacio["hechos"].append(i)
    if len(data["intervencion"]) == 0:
        vacio["intervencion"].append(i)
    if len(data["resultado"]) == 0:
        vacio["resultado"].append(i)

In [None]:
vacio

{'hechos': [],
 'intervencion': [119,
  209,
  311,
  565,
  851,
  869,
  1091,
  1187,
  1354,
  1403,
  1460,
  1491,
  1520,
  1523,
  1625,
  1703],
 'resultado': []}

Eliminamos las intervenciones vacías

In [None]:
dataset["train"] = dataset["train"].select(
    (
        i for i in range(len(dataset["train"])) if i not in set(vacio["intervencion"])
    )
)

In [None]:
dataset["train"]

Dataset({
    features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
    num_rows: 1775
})

In [None]:
datos_positivo = dataset.filter(lambda x: x["resultado"] == "Positivo.")
datos_negativo = dataset.filter(lambda x: x["resultado"] == "Negativo.")
datos_neutro = dataset.filter(lambda x: x["resultado"] == "Neutro.")

Filter:   0%|          | 0/1775 [00:00<?, ? examples/s]

Filter:   0%|          | 0/100 [00:00<?, ? examples/s]

Filter:   0%|          | 0/99 [00:00<?, ? examples/s]

Filter:   0%|          | 0/1775 [00:00<?, ? examples/s]

Filter:   0%|          | 0/100 [00:00<?, ? examples/s]

Filter:   0%|          | 0/99 [00:00<?, ? examples/s]

Filter:   0%|          | 0/1775 [00:00<?, ? examples/s]

Filter:   0%|          | 0/100 [00:00<?, ? examples/s]

Filter:   0%|          | 0/99 [00:00<?, ? examples/s]

In [None]:
datos_positivo

DatasetDict({
    train: Dataset({
        features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
        num_rows: 246
    })
    test: Dataset({
        features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
        num_rows: 11
    })
    valid: Dataset({
        features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
        num_rows: 11
    })
})

In [None]:
# dividir el subconjunto de no positivo en dos subconjuntos aleatorios del mismo tamaño
datos_neg_train = datos_negativo["train"].train_test_split(train_size=len(datos_positivo["train"]))
datos_neu_train = datos_neutro["train"].train_test_split(train_size=len(datos_positivo["train"]))

datos_neg_test = datos_negativo["test"].train_test_split(train_size=len(datos_positivo["test"]))
datos_neu_test = datos_neutro["test"].train_test_split(train_size=len(datos_positivo["test"]))

datos_neg_valid = datos_negativo["valid"].train_test_split(train_size=len(datos_positivo["valid"]))
datos_neu_valid = datos_neutro["valid"].train_test_split(train_size=len(datos_positivo["valid"]))

In [None]:
datos_neg_train["train"], datos_neg_test["train"], datos_neg_valid["train"]
datos_neu_train["train"], datos_neu_test["train"], datos_neu_valid["train"]

(Dataset({
     features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
     num_rows: 246
 }),
 Dataset({
     features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
     num_rows: 11
 }),
 Dataset({
     features: ['sintetico', 'text', 'intervencion', 'tipo_discriminacion', 'resultado'],
     num_rows: 11
 }))

Como el dataset no está balanceado, vamos a tomar el mismo número de muestras positivas, negativas y neutras.

In [None]:
from datasets import concatenate_datasets

datos_neg = DatasetDict({"train": datos_neg_train["train"], "test": datos_neg_test["train"], "valid": datos_neg_valid["train"]})
datos_neu = DatasetDict({"train": datos_neu_train["train"], "test": datos_neu_test["train"], "valid": datos_neu_valid["train"]})
concatenate_datasets([datos_positivo["train"], datos_neu["train"], datos_neg["train"]])

In [None]:
balanced_dataset = DatasetDict({
                               "train": concatenate_datasets([datos_positivo["train"], datos_neu["train"], datos_neg["train"]]),
                               "test": concatenate_datasets([datos_positivo["test"], datos_neu["test"], datos_neg["test"]]),
                               "valid": concatenate_datasets([datos_positivo["valid"], datos_neu["valid"], datos_neg["valid"]])
                               })

In [None]:
balanced_dataset = balanced_dataset.shuffle(seed=42)

In [None]:
balanced_dataset["train"][0]

{'sintetico': '0',
 'text': 'La Voz de Galicia publicó una noticia sobre una detención policial en un barrio de Lugo. En el cuerpo de la noticia se mencionaba que los delincuentes eran de etnia gitana.',
 'intervencion': 'Se envió carta de queja al medio.',
 'tipo_discriminacion': 'Discriminación directa',
 'resultado': 'Negativo.'}

In [None]:
def format_ds(example):
  example["input_text"] = "<SH>" + example["text"] + " Intervención: " + example["intervencion"] + " Resultado:" + example["resultado"] + "<EH>"
  return example

In [None]:
balanced_dataset = balanced_dataset.map(format_ds, remove_columns=["sintetico", "text", "intervencion", "tipo_discriminacion", "resultado"])

Map:   0%|          | 0/738 [00:00<?, ? examples/s]

Map:   0%|          | 0/33 [00:00<?, ? examples/s]

Map:   0%|          | 0/33 [00:00<?, ? examples/s]

In [None]:
balanced_dataset["train"][0]

{'input_text': '<SH>La Voz de Galicia publicó una noticia sobre una detención policial en un barrio de Lugo. En el cuerpo de la noticia se mencionaba que los delincuentes eran de etnia gitana. Intervención: Se envió carta de queja al medio. Resultado:Negativo.<EH>'}

In [None]:
balanced_dataset = balanced_dataset.map(lambda samples: tokenizer(samples["input_text"]), batched=True)

Map:   0%|          | 0/738 [00:00<?, ? examples/s]

Map:   0%|          | 0/33 [00:00<?, ? examples/s]

Map:   0%|          | 0/33 [00:00<?, ? examples/s]

### Configuración de los parámetros de entrenamiento

In [None]:
trainer = transformers.Trainer(
    model=model, 
    train_dataset=balanced_dataset['train'],
    eval_dataset=balanced_dataset['test'],
    args=transformers.TrainingArguments(
        per_device_train_batch_size=4, 
        gradient_accumulation_steps=4,
        warmup_steps=100, 
        max_steps=1000, 
        learning_rate=2e-4, 
        fp16=True,
        logging_steps=20, 
        output_dir='outputs',
        report_to='tensorboard'
    ),
    data_collator=transformers.DataCollatorForLanguageModeling(tokenizer, mlm=False)
)

In [None]:
model.config.use_cache = False  # silence the warnings. Please re-enable for inference!

In [None]:
trainer.train()

You're using a GPT2TokenizerFast tokenizer. Please note that with a fast tokenizer, using the `__call__` method is faster than using a method to encode the text followed by a call to the `pad` method to get a padded encoding.


Step,Training Loss
20,1.6648
40,1.5482
60,1.3198
80,1.2661
100,1.2171
120,1.1788
140,1.1891
160,1.1161
180,1.1115
200,1.065




TrainOutput(global_step=1000, training_loss=0.6538836755752564, metrics={'train_runtime': 9209.8727, 'train_samples_per_second': 1.737, 'train_steps_per_second': 0.109, 'total_flos': 2.6633005587904467e+17, 'train_loss': 0.6538836755752564, 'epoch': 21.62})

In [None]:
import math

eval_results = trainer.evaluate()
print(f"Perplexity: {math.exp(eval_results['eval_loss']):.2f}")

Perplexity: 9.20


La medida de perplexity (perplejidad en español) se utiliza en el campo del procesamiento del lenguaje natural para evaluar la calidad de un modelo de lenguaje. Básicamente, la perplexity se refiere a cuán bien un modelo de lenguaje puede predecir una secuencia de palabras desconocidas, en función de su experiencia previa.

En términos generales, cuanto más bajo sea el valor de la perplexity, mejor será el modelo de lenguaje. Un modelo con una perplexity baja tiene una mejor capacidad para predecir la probabilidad de una secuencia de palabras desconocidas. Por otro lado, un modelo con una perplexity alta indica que tiene dificultades para hacer predicciones precisas.

Nuestro modelo tiene un valor de perplexity de 9.2

### Subida del modelo al hub

In [None]:
model.push_to_hub("rwheel/discriminacion_gitana_intervenciones_balanceado", use_auth_token=True)

tokenizer.push_to_hub("rwheel/discriminacion_gitana_intervenciones_balanceado", use_auth_token=True)

## Cargar el adapter del Hub

In [None]:
import torch
from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer

peft_model_id = "rwheel/discriminacion_gitana_intervenciones"
config = PeftConfig.from_pretrained(peft_model_id)
model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path, return_dict=True, load_in_8bit=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
# Load the Lora model
model = PeftModel.from_pretrained(model, peft_model_id)

In [None]:
model.config.use_cache = False

In [None]:
def predecir_intervencion(text):
  text = "<SH>" + text + " Intervención: "
  batch = tokenizer(text, return_tensors='pt')
  with torch.cuda.amp.autocast():
    output_tokens = model.generate(**batch, max_new_tokens=256, eos_token_id=50258)

  return tokenizer.decode(output_tokens[0], skip_special_tokens=False)

In [None]:
from datasets import load_dataset
ldataset = load_dataset('rwheel/informes_discriminacion_gitana')

  0%|          | 0/3 [00:00<?, ?it/s]

In [None]:
ldataset["valid"][9]["text"]

'Una familia gitana que reside en Mérida decide viajar a visitar a un familiar que está enfermo en Zalamea de la Serena. Durante el trayecto, hacen una parada para preguntar por qué carretera continuar cuando de pronto son parados por dos furgonetas de la guardia civil. Nos informan de que fueron cacheados todos los miembros de la familia, incluso los jóvenes que viajaban con ellos. Cuando la guardia civil comprobó por sus propios testimonios que iban a ver a un familiar que estaba enfermo, les dejo seguir su viaje. A pesar de pedir una explicación de por qué los cachearon los guardia civiles no les comentaron nada. Nos trasladan que se sintieron muy mal, porque en cuanto la guardia civil se dio cuenta que eran gitanos, los pararon. Era de noche y por miedo, no identificaron ni los vehículos ni a los agentes.'

In [None]:
hechos = ldataset["valid"][9]["text"]
output = predecir_intervencion(hechos)

NameError: name 'tokenizer' is not defined

### Interfaz con gradio

In [None]:
! pip install gradio

In [None]:
import gradio as gr
import torch
from peft import PeftModel, PeftConfig
from transformers import AutoModelForCausalLM, AutoTokenizer

peft_model_id = "hackathon-somos-nlp-2023/discriminacion_gitana_intervenciones_balanceado"
config = PeftConfig.from_pretrained(peft_model_id)
model = AutoModelForCausalLM.from_pretrained(config.base_model_name_or_path, return_dict=True, load_in_8bit=True, device_map='auto')
tokenizer = AutoTokenizer.from_pretrained(peft_model_id)
# Load the Lora model
model = PeftModel.from_pretrained(model, peft_model_id)

def predecir_intervencion(text):
    text = "<SH>" + text + " Intervención: "
    batch = tokenizer(text, return_tensors='pt')
    with torch.cuda.amp.autocast():
        output_tokens = model.generate(**batch, max_new_tokens=256, eos_token_id=50258)

    output = tokenizer.decode(output_tokens[0], skip_special_tokens=False)

    aux = output.split("Intervención:")[1].strip()
    intervencion = aux.split("Resultado:")[0].strip()
    resultado = aux.split("Resultado:")[1].split("<EH>")[0].strip()
    
    return intervencion, resultado

with gr.Blocks() as demo:
    gr.Markdown("Predicción de intervenciones para mitigar el daño racista en el pueblo gitano")
    with gr.Row():
        hechos = gr.Textbox(placeholder="Un alumno gitano de un Instituto...", label="Hechos")
    with gr.Row():
        intervencion = gr.Textbox(label="Intervención")
        resultado = gr.Textbox(label="Resultado")
        
    btn = gr.Button("Go")
    btn.click(fn=predecir_intervencion, inputs=hechos, outputs=[intervencion, resultado])

demo.launch(share=True)

2023-04-07 09:37:22.932330: I tensorflow/stream_executor/platform/default/dso_loader.cc:49] Successfully opened dynamic library libcudart.so.11.0



Welcome to bitsandbytes. For bug reports, please submit your error trace to: https://github.com/TimDettmers/bitsandbytes/issues
CUDA SETUP: CUDA runtime path found: /usr/local/cuda/lib64/libcudart.so
CUDA SETUP: Highest compute capability among GPUs detected: 8.6
CUDA SETUP: Detected CUDA version 110
CUDA SETUP: Loading binary /home/qblocks/.local/lib/python3.8/site-packages/bitsandbytes/libbitsandbytes_cuda110.so...


  warn(msg)


Running on local URL:  http://127.0.0.1:7860
Running on public URL: https://4aeb53c44685dcd858.gradio.live

This share link expires in 72 hours. For free permanent hosting and GPU upgrades (NEW!), check out Spaces: https://huggingface.co/spaces




Setting `pad_token_id` to `eos_token_id`:50258 for open-end generation.
Traceback (most recent call last):
  File "/home/qblocks/.local/lib/python3.8/site-packages/gradio/routes.py", line 393, in run_predict
    output = await app.get_blocks().process_api(
  File "/home/qblocks/.local/lib/python3.8/site-packages/gradio/blocks.py", line 1108, in process_api
    result = await self.call_function(
  File "/home/qblocks/.local/lib/python3.8/site-packages/gradio/blocks.py", line 915, in call_function
    prediction = await anyio.to_thread.run_sync(
  File "/home/qblocks/.local/lib/python3.8/site-packages/anyio/to_thread.py", line 31, in run_sync
    return await get_asynclib().run_sync_in_worker_thread(
  File "/home/qblocks/.local/lib/python3.8/site-packages/anyio/_backends/_asyncio.py", line 937, in run_sync_in_worker_thread
    return await future
  File "/home/qblocks/.local/lib/python3.8/site-packages/anyio/_backends/_asyncio.py", line 867, in run
    result = context.run(func, *args)


In [None]:
Una joven gitana fue a hacer la compra acompañada de su hija de 12 años y su sobrina de ocho. Mientras compraban, el vigilante de seguridad no dejó de seguirlas en todo momento.