# Tarea 2: Question Answering Fine-tuning

In [None]:
# LibrerÃ­as

import logging
logging.getLogger("transformers").setLevel(logging.ERROR)

import torch
print("Is CUDA available:", torch.cuda.is_available())
print("CUDA version:", torch.version.cuda)
print("Number of GPUs available:", torch.cuda.device_count())

from time import time
from datasets import *
from transformers import *
import pandas as pd
import numpy as np
import re

pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', None)
pd.set_option('display.colheader_justify', 'center')

## Dataset

El dataset de SQuAD (Stanford Question Answering Dataset) es un conjunto de datos utilizado principalmente para entrenar y evaluar modelos de comprensiÃ³n lectora. Consiste en ternas de preguntas, respuestas y contexto. 

AquÃ­ la ficha del dataset para que podÃ¡is explorarla: https://huggingface.co/datasets/rajpurkar/squad

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

dataset = load_dataset("squad")
dataset

Con el Ãºnico motivo de no demorar los tiempos de entrenamiento. Filtraremos el dataset y nos quedaremos solo con los registros que tenga longitud del campo _context_ inferior a 300.

El resto de la prÃ¡ctica se pide trabajarla sobre la variable `ds_tarea`.

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

def filtra_por_longitud(ejemplo):
    return len(ejemplo["context"]) < 300

ds_tarea = dataset.filter(filtra_por_longitud)

assert len(ds_tarea['train']) == 3466
assert len(ds_tarea['validation']) == 345

ds_tarea

## Modeling

En este apartado es donde tendrÃ©is que realizar todo el trabajo de la prÃ¡ctica. El formato, el anÃ¡lisis, el modelo escogido y cualquier proceso intermedio que considerÃ©is es totalmente libre. Sin embargo, hay algunas pautas que tendrÃ©is que cumplir:

- La variable `model_checkpoint` debe almacenar el nombre del modelo y el tokenizador de ðŸ¤— que vais a utilizar.
- La variable `model` y la variable `tokenizer` almacenarÃ¡n, respectivamente, el modelo y el tokenizador de ðŸ¤— que vais a utilizar.
- La variable `trainer` almacenarÃ¡ el _Trainer_ de ðŸ¤— que, en la siguiente secciÃ³n utilizarÃ©is para entrenar el modelo.

In [None]:
model_checkpoint = None
tokenizer = None
model = None
trainer = None

## Training

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

start = time()

trainer.train()

end = time()
print(f">>>>>>>>>>>>> elapsed time: {(end-start)/60:.0f}m")

## Evaluation

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

print(f"**** EVALUACIÃ“N ****")
print(f"********\nTokenizer config:\n{tokenizer}")
print(f"\n\n********\nModel config:\n{model.config}")
print(f"\n\n********\nTrainer arguments:\n{trainer.args}")

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
model.to(device)

question_answerer = pipeline("question-answering", model=model, tokenizer=tokenizer, device=device)

In [None]:
# No modificar esta celda
# Esta celda, celda tiene que estar ejecutada en la entrega

assert len(ds_tarea['train']) == 3466
assert len(ds_tarea['validation']) == 345

def calculate_sentence_similarity(sentence1, sentence2):
    sentence1 = re.sub(r'[^a-zA-Z0-9\s]', '', sentence1).lower()
    sentence2 = re.sub(r'[^a-zA-Z0-9\s]', '', sentence2).lower()
    words1 = set(sentence1.lower().split())
    words2 = set(sentence2.lower().split())
    matches = len(words1.intersection(words2))
    total_words = len(words1.union(words2))
    if total_words == 0:
        return 0.0
    return (matches / total_words) * 100

samples = [324,342,249,176,70,168,120,58,90,192,278,289,197,146,323,248,260,273,112,211]
evaluation_list = []

for ii in samples:
    context = ds_tarea['validation'][ii]['context']
    question = ds_tarea['validation'][ii]['question']
    answer = ds_tarea['validation'][ii]['answers']
    answers = [f"{tt}" for ii, tt in enumerate(answer['text'])]
    prediction = question_answerer(context=context, question=question)['answer']
    match = max([calculate_sentence_similarity(w, prediction) for w in answers])
    evaluation_list.append((ii,context,question,answers,prediction,match))

print(f"*** evaluation_df ***")
evaluation_df = pd.DataFrame(evaluation_list, columns=['sample', 'context', 'question', 'real_answers', 'predicted_answer', 'match'])
evaluation_df[['sample','real_answers','predicted_answer', 'match']]

### Criterio de evaluaciÃ³n

La **nota final de la tarea2** estarÃ¡ relacionada con el resultado de las predicciones de vuestro modelo. 

El criterio de evaluaciÃ³n serÃ¡ el siguiente:

- La tarea2 se aprobarÃ¡ si el notebook se entrega sin fallos y con un modelo entrenado (independientemente de sus predicciones).
- Se ponderarÃ¡ en funciÃ³n de la columna _match_, que otorga 100% de acierto si todas las palabras coinciden y bajarÃ¡ gradualmente el porcentaje de acierto en funciÃ³n del nÃºmero de palabras que no coincidan.
    
Nota: La nota que se calcula a continuaciÃ³n es orientativa y podrÃ­a verse reducida en funciÃ³n del cÃ³digo de la entrega.

In [None]:
print(f"Tu nota de la tarea2 es: {max(np.ceil(evaluation_df['match'].sum() / len(evaluation_df) / 10), 5.0)}")