# PRUEBAS INICIALES
Para ver la eficacia del modelo pre-entrenado, sin haber hecho ningún ajuste sobre los datos particulares. Registramos los resultados en MLflow

In [1]:
from transformers import pipeline, AutoModelForQuestionAnswering, AutoTokenizer
import os
from datasets import load_dataset
import torch
# from custom_evaluate import get_raw_scores_by_example,get_raw_scores_by_prediction
from metrics.evaluate import compute_exact, compute_f1
from statistics import mean
import mlflow
import pprint
import time
import requests
from globals import DATA_DIR,MODELS_DIR

In [2]:
# Realizaremos las pruebas iniciales con el conjunto de test, cuando se haya concluido el entrenamiento del modelo ajustado (usando train y validation) volveremos a tomar la medida con este conjunto de test. Esto nos servirá para ver si efectivamente el modelo ajustado ha mejorado en algún modo el rendimiento del modelo pre-entrenado.
# Datos y modelo
dataset = load_dataset(os.path.join(DATA_DIR, "Escrituras"),'QA',trust_remote_code=True,split='test')

In [3]:
ruta_modelo = os.path.join(MODELS_DIR,'PlanTL-GOB-ES','roberta-large-bne-sqac')
# Tamaño de lote para la inferenca
batch_size = 512

In [4]:
SERVIDOR_MLFLOW = 'http://localhost:5000'
# Debo comprobar si está ejecutando el servidor MLflow, en otro caso se demora la ejecución y acaba dando un error
def mlflow_en_ejecucion(url):
    try:
        response = requests.get(url)        
        # Si el servidor está en ejecución, deberíamos recibir un código de estado HTTP 200
        return response.status_code == 200
    except requests.exceptions.ConnectionError:
        # Si no se puede establecer una conexión, asumimos que el servidor no está en ejecución
        return False
    
assert mlflow_en_ejecucion(SERVIDOR_MLFLOW), f"El servidor MLflow ({SERVIDOR_MLFLOW}) no está en ejecución. Lance 'mlflow ui' desde el terminal."

In [5]:
# Servidor de seguimiento
mlflow.set_tracking_uri(SERVIDOR_MLFLOW)
mlflow.autolog()
mlflow.set_experiment("Valoración inicial")
# Impresión elegante de datos en la terminal
pp = pprint.PrettyPrinter(width=150)

2024/02/17 02:19:01 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.
2024/02/17 02:19:01 INFO mlflow.tracking.fluent: Autologging successfully enabled for transformers.


In [6]:
# Un vistazo a los datos que estamos testeando
pp.pprint(dataset.info)

DatasetInfo(description='',
            citation='',
            homepage='',
            license='',
            features={'answers': Sequence(feature={'answer_start': Value(dtype='int32', id=None), 'text': Value(dtype='string', id=None)},
                                          length=-1,
                                          id=None),
                      'context': Value(dtype='string', id=None),
                      'id': Value(dtype='string', id=None),
                      'question': Value(dtype='string', id=None)},
            post_processed=None,
            supervised_keys=None,
            task_templates=None,
            builder_name='escrituras',
            dataset_name='escrituras',
            config_name='QA',
            version=0.0.0,
            splits={'test': SplitInfo(name='test', num_bytes=11002385, num_examples=7532, shard_lengths=None, dataset_name='escrituras'),
                    'train': SplitInfo(name='train', num_bytes=35013784, num_examples=240

In [7]:
# Comprobación de si está bien instalado torch y tenemos una GPU
print(torch.cuda.is_available())

True


También he visto que hay varias maneras de realizar las inferencias o consultas sobre el modelo, usando los pipelines. Quiero ver si hay alguna diferencia en el rendimiento. Probaré con distintas formas y cambiaré el tamaño del lote para ver si consigo un rendimiento óptimo.

### Pipeline sobre lista pregunta-contexto
Aunque supone añadir una lista intermedia entre el dataset y el pipeline, cuando hemos excedido la memoria del sistema usando un batch-size demasiado elevado, este método ha respondido, aunque más lento que con un tamaño de batch-size apropiado, pero sin colapsar como con el "Pipeline sobre dataset"

In [8]:
def evaluar_metricas_QA(model_path_or_name, dataset, split='test', batch_size=512):
    """Escribe por pantalla y guarda en MLflow los valores de las métricas f1 y exact match para este modelo y dataset."""
    model = AutoModelForQuestionAnswering.from_pretrained(model_path_or_name)
    tokenizer = AutoTokenizer.from_pretrained(model_path_or_name)

    model.eval()    
    ## Método 1
    qc_dataset = [{'question':q, 'context':c} for q,c in zip(dataset['question'],dataset['context'])]
    consulta = pipeline("question-answering", model=model, tokenizer=tokenizer, 
                    device=0 if torch.cuda.is_available() else None, batch_size=batch_size)
    predicciones = consulta(qc_dataset)
    
    ## Método 2
    # consulta =  pipeline("question-answering", model=model, device=0 if torch.cuda.is_available() else None, batch_size=batch_size)
    # predicciones = dataset.map(lambda ejemplo: {'prediccion': consulta({'question':ejemplo['question'], 'context':ejemplo['context']})})
    
    # # Método 3
    # consulta =  pipeline("question-answering", model=model, tokenizer=tokenizer, 
    #                 device=0 if torch.cuda.is_available() else None, batch_size=batch_size)        
    # predicciones = consulta(question=dataset['question'], context=dataset['context'])

    # Ejecución y cálculo de métricas
    gold_answers = [answer['text'][0] for answer in dataset['answers']]
    pred_answers = [pred['answer'] for pred in predicciones]
    f1_scores = [compute_f1(g,p) for g,p in zip(gold_answers,pred_answers)]
    exact_scores = [compute_exact(g,p) for g,p in zip(gold_answers,pred_answers)]
    
    f1_mean = mean(f1_scores)
    exact_mean = mean(exact_scores)
    
    mlflow.log_param('split', split)
    mlflow.log_param('model_name',model.name_or_path)
    mlflow.log_metric('f1', f1_mean)
    mlflow.log_metric('exact', exact_mean)
    print(model.name_or_path)
    print('\tf1:', f1_mean)
    print('\texact:', exact_mean)

In [9]:
with mlflow.start_run(run_name="Prueba inicial de evaluación",description="Predicciones con el modelo pre-entrenado, usando dataset de test"):
    evaluar_metricas_QA(ruta_modelo,dataset)