<div align="right"><i>William Quiroga y Matías Torres Esteban<br>Agosto, 2025</i></div>

# Aumento de Datos con Grandes Modelos de Lenguaje

Los modelos de aprendizaje automático requieren una gran cantidad de datos para ser entrenados, pero no siempre disponemos de un lote de datos lo suficientemente grande para realizar esta tarea. Esto es lo que le ocurrió a nuestro grupo de investigación hace unos años al participar del proyecto:

* BillMobile: Un Prototipo de Chatbot Basado en IA Para Mejorar la Calidad de Experiencia del Cliente. 

Como parte del proyecto, nuestro equipo tuvo que entrenar un clasificador de preguntas que recibía por chat consultas de usuarios y las clasificaban de acuerdo al tipo de respuesta requerida. Las preguntas eran referidas al régimen de monotributo de la [AFIP](https://servicioscf.afip.gob.ar/publico/sitio/contenido/novedad/ver.aspx?id=5008). Por ejemplo, a la pregunta

* ¿En caso de renunciar, cuánto tengo que esperar para optar de nuevo por el monotributo?

le corresponde la etiqueta *temporal*, porque una respuesta satisfactoria debe indicar un intervalo de tiempo. Nuestro equipo realizó un estudio exhaustivo para construir el lote de datos de entrenamiento, pero aun así recolectaron pocas preguntas etiquetadas. Esto hizo que el desempeño de los modelos fuera poco satisfactorio. 

## La Tarea

La tarea de ustedes es diseñar e implementar un proceso automático que amplíe la colección de preguntas `preguntas.csv` utilizando modelos de lenguaje. La idea es que cada pregunta generada esté alineada semánticamente con su respectiva etiqueta. Para ello ustedes deben:

*  Escribir prompts que instruyan al modelo a generar nuevas preguntas etiquetadas. Aquí pueden usar diversas técnicas de prompting como Zero-Shot, One-Shot o Few-Shot. 
  
*  Procesar las respuestas generadas por el modelo para extraer las nuevas preguntas etiquetadas.

*  Evaluar el nuevo lote de datos con un clasificador entrenado por William y que tomaremos como La Verdad.

## Las Etiquetas

Aquí describimos el significado de cada etiqueta. Ustedes pueden utilizar esta información para diseñar los prompts. 

| Etiqueta      | Descripción                                                                                                                                                                           | Ejemplos                                                                                                                                                        |
|---------------|---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------|
| Definición    | Preguntas que buscan respuestas descriptivas y conceptuales.  Apuntan a la definición de un concepto.                                                                                 | ¿Qué es X? ¿Cuál es la diferencia entre X e Y? ¿Qué se entiende por X?                                                                                          |
| Referencia    | Preguntas que requieren referencias simples, excluyendo  ubicación geográfica, expresiones temporales y entidades  específicas.                                                       | ¿Qué tipo de comprobante emite un monotributista?  ¿Qué letra deben contener los remitos?                                                                       |
| Temporal      | Preguntas que hacen referencia a un tiempo, intervalo o periodo particular.                                                                                                           | ¿A partir de cuándo puedo hacer X? ¿Cuándo se debe realizar el primer pago...?                                                                                  |
| Entidad       | Preguntas que buscan una referencia a una entidad (persona, institución, organismo, etc.).                                                                                            | ¿Cuáles son las entidades bancarias habilitadas  para hacer X?                                                                                                  |
| Razón         | Preguntas que indagan sobre razones, condiciones, casos o  excepciones que conforman una causa. Apuntan a entender una  causa que luego deriva en un efecto (relación de causalidad). | ¿En qué casos los monotributistas no  se encuentran obligados a hacer X?  ¿Cuáles son los requisitos para inscribirse a X? ¿Quiénes pueden ser monotributistas? |
| Procedimiento | Preguntas que esperan respuestas prescriptivas o  instructivas, incluyendo una sucesión de pasos  explícitos con dependencia entre sí.                                                | ¿Cómo es el procedimiento para darme de baja? ¿Cuáles son los pasos para recategorizarme?                                                                       |
| Manera        | Preguntas sobre diferentes maneras u alternativas para ejecutar una acción. Requieren respuestas que describan  cómo realizar una actividad.                                          | ¿Qué formas de pago tengo para hacer X? ¿Para obtener el cuit es necesario que vaya yo o puede enviar a alguien?                                                |
| Cantidad      | Preguntas que buscan la cantidad o el monto de un determinado concepto.                                                                                                               | ¿Cuál es el precio máximo unitario de venta? ¿Qué cantidad máxima de empleados puedo tener?                                                                     |
| Si/No         | Preguntas que requieren una respuesta Si o No.                                                                                                                                        | ¿Se puede hacer X? ¿Estoy obligado a hacer X?                                                                                                                   |

## El Aumento

A continuación ejecutuamos un proceso que obtiene un nuevo lote de preguntas utilizando LLMs. Primero ejecuten los códigos que están debajo para que se hagan una idea de cómo funciona el programa y luego diseñen e implementen su propia estrategia. 

En este primer trozo de código definimos las etiquetas y las ubicaciones de los archivos más importantes. 

In [1]:
import sys
print(sys.version)

3.13.5 | packaged by Anaconda, Inc. | (main, Jun 12 2025, 16:09:02) [GCC 11.2.0]


In [2]:
from setfit import SetFitModel
from sklearn.metrics import classification_report
import pandas as pandas
import csv as csv
import re

from utilidades import *

labels = [
    'cantidad',
    'definicion',
    'entidad', 
    'manera',
    'procedimiento',
    'razon', 
    'referencia', 
    'si_no',
    'temporal', 
    'ubicacion'
]

dataset_path = './datos/preguntas.csv'
template_path = './plantillas/generar_preguntas.txt'
augmented_set_path = './salidas/nuevas_preguntas.csv'
classifier_path = './recursos/clasificador_setfit'

llm_data = {
    'url': "http://localhost:1234/v1/chat/completions",
    'llm_name': 'mistralai/mistral-7b-instruct-v0.3'
}

El siguiente método abre el archivo donde se encuentran las preguntas etiquetadas y las guarda en un diccionario de Python. 

In [3]:
def load_dataset(path, labels):
    dataset = {}
    for label in labels:
        dataset[label] = []
    
    with open(path, 'r', newline='') as file:
        reader = csv.DictReader(file)
        for row in reader:
            dataset[row['label']].append(row['question'])

    return dataset

Cargamos el lote de datos y la plantilla donde formatearemos los prompts. 

In [4]:
dataset = load_dataset(dataset_path, labels)
template = get_file_content(template_path)

La linea debajo imprime la plantilla con la que construiremos los prompts.

In [5]:
print(template)

Genera exclusivamente una lista de preguntas del tipo {label}, 
relacionadas con el tema Monotributo de AFIP, como si fueran 
consultas reales que podrían hacer los usuarios. Las preguntas 
deben compartir la intención del siguiente ejemplo: Ejemplo de 
pregunta del tipo {label}: {question} 
Devuelve únicamente una lista numerada con al menos 10 preguntas 
distintas, todas coherentes con el tipo de intención y el tema. 
No repitas estructuras exactas. Varía el enfoque, pero mantené 
la intención de fondo. En español.


Estas funciones son las más importantes de nuestro proceso de aumento de datos.

* El método ``extract_samples`` recibe el lote de datos y extrae una pregunta de cada etiqueta.
* El método ``create_prompt`` recibe un par $(pregunta, etiqueta)$ y lo incrustra en la plantilla de prompt ``template``. Esto obtiene un prompt ``prompt`` listo para enviar al modelo de lenguaje.  
* El método ``ask_llm_to_augment`` es el principal y utiliza los dos métodos anteriores. Invoca al método ``extract_samples`` para obtener una lista de preguntas etiquetadas, y por cada pregunta de la lista genera un prompt mediante el método ``create_prompt``. Cada prompt es enviado al modelo de lenguaje con el método ``call_llm`` y las respuestas son almacenadas en ``llm_answers``. 

Dado que del lote de datos extraemos una única pregunta de cada etiqueta, y creamos un prompt por cada pregunta extraida, en total el método ``ask_llm_to_augment`` invoca al modelo de lenguaje 10 veces.

In [6]:
def extract_samples(labels, dataset):
    samples = []
    for label in labels:
        samples.append({
            'label': label,
            'question': dataset[label][0]
        })
    return samples

def create_prompt(template, sample):
    return template.format(label = sample['label'],
                           question = sample['question']) 

def add_answer(llm_answers, sample, answer): 
    llm_answers.append({
        'answer': answer, 
        'label': sample['label']
    })

def ask_llm_to_augment(labels, dataset, template, llm_data):
    llm_answers = []

    samples = extract_samples(labels, dataset)
    for sample in samples: 
        prompt = create_prompt(template, sample)  
        answer = call_llm(llm_data, prompt)  
        add_answer(llm_answers, sample, answer)

    return llm_answers 

Ejecutamos el método principal ``ask_llm_to_augment`` y almacenamos las respuestas del modelo en ``llm_answers``. 

In [9]:
llm_answers = ask_llm_to_augment(labels, dataset, template, llm_data)

ConnectionError: HTTPConnectionPool(host='localhost', port=1234): Max retries exceeded with url: /v1/chat/completions (Caused by NewConnectionError('<urllib3.connection.HTTPConnection object at 0x7faf2043e3c0>: Failed to establish a new connection: [Errno 111] Connection refused'))

Ejecuten la siguiente linea de código para imprimir una de las respuestas del LLM. 

In [10]:
print(llm_answers[0]['answer'])

NameError: name 'llm_answers' is not defined

Debemos procesar las respuestas del modelo de lenguaje para quedarnos únicamente con las preguntas etiquetadas. 

* El método ``extract_questions`` recibe la respuesta del modelo ``llm_answer`` y devuelve la lista de preguntas contenidas en ella.
* El método ``parse_llm_answers`` itera sobre cada respuesta de ``llm_answers`` e invoca al método ``extract_questions``. Todas las respuestas son almacenadas en un único diccionario ``augmented_set``.  

In [11]:
def extract_questions(llm_answer):
    re_query = re.compile(r'¿.*?\?')
    lowercase_answer = llm_answer.lower()
    question_list = re_query.findall(lowercase_answer)
    return question_list

def parse_llm_answers(llm_answers):
    augmented_set = []
    
    for row in llm_answers:
        llm_answer = row['answer'] 
        label = row['label'] 

        question_list = extract_questions(llm_answer)
        for question in question_list:
            augmented_set.append({
                 'question': question, 
                 'label': label
                })
            
    return augmented_set  

Extraemos las preguntas y las guardamos en el archivo de salida. Revisen el archivo correspondiente en la carpeta ``salidas`` para visualizar las preguntas etiquetadas. 

In [12]:
augmented_set = parse_llm_answers(llm_answers)
save_as_csv(augmented_set, augmented_set_path)

NameError: name 'llm_answers' is not defined

## La Evaluación

Ahora nos queda evaluar el lote de datos generado por el LLM. Las siguientes funciones nos ayudarán a ello. 

* En el método ``load_augmented_set`` cargamos el lote de datos generado por el LLM. 
* En el método ``ask_classifier_to_predict`` invocamos al modelo SetFit para que etiquete las preguntas generadas.
* En el método ``eval_augmented_set`` comparamos las etiquetas que asignó el modelo SetFit con las etiquetas asignadas por el LLM y obtenemos métricas de cuan bueno fue el aumento de datos. 

In [7]:
def load_augmented_set(path):
    augmented_set = {'question':[], 'label':[]}
    
    with open(path, 'r', newline='') as file:
        reader = csv.DictReader(file)
        for row in reader:
            augmented_set['question'].append(row['question'])
            augmented_set['label'].append(row['label'])

    return augmented_set

def ask_classifier_to_predict(model_path, labels, questions):
    model = SetFitModel.from_pretrained(model_path)
    model.labels = labels  
    predictions = model.predict(questions)
    return predictions
    
def eval_augmented_set(augmented_labels, predictions):
    class_report = classification_report(augmented_labels,
                                         predictions,
                                         zero_division=0)
    print(class_report)

Ejecuten esta celda de código para evaluar que tan bueno fue el aumento de datos. 

In [8]:
augmented_set = load_augmented_set(augmented_set_path)
predictions = ask_classifier_to_predict(classifier_path, labels, augmented_set['question'])
eval_augmented_set(augmented_set['label'], predictions)

               precision    recall  f1-score   support

     cantidad       1.00      0.50      0.67        10
   definicion       0.40      0.20      0.27        10
      entidad       1.00      0.10      0.18        10
       manera       0.30      0.70      0.42        10
procedimiento       0.31      0.40      0.35        10
        razon       0.83      1.00      0.91        10
   referencia       0.17      0.20      0.18        10
        si_no       0.53      1.00      0.69        10
     temporal       0.71      0.71      0.71        14
    ubicacion       0.00      0.00      0.00        10

     accuracy                           0.49       104
    macro avg       0.53      0.48      0.44       104
 weighted avg       0.53      0.49      0.45       104



Ahora que terminaron de ejecutar el proceso completo, rompan el código de la sección **El Aumento** e implementen su propia estrategia de aumento de datos. Experimenten con diferentes técnicas de prompting y modelos de lenguaje. Esta actividad les dará práctica en utilizar modelos de lenguaje para automatizar procesos que involucran el análisis y generación de textos.