# Practica 4, uso de LLMs

## Configuracion

In [104]:
# Importar las bibliotecas necesarias
from openai import OpenAI
import pandas as pd
import time
import re

HOW_MANY_MESSAGES_TO_CHECK_SPAM = 5
FEW_SHOT_EXAMPLES = 2

MODELS = {
    "gemini":{
        "gemini2.0": {
            "normal": "gemini-2.0-flash",
            "think": "gemini-2.0-flash-thinking-exp-01-21"
        }
    },
    "ollama": {
        "gemma3": {
            "normal": "gemma3:4b",
        },
        "phi4": {
            "normal": "phi4",
        }
    }
}

CLIENTS = {
    "gemini" : {
        "url": "https://generativelanguage.googleapis.com/v1beta/openai/",
        "api_key": "AIzaSyAJRz8G-3RO9ffbEIsaej-bskTHGmFpQAc"
    },
    "ollama":{
        "url": "https://ollama.nest0r.dev/v1",
        "api_key": "bmVzdG9yOm5lc3RvcjEy"
    },
}

# Inicializar el cliente para gemini
client_gemini = OpenAI(
    api_key=CLIENTS["gemini"]["api_key"],
    base_url=CLIENTS["gemini"]["url"]
)

# Inicializar el cliente ollama
client_ollama = OpenAI(
    api_key=CLIENTS["ollama"]["api_key"],
    base_url=CLIENTS["ollama"]["url"],
    default_headers={
        "Authorization": f"Basic {CLIENTS['ollama']['api_key']}"
    }
)

## Probamos que todos los modelos funcionan correctamente

In [101]:
# Modelo de gemma3 normal
response = client_ollama.chat.completions.create(
    model=MODELS["ollama"]["gemma3"]["normal"],
    messages=[
        {"role": "system", "content": 
        """
           Responde "ok" a cualquier mensaje que te envíe el usuario.
        """},
        {
           "role": "user",
           "content": "Hola"
        }
    ]
)
print("--------------------------")
print("Modelo gemma3 normal:")
print(response.choices[0].message.content)

# Modelo de phi4 normal
response = client_ollama.chat.completions.create(
    model=MODELS["ollama"]["phi4"]["normal"],
    messages=[
        {"role": "system", "content": 
        """
           Responde "ok" a cualquier mensaje que te envíe el usuario.
        """},
        {
           "role": "user",
           "content": "Hola"
        }
    ]
)
print("--------------------------")
print("Modelo phi4 normal:")
print(response.choices[0].message.content)

# Modelo de gemini normal
response = client_gemini.chat.completions.create(
    model=MODELS["gemini"]["gemini2.0"]["normal"],
    messages=[
        {"role": "system", "content": 
        """
           Responde "ok" a cualquier mensaje que te envíe el usuario.
        """},
        {
           "role": "user",
           "content": "Hola"
        }
    ]
)
print("--------------------------")
print("Modelo gemini normal:")
print(response.choices[0].message.content)

# Modelo de gemini thinking
response = client_gemini.chat.completions.create(
    model=MODELS["gemini"]["gemini2.0"]["think"],
    reasoning_effort="high",
    messages=[
        {"role": "system", "content": 
        """
           Responde "ok" a cualquier mensaje que te envíe el usuario.
        """},
        {
           "role": "user",
           "content": "Hola"
        }
    ]
)
print("--------------------------")
print("Modelo gemini thinking:")
print(response.choices[0].message.content)

--------------------------
Modelo gemma3 normal:
ok

--------------------------
Modelo phi4 normal:
Ok
--------------------------
Modelo gemini normal:
ok

--------------------------
Modelo gemini thinking:
ok


## Funciones auxiliares

In [105]:
def format_response(response):
    """
    Funcion para formatear la respuesta.
    Obtiene solo el contenido de la respuesta y se limpia mediante regex
    """

    response_content = response.choices[0].message.content
    formatted_response = re.sub(r'^\s*|\s*$', '', response_content)
    
    return formatted_response

## Carga de datos

En la siguiente celda:
- Cargamos las diferentes fuentes de datos
- Preprocesamos para que todas las fuentes tengan la misma estructura de columnas y estandar de valores 
- Dividimos entre train y test para las pruebas de few_shot
- Guardamos todo en un diccionario y los diccionarios los vamos guardando en un array que nos sirve para automatizar el proceso de pruebas

In [106]:
# Leer los 10 fuentes de spam
dataframes = [] #{'dataframe': df, 'train': train_df, 'test': test_df}

# Source 1
df_source_1 = pd.read_csv('./INPUT/kaggle_sms.csv', encoding='latin-1')
df_source_1 = df_source_1.drop(columns=['Unnamed: 2', 'Unnamed: 3', 'Unnamed: 4'])
df_source_1.rename(columns={'v1': 'type', 'v2': 'message'}, inplace=True)
train_1 = df_source_1.sample(frac=0.8, random_state=42)
test_1 = df_source_1.drop(train_1.index)
dataframes.append({'dataframe': df_source_1, 'train': train_1, 'test': test_1})

# Source 2
df_source_2 = pd.read_csv('./INPUT/kaggle_mail.csv', encoding='latin-1')
df_source_2 = df_source_2[['label', 'text']]
df_source_2.rename(columns={'label': 'type', 'text': 'message'}, inplace=True)
train_2 = df_source_2.sample(frac=0.8, random_state=42)
test_2 = df_source_2.drop(train_2.index)
dataframes.append({'dataframe': df_source_2, 'train': train_2, 'test': test_2})

# Source 3
df_source_3 = pd.read_csv('./INPUT/enron.csv', encoding='latin-1')
df_source_3 = df_source_3[['Spam/Ham', 'Message']]
df_source_3.rename(columns={'Spam/Ham': 'type', 'Message': 'message'}, inplace=True)
df_source_3.dropna(subset=['message'], inplace=True) 
train_3 = df_source_3.sample(frac=0.8, random_state=42)
test_3 = df_source_3.drop(train_3.index)
dataframes.append({'dataframe': df_source_3, 'train': train_3, 'test': test_3})

# Source 4
df_source_4 = pd.read_csv('./INPUT/enron_spam_subset.csv', encoding='latin-1')
df_source_4 = df_source_4[['Label', 'Body']]
df_source_4.rename(columns={'Label': 'type', 'Body': 'message'}, inplace=True)
df_source_4['type'] = df_source_4['type'].replace({1: 'spam', 0: 'ham'})
train_4 = df_source_4.sample(frac=0.8, random_state=42)
test_4 = df_source_4.drop(train_4.index)
dataframes.append({'dataframe': df_source_4, 'train': train_4, 'test': test_4})

# Source 5
df_source_5 = pd.read_csv('./INPUT/datacamp.csv', encoding='latin-1')
df_source_5 = df_source_5[['0', '1']]
df_source_5.rename(columns={'0': 'type', '1': 'message'}, inplace=True)
train_5 = df_source_5.sample(frac=0.8, random_state=42)
test_5 = df_source_5.drop(train_5.index)
dataframes.append({'dataframe': df_source_5, 'train': train_5, 'test': test_5})

# Source 6
df_source_6 = pd.read_csv('./INPUT/balanced_dataset.csv', encoding='latin-1')
df_source_6 = df_source_6[['label', 'text']]
df_source_6.rename(columns={'label': 'type', 'text': 'message'}, inplace=True)
train_6 = df_source_6.sample(frac=0.8, random_state=42)
test_6 = df_source_6.drop(train_6.index)
dataframes.append({'dataframe': df_source_6, 'train': train_6, 'test': test_6})

# Source 7
df_source_7 = pd.read_csv('./INPUT/youtube_eminem.csv', encoding='latin-1')
df_source_7 = df_source_7[['CLASS', 'CONTENT']]
df_source_7.rename(columns={'CLASS': 'type', 'CONTENT': 'message'}, inplace=True)
df_source_7['type'] = df_source_7['type'].replace({1: 'spam', 0: 'ham'})
train_7 = df_source_7.sample(frac=0.8, random_state=42)
test_7 = df_source_7.drop(train_7.index)
dataframes.append({'dataframe': df_source_7, 'train': train_7, 'test': test_7})

# Source 8
df_source_8 = pd.read_csv('./INPUT/ling-spam.csv', encoding='latin-1')
df_source_8 = df_source_8[['label', 'message']]
df_source_8.rename(columns={'label': 'type'}, inplace=True) 
df_source_8['type'] = df_source_8['type'].replace({1: 'spam', 0: 'ham'})
train_8 = df_source_8.sample(frac=0.8, random_state=42)
test_8 = df_source_8.drop(train_8.index)
dataframes.append({'dataframe': df_source_8, 'train': train_8, 'test': test_8})

# Source 9
df_source_9 = pd.read_parquet('./INPUT/hugging_face_deysi.parquet')
df_source_9 = df_source_9[['label', 'text']]
df_source_9.rename(columns={'label': 'type', 'text': 'message'}, inplace=True)
df_source_9['type'] = df_source_9['type'].replace({'not_spam': 'ham'})
train_9 = df_source_9.sample(frac=0.8, random_state=42)
test_9 = df_source_9.drop(train_9.index)
dataframes.append({'dataframe': df_source_9, 'train': train_9, 'test': test_9})

# Source 10
df_source_10 = pd.read_csv('./INPUT/spamassassin.csv')
df_source_10 = df_source_10[['label', 'email']]
df_source_10.rename(columns={'label': 'type', 'email': 'message'}, inplace=True)
df_source_10['type'] = df_source_10['type'].replace({1: 'spam', 0: 'ham'})
df_source_10.dropna(subset=['message'], inplace=True) 
train_10 = df_source_10.sample(frac=0.8, random_state=42)
test_10 = df_source_10.drop(train_10.index)
dataframes.append({'dataframe': df_source_10, 'train': train_10, 'test': test_10})

# Mostrar los primeros 4 registros de cada dataframe
for i, df_info in enumerate(dataframes):
    print(f"({i+1}) -------------------")
    print(df_info['dataframe'].head(4))


(1) -------------------
   type                                            message
0   ham  Go until jurong point, crazy.. Available only ...
1   ham                      Ok lar... Joking wif u oni...
2  spam  Free entry in 2 a wkly comp to win FA Cup fina...
3   ham  U dun say so early hor... U c already then say...
(2) -------------------
   type                                            message
0   ham  Subject: enron methanol ; meter # : 988291\r\n...
1   ham  Subject: hpl nom for january 9 , 2001\r\n( see...
2   ham  Subject: neon retreat\r\nho ho ho , we ' re ar...
3  spam  Subject: photoshop , windows , office . cheap ...
(3) -------------------
  type                                            message
1  ham  gary , production from the high island larger ...
2  ham             - calpine daily gas nomination 1 . doc
3  ham  fyi - see note below - already done .\nstella\...
4  ham  fyi .\n- - - - - - - - - - - - - - - - - - - -...
(4) -------------------
   type                 

## Zero-shot

In [107]:
# Zero-shot

# Crear un diccionario para almacenar el accuracy por modelo
accuracy_zero = {}

for provider_name, models_in_provider in MODELS.items():
    client_to_use = None
    if provider_name == "gemini":
        client_to_use = client_gemini
    elif provider_name == "ollama":
        client_to_use = client_ollama
    else:
        continue # Proveedor no soportado o desconocido

    for model_family_name, model_configs in models_in_provider.items():
        for model_type, model_id_actual in model_configs.items():
            if model_type == "normal": # Solo ejecutar para modelos normales
                current_model_key = f"{provider_name}_{model_family_name}_{model_type}"
                print(f"Ejecutando Zero-shot para el modelo: {current_model_key}")
                accuracy_zero[current_model_key] = []

                for index_data, data in enumerate(dataframes):    
                    dataset_accuracies = []
                    print(f"  Procesando dataset {index_data + 1}/{len(dataframes)}")
                    for index in range(HOW_MANY_MESSAGES_TO_CHECK_SPAM):
                        try:
                            response = client_to_use.chat.completions.create(
                                model=model_id_actual,
                                messages=[
                                    {"role": "system", "content": 
                                    """
                                        Eres un experto en clasificación de mensajes, se te enviará un mensaje y debes clasificarlo como spam o no spam.
                                        Responde solo con la palabra "spam", en caso de ser spam, o "ham", en caso de no ser spam.
                                    """},
                                    {
                                        "role": "user",
                                        "content": data["test"].iloc[index]['message']
                                    }
                                ]
                            )
                            # Guardar si la respuesta es correcta o no
                            dataset_accuracies.append(1 if format_response(response) == data["test"].iloc[index]['type'] else 0)
                        except Exception as e:
                            print(f"    Error procesando mensaje {index} del dataset {index_data} con modelo {current_model_key}: {e}")
                            dataset_accuracies.append(0) # Contar como incorrecto en caso de error
                        time.sleep(1) # Sleep para evitar el límite de peticiones
                    accuracy_zero[current_model_key].append(dataset_accuracies)

print("\nAccuracy Zero-shot por modelo y dataset:")
for model_name, model_accuracies_for_datasets in accuracy_zero.items():
    print(f"Modelo: {model_name}")
    if not model_accuracies_for_datasets:
        print("  No hay resultados para este modelo.")
        continue
    avg_accuracy_per_dataset = [sum(ds_acc_list)/len(ds_acc_list) if len(ds_acc_list) > 0 else 0 for ds_acc_list in model_accuracies_for_datasets]
    print(f"  Promedio de accuracy por dataset: {[f'{acc:.2f}' for acc in avg_accuracy_per_dataset]}")
    overall_avg_for_model = sum(avg_accuracy_per_dataset) / len(avg_accuracy_per_dataset) if len(avg_accuracy_per_dataset) > 0 else 0
    print(f"  Promedio general para el modelo: {overall_avg_for_model:.2f}")

Ejecutando Zero-shot para el modelo: gemini_gemini2.0_normal
  Procesando dataset 1/10
  Procesando dataset 2/10
  Procesando dataset 3/10
  Procesando dataset 4/10
  Procesando dataset 5/10
  Procesando dataset 6/10
  Procesando dataset 7/10
  Procesando dataset 8/10
  Procesando dataset 9/10
  Procesando dataset 10/10
Ejecutando Zero-shot para el modelo: ollama_gemma3_normal
  Procesando dataset 1/10
  Procesando dataset 2/10
  Procesando dataset 3/10
  Procesando dataset 4/10
  Procesando dataset 5/10
  Procesando dataset 6/10
  Procesando dataset 7/10
  Procesando dataset 8/10
  Procesando dataset 9/10
  Procesando dataset 10/10
Ejecutando Zero-shot para el modelo: ollama_phi4_normal
  Procesando dataset 1/10
  Procesando dataset 2/10
  Procesando dataset 3/10
  Procesando dataset 4/10
  Procesando dataset 5/10
  Procesando dataset 6/10
  Procesando dataset 7/10
  Procesando dataset 8/10
  Procesando dataset 9/10
  Procesando dataset 10/10

Accuracy Zero-shot por modelo y dataset:


## Few-shot

In [108]:
# Few-shot

# Crear un diccionario para almacenar el accuracy por modelo
accuracy_few = {}

for provider_name, models_in_provider in MODELS.items():
    client_to_use = None
    if provider_name == "gemini":
        client_to_use = client_gemini
    elif provider_name == "ollama":
        client_to_use = client_ollama
    else:
        continue

    for model_family_name, model_configs in models_in_provider.items():
        for model_type, model_id_actual in model_configs.items():
            if model_type == "normal": # Solo ejecutar para modelos normales
                current_model_key = f"{provider_name}_{model_family_name}_{model_type}"
                print(f"Ejecutando Few-shot para el modelo: {current_model_key}")
                accuracy_few[current_model_key] = []

                for index_data, data in enumerate(dataframes):    
                    dataset_accuracies = []
                    print(f"  Procesando dataset {index_data + 1}/{len(dataframes)}")
                    for index in range(HOW_MANY_MESSAGES_TO_CHECK_SPAM):
                        # Construir ejemplos few-shot
                        ejemplos = ""
                        for i in range(FEW_SHOT_EXAMPLES):
                            ejemplo_tipo = data["train"].iloc[i]['type']
                            ejemplo_mensaje = data["train"].iloc[i]['message']
                            ejemplos += f"Ejemplo {i+1}:\nTipo: {ejemplo_tipo}\nMensaje: {ejemplo_mensaje}\n\n"
                        try:
                            # Enviar la petición al modelo
                            response = client_to_use.chat.completions.create(
                                model=model_id_actual,
                                messages=[
                                {"role": "system", "content": 
                                f"""
                                    Eres un experto en clasificación de mensajes, se te enviará un mensaje y debes clasificarlo como spam o no spam.
                                    Responde solo con la palabra "spam", en caso de ser spam, o "ham", en caso de no ser spam.
                                    Aquí tienes ejemplos de mensajes spam y no spam:

                                    {ejemplos}
                                """
                                },
                                {
                                    "role": "user",
                                    "content": data["test"].iloc[index]['message']
                                }
                                ]
                            )
                            # Guardar si la respuesta es correcta o no
                            dataset_accuracies.append(1 if format_response(response) == data["test"].iloc[index]['type'] else 0)
                        except Exception as e:
                            print(f"    Error procesando mensaje {index} del dataset {index_data} con modelo {current_model_key}: {e}")
                            dataset_accuracies.append(0)
                        time.sleep(1) # Sleep para evitar el límite de peticiones
                    accuracy_few[current_model_key].append(dataset_accuracies)

print("\nAccuracy Few-shot por modelo y dataset:")
for model_name, model_accuracies_for_datasets in accuracy_few.items():
    print(f"Modelo: {model_name}")
    if not model_accuracies_for_datasets:
        print("  No hay resultados para este modelo.")
        continue
    avg_accuracy_per_dataset = [sum(ds_acc_list)/len(ds_acc_list) if len(ds_acc_list) > 0 else 0 for ds_acc_list in model_accuracies_for_datasets]
    print(f"  Promedio de accuracy por dataset: {[f'{acc:.2f}' for acc in avg_accuracy_per_dataset]}")
    overall_avg_for_model = sum(avg_accuracy_per_dataset) / len(avg_accuracy_per_dataset) if len(avg_accuracy_per_dataset) > 0 else 0
    print(f"  Promedio general para el modelo: {overall_avg_for_model:.2f}")

Ejecutando Few-shot para el modelo: gemini_gemini2.0_normal
  Procesando dataset 1/10
  Procesando dataset 2/10
  Procesando dataset 3/10
  Procesando dataset 4/10
  Procesando dataset 5/10
  Procesando dataset 6/10
  Procesando dataset 7/10
  Procesando dataset 8/10
  Procesando dataset 9/10
  Procesando dataset 10/10
Ejecutando Few-shot para el modelo: ollama_gemma3_normal
  Procesando dataset 1/10
  Procesando dataset 2/10
  Procesando dataset 3/10
  Procesando dataset 4/10
  Procesando dataset 5/10
  Procesando dataset 6/10
  Procesando dataset 7/10
  Procesando dataset 8/10
  Procesando dataset 9/10
  Procesando dataset 10/10
Ejecutando Few-shot para el modelo: ollama_phi4_normal
  Procesando dataset 1/10
  Procesando dataset 2/10
  Procesando dataset 3/10
  Procesando dataset 4/10
  Procesando dataset 5/10
  Procesando dataset 6/10
  Procesando dataset 7/10
  Procesando dataset 8/10
  Procesando dataset 9/10
  Procesando dataset 10/10

Accuracy Few-shot por modelo y dataset:
Mode

## Chain of thoughts

In [109]:
# Chain of thoughts

# Crear un diccionario para almacenar el accuracy
accuracy_chain = {}

model_id_think = MODELS["gemini"]["gemini2.0"]["think"]
client_for_think = client_gemini
current_model_key_think = "gemini_gemini2.0_think"
print(f"Ejecutando Chain of Thoughts para el modelo: {current_model_key_think}")
accuracy_chain[current_model_key_think] = []

for index_data, data in enumerate(dataframes):    
    dataset_accuracies = []
    print(f"  Procesando dataset {index_data + 1}/{len(dataframes)}")
    for index in range(HOW_MANY_MESSAGES_TO_CHECK_SPAM):
        try:
            response = client_for_think.chat.completions.create(
                model=model_id_think, # Modelo que piensa
                reasoning_effort="high", # Parámetro específico para el modelo think de Gemini
                messages=[
                    {"role": "system", "content": 
                    """
                        Eres un experto en clasificación de mensajes, se te enviará un mensaje y debes clasificarlo como spam o no spam.
                        Analiza el mensaje paso a paso para determinar si es spam o ham. Luego, responde solo con la palabra "spam", en caso de ser spam, o "ham", en caso de no ser spam.
                    """},
                    {
                        "role": "user",
                        "content": data["test"].iloc[index]['message']
                    }
                ]
            )
            # Guardar si la respuesta es correcta o no
            dataset_accuracies.append(1 if format_response(response) == data["test"].iloc[index]['type'] else 0)
        except Exception as e:
            print(f"    Error procesando mensaje {index} del dataset {index_data} con modelo {current_model_key_think}: {e}")
            dataset_accuracies.append(0)
        time.sleep(1) # Sleep para evitar el límite de peticiones
    accuracy_chain[current_model_key_think].append(dataset_accuracies)

print("\nAccuracy Chain of Thoughts por modelo y dataset:")
for model_name, model_accuracies_for_datasets in accuracy_chain.items():
    print(f"Modelo: {model_name}")
    if not model_accuracies_for_datasets:
        print("  No hay resultados para este modelo.")
        continue
    avg_accuracy_per_dataset = [sum(ds_acc_list)/len(ds_acc_list) if len(ds_acc_list) > 0 else 0 for ds_acc_list in model_accuracies_for_datasets]
    print(f"  Promedio de accuracy por dataset: {[f'{acc:.2f}' for acc in avg_accuracy_per_dataset]}")
    overall_avg_for_model = sum(avg_accuracy_per_dataset) / len(avg_accuracy_per_dataset) if len(avg_accuracy_per_dataset) > 0 else 0
    print(f"  Promedio general para el modelo: {overall_avg_for_model:.2f}")

Ejecutando Chain of Thoughts para el modelo: gemini_gemini2.0_think
  Procesando dataset 1/10
  Procesando dataset 2/10
  Procesando dataset 3/10
  Procesando dataset 4/10
  Procesando dataset 5/10
  Procesando dataset 6/10
  Procesando dataset 7/10
  Procesando dataset 8/10
  Procesando dataset 9/10
  Procesando dataset 10/10

Accuracy Chain of Thoughts por modelo y dataset:
Modelo: gemini_gemini2.0_think
  Promedio de accuracy por dataset: ['1.00', '1.00', '1.00', '1.00', '1.00', '0.00', '0.80', '1.00', '1.00', '0.40']
  Promedio general para el modelo: 0.82
