### Tecnolgías del Lenguaje. Entregable 4
---
#### Baseline muy simple imputando la media

Este documento contiene un *baseline* muy simple para estimar la dificultad del problema. No utiliza técnicas de PLN, si no que simplemente utiliza los datos de `material/authors_train.csv` para imputar la media en los datos de `material/authors_test.csv`. Se calcula el **MSE por rasgo y medio de las 5 dimensiones** para tener una estimación de los valores que deberíamos obtener al entrenar modelos de IA (deberían ser considerablemente mejores).

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

# Cargar dataset
train_full = pd.read_csv("material/authors_train.csv")

# Almacenamos en una lista los rasgos que queremos predecir
traits = ['agreeableness', 'openness', 'conscientiousness', 'extraversion', 'neuroticism']

# Dividir authors_train en un train interno y test interno (80% / 20%)
train_internal, test_internal = train_test_split(train_full, test_size=0.2, random_state=42)

# Calcular la media de cada rasgo en el train interno
mean_traits = train_internal[traits].mean().round(1)

# Imputar NaN en test interno con la media (redondeada a 1 decimal)
test_internal_imputed = test_internal.copy()
for trait in traits:
    test_internal_imputed[trait] = test_internal[trait].fillna(mean_traits[trait])

# Asignar la media a todos los usuarios del test interno como predicción
predictions = pd.DataFrame(np.tile(mean_traits.values, (len(test_internal_imputed), 1)),
                           columns=traits, index=test_internal_imputed.index)

# Calcular MSE por rasgo
mse_per_trait = {}
for trait in traits:
    mse_per_trait[trait] = mean_squared_error(test_internal_imputed[trait], predictions[trait])

# Calcular MSE medio de los cinco rasgos
mse_mean = np.mean(list(mse_per_trait.values()))

print("MSE por rasgo:")
for trait, mse in mse_per_trait.items():
    print(f"{trait}: {mse:.4f}")

print(f"\nMSE medio de los cinco rasgos: {mse_mean:.4f}")

MSE por rasgo:
agreeableness: 950.8952
openness: 713.8186
conscientiousness: 915.0165
extraversion: 990.6302
neuroticism: 998.9347

MSE medio de los cinco rasgos: 913.8590


In [2]:
import pandas as pd

# Cargar datasets
train = pd.read_csv("material/authors_train.csv")
test = pd.read_csv("material/authors_test.csv")

traits = ['agreeableness', 'openness', 'conscientiousness', 'extraversion', 'neuroticism']

# Calcular la media de cada rasgo en el train
mean_traits = train[traits].mean()

# Asignar la media a todos los usuarios de test, redondeada a 1 decimal
for trait in traits:
    test[trait] = mean_traits[trait].round(1)

# Guardar resultados
test.to_csv("authors_test_pred_baseline.csv", index=False)

print("Baseline completado. Primeras filas de test con predicciones:")
print(test.head())

Baseline completado. Primeras filas de test con predicciones:
            username  agreeableness  openness  conscientiousness  \
0         libelle156           42.8      62.6               39.5   
1  drawtheApocalypse           42.8      62.6               39.5   
2    I_hate_kittens_           42.8      62.6               39.5   
3       gillybean103           42.8      62.6               39.5   
4        DivinePetal           42.8      62.6               39.5   

   extraversion  neuroticism  
0          37.3         49.7  
1          37.3         49.7  
2          37.3         49.7  
3          37.3         49.7  
4          37.3         49.7  
