## 0. Cargar librerías

In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
import re, string
import math
import numpy as np

## 1. Carga de datos crudos

In [13]:
train = pd.read_csv("../data/train.csv")
test = pd.read_csv("../data/test.csv")

## 2. Definir función de limpieza

In [14]:
train["body"] = train["body"].fillna("").astype(str)
test["body"] = test["body"].fillna("").astype(str)

def limpiar_texto(text):
    text = text.lower()
    text = re.sub(r'https?://\S+|www\.\S+', '', text)
    text = re.sub(f"[{re.escape(string.punctuation)}]", '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text


## 3. Aplicar limpieza

In [15]:
train["clean_body"] = train["body"].apply(limpiar_texto)
test["clean_body"] = test["body"].apply(limpiar_texto)

## 4. Crear split train/valid

In [16]:
X_text = train["clean_body"].fillna("").astype(str)
y = train["rule_violation"]

X_train_text, X_val_text, y_train, y_val = train_test_split(
    X_text,
    y,
    test_size=0.2,
    random_state=16,
    stratify=y
)

print("Train size:", len(X_train_text))
print("Val size:", len(X_val_text))

X_train_text = X_train_text.fillna("").astype(str)
X_val_text   = X_val_text.fillna("").astype(str)

Train size: 1623
Val size: 406


## 5. Construir dataframes ya separados

In [17]:
df_train_model = pd.DataFrame({
    "clean_body": X_train_text,
    "rule_violation": y_train
}).reset_index(drop=True)

df_val_model = pd.DataFrame({
    "clean_body": X_val_text,
    "rule_violation": y_val
}).reset_index(drop=True)

df_test_model = pd.DataFrame({
    "row_id": test["row_id"],
    "clean_body": test["clean_body"]
})

## 6. Guardar los datasets para usarlos en todos los modelos

In [18]:
df_train_model.to_csv("../data/train_model.csv", index=False)
df_val_model.to_csv("../data/val_model.csv", index=False)
df_test_model.to_csv("../data/test_model.csv", index=False)

En este notebook se realiza el preprocesamiento común a todos los modelos, incluyendo la limpieza de texto, definición del conjunto de entrenamiento y validación, y la preparación del conjunto de prueba. Estos datos se guardan en archivos separados para que cada modelo pueda reutilizar la misma partición y así asegurar una comparación justa.