In [2]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder
from imblearn.over_sampling import SMOTE
from pathlib import Path

# Detecta en automatico el path donde esta el notebook y sube un nivel en las carpetas
root_dir = Path.cwd().parents[0]

# Declara las direcciones de los datos
data_intermediate = root_dir / "data" / "intermediate"
data_processed = root_dir / "data" / "processed"

# Imprime directorio raiz
print("Directorio raíz:", root_dir)

# -- lectura del dataset --
df = pd.read_pickle(data_intermediate / "df.pkl")

# -- Seleccion de Features --
# Columnas categoricas definidas en script anterior, se toman todas las que tengan terminacion _freq
freq_cols = [col for col in df.columns if col.endswith('_freq')]
feature_cols = df[freq_cols + ['Academic_Score']]

# Se guardan datos originales para trazabilidad y el target se asegura que este en String para LabelEncoder
X = feature_cols.copy()
y_raw = df['Performance_grouped'].astype(str)

# -- Codificacion del target --
y = LabelEncoder().fit_transform(y_raw)

# -- Balanceo de clases --
smote = SMOTE(random_state=42)
X_res, y_res = smote.fit_resample(X, y)

# --- Guardado de datos procesados ---
import pickle
# crea carpeta si no existe
data_processed.mkdir(parents=True, exist_ok=True)
# guarda el archivo tipo .pkl
with open(data_processed / "Xy_resampled.pkl", "wb") as f:
    pickle.dump((X_res, y_res), f)

print("Datos resampleados y guardados en:", data_processed / "Xy_resampled.pkl")

Directorio raíz: C:\Users\Jesus Tamez\Desktop\MLOps_Proyecto\test-MLops-CEE_DATA
Datos resampleados y guardados en: C:\Users\Jesus Tamez\Desktop\MLOps_Proyecto\test-MLops-CEE_DATA\data\processed\Xy_resampled.pkl
