## 03 - Preprocesamiento

En este notebook, nos centramos en la fase de preprocesamiento de los datos, un paso crucial antes de aplicar cualquier modelo de aprendizaje automático. El objetivo es preparar el conjunto de datos de manera que sea adecuado para construir dos tipos de modelos:

1. **Modelo de Regresión**: Utilizaremos un modelo de regresión para predecir la `nota_final` de los estudiantes, basada en las características disponibles en el conjunto de datos.
2. **Modelo de Clasificación**: También construiremos un modelo de clasificación para predecir si un estudiante aprobará o no (variable `aprobado`), utilizando las mismas variables.

El preprocesamiento incluirá los siguientes pasos:
- Codificación de variables categóricas.
- Escalado de variables numéricas.
- Balanceo de las clases en la variable objetivo `aprobado`.

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
df = pd.read_csv("../data/clean_dataset_estudiantes.csv")
df.sample(5)

Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nivel_dificultad,tiene_tutor,horario_estudio_preferido,estilo_aprendizaje,nota_final,aprobado
4,1.0,66.254179,54.539935,6.67184,21,medio,no,desconocido,auditivo,66.0,1
677,13.120724,67.75221,88.348381,8.338058,27,medio,sí,tarde,visual,65.0,1
432,18.422318,75.563526,100.0,6.73326,25,fácil,sí,mañana,lectura/escritura,62.6,1
299,4.579024,40.859455,71.290407,4.0,23,fácil,no,tarde,visual,55.6,0
831,11.235668,79.362171,64.815959,6.423438,20,medio,sí,noche,auditivo,70.3,1


Iniciamos con la codificación:

- `tiene_tutor`, `estilo_aprendizaje` y ``horario_estudio_preferido` son variables categóricas nominales, no tienen un orden específico, ademas, tienen pocos niveles, por lo que las codificaremos con one hot encoding

- `nivel_dificultad` es una variable ordinal, por lo que utilizaremos ordinal encoder, "fácil" podría convertirse en 1, "medio" en 2 y "difícil" en 3.

Vamos allá

In [3]:
import sys
sys.path.append('../') 

from functions import one_hot_encoding

df = one_hot_encoding(df)
df.sample(5)

Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nivel_dificultad,nota_final,aprobado,tiene_tutor_no,tiene_tutor_sí,estilo_aprendizaje_auditivo,estilo_aprendizaje_desconocido,estilo_aprendizaje_kinestésico,estilo_aprendizaje_lectura/escritura,estilo_aprendizaje_visual,horario_estudio_preferido_desconocido,horario_estudio_preferido_mañana,horario_estudio_preferido_noche,horario_estudio_preferido_tarde
417,16.210303,90.671706,86.938707,8.152113,28,medio,74.3,1,1,0,0,0,1,0,0,0,0,1,0
434,5.311011,54.718328,58.677002,6.737082,23,medio,70.8,1,1,0,0,0,0,0,1,0,0,0,1
109,13.384271,75.322334,79.016361,6.447677,18,medio,84.5,1,0,1,0,1,0,0,0,0,0,1,0
385,17.607625,70.583522,93.833996,10.0,26,fácil,85.6,1,0,1,0,0,1,0,0,0,1,0,0
460,9.843153,57.862477,62.880897,8.067972,24,difícil,56.7,0,1,0,1,0,0,0,0,0,0,0,1


In [4]:
from functions import ordinal_encoding

df = ordinal_encoding(df)
df.sample(5)

Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nivel_dificultad,nota_final,aprobado,tiene_tutor_no,tiene_tutor_sí,estilo_aprendizaje_auditivo,estilo_aprendizaje_desconocido,estilo_aprendizaje_kinestésico,estilo_aprendizaje_lectura/escritura,estilo_aprendizaje_visual,horario_estudio_preferido_desconocido,horario_estudio_preferido_mañana,horario_estudio_preferido_noche,horario_estudio_preferido_tarde
955,1.0,66.718404,77.187302,6.403123,23,0.0,72.3,1,1,0,0,0,0,0,1,0,0,0,1
153,11.814251,88.469198,100.0,7.00767,28,1.0,77.6,1,1,0,0,0,0,0,1,0,0,0,1
455,18.693655,77.086098,68.857777,6.621534,26,1.0,75.8,1,0,1,0,0,0,0,1,0,0,1,0
851,1.0,57.386405,87.361177,7.339734,19,0.0,64.1,1,1,0,0,0,0,0,1,0,0,0,1
818,18.173735,84.42144,82.633493,5.471833,19,1.0,77.1,1,0,1,0,0,0,1,0,0,0,1,0


Con esto queda terminada la codificación, pasamos al escalado

En este caso, todas las variables menos `edad`, siguen una distribución normal, por lo que lo mjeor es utilizar StandarScaler, ya que lo que hace es centrar los datos (restando la media) y luego escalarlos por su desviación estándar. Esto mantiene la forma de la distribución pero la ajusta para que tenga una media de 0 y una desviación estándar de 1



Seleccionamos las variables a escalar (numéricas, a excepción de las codificadas anteriormente y las variables objetivo) y aplicamos StandardScaler

In [6]:
from sklearn.preprocessing import StandardScaler
import joblib

num_cols = ["horas_estudio_semanal", "nota_anterior", "tasa_asistencia", "horas_sueno", "edad"]

# Crear y entrenar el scaler con todos los datos
scaler = StandardScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])

# Guardar el scaler entrenado para uso futuro en producción
joblib.dump(scaler, "../models/standard_scaler.pkl")
df.sample(5)

Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nivel_dificultad,nota_final,aprobado,tiene_tutor_no,tiene_tutor_sí,estilo_aprendizaje_auditivo,estilo_aprendizaje_desconocido,estilo_aprendizaje_kinestésico,estilo_aprendizaje_lectura/escritura,estilo_aprendizaje_visual,horario_estudio_preferido_desconocido,horario_estudio_preferido_mañana,horario_estudio_preferido_noche,horario_estudio_preferido_tarde
885,1.039766,0.761962,-0.109372,0.052222,-0.728592,2.0,59.3,0,0,1,0,0,0,0,1,1,0,0,0
781,0.89325,-0.158289,-1.088362,-0.961341,-0.153085,0.0,75.8,1,0,1,0,0,0,0,1,0,0,0,1
368,0.100434,-0.085906,-0.081518,2.129746,0.422422,1.0,69.8,1,1,0,0,0,1,0,0,0,0,1,0
157,-1.567305,-0.93461,-0.470261,-1.187452,-0.440839,1.0,61.5,1,1,0,0,0,0,0,1,0,1,0,0
494,-0.560616,0.318914,-1.980924,-2.259288,-0.440839,1.0,63.1,1,1,0,0,0,1,0,0,0,0,0,1


Con esto ya hemos completado la **codificación** y el **escalado**

Para nuestro **modelo de regresión** tenemos todo listo, para el de clasificación, hay que tener en cuenta que habrá que balancear datos mas adelante, ya que un 90% de los datos son de alumnos que han aprobado, lo que puede crear sesgos y predecir siempre esta clase. Esto se hará después de separar los datos en entrenamiento y prueba, en el siguiente notebook.

Procederemos a guardar el dataset procesado para su uso posterior

In [7]:
df.to_csv("../data/preprocessed_dataset.csv", index = False)