In [4]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

In [5]:
df_est = pd.read_csv("../Data/raw/dataset_estudiantes.csv")

Vamos a preparar el dataset antes de entrenar los modelos de Machine Learning.  
- tratamiento de nulos
- codificación de variables categóricas
- escalado de datos
- división en conjuntos de entrenamiento en train y test.


In [164]:
df_est.sample(5)

Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nivel_dificultad,tiene_tutor,horario_estudio_preferido,estilo_aprendizaje,nota_final,aprobado
694,7.119626,79.917428,71.034831,7.073422,19,Fácil,No,Tarde,Visual,64.3,1
779,7.425383,57.170698,73.014525,7.020701,24,Medio,No,Mañana,Visual,51.9,0
954,3.707462,64.597424,85.298466,7.020701,19,Medio,No,Tarde,Lectura/Escritura,75.7,1
368,10.559448,68.624321,72.509533,9.842889,25,Medio,No,Noche,Kinestésico,69.8,1
52,17.056466,87.99649,26.828993,8.406697,24,Medio,No,Noche,Auditivo,71.7,1


# TRATAMIENTO DE NULOS

In [165]:
df_est.isnull().sum()

horas_estudio_semanal        0
nota_anterior                0
tasa_asistencia              0
horas_sueno                  0
edad                         0
nivel_dificultad             0
tiene_tutor                  0
horario_estudio_preferido    0
estilo_aprendizaje           0
nota_final                   0
aprobado                     0
dtype: int64

El análisis exploratorio mostró que existen valores faltantes en:  
- `horas_sueno`: 150 valores nulos (numérica)  
- `horario_estudio_preferido`: 100 valores nulos (categórica)
- `estilo_aprendizaje`: 50 valores nulos (categórica)

Las variables numéricas van a ser completadas con la mediana, ya que esta es menos sensible a outliers. 
Las categóricas sin embargo van a rellenar con la moda (valor más repetido en el conjunto de datos), ya que es representativa


In [166]:
df_est["horas_sueno"].fillna(df_est["horas_sueno"].median(), inplace=True)
df_est

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_est["horas_sueno"].fillna(df_est["horas_sueno"].median(), inplace=True)


Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nivel_dificultad,tiene_tutor,horario_estudio_preferido,estilo_aprendizaje,nota_final,aprobado
0,8.957476,48.830601,86.640182,6.675694,25,Fácil,Sí,Tarde,Lectura/Escritura,84.4,1
1,11.042524,80.825707,83.449655,4.616844,18,Difícil,No,Tarde,Visual,72.0,1
2,4.510776,90.383694,74.623607,7.755246,25,Fácil,No,Mañana,Lectura/Escritura,80.0,1
3,6.647213,81.878257,82.849841,8.592826,23,Fácil,No,Noche,Visual,78.2,1
4,1.000000,66.254179,54.539935,6.671840,21,Medio,No,Noche,Auditivo,66.0,1
...,...,...,...,...,...,...,...,...,...,...,...
995,12.821334,79.453807,87.058862,5.581576,22,Medio,Sí,Noche,Lectura/Escritura,78.9,1
996,15.200448,87.246126,90.160085,6.063783,24,Medio,Sí,Mañana,Auditivo,73.6,1
997,8.158924,53.324469,61.525951,6.562950,29,Fácil,No,Noche,Lectura/Escritura,65.0,1
998,18.582076,88.309605,96.326078,6.691088,21,Medio,Sí,Noche,Kinestésico,73.8,1


In [168]:
df_est["horario_estudio_preferido"].fillna(df_est["horario_estudio_preferido"].mode()[0], inplace=True)

In [170]:
df_est["estilo_aprendizaje"].fillna(df_est["estilo_aprendizaje"].mode()[0], inplace=True)

In [173]:
df_est.sample(5)

Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nivel_dificultad,tiene_tutor,horario_estudio_preferido,estilo_aprendizaje,nota_final,aprobado
10,12.588951,61.580094,64.701534,7.020701,28,Medio,Sí,Noche,Visual,67.9,1
546,7.693927,70.960401,63.655772,4.060696,29,Fácil,No,Mañana,Visual,70.4,1
652,15.39845,62.532864,67.850085,7.194373,18,Medio,Sí,Tarde,Lectura/Escritura,66.2,1
370,19.401762,71.792014,62.087385,5.120519,26,Medio,Sí,Mañana,Kinestésico,65.3,1
131,9.78038,67.370824,73.920547,7.020701,26,Fácil,Sí,Noche,Auditivo,74.3,1


In [174]:
# Comprobamos que no haya nulos:
df_est.isnull().sum()

horas_estudio_semanal        0
nota_anterior                0
tasa_asistencia              0
horas_sueno                  0
edad                         0
nivel_dificultad             0
tiene_tutor                  0
horario_estudio_preferido    0
estilo_aprendizaje           0
nota_final                   0
aprobado                     0
dtype: int64

# CODIFICACIÓN DE VARIABLES CATEGÓRICAS

En Machine Learning los algoritmos solo pueden trabajar con valores numéricos, por lo que debemos transformar las variables categóricas (`nivel_dificultad`, `tiene_tutor`, `horario_estudio_preferido`, `estilo_aprendizaje`) en números.
En este proyecto utilizaremos **One-Hot Encoding** porque:
- Nuestras variables categóricas (`nivel_dificultad`, `tiene_tutor`, `horario_estudio_preferido`, `estilo_aprendizaje`) no tienen un orden natural.  
- Queremos evitar que el modelo interprete una jerarquía inexistente.  
- El número de categorías es reducido, por lo que no se genera un número excesivo de columnas.

Cuando usamos One-Hot Encoding se genera una columna por cada categoría. Esto puede producir multicolinealidad, ya que una de las columnas se puede deducir de las demás.  
Por ello, usamos la opción `drop_first=True` para evitar multicolinealidad (se elimina una categoría de referencia por cada variable).
Cuando usamos One-Hot Encoding se genera una columna por cada categoría.  
Esto puede producir **multicolinealidad**, ya que una de las columnas se puede deducir de las demás.  


In [177]:
cat_cols = ["nivel_dificultad", "tiene_tutor", "horario_estudio_preferido", "estilo_aprendizaje"]
df_codif = pd.get_dummies(df_est, columns=cat_cols, drop_first=True)
df_codif.head()


Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nota_final,aprobado,nivel_dificultad_Fácil,nivel_dificultad_Medio,tiene_tutor_Sí,horario_estudio_preferido_Noche,horario_estudio_preferido_Tarde,estilo_aprendizaje_Kinestésico,estilo_aprendizaje_Lectura/Escritura,estilo_aprendizaje_Visual
0,8.957476,48.830601,86.640182,6.675694,25,84.4,1,True,False,True,False,True,False,True,False
1,11.042524,80.825707,83.449655,4.616844,18,72.0,1,False,False,False,False,True,False,False,True
2,4.510776,90.383694,74.623607,7.755246,25,80.0,1,True,False,False,False,False,False,True,False
3,6.647213,81.878257,82.849841,8.592826,23,78.2,1,True,False,False,True,False,False,False,True
4,1.0,66.254179,54.539935,6.67184,21,66.0,1,False,True,False,True,False,False,False,False


# ESCALADO DE VARIABLES NUMÉRICAS

Los algoritmos basados en distancias (como Regresión, KNN, SVM) requieren que las variables estén en una escala similar. Usamos StandardScaler

In [182]:
pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.7.2-cp313-cp313-macosx_12_0_arm64.whl.metadata (11 kB)
Collecting scipy>=1.8.0 (from scikit-learn)
  Downloading scipy-1.16.2-cp313-cp313-macosx_14_0_arm64.whl.metadata (62 kB)
Collecting joblib>=1.2.0 (from scikit-learn)
  Downloading joblib-1.5.2-py3-none-any.whl.metadata (5.6 kB)
Collecting threadpoolctl>=3.1.0 (from scikit-learn)
  Downloading threadpoolctl-3.6.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.7.2-cp313-cp313-macosx_12_0_arm64.whl (8.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m8.6/8.6 MB[0m [31m64.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading joblib-1.5.2-py3-none-any.whl (308 kB)
Downloading scipy-1.16.2-cp313-cp313-macosx_14_0_arm64.whl (20.9 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m20.9/20.9 MB[0m [31m81.5 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hDownloading threadpoolctl-3.6.0-py3-none-any.whl (18 kB)
Installing collected packa

In [183]:
from sklearn.preprocessing import StandardScaler

In [184]:
num_cols = ["horas_estudio_semanal", "nota_anterior", "tasa_asistencia", "horas_sueno", "edad"]
scaler = StandardScaler()
df_codif[num_cols] = scaler.fit_transform(df_codif[num_cols])
df_codif.head()


Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nota_final,aprobado,nivel_dificultad_Fácil,nivel_dificultad_Medio,tiene_tutor_Sí,horario_estudio_preferido_Noche,horario_estudio_preferido_Tarde,estilo_aprendizaje_Kinestésico,estilo_aprendizaje_Lectura/Escritura,estilo_aprendizaje_Visual
0,-0.229884,-1.43422,0.695453,-0.250839,0.422422,84.4,1,True,False,True,False,True,False,True,False
1,0.200041,0.745231,0.520023,-1.797387,-1.591853,72.0,1,False,False,False,False,True,False,False,True
2,-1.146769,1.396304,0.034724,0.560089,0.422422,80.0,1,True,False,False,False,False,False,True,False
3,-0.706248,0.816929,0.487042,1.189255,-0.153085,78.2,1,True,False,False,True,False,False,False,True
4,-1.870671,-0.247356,-1.069572,-0.253734,-0.728592,66.0,1,False,True,False,True,False,False,False,False


- Ahora cada columna tiene media 0 y desviación estándar 1.  
- Un valor positivo indica que el estudiante está por encima de la media en esa variable.  
- Un valor negativo indica que está por debajo de la media.  


# DIVISIÓN EN CONJUNTOS DE ENTRENAMIENTO: TRAIN Y TEST

Tenemos que separar los datos en entrenamiento (train) y preuba (test)
- Entrenamiento (80%): para ajustar los modelo
- Prueba (20%): para evaluar el rendimiento con datos que nunca haya visto

In [185]:
from sklearn.model_selection import train_test_split

In [209]:
# Queremos predecir la variable objetivo, por ello hay que eliminar las dos columnas.
M = df_codif.drop(["nota_final", "aprobado"], axis=1)
M

Unnamed: 0,horas_estudio_semanal,nota_anterior,tasa_asistencia,horas_sueno,edad,nivel_dificultad_Fácil,nivel_dificultad_Medio,tiene_tutor_Sí,horario_estudio_preferido_Noche,horario_estudio_preferido_Tarde,estilo_aprendizaje_Kinestésico,estilo_aprendizaje_Lectura/Escritura,estilo_aprendizaje_Visual
0,-0.229884,-1.434220,0.695453,-0.250839,0.422422,True,False,True,False,True,False,True,False
1,0.200041,0.745231,0.520023,-1.797387,-1.591853,False,False,False,False,True,False,False,True
2,-1.146769,1.396304,0.034724,0.560089,0.422422,True,False,False,False,False,False,True,False
3,-0.706248,0.816929,0.487042,1.189255,-0.153085,True,False,False,True,False,False,False,True
4,-1.870671,-0.247356,-1.069572,-0.253734,-0.728592,False,True,False,True,False,False,False,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,0.566822,0.651779,0.718474,-1.072709,-0.440839,False,True,True,True,False,False,True,False
996,1.057382,1.182579,0.888994,-0.710489,0.134669,False,True,True,False,False,False,False,False
997,-0.394541,-1.128106,-0.685447,-0.335529,1.573437,True,False,False,True,False,False,True,False
998,1.754655,1.255021,1.228030,-0.239275,-0.728592,False,True,True,True,False,True,False,False


In [210]:
# Variables objetivo
y_regre = df_codif["nota_final"]
y_clasif = df_codif["aprobado"]

In [211]:
# División para regresión
M_train_regre, M_test_regre, y_train_regre, y_test_regre = train_test_split( 
    M, y_regre, test_size=0.2, random_state=42)

In [212]:
# División para clasificación
M_train_clasif, M_test_clasif, y_train_clasif, y_test_clasif = train_test_split(
    M, y_clasif, test_size=0.2, random_state=42, stratify=y_clasif)

In [213]:
# Comprobar 
print("Regresión:", M_train_regre.shape, M_test_regre.shape)
print("Clasificación:", M_train_clasif.shape, M_test_clasif.shape)
print("Proporción de aprobados en train:", y_train_clasif.mean()*100)
print("Proporción de aprobados en test:", y_test_clasif.mean()*100)


Regresión: (800, 13) (200, 13)
Clasificación: (800, 13) (200, 13)
Proporción de aprobados en train: 89.75
Proporción de aprobados en test: 90.0


In [214]:
#Regresión:
M_train_regre.to_csv("../Data/processed/M_train_regre.csv", index=False)
M_test_regre.to_csv("../Data/processed/M_test_regre.csv", index=False)
y_train_regre.to_csv("../Data/processed/y_train_regre.csv", index=False)
y_test_regre.to_csv("../Data/processed/y_test_regre.csv", index=False)

# Clasificación
M_train_clasif.to_csv("../Data/processed/M_train_clasif.csv", index=False)
M_test_clasif.to_csv("../Data/processed/M_test_clasif.csv", index=False)
y_train_clasif.to_csv("../Data/processed/y_train_clasif.csv", index=False)
y_test_clasif.to_csv("../Data/processed/y_test_clasif.csv", index=False)
