# ***Entrenamiento***

*Objetivo del trabajo*

El objetivo de este trabajo es predecir el promedio final de un estudiante utilizando variables como horas de estudio, porcentaje de asistencia, número de inasistencias, acceso a internet, educación de los padres y tipo de colegio. Estas variables son características fundamentales que influyen directamente en el rendimiento académico y también lo podemos analizar viendo la matriz de correlación realizada anteriormente.

En este caso, utilizaré un modelo de regresión (Decision Tree Regressor) porque quiero predecir una variable numérica (promedio_final), que también me permite visualizar fácilmente cómo se toman las decisiones y entender qué variables influyen más en el rendimiento académico. Decision Tree Regressor es ideal para conjuntos de datos de tamaño mediano como este, y permite identificar relaciones no lineales entre las variables. El algoritmo divide los datos en grupos basados en las características, por ejemplo: si el estudiante estudia más de 15 horas, tiene asistencia mayor al 90% y acceso a internet, entonces probablemente tendrá un promedio alto.

In [None]:
# Librerias necesarias para trabajar en el modelo de ML
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeRegressor

# Defino variables predictoras (X) y variable objetivo (y)
X = df[['horas_estudio', 'asistencia', 'inasistencias', 'internet', 'educacion_padres', 'tipo_colegio']]
y = df['promedio_final']

# Dividir en conjunto de entrenamiento 80% y de test 20%
train_X, val_X, train_y, val_y = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar el modelo a utilizar con los datos de entrenamiento

# DecisionTreeRegressor (Árbol de decisión para Regresión) es un modelo no lineal porque
# No intenta ajustar una línea recta (ni un plano, ni una función continua simple).
# Divide el espacio de datos en regiones utilizando reglas
# Cada regla forma una "rama" del árbol y el valor de salida (en este caso el promedio final) es la media de los promedios reales en cada hoja.

modelo_educacion = DecisionTreeRegressor(random_state=42, max_depth=5)
modelo_educacion.fit(train_X, train_y)

print("Modelo entrenado exitosamente!")

In [None]:
# Compruebo que el modelo esté entrenado

print("Predicciones para los primeros 5 estudiantes:")
print(X.head())
print("\nEl promedio real de estos estudiantes es:")
print(y.head().values)
print("\nLas predicciones del modelo son:")
predicciones = modelo_educacion.predict(X.head())
print(predicciones)

In [None]:
# Explicación de como trabaja el DecisionTreeRegressor
from sklearn.tree import plot_tree
import matplotlib.pyplot as plt

plt.figure(figsize=(20, 10))
plot_tree(
    modelo_educacion,
    feature_names=X.columns,
    filled=True,
    rounded=True,
    max_depth=3,
    fontsize=10
)
plt.title("Visualización del árbol de decisión para predicción de promedio final")
plt.show()