In [7]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder

# 1. Cargar y preparar los datos
datos = pd.read_csv('student dropout.csv')

datos['Dropped_Out'] = datos['Dropped_Out'].astype(int)
le = LabelEncoder()
columnas_texto = ['School', 'Gender', 'Address', 'Family_Size', 'Parental_Status', 'Mother_Job', 'Father_Job', 'Reason_for_Choosing_School', 'Guardian', 'School_Support', 'Family_Support', 'Extra_Paid_Class', 'Extra_Curricular_Activities', 'Attended_Nursery', 'Wants_Higher_Education', 'Internet_Access', 'In_Relationship']
for col in columnas_texto:
    datos[col] = le.fit_transform(datos[col])

# 2. Análisis Supervisado: Clasificación con Random Forest
# Objetivo: Predecir si el estudiante deserta (Dropped_Out)
X_clasificacion = datos.drop(['Grade_1', 'Grade_2', 'Final_Grade', 'Dropped_Out'], axis=1)
y_clasificacion = datos['Dropped_Out']
X_train_c, X_test_c, y_train_c, y_test_c = train_test_split(X_clasificacion, y_clasificacion, test_size=0.3, random_state=42)

# Modelo inicial de Random Forest
modelo_rf = RandomForestClassifier(random_state=42)
modelo_rf.fit(X_train_c, y_train_c)
predicciones_c = modelo_rf.predict(X_test_c)

precision_c = accuracy_score(y_test_c, predicciones_c)
exactitud_c = precision_score(y_test_c, predicciones_c)
sensibilidad_c = recall_score(y_test_c, predicciones_c)
puntuacion_F1_c = f1_score(y_test_c, predicciones_c)

print("Resultados del Modelo de Clasificación (Random Forest):")
print(f"Precisión (Accuracy): {precision_c:.2f}")
print(f"Exactitud (Precision): {exactitud_c:.2f}")
print(f"Sensibilidad (Recall): {sensibilidad_c:.2f}")
print(f"Puntuación F1 (F1-Score): {puntuacion_F1_c:.2f}")

# Optimización de hiperparámetros
parametros = {'n_estimators': [100, 200], 'max_depth': [5, 10, None]}
modelo_base = RandomForestClassifier(random_state=42)
optimizador = GridSearchCV(modelo_base, parametros, cv=5, scoring='f1')
optimizador.fit(X_train_c, y_train_c)

mejor_modelo = optimizador.best_estimator_
mejores_parametros = optimizador.best_params_
print("\nMejores parámetros encontrados para el modelo de clasificación:", mejores_parametros)

predicciones_opt = mejor_modelo.predict(X_test_c)
precision_opt = accuracy_score(y_test_c, predicciones_opt)
exactitud_opt = precision_score(y_test_c, predicciones_opt)
sensibilidad_opt = recall_score(y_test_c, predicciones_opt)
puntuacion_F1_opt = f1_score(y_test_c, predicciones_opt)

print("\nResultados del Modelo de Clasificación OPTIMIZADO:")
print(f"Precisión (Accuracy): {precision_opt:.2f}")
print(f"Exactitud (Precision): {exactitud_opt:.2f}")
print(f"Sensibilidad (Recall): {sensibilidad_opt:.2f}")
print(f"Puntuación F1 (F1-Score): {puntuacion_F1_opt:.2f}")

# 3. Análisis Supervisado: Regresión Lineal
# Objetivo: Predecir la calificación final (Final_Grade)
X_regresion = datos.drop(['Dropped_Out', 'Final_Grade'], axis=1)
y_regresion = datos['Final_Grade']
X_train_r, X_test_r, y_train_r, y_test_r = train_test_split(X_regresion, y_regresion, test_size=0.3, random_state=42)

modelo_regresion = LinearRegression()
modelo_regresion.fit(X_train_r, y_train_r)
predicciones_r = modelo_regresion.predict(X_test_r)

rmse = np.sqrt(mean_squared_error(y_test_r, predicciones_r))
r2 = r2_score(y_test_r, predicciones_r)

print("\nResultados del Modelo de Regresión (Regresión Lineal):")
print(f"Error Cuadrático Medio de la Raíz (RMSE): {rmse:.2f}")
print(f"Coeficiente de Determinación (R2): {r2:.2f}")

Resultados del Modelo de Clasificación (Random Forest):
Precisión (Accuracy): 0.88
Exactitud (Precision): 0.75
Sensibilidad (Recall): 0.12
Puntuación F1 (F1-Score): 0.20

Mejores parámetros encontrados para el modelo de clasificación: {'max_depth': None, 'n_estimators': 100}

Resultados del Modelo de Clasificación OPTIMIZADO:
Precisión (Accuracy): 0.88
Exactitud (Precision): 0.75
Sensibilidad (Recall): 0.12
Puntuación F1 (F1-Score): 0.20

Resultados del Modelo de Regresión (Regresión Lineal):
Error Cuadrático Medio de la Raíz (RMSE): 1.20
Coeficiente de Determinación (R2): 0.87
