# 🎓 Exploración Interactiva - Proyecto ML

## 📊 Predicción de Rendimiento Académico Estudiantil

### 👨‍🎓 Equipo Grupo 4
- **Candela Vargas Aitor Baruc**
- **Godoy Bautista Denilson Miguel**
- **Molina Lazaro Eduardo Jeampier**
- **Napanga Ruiz Jhonatan Jesus**
- **Quispe Romani Angela Isabel**

### 📚 Información del Proyecto
- **Asignatura:** Machine Learning
- **Docente:** M.SC. Magaly Roxana Aranguena Yllanes
- **Año:** 2025

---

Este notebook permite explorar interactivamente los datos del proyecto y experimentar con diferentes técnicas de Machine Learning para predecir el rendimiento académico de estudiantes.

## 📦 1. Importar Librerías Necesarias

Importamos todas las librerías necesarias para el análisis de datos y Machine Learning.

In [None]:
# Importar librerías estándar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import sys
import warnings

# Configurar visualizaciones
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12
sns.set_palette("husl")

# Silenciar warnings
warnings.filterwarnings('ignore')

# Configurar pandas para mostrar más columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

# Agregar el directorio src al path
sys.path.insert(0, str(Path.cwd().parent / "src"))

print("✅ Librerías importadas exitosamente")
print("📊 Configuración de visualización aplicada")
print("🔧 Entorno configurado para análisis interactivo")

## 📊 2. Cargar y Explorar Datos

Cargamos el dataset original y realizamos una exploración inicial para entender la estructura y características de los datos.

In [None]:
# Cargar dataset original
try:
    # Ruta al archivo de datos
    data_path = Path.cwd().parent / "datos" / "raw" / "StudentPerformanceFactors.csv"
    
    # Cargar datos
    df = pd.read_csv(data_path)
    
    print("✅ Dataset cargado exitosamente")
    print(f"📊 Dimensiones: {df.shape}")
    print(f"📋 Columnas: {df.columns.tolist()}")
    
    # Mostrar información básica
    print("\n🔍 Información del Dataset:")
    print(df.info())
    
    # Mostrar primeras filas
    print("\n📋 Primeras 5 filas:")
    display(df.head())
    
except FileNotFoundError:
    print("❌ Error: No se encontró el archivo de datos")
    print("💡 Asegúrese de que el archivo esté en la ruta correcta")
except Exception as e:
    print(f"❌ Error cargando datos: {str(e)}")

In [None]:
# Análisis estadístico básico
print("📈 ESTADÍSTICAS DESCRIPTIVAS")
print("=" * 50)

# Estadísticas de variables numéricas
numeric_columns = df.select_dtypes(include=[np.number]).columns
print("\n🔢 Variables Numéricas:")
display(df[numeric_columns].describe())

# Estadísticas de variables categóricas
categorical_columns = df.select_dtypes(include=['object']).columns
print(f"\n📊 Variables Categóricas ({len(categorical_columns)} columnas):")
for col in categorical_columns:
    print(f"\n{col}:")
    print(df[col].value_counts().head())

# Análisis de valores nulos
print(f"\n⚠️ VALORES NULOS:")
print("=" * 30)
missing_data = df.isnull().sum()
if missing_data.sum() > 0:
    print(missing_data[missing_data > 0])
else:
    print("✅ No hay valores nulos en el dataset")

# Análisis de duplicados
duplicated_rows = df.duplicated().sum()
print(f"\n📋 Filas duplicadas: {duplicated_rows}")
if duplicated_rows > 0:
    print("⚠️ Se encontraron filas duplicadas")
else:
    print("✅ No hay filas duplicadas")

## 📊 3. Visualizaciones Exploratorias

Creamos diferentes visualizaciones para entender mejor la distribución y relaciones entre las variables.

In [None]:
# Visualización de la variable objetivo (Exam_Score)
plt.figure(figsize=(15, 5))

# Histograma de Exam_Score
plt.subplot(1, 3, 1)
plt.hist(df['Exam_Score'], bins=30, alpha=0.7, color='skyblue', edgecolor='black')
plt.title('📊 Distribución de Exam_Score')
plt.xlabel('Puntaje del Examen')
plt.ylabel('Frecuencia')
plt.grid(True, alpha=0.3)

# Box plot de Exam_Score
plt.subplot(1, 3, 2)
plt.boxplot(df['Exam_Score'])
plt.title('📦 Box Plot de Exam_Score')
plt.ylabel('Puntaje del Examen')
plt.grid(True, alpha=0.3)

# Estadísticas de Exam_Score
plt.subplot(1, 3, 3)
stats = df['Exam_Score'].describe()
plt.text(0.1, 0.9, f"Media: {stats['mean']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.8, f"Mediana: {stats['50%']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.7, f"Desv. Std: {stats['std']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.6, f"Mínimo: {stats['min']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.5, f"Máximo: {stats['max']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.4, f"Rango: {stats['max'] - stats['min']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.title('📈 Estadísticas de Exam_Score')
plt.axis('off')

plt.tight_layout()
plt.show()

print(f"📊 Análisis de Exam_Score:")
print(f"   🎯 Media: {df['Exam_Score'].mean():.2f}")
print(f"   📏 Rango: {df['Exam_Score'].min():.1f} - {df['Exam_Score'].max():.1f}")
print(f"   📐 Desviación estándar: {df['Exam_Score'].std():.2f}")
print(f"   📊 Coeficiente de variación: {(df['Exam_Score'].std() / df['Exam_Score'].mean() * 100):.1f}%")

In [None]:
# Análisis de correlaciones
print("🔍 ANÁLISIS DE CORRELACIONES")
print("=" * 50)

# Seleccionar solo variables numéricas
numeric_df = df.select_dtypes(include=[np.number])

# Calcular matriz de correlación
correlation_matrix = numeric_df.corr()

# Visualizar matriz de correlación
plt.figure(figsize=(12, 10))
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, 
            mask=mask,
            annot=True, 
            cmap='coolwarm', 
            center=0,
            square=True,
            fmt='.2f',
            cbar_kws={'label': 'Correlación'})
plt.title('🔥 Matriz de Correlación - Variables Numéricas')
plt.tight_layout()
plt.show()

# Correlaciones con Exam_Score
print("\n🎯 Correlaciones con Exam_Score:")
print("-" * 40)
exam_correlations = correlation_matrix['Exam_Score'].sort_values(ascending=False)
for var, corr in exam_correlations.items():
    if var != 'Exam_Score':
        emoji = "🟢" if abs(corr) > 0.5 else "🟡" if abs(corr) > 0.3 else "🔴"
        print(f"{emoji} {var}: {corr:.3f}")

# Identificar correlaciones fuertes
strong_correlations = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_val = correlation_matrix.iloc[i, j]
        if abs(corr_val) > 0.7:
            strong_correlations.append((
                correlation_matrix.columns[i], 
                correlation_matrix.columns[j], 
                corr_val
            ))

if strong_correlations:
    print(f"\n⚠️ Correlaciones fuertes encontradas (|r| > 0.7):")
    for var1, var2, corr in strong_correlations:
        print(f"   {var1} ↔ {var2}: {corr:.3f}")
else:
    print(f"\n✅ No hay correlaciones excesivamente fuertes entre variables")

In [None]:
# Análisis de variables categóricas vs Exam_Score
print("👥 ANÁLISIS DE VARIABLES CATEGÓRICAS")
print("=" * 50)

# Seleccionar variables categóricas principales
categorical_vars = ['Gender', 'Parental_Involvement', 'Access_to_Resources', 
                   'Motivation_Level', 'School_Type', 'Peer_Influence']

# Verificar qué variables existen en el dataset
available_cats = [var for var in categorical_vars if var in df.columns]

if available_cats:
    # Crear subplots para variables categóricas
    n_vars = len(available_cats)
    n_cols = 3
    n_rows = (n_vars + n_cols - 1) // n_cols
    
    plt.figure(figsize=(15, 5 * n_rows))
    
    for i, var in enumerate(available_cats):
        plt.subplot(n_rows, n_cols, i + 1)
        
        # Calcular estadísticas por grupo
        grouped_stats = df.groupby(var)['Exam_Score'].agg(['mean', 'count']).round(2)
        
        # Crear box plot
        df.boxplot(column='Exam_Score', by=var, ax=plt.gca())
        plt.title(f'📊 {var} vs Exam_Score')
        plt.suptitle('')  # Eliminar título automático
        plt.xlabel(var)
        plt.ylabel('Exam_Score')
        plt.xticks(rotation=45)
        
        # Agregar estadísticas como texto
        stats_text = "\\n".join([f"{idx}: μ={row['mean']:.1f} (n={row['count']})" 
                                for idx, row in grouped_stats.iterrows()])
        plt.text(0.02, 0.98, stats_text, transform=plt.gca().transAxes, 
                fontsize=8, verticalalignment='top', 
                bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))
    
    plt.tight_layout()
    plt.show()
    
    # Mostrar estadísticas detalladas
    print("\\n📊 Estadísticas por grupos:")
    for var in available_cats:
        print(f"\\n{var}:")
        stats = df.groupby(var)['Exam_Score'].agg(['count', 'mean', 'std']).round(2)
        print(stats)
        
else:
    print("⚠️ No se encontraron variables categóricas disponibles para análisis")

## 🤖 4. Experimentación con Modelos

Probamos diferentes modelos de Machine Learning de forma interactiva para comparar su rendimiento.

In [None]:
# Preparación básica de datos para modelado
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import warnings
warnings.filterwarnings('ignore')

print("🔧 PREPARACIÓN DE DATOS PARA MODELADO")
print("=" * 50)

# Crear una copia del dataset para experimentación
df_model = df.copy()

# Separar variables numéricas y categóricas
numeric_cols = df_model.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df_model.select_dtypes(include=['object']).columns.tolist()

# Remover Exam_Score de las features numéricas si está presente
if 'Exam_Score' in numeric_cols:
    numeric_cols.remove('Exam_Score')

print(f"📊 Variables numéricas ({len(numeric_cols)}): {numeric_cols}")
print(f"👥 Variables categóricas ({len(categorical_cols)}): {categorical_cols}")

# Codificar variables categóricas (simple label encoding para experimentación)
le_dict = {}
for col in categorical_cols:
    le = LabelEncoder()
    df_model[col + '_encoded'] = le.fit_transform(df_model[col].astype(str))
    le_dict[col] = le

# Crear feature matrix X
feature_cols = numeric_cols + [col + '_encoded' for col in categorical_cols]
X = df_model[feature_cols]
y = df_model['Exam_Score']

print(f"\\n✅ Dataset preparado:")
print(f"   📊 Features: {X.shape[1]}")
print(f"   📋 Muestras: {X.shape[0]}")
print(f"   🎯 Variable objetivo: Exam_Score")

# Dividir en train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print(f"\\n📂 División train/test:")
print(f"   🚂 Train: {X_train.shape[0]} muestras")
print(f"   🧪 Test: {X_test.shape[0]} muestras")

In [None]:
# Entrenamiento y comparación de modelos
print("🚀 ENTRENAMIENTO DE MODELOS")
print("=" * 50)

# Escalar datos para modelos que lo requieren
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Definir modelos a probar
models = {
    'Linear Regression': LinearRegression(),
    'Ridge (α=1.0)': Ridge(alpha=1.0),
    'Ridge (α=10.0)': Ridge(alpha=10.0),
    'Lasso (α=1.0)': Lasso(alpha=1.0),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42)
}

# Entrenar modelos y recopilar resultados
results = {}

for name, model in models.items():
    print(f"\\n🔹 Entrenando {name}...")
    
    # Decidir si usar datos escalados o no
    if 'Ridge' in name or 'Lasso' in name:
        X_train_use = X_train_scaled
        X_test_use = X_test_scaled
    else:
        X_train_use = X_train
        X_test_use = X_test
    
    # Entrenar modelo
    model.fit(X_train_use, y_train)
    
    # Hacer predicciones
    y_pred = model.predict(X_test_use)
    
    # Calcular métricas
    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    # Guardar resultados
    results[name] = {
        'model': model,
        'predictions': y_pred,
        'mse': mse,
        'rmse': rmse,
        'mae': mae,
        'r2': r2
    }
    
    print(f"   ✅ R² = {r2:.4f}, RMSE = {rmse:.4f}")

# Crear DataFrame con resultados
results_df = pd.DataFrame({
    'Modelo': list(results.keys()),
    'R²': [results[name]['r2'] for name in results.keys()],
    'RMSE': [results[name]['rmse'] for name in results.keys()],
    'MAE': [results[name]['mae'] for name in results.keys()],
    'MSE': [results[name]['mse'] for name in results.keys()]
}).round(4)

# Ordenar por R²
results_df = results_df.sort_values('R²', ascending=False)

print(f"\\n🏆 RESULTADOS DE MODELOS:")
print("=" * 50)
display(results_df)

# Identificar mejor modelo
best_model_name = results_df.iloc[0]['Modelo']
best_r2 = results_df.iloc[0]['R²']
print(f"\\n🥇 Mejor modelo: {best_model_name}")
print(f"📈 R² Score: {best_r2:.4f}")

# Interpretación del rendimiento
if best_r2 >= 0.8:
    performance = "Excelente 🌟"
elif best_r2 >= 0.6:
    performance = "Bueno 👍"
elif best_r2 >= 0.4:
    performance = "Moderado 🤔"
else:
    performance = "Pobre 👎"

print(f"📊 Rendimiento: {performance}")

In [None]:
# Visualización de resultados de modelos
print("📊 VISUALIZACIÓN DE RESULTADOS")
print("=" * 50)

# Crear visualizaciones comparativas
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Comparación de métricas R²
ax1 = axes[0, 0]
bars = ax1.bar(range(len(results_df)), results_df['R²'], 
               color=['gold', 'silver', '#CD7F32', 'lightblue', 'lightgreen'])
ax1.set_title('🏆 Comparación R² Score')
ax1.set_xlabel('Modelos')
ax1.set_ylabel('R² Score')
ax1.set_xticks(range(len(results_df)))
ax1.set_xticklabels(results_df['Modelo'], rotation=45, ha='right')
ax1.grid(True, alpha=0.3)

# Agregar valores en las barras
for i, bar in enumerate(bars):
    height = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width()/2., height + 0.01,
             f'{height:.3f}', ha='center', va='bottom')

# 2. Comparación RMSE
ax2 = axes[0, 1]
ax2.bar(range(len(results_df)), results_df['RMSE'], 
        color=['coral', 'orange', 'yellow', 'lightblue', 'lightgreen'])
ax2.set_title('📉 Comparación RMSE')
ax2.set_xlabel('Modelos')
ax2.set_ylabel('RMSE')
ax2.set_xticks(range(len(results_df)))
ax2.set_xticklabels(results_df['Modelo'], rotation=45, ha='right')
ax2.grid(True, alpha=0.3)

# 3. Predicciones vs Valores Reales (mejor modelo)
ax3 = axes[1, 0]
best_predictions = results[best_model_name]['predictions']
ax3.scatter(y_test, best_predictions, alpha=0.6, color='blue')
ax3.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
ax3.set_title(f'🎯 {best_model_name}\\nPredicciones vs Valores Reales')
ax3.set_xlabel('Valores Reales')
ax3.set_ylabel('Predicciones')
ax3.grid(True, alpha=0.3)

# Agregar estadísticas al gráfico
ax3.text(0.05, 0.95, f'R² = {best_r2:.3f}', transform=ax3.transAxes,
         fontsize=12, verticalalignment='top',
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

# 4. Distribución de errores (mejor modelo)
ax4 = axes[1, 1]
errors = y_test - best_predictions
ax4.hist(errors, bins=20, alpha=0.7, color='lightgreen', edgecolor='black')
ax4.set_title(f'📊 Distribución de Errores\\n{best_model_name}')
ax4.set_xlabel('Error (Real - Predicción)')
ax4.set_ylabel('Frecuencia')
ax4.grid(True, alpha=0.3)

# Agregar línea vertical en cero
ax4.axvline(x=0, color='red', linestyle='--', alpha=0.7)

# Agregar estadísticas de errores
error_mean = errors.mean()
error_std = errors.std()
ax4.text(0.05, 0.95, f'μ = {error_mean:.2f}\\nσ = {error_std:.2f}', 
         transform=ax4.transAxes, fontsize=10, verticalalignment='top',
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.tight_layout()
plt.show()

# Análisis de residuos del mejor modelo
print(f"\\n🔍 ANÁLISIS DE RESIDUOS - {best_model_name}")
print("-" * 50)
print(f"📊 Error promedio: {errors.mean():.4f}")
print(f"📊 Desviación estándar de errores: {errors.std():.4f}")
print(f"📊 Error máximo: {errors.max():.4f}")
print(f"📊 Error mínimo: {errors.min():.4f}")

# Verificar normalidad de residuos (prueba simple)
from scipy import stats
_, p_value = stats.normaltest(errors)
if p_value > 0.05:
    print(f"✅ Los residuos parecen seguir una distribución normal (p-value: {p_value:.4f})")
else:
    print(f"⚠️ Los residuos no siguen una distribución normal (p-value: {p_value:.4f})")