# üéì Exploraci√≥n Interactiva - Proyecto ML

## üìä Predicci√≥n de Rendimiento Acad√©mico Estudiantil

### üë®‚Äçüéì Equipo Grupo 4
- **Candela Vargas Aitor Baruc**
- **Godoy Bautista Denilson Miguel**
- **Molina Lazaro Eduardo Jeampier**
- **Napanga Ruiz Jhonatan Jesus**
- **Quispe Romani Angela Isabel**

### üìö Informaci√≥n del Proyecto
- **Asignatura:** Machine Learning
- **Docente:** M.SC. Magaly Roxana Aranguena Yllanes
- **A√±o:** 2025

---

Este notebook permite explorar interactivamente los datos del proyecto y experimentar con diferentes t√©cnicas de Machine Learning para predecir el rendimiento acad√©mico de estudiantes.

## üì¶ 1. Importar Librer√≠as Necesarias

Importamos todas las librer√≠as necesarias para el an√°lisis de datos y Machine Learning.

In [None]:
# Importar librer√≠as est√°ndar
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import sys
import warnings

# Configurar visualizaciones
plt.style.use('seaborn-v0_8')
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12
sns.set_palette("husl")

# Silenciar warnings
warnings.filterwarnings('ignore')

# Configurar pandas para mostrar m√°s columnas
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

# Agregar el directorio src al path
sys.path.insert(0, str(Path.cwd().parent / "src"))

print("‚úÖ Librer√≠as importadas exitosamente")
print("üìä Configuraci√≥n de visualizaci√≥n aplicada")
print("üîß Entorno configurado para an√°lisis interactivo")

## üìä 2. Cargar y Explorar Datos

Cargamos el dataset original y realizamos una exploraci√≥n inicial para entender la estructura y caracter√≠sticas de los datos.

In [None]:
# Cargar dataset original
try:
    # Ruta al archivo de datos
    data_path = Path.cwd().parent / "datos" / "raw" / "StudentPerformanceFactors.csv"
    
    # Cargar datos
    df = pd.read_csv(data_path)
    
    print("‚úÖ Dataset cargado exitosamente")
    print(f"üìä Dimensiones: {df.shape}")
    print(f"üìã Columnas: {df.columns.tolist()}")
    
    # Mostrar informaci√≥n b√°sica
    print("\nüîç Informaci√≥n del Dataset:")
    print(df.info())
    
    # Mostrar primeras filas
    print("\nüìã Primeras 5 filas:")
    display(df.head())
    
except FileNotFoundError:
    print("‚ùå Error: No se encontr√≥ el archivo de datos")
    print("üí° Aseg√∫rese de que el archivo est√© en la ruta correcta")
except Exception as e:
    print(f"‚ùå Error cargando datos: {str(e)}")

In [None]:
# An√°lisis estad√≠stico b√°sico
print("üìà ESTAD√çSTICAS DESCRIPTIVAS")
print("=" * 50)

# Estad√≠sticas de variables num√©ricas
numeric_columns = df.select_dtypes(include=[np.number]).columns
print("\nüî¢ Variables Num√©ricas:")
display(df[numeric_columns].describe())

# Estad√≠sticas de variables categ√≥ricas
categorical_columns = df.select_dtypes(include=['object']).columns
print(f"\nüìä Variables Categ√≥ricas ({len(categorical_columns)} columnas):")
for col in categorical_columns:
    print(f"\n{col}:")
    print(df[col].value_counts().head())

# An√°lisis de valores nulos
print(f"\n‚ö†Ô∏è VALORES NULOS:")
print("=" * 30)
missing_data = df.isnull().sum()
if missing_data.sum() > 0:
    print(missing_data[missing_data > 0])
else:
    print("‚úÖ No hay valores nulos en el dataset")

# An√°lisis de duplicados
duplicated_rows = df.duplicated().sum()
print(f"\nüìã Filas duplicadas: {duplicated_rows}")
if duplicated_rows > 0:
    print("‚ö†Ô∏è Se encontraron filas duplicadas")
else:
    print("‚úÖ No hay filas duplicadas")

## üìä 3. Visualizaciones Exploratorias

Creamos diferentes visualizaciones para entender mejor la distribuci√≥n y relaciones entre las variables.

In [None]:
# Visualizaci√≥n de la variable objetivo (Exam_Score)
plt.figure(figsize=(15, 5))

# Histograma de Exam_Score
plt.subplot(1, 3, 1)
plt.hist(df['Exam_Score'], bins=30, alpha=0.7, color='skyblue', edgecolor='black')
plt.title('üìä Distribuci√≥n de Exam_Score')
plt.xlabel('Puntaje del Examen')
plt.ylabel('Frecuencia')
plt.grid(True, alpha=0.3)

# Box plot de Exam_Score
plt.subplot(1, 3, 2)
plt.boxplot(df['Exam_Score'])
plt.title('üì¶ Box Plot de Exam_Score')
plt.ylabel('Puntaje del Examen')
plt.grid(True, alpha=0.3)

# Estad√≠sticas de Exam_Score
plt.subplot(1, 3, 3)
stats = df['Exam_Score'].describe()
plt.text(0.1, 0.9, f"Media: {stats['mean']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.8, f"Mediana: {stats['50%']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.7, f"Desv. Std: {stats['std']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.6, f"M√≠nimo: {stats['min']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.5, f"M√°ximo: {stats['max']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.text(0.1, 0.4, f"Rango: {stats['max'] - stats['min']:.2f}", transform=plt.gca().transAxes, fontsize=12)
plt.title('üìà Estad√≠sticas de Exam_Score')
plt.axis('off')

plt.tight_layout()
plt.show()

print(f"üìä An√°lisis de Exam_Score:")
print(f"   üéØ Media: {df['Exam_Score'].mean():.2f}")
print(f"   üìè Rango: {df['Exam_Score'].min():.1f} - {df['Exam_Score'].max():.1f}")
print(f"   üìê Desviaci√≥n est√°ndar: {df['Exam_Score'].std():.2f}")
print(f"   üìä Coeficiente de variaci√≥n: {(df['Exam_Score'].std() / df['Exam_Score'].mean() * 100):.1f}%")

In [None]:
# An√°lisis de correlaciones
print("üîç AN√ÅLISIS DE CORRELACIONES")
print("=" * 50)

# Seleccionar solo variables num√©ricas
numeric_df = df.select_dtypes(include=[np.number])

# Calcular matriz de correlaci√≥n
correlation_matrix = numeric_df.corr()

# Visualizar matriz de correlaci√≥n
plt.figure(figsize=(12, 10))
mask = np.triu(np.ones_like(correlation_matrix, dtype=bool))
sns.heatmap(correlation_matrix, 
            mask=mask,
            annot=True, 
            cmap='coolwarm', 
            center=0,
            square=True,
            fmt='.2f',
            cbar_kws={'label': 'Correlaci√≥n'})
plt.title('üî• Matriz de Correlaci√≥n - Variables Num√©ricas')
plt.tight_layout()
plt.show()

# Correlaciones con Exam_Score
print("\nüéØ Correlaciones con Exam_Score:")
print("-" * 40)
exam_correlations = correlation_matrix['Exam_Score'].sort_values(ascending=False)
for var, corr in exam_correlations.items():
    if var != 'Exam_Score':
        emoji = "üü¢" if abs(corr) > 0.5 else "üü°" if abs(corr) > 0.3 else "üî¥"
        print(f"{emoji} {var}: {corr:.3f}")

# Identificar correlaciones fuertes
strong_correlations = []
for i in range(len(correlation_matrix.columns)):
    for j in range(i+1, len(correlation_matrix.columns)):
        corr_val = correlation_matrix.iloc[i, j]
        if abs(corr_val) > 0.7:
            strong_correlations.append((
                correlation_matrix.columns[i], 
                correlation_matrix.columns[j], 
                corr_val
            ))

if strong_correlations:
    print(f"\n‚ö†Ô∏è Correlaciones fuertes encontradas (|r| > 0.7):")
    for var1, var2, corr in strong_correlations:
        print(f"   {var1} ‚Üî {var2}: {corr:.3f}")
else:
    print(f"\n‚úÖ No hay correlaciones excesivamente fuertes entre variables")

In [None]:
# An√°lisis de variables categ√≥ricas vs Exam_Score
print("üë• AN√ÅLISIS DE VARIABLES CATEG√ìRICAS")
print("=" * 50)

# Seleccionar variables categ√≥ricas principales
categorical_vars = ['Gender', 'Parental_Involvement', 'Access_to_Resources', 
                   'Motivation_Level', 'School_Type', 'Peer_Influence']

# Verificar qu√© variables existen en el dataset
available_cats = [var for var in categorical_vars if var in df.columns]

if available_cats:
    # Crear subplots para variables categ√≥ricas
    n_vars = len(available_cats)
    n_cols = 3
    n_rows = (n_vars + n_cols - 1) // n_cols
    
    plt.figure(figsize=(15, 5 * n_rows))
    
    for i, var in enumerate(available_cats):
        plt.subplot(n_rows, n_cols, i + 1)
        
        # Calcular estad√≠sticas por grupo
        grouped_stats = df.groupby(var)['Exam_Score'].agg(['mean', 'count']).round(2)
        
        # Crear box plot
        df.boxplot(column='Exam_Score', by=var, ax=plt.gca())
        plt.title(f'üìä {var} vs Exam_Score')
        plt.suptitle('')  # Eliminar t√≠tulo autom√°tico
        plt.xlabel(var)
        plt.ylabel('Exam_Score')
        plt.xticks(rotation=45)
        
        # Agregar estad√≠sticas como texto
        stats_text = "\\n".join([f"{idx}: Œº={row['mean']:.1f} (n={row['count']})" 
                                for idx, row in grouped_stats.iterrows()])
        plt.text(0.02, 0.98, stats_text, transform=plt.gca().transAxes, 
                fontsize=8, verticalalignment='top', 
                bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))
    
    plt.tight_layout()
    plt.show()
    
    # Mostrar estad√≠sticas detalladas
    print("\\nüìä Estad√≠sticas por grupos:")
    for var in available_cats:
        print(f"\\n{var}:")
        stats = df.groupby(var)['Exam_Score'].agg(['count', 'mean', 'std']).round(2)
        print(stats)
        
else:
    print("‚ö†Ô∏è No se encontraron variables categ√≥ricas disponibles para an√°lisis")

## ü§ñ 4. Experimentaci√≥n con Modelos

Probamos diferentes modelos de Machine Learning de forma interactiva para comparar su rendimiento.

In [None]:
# Preparaci√≥n b√°sica de datos para modelado
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error
import warnings
warnings.filterwarnings('ignore')

print("üîß PREPARACI√ìN DE DATOS PARA MODELADO")
print("=" * 50)

# Crear una copia del dataset para experimentaci√≥n
df_model = df.copy()

# Separar variables num√©ricas y categ√≥ricas
numeric_cols = df_model.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df_model.select_dtypes(include=['object']).columns.tolist()

# Remover Exam_Score de las features num√©ricas si est√° presente
if 'Exam_Score' in numeric_cols:
    numeric_cols.remove('Exam_Score')

print(f"üìä Variables num√©ricas ({len(numeric_cols)}): {numeric_cols}")
print(f"üë• Variables categ√≥ricas ({len(categorical_cols)}): {categorical_cols}")

# Codificar variables categ√≥ricas (simple label encoding para experimentaci√≥n)
le_dict = {}
for col in categorical_cols:
    le = LabelEncoder()
    df_model[col + '_encoded'] = le.fit_transform(df_model[col].astype(str))
    le_dict[col] = le

# Crear feature matrix X
feature_cols = numeric_cols + [col + '_encoded' for col in categorical_cols]
X = df_model[feature_cols]
y = df_model['Exam_Score']

print(f"\\n‚úÖ Dataset preparado:")
print(f"   üìä Features: {X.shape[1]}")
print(f"   üìã Muestras: {X.shape[0]}")
print(f"   üéØ Variable objetivo: Exam_Score")

# Dividir en train/test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42
)

print(f"\\nüìÇ Divisi√≥n train/test:")
print(f"   üöÇ Train: {X_train.shape[0]} muestras")
print(f"   üß™ Test: {X_test.shape[0]} muestras")

In [None]:
# Entrenamiento y comparaci√≥n de modelos
print("üöÄ ENTRENAMIENTO DE MODELOS")
print("=" * 50)

# Escalar datos para modelos que lo requieren
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Definir modelos a probar
models = {
    'Linear Regression': LinearRegression(),
    'Ridge (Œ±=1.0)': Ridge(alpha=1.0),
    'Ridge (Œ±=10.0)': Ridge(alpha=10.0),
    'Lasso (Œ±=1.0)': Lasso(alpha=1.0),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42)
}

# Entrenar modelos y recopilar resultados
results = {}

for name, model in models.items():
    print(f"\\nüîπ Entrenando {name}...")
    
    # Decidir si usar datos escalados o no
    if 'Ridge' in name or 'Lasso' in name:
        X_train_use = X_train_scaled
        X_test_use = X_test_scaled
    else:
        X_train_use = X_train
        X_test_use = X_test
    
    # Entrenar modelo
    model.fit(X_train_use, y_train)
    
    # Hacer predicciones
    y_pred = model.predict(X_test_use)
    
    # Calcular m√©tricas
    mse = mean_squared_error(y_test, y_pred)
    rmse = np.sqrt(mse)
    mae = mean_absolute_error(y_test, y_pred)
    r2 = r2_score(y_test, y_pred)
    
    # Guardar resultados
    results[name] = {
        'model': model,
        'predictions': y_pred,
        'mse': mse,
        'rmse': rmse,
        'mae': mae,
        'r2': r2
    }
    
    print(f"   ‚úÖ R¬≤ = {r2:.4f}, RMSE = {rmse:.4f}")

# Crear DataFrame con resultados
results_df = pd.DataFrame({
    'Modelo': list(results.keys()),
    'R¬≤': [results[name]['r2'] for name in results.keys()],
    'RMSE': [results[name]['rmse'] for name in results.keys()],
    'MAE': [results[name]['mae'] for name in results.keys()],
    'MSE': [results[name]['mse'] for name in results.keys()]
}).round(4)

# Ordenar por R¬≤
results_df = results_df.sort_values('R¬≤', ascending=False)

print(f"\\nüèÜ RESULTADOS DE MODELOS:")
print("=" * 50)
display(results_df)

# Identificar mejor modelo
best_model_name = results_df.iloc[0]['Modelo']
best_r2 = results_df.iloc[0]['R¬≤']
print(f"\\nü•á Mejor modelo: {best_model_name}")
print(f"üìà R¬≤ Score: {best_r2:.4f}")

# Interpretaci√≥n del rendimiento
if best_r2 >= 0.8:
    performance = "Excelente üåü"
elif best_r2 >= 0.6:
    performance = "Bueno üëç"
elif best_r2 >= 0.4:
    performance = "Moderado ü§î"
else:
    performance = "Pobre üëé"

print(f"üìä Rendimiento: {performance}")

In [None]:
# Visualizaci√≥n de resultados de modelos
print("üìä VISUALIZACI√ìN DE RESULTADOS")
print("=" * 50)

# Crear visualizaciones comparativas
fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# 1. Comparaci√≥n de m√©tricas R¬≤
ax1 = axes[0, 0]
bars = ax1.bar(range(len(results_df)), results_df['R¬≤'], 
               color=['gold', 'silver', '#CD7F32', 'lightblue', 'lightgreen'])
ax1.set_title('üèÜ Comparaci√≥n R¬≤ Score')
ax1.set_xlabel('Modelos')
ax1.set_ylabel('R¬≤ Score')
ax1.set_xticks(range(len(results_df)))
ax1.set_xticklabels(results_df['Modelo'], rotation=45, ha='right')
ax1.grid(True, alpha=0.3)

# Agregar valores en las barras
for i, bar in enumerate(bars):
    height = bar.get_height()
    ax1.text(bar.get_x() + bar.get_width()/2., height + 0.01,
             f'{height:.3f}', ha='center', va='bottom')

# 2. Comparaci√≥n RMSE
ax2 = axes[0, 1]
ax2.bar(range(len(results_df)), results_df['RMSE'], 
        color=['coral', 'orange', 'yellow', 'lightblue', 'lightgreen'])
ax2.set_title('üìâ Comparaci√≥n RMSE')
ax2.set_xlabel('Modelos')
ax2.set_ylabel('RMSE')
ax2.set_xticks(range(len(results_df)))
ax2.set_xticklabels(results_df['Modelo'], rotation=45, ha='right')
ax2.grid(True, alpha=0.3)

# 3. Predicciones vs Valores Reales (mejor modelo)
ax3 = axes[1, 0]
best_predictions = results[best_model_name]['predictions']
ax3.scatter(y_test, best_predictions, alpha=0.6, color='blue')
ax3.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--', lw=2)
ax3.set_title(f'üéØ {best_model_name}\\nPredicciones vs Valores Reales')
ax3.set_xlabel('Valores Reales')
ax3.set_ylabel('Predicciones')
ax3.grid(True, alpha=0.3)

# Agregar estad√≠sticas al gr√°fico
ax3.text(0.05, 0.95, f'R¬≤ = {best_r2:.3f}', transform=ax3.transAxes,
         fontsize=12, verticalalignment='top',
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

# 4. Distribuci√≥n de errores (mejor modelo)
ax4 = axes[1, 1]
errors = y_test - best_predictions
ax4.hist(errors, bins=20, alpha=0.7, color='lightgreen', edgecolor='black')
ax4.set_title(f'üìä Distribuci√≥n de Errores\\n{best_model_name}')
ax4.set_xlabel('Error (Real - Predicci√≥n)')
ax4.set_ylabel('Frecuencia')
ax4.grid(True, alpha=0.3)

# Agregar l√≠nea vertical en cero
ax4.axvline(x=0, color='red', linestyle='--', alpha=0.7)

# Agregar estad√≠sticas de errores
error_mean = errors.mean()
error_std = errors.std()
ax4.text(0.05, 0.95, f'Œº = {error_mean:.2f}\\nœÉ = {error_std:.2f}', 
         transform=ax4.transAxes, fontsize=10, verticalalignment='top',
         bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

plt.tight_layout()
plt.show()

# An√°lisis de residuos del mejor modelo
print(f"\\nüîç AN√ÅLISIS DE RESIDUOS - {best_model_name}")
print("-" * 50)
print(f"üìä Error promedio: {errors.mean():.4f}")
print(f"üìä Desviaci√≥n est√°ndar de errores: {errors.std():.4f}")
print(f"üìä Error m√°ximo: {errors.max():.4f}")
print(f"üìä Error m√≠nimo: {errors.min():.4f}")

# Verificar normalidad de residuos (prueba simple)
from scipy import stats
_, p_value = stats.normaltest(errors)
if p_value > 0.05:
    print(f"‚úÖ Los residuos parecen seguir una distribuci√≥n normal (p-value: {p_value:.4f})")
else:
    print(f"‚ö†Ô∏è Los residuos no siguen una distribuci√≥n normal (p-value: {p_value:.4f})")