In [None]:
# notebooks/01_EDA.ipynb
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import chi2_contingency, shapiro

In [None]:
# Cargar datos brutos y limpios
df_raw = pd.read_csv('../data/raw/data.csv', delimiter=';', low_memory=False)
df_cleaned = pd.read_csv('../data/processed/cleaned_data.csv', delimiter=';', low_memory=False)

In [None]:
# Distribución de clases
sns.countplot(x='Target', data=df_cleaned)
plt.title('Distribución de Dropout vs Graduate')
plt.savefig('../reports/target_distribution.png')

In [None]:
# Matriz de correlación
plt.figure(figsize=(12, 8))
sns.heatmap(df_cleaned.corr(numeric_only=True), annot=True, fmt=".2f", cmap='coolwarm')
plt.title('Matriz de Correlación')
plt.savefig('../reports/correlation_matrix.png')

In [None]:
# Prueba Chi-cuadrado
print("📊 Prueba Chi-cuadrado para Marital status y Target")
contingency_table = pd.crosstab(df_cleaned['Marital status'], df_cleaned['Target'])
chi2, p, dof, expected = chi2_contingency(contingency_table)
print(f"Chi2: {chi2:.2f}, P-valor: {p:.4f}")
print("Valor esperado para tabla de contingencia:")
print(expected)

In [None]:
# Prueba Shapiro-Wilk
from scipy.stats import shapiro
print("\n📊 Prueba de normalidad para 'Admission grade'")
stat, p = shapiro(df_cleaned['Admission grade'])
if p > 0.05:
    print("✅ La variable 'Admission grade' sigue una distribución normal")
else:
    print("❌ La variable 'Admission grade' no sigue una distribución normal")

In [None]:
# Análisis demográfico - Edad
print("📊 Edad vs Resultado Académico")
sns.boxplot(x='Target', y='Age at enrollment', data=df_cleaned)
plt.title('Edad al matricularse vs Resultado')
plt.xlabel('Resultado')
plt.ylabel('Edad')
plt.xticks([0, 1], ['Dropout', 'Graduate'])
plt.savefig('../reports/age_analysis.png')
plt.show()


In [None]:
#Análisis de edad
sns.boxplot(x='Target', y='Age at enrollment', data=df_cleaned)
plt.title('Edad al matricularse vs Resultado Académico')
plt.savefig('../reports/age_analysis.png')

In [None]:
# Prueba Shapiro-Wilk para normalidad
print("📊 Prueba Shapiro-Wilk para 'Admission grade'")
stat, p = shapiro(df_cleaned['Admission grade'])
if p > 0.05:
    print("✅ 'Admission grade' sigue una distribución normal")
else:
    print("❌ 'Admission grade' no sigue una distribución normal")