# An√°lisis Explotario de Datos
- Dataset: Predict Students' Dropout and Academic Success
- Fuente: UCI Repository
- Autor:  --
- Fecha: Enero 2026

In [None]:
import sys
import os
# Obtener ruta absoluta al proyecto (un nivel arriba de notebooks/)
PROJECT_ROOT = os.path.abspath(os.path.join(os.getcwd(), ".."))

# Agregar al path
if PROJECT_ROOT not in sys.path:
    sys.path.append(PROJECT_ROOT)

import os
from src.data.clean_columns import clean_dataframe_columns
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

from src.utils.constants import (
    VARS_BINARIAS,
    VARS_CATEGORICAS_NOMINALES,
    VARS_CATEGORICAS_ORDINALES,
    VARS_NUMERICAS,
    TARGET,
    TARGET_VALUES,
    LABELS    
)



## 1. Carga y Dimensi√≥n del dataset
Este paso permite conocer cu√°ntas observaciones y variables contiene el dataset.

In [None]:
# Cargar el dataset
df = pd.read_csv('../data/raw/data.csv', delimiter=';')
df = clean_dataframe_columns(df)

# Verifica carga
print("================================================================================")
print("1. CARGA Y DIMENSI√ìN DEL DATASET")
print("================================================================================")
print(f"\n Dataset cargado")
print(f" - Observaciones (filas): {df.shape[0]:,}")
print(f" - Variables (columnas): {df.shape[1]}" + ", incluye columna Target")
print(f" - Total de celdas: {df.shape[0] * df.shape[1]:,}")

# Primeras filas
print("\n" + "--------------------------------------------------------------------------------")
print("Primeras 5 filas del dataset:")
print("--------------------------------------------------------------------------------")
df.head()

## 2. Listado de variables del dataset, verificaci√≥n de nulos y duplicados
Este paso permite conocer cu√°ntas observaciones y variables contiene el dataset.

In [None]:
print("================================================================================")
print("2. LISTADO DE VARIABLES DEL DATASET, VERIFICACION DE NULOS Y DUPLICADOS")
print("================================================================================")

# Lista las variables
print(f"\n{'#':<4} {'Variable':<55} {'Tipo':<10}")
print("--------------------------------------------------------------------------------")
for i, (col, dtype) in enumerate(zip(df.columns, df.dtypes), 1):
    print(f"{i:<4} {col:<55} {str(dtype):<10}")

# Verificar valores nulos
print("\n" + "--------------------------------------------------------------------------------")
print(" Verificaci√≥n de Valores Nulos:")
print("--------------------------------------------------------------------------------")
null_counts = df.isnull().sum()
total_nulls = null_counts.sum()

if total_nulls == 0:
    print(" No hay valores nulos en el dataset")
else:
    print(f" Total de valores nulos: {total_nulls}")
    print(null_counts[null_counts > 0])

# Verificar Duplicados
print("\n" + "--------------------------------------------------------------------------------")
print(" Verificaci√≥n de Valores duplicados:")
print("--------------------------------------------------------------------------------")
duplicates = df.duplicated().sum()
if duplicates == 0:
    print(" No hay registros duplicados")
else:
    print(f" Registros duplicados: {duplicates}")
    

## 3. An√°lisis de variables
Se eval√∫a las variables por grupo de acuerdo al tipo num√©ricas, categ√≥ricas (nominales y ordinales)

### 3.0. Clasificaci√≥n de variables por tipo

In [None]:
print("================================================================================")
print("3.0. CLASIFICACI√ìN DE VARIABLES POR TIPO")
print("================================================================================")

total_classified = (len(VARS_BINARIAS) + len(VARS_CATEGORICAS_NOMINALES) + 
                    len(VARS_CATEGORICAS_ORDINALES) + len(VARS_NUMERICAS) + 
                    len(TARGET))

print(f"\n CANTIDAD DE VARIABLES NUM√âRICAS: {len(VARS_NUMERICAS)} variables")
print(f"\n CANTIDAD DE VARIABLES CATEG√ìRICAS BINARIAS: {len(VARS_BINARIAS)} variables")
print(f"\n CANTIDAD DE VARIABLES CATEG√ìRICAS NOMINALES: {len(VARS_CATEGORICAS_NOMINALES)} variables")
print(f"\n CANTIDAD DE VARIABLES CATEG√ìRICAS ORDINALES: {len(VARS_CATEGORICAS_ORDINALES)} variable")
print(f"\n TARGET: {len(TARGET)} variable (Clases: {', '.join(TARGET_VALUES)})")
print(f"\n TOTAL VARIABLES CLASIFICADAS: {total_classified}")

### 3.1. An√°lisis variables num√©ricas

#### 3.1.1. An√°lisis UNIVARIADO

Estadisticas 

In [None]:
df[VARS_NUMERICAS].describe().T

Histogramas

In [None]:
import warnings

# Ajustes globales
plt.style.use("seaborn-v0_8")
plt.rcParams["figure.figsize"] = (20, 20)
plt.rcParams["axes.labelsize"] = 12
plt.rcParams["xtick.labelsize"] = 10
plt.rcParams["ytick.labelsize"] = 10
warnings.filterwarnings("ignore", message="Glyph.*missing")

OUTPUT_DIR = "../outputs/figures/EDA/1_numericas/"
os.makedirs(OUTPUT_DIR, exist_ok=True)
# Nombre archivo 
filename = f"01_distribucion_variables_numericas.png"
filepath = os.path.join(OUTPUT_DIR, filename)

# Calcular n√∫mero de filas necesarias para 5 columnas
n_vars = len(VARS_NUMERICAS)
n_cols = 5
n_rows = (n_vars // n_cols) + (1 if n_vars % n_cols != 0 else 0)

# Histograma de todas las columnas num√©ricas con 5 columnas
df[VARS_NUMERICAS].hist(bins=20, figsize=(20, 16), grid=False, layout=(n_rows, n_cols))
plt.tight_layout()
plt.savefig(filepath, dpi=300, bbox_inches='tight')
plt.show()

Diagramas de cajas

In [None]:
# Boxplots con Seaborn
n_vars = len(VARS_NUMERICAS)
n_cols = 5
n_rows = (n_vars // n_cols) + (1 if n_vars % n_cols != 0 else 0)

fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, 14))
axes = axes.flatten()

OUTPUT_DIR = "../outputs/figures/EDA/1_numericas/"
os.makedirs(OUTPUT_DIR, exist_ok=True)
# Nombre archivo 
filename = f"02_boxplot_variables_numericas.png"
filepath = os.path.join(OUTPUT_DIR, filename)

for i, col in enumerate(VARS_NUMERICAS):
    ax = axes[i]
    sns.boxplot(y=df[col], ax=ax, color='steelblue', width=0.5)
    ax.set_title(col, fontsize=10, fontweight='bold')
    ax.set_ylabel('')
    
    # Agregar informaci√≥n de outliers
    Q1 = df[col].quantile(0.25)
    Q3 = df[col].quantile(0.75)
    IQR = Q3 - Q1
    lower = Q1 - 1.5 * IQR
    upper = Q3 + 1.5 * IQR
    n_outliers = ((df[col] < lower) | (df[col] > upper)).sum()
    pct = (n_outliers / len(df)) * 100
    
    ax.annotate(f'n={n_outliers} ({pct:.1f}%)', xy=(0.95, 0.95), xycoords='axes fraction',
                ha='right', va='top', fontsize=8, color='black')

# Ocultar subplots vac√≠os
for j in range(len(VARS_NUMERICAS), len(axes)):
    axes[j].set_visible(False)

plt.tight_layout()
plt.savefig(filepath, dpi=300, bbox_inches='tight')
plt.show()

#### 3.1.2. An√°lisis BIVARIADO

Matriz de correlaci√≥n

In [None]:
# Calcular matriz de correlaci√≥n
corr_matrix = df[VARS_NUMERICAS].corr()

# Visualizaci√≥n: Heatmap completo
fig, ax = plt.subplots(figsize=(14, 12))

mask = np.triu(np.ones_like(corr_matrix, dtype=bool), k=1)

sns.heatmap(corr_matrix, mask=mask, annot=True, fmt='.2f', cmap='RdBu_r',
            center=0, vmin=-1, vmax=1, square=True, linewidths=0.5,
            cbar_kws={'shrink': 0.8, 'label': 'Correlaci√≥n'},
            annot_kws={'size': 8}, ax=ax)

ax.set_title('Matriz de Correlaci√≥n - Variables Num√©ricas', fontsize=14, fontweight='bold')
plt.xticks(rotation=45, ha='right', fontsize=9)
plt.yticks(fontsize=9)

OUTPUT_DIR = "../outputs/figures/EDA/1_numericas/"
os.makedirs(OUTPUT_DIR, exist_ok=True)
# Nombre archivo 
filename = f"03_correlation_matrix_variables_numericas.png"
filepath = os.path.join(OUTPUT_DIR, filename)

plt.tight_layout()
plt.savefig(filepath, dpi=300, bbox_inches='tight')
plt.show()

Diagramas de caja - Variables num√©ricas versus target

In [None]:
# Boxplots por Target (para ver diferencias entre clases)
n_vars = len(VARS_NUMERICAS)
n_cols = 5
n_rows = (n_vars // n_cols) + (1 if n_vars % n_cols != 0 else 0)

OUTPUT_DIR = "../outputs/figures/EDA/1_numericas/"
os.makedirs(OUTPUT_DIR, exist_ok=True)
# Nombre archivo 
filename = f"04_boxplot_variables_numericas_by_target.png"
filepath = os.path.join(OUTPUT_DIR, filename)

fig, axes = plt.subplots(n_rows, n_cols, figsize=(20, 16))
axes = axes.flatten()

colors = {'Dropout': '#E74C3C', 'Enrolled': '#1f77b4', 'Graduate': '#2ca02c'}


for i, col in enumerate(VARS_NUMERICAS):
    ax = axes[i]
    sns.boxplot(x='target', y=col, data=df, ax=ax, 
                hue='target', palette=colors, width=0.6, legend=False)
    ax.set_title(col, fontsize=10, fontweight='bold')
    ax.set_xlabel('')
    ax.set_ylabel('')
    ax.tick_params(axis='x', labelsize=8)

# Ocultar subplots vac√≠os
for j in range(len(VARS_NUMERICAS), len(axes)):
    axes[j].set_visible(False)

plt.suptitle('Distribuci√≥n de Variables Num√©ricas por Target', fontsize=14, fontweight='bold', y=1.02)
plt.tight_layout()
plt.savefig(filepath, dpi=300, bbox_inches='tight')
plt.show()


#### 3.1.3 Conclusion variables num√©rcias

1. Distribuciones. Se debe evaluar potencial transformaci√≥n de ser necesario de acuerdo al algoritmo.
- Las variables que presentan asimetrias positivas y sesgos extremos son:age_at_enrollment, curricular_units_1st_sem_credited, curricular_units_1st_sem_without_evaluations, curricular_units_2nd_sem_without_evaluations y curricular_units_2nd_sem_credited. Estas distribuciones sesgadas pueden requerir transformaciones (log, box-cox, power transform) dependiendo del algoritmo de modelado seleccionado.
- Las variables curricular_units_1st_sem_grade y curricular_units_2nd_sem_grade presentan una distribuci√≥n bimodal con peak en 0 (no tiene calificaciones) y 12-14, existiendo dos poblaciones diferenciadas: estudiantes que no rinden evaluaciones y estudiantes activos con rendimiento normal.
- Las variables curricular_units_1st_sem_without_evaluations y curricular_units_2nd_sem_without_evaluations presentan una alta concetraci√≥n en 0 (zero_inflated, pero es propio del conyexto), esto implica que la gran mayoria de los alumnos realiza los ex√°menes, siendo un signo de estuadiante activo, se debe evaluar transformaci√≥n de ser necesario.
- Las variables curricular_units_1st_sem_credited y curricular_units_2nd_sem_credited presentan una alta concetraci√≥n en 0  (zero_inflated, pero es propio del conyexto), esto implica que la gran mayoria de los alumnos no convaidan ramos curados previamente, siendo un signo de estuadiante activocursando desde cero el grado.
- Las variables previous_qualification_grade y admission_grade presentan una distribuci√≥n normal, curricular_units_1st_sem_enrolled y curricular_units_2nd_sem_enrolled presentan una distribuci√≥n aproximadamente normal. Estas variables son adecuadas para algoritmos que suponen normalidad, sin necesidad de transformaciones adicionales.

2. Outliers.
- Las siguiente variables presentan alta tasas de valores fuera de rango calculado con IQR de 1.5 estas variables presentan ma√°s de un 10%: curricular_units_2nd_sem_grade: 19.8% (877 outliers), curricular_units_1st_sem_grade: 16.4% (726 outliers), curricular_units_1st_sem_credited: 13.0% (577 outliers), curricular_units_2nd_sem_credited: 12.0% (530 outliers) y age_at_enrollment: 10.0% (441 outliers). Estos valores at√≠picos no necesariamente ser√°n eliminados, ya que representan comportamientos reales del alumnado (rendimientos extremos o inscripciones/creditaciones inusuales). Pueden ser tratados mediante winsorization o t√©cnicas robustas seg√∫n el modelo, se decidir√° en etapa de preprocesamiento.

3. Variables macroecon√≥micas (unemployment_rate, inflation_rate, gdp).
- Sin outliers (por definici√≥n).                                                 
- 9-10 valores √∫nicos.
- Estas variables presentan bajo poder predictivo y probablemente aportar√°n poca ganancia al modelo.

4. Correlaciones
- ALTA (r > 0.7) 
    - 1st_sem_credited y 2nd_sem_credited:     r = 0.94
    - 1st_sem_enrolled y 2nd_sem_enrolled:     r = 0.94
    - 1st_sem_enrolled y 2nd_sem_credited:     r = 0.75
    - 1st_sem_approved y 2nd_sem_approved:     r = 0.90
    - 1st_sem_approved y 1st_sem_evaluations:  r = 0.77
    - 2nd_sem_approved y 2nd_sem_evaluations:  r = 0.78
    - 1st_sem_grade  2nd_sem_grade:           r = 0.84
    - 1st_sem_grade y 1st_sem_approved:        r = 0.70
    - 2nd_sem_grade y 2nd_sem_approved:        r = 0.76
    - Estas correlaciones indican que el rendimiento acad√©mico entre semestres es altamente consistente, y puede requerir reducci√≥n de dimensionalidad (PCA o selecci√≥n de features).

- ALTA (0.5 < r < 0.7) 
    - 1st_sem_enrolled y 1st_sem_evaluations:  r = 0.68
    - 2nd_sem_enrolled y 2nd_sem_evaluations:  r = 0.60
    - 1st_sem_approved y 2nd_sem_enrolled:     r = 0.61
    - previous_qual_grade y admission_grade:   r = 0.58
    - 1st_sem_without_eval y 2nd_sem_without:  r = 0.58

- BAJA (r < 0.3):
    - age_at_enrollment, baja correlaci√≥n con casi todas
    - Variables macroecon√≥micas: casi sin correlaci√≥n   

5. An√°lisis bivariado
- Las variables curricular_units_1st_sem_approved, curricular_units_2nd_sem_approved, curricular_units_1st_sem_grade y curricular_units_2nd_sem_grade poseen alto poder discriminativoy separan muy bien los grupos en lsa 3 clases.
- La variable age_at_enrollment es un buen predictor tambi√©n, se conluye que a mayor edad (al momento de la matricula) mayor es el abandono.
- Las variables curricular_units_1st_sem_without_evaluations y curricular_units_2nd_sem_without_evaluations es una se√±al de abandono.
- La variable previous_qualification_grade y admission_grade tienen poder predictor pero leve ya que se presenta una diferencia leve en las medias de ambas variables.
- Las variables macroecon√≥micas (unemployment_rate, inflation_rate, gdp) no presentan diferencias visibles.
- El rendimiento en el primer semestre es el principal diferenciador entre clases del target
- La edad (age_at_enrollment) muestra leve relaci√≥n: estudiantes mayores tienden levemente a mayor abandono.
- Patrones:
    - Estudiantes clasificados "Dropout", presentan menos aprobaciones en ambos semestres (curricular_units_1st_sem_approved y curricular_units_2nd_sem_approved), enores evaluaciones realizadas (curricular_units_1st_sem_evaluations y curricular_units_2nd_sem_evaluations), menores promedios de notas (curricular_units_1st_sem_grade y curricular_units_2nd_sem_grade), menores unidades inscritas (curricular_units_1st_sem_enrolled y curricular_units_2nd_sem_enrolled). 
    - Estudiantes clasificados "Graduate", presentan las mayores medianas en notas (curricular_units_1st_sem_grade y curricular_units_2nd_sem_grade), aprobaciones (curricular_units_1st_sem_approved y curricular_units_2nd_sem_approved) y cantidad de evaluaciones realizadas (curricular_units_2nd_sem_evaluations)
    - Estudiantes clasificados "Enrolled", se ubican en valores intermedios y tiene un comportamieno similar a Graduate pero con menor rendimiento general.

6. Conclusi√≥n

- El rendimiento acad√©mico temprano (primer semestre) es el principal predictor de la clasificaci√≥n final del estudiante.
- Existen fuertes patrones de consistencia entre semestres, lo que sugiere que no todos los indicadores son necesarios, dado la multicolinealidad.
- Las variables con asimetr√≠a marcada y outliers deben considerarse para transformaci√≥n, seg√∫n el algoritmo elegido.
- Las variables macroecon√≥micas tienen poca influencia en el comportamiento estudiantil, mientras que los indicadores de participaci√≥n acad√©mica y notas s√≠ son altamente relevantes.
- La edad y la ausencia de evaluaciones aparecen como se√±ales secundarias pero √∫tiles para predecir riesgo de abandono.


### 3.2. An√°lisis variables binarias

#### 3.2.1. An√°lisis UNIVARIADO

In [None]:
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)
warnings.filterwarnings("ignore", category=UserWarning)
import math
import matplotlib.pyplot as plt
import seaborn as sns




# Crear DataFrame resumen
resume_vars = []


for var in VARS_BINARIAS:
    counts = df[var].value_counts().sort_index()
    n_0 = counts.get(0, 0)
    n_1 = counts.get(1, 0)
    pct_0 = (n_0 / len(df)) * 100
    pct_1 = (n_1 / len(df)) * 100
    
    labels = LABELS.get(var, {0: 'No', 1: 'S√≠'})
    
    resume_vars.append({
        'Variable': var,
        'Label_0': labels[0],
        'N_0': n_0,
        '%_0': pct_0,
        'Label_1': labels[1],
        'N_1': n_1,
        '%_1': pct_1
    })

binary_df = pd.DataFrame(resume_vars)

print("\nDistribuci√≥n de Variables Binarias:")
print("------------------------------------------------------------------------------------------------")
print(f"{'Variable':<30} {'Valor=0':<15} {'N':>7} {'%':>7}   {'Valor=1':<15} {'N':>7} {'%':>7}")
print("------------------------------------------------------------------------------------------------")

for _, row in binary_df.iterrows():
    print(f"{row['Variable']:<30} {row['Label_0']:<15} {row['N_0']:>7,} {row['%_0']:>6.1f}%   {row['Label_1']:<15} {row['N_1']:>7,} {row['%_1']:>6.1f}%")



def plot_categorical_univariate(df, cat_vars, n_cols=3):

    OUTPUT_DIR = "../outputs/figures/EDA/2_binarias/"
    os.makedirs(OUTPUT_DIR, exist_ok=True)
    # Nombre archivo 
    filename = f"05_Grafico_barras_variables_binarias.png"
    filepath = os.path.join(OUTPUT_DIR, filename)
    
    n_vars = len(cat_vars)
    n_rows = math.ceil(n_vars / n_cols)

    fig, axes = plt.subplots(n_rows, n_cols, figsize=(18, 4 * n_rows))
    axes = axes.flatten()

    for i, col in enumerate(cat_vars):
        ax = axes[i]

        counts = df[col].value_counts().sort_index()

        sns.barplot(x=counts.index.astype(str), y=counts.values, ax=ax, palette="Blues_r")

        ax.set_title(f"{col}", fontsize=11, fontweight='bold')
        ax.set_ylabel("Frecuencia")
        ax.set_xlabel("")
        
    # Ocultar subplots vac√≠os
    for j in range(n_vars, len(axes)):
        axes[j].axis('off')

    plt.tight_layout()
    plt.savefig(filepath, dpi=300, bbox_inches='tight')
    plt.show()


# EJECUCI√ìN
plot_categorical_univariate(df, VARS_BINARIAS, n_cols=3)

#### 3.2.2. An√°lisis BIVARIADO

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import math

# Paleta consistente para todas las clases
palette = {
    "Dropout":"#E74C3C", 
    "Enrolled": "#1f77b4", 
    "Graduate": "#2ca02c"
}

def plot_categorical_bivariate(df, cat_vars, target="target", n_cols=3):

    OUTPUT_DIR = "../outputs/figures/EDA/2_binarias/"
    os.makedirs(OUTPUT_DIR, exist_ok=True)
    # Nombre archivo 
    filename = f"06_Grafico_variables_binarias_by_target.png"
    filepath = os.path.join(OUTPUT_DIR, filename)

    n_vars = len(cat_vars)
    n_rows = math.ceil(n_vars / n_cols)

    fig, axes = plt.subplots(n_rows, n_cols, figsize=(18, 4 * n_rows))
    axes = axes.flatten()

    for i, col in enumerate(cat_vars):
        ax = axes[i]

        # Tabla cruzada normalizada
        ctab = pd.crosstab(df[col], df[target], normalize='index')

        # Aplicar colores en el orden correcto de columnas
        ctab.plot(
            kind='bar',
            stacked=True,
            ax=ax,
            color=[palette[c] for c in ctab.columns]  # üëà colores personalizados
        )

        ax.set_title(f"{col} vs {target}", fontsize=11, fontweight='bold')
        ax.set_ylabel("Proporci√≥n")
        ax.set_xlabel("")
        ax.set_xticklabels(ax.get_xticklabels(), rotation=0, ha='center')

    # Ocultar gr√°ficos sobrantes
    for j in range(n_vars, len(axes)):
        axes[j].axis('off')

    plt.tight_layout()
    plt.savefig(filepath, dpi=300, bbox_inches='tight')
    plt.show()

# EJECUCI√ìN
plot_categorical_bivariate(df, VARS_BINARIAS)

#### 3.2.3 Conclusion preliminar EDA variables binarias
1. Variable Daytime/evening attendance (0 = nocturno, 1 = diurno). La mayor√≠a (~90%) pertenece al turno diurno (1) y presentando una menor tasa de deserci√≥n. El horario de clases s√≠ tiene relaci√≥n con el desempe√±o, pero no es un predictor fuerte del abandono.
2. Variable Displaced (0 = no, 1 = s√≠). Se visualiza un equilibrio a nivel de categoria desplazado y no desplazado y una leve alza de la proporci√≥n de deserci√≥n en los no desplazados. No genera diferencias fuertes entre clases de target, en consecuencia, es una variable poco discriminativa.
3. Variable educational_special_needs (0 = no, 1 = s√≠). Casi todos los estudiantes est√°n en 0 (sin necesidades especiales) y respecto de la relaci√≥n con el target no hay diferencia al menos visualmente, no aporta informaci√≥n de utilidad. 
4. Variable debtor (0 = sin deudas, 1 = deudor). La mayor√≠a (~90%) no presenta deuda y en los deudores la proporci√≥n de deserci√≥n es alt√≠sima (‚âà 65%), es una de las variables m√°s predictivas de abandono.
5. Variable tuition_fees_up_to_date (0 = no al d√≠a, 1 = al d√≠a). La mayor√≠a (‚Äì90%) tiene su matr√≠cula al d√≠a presenta, y de quienes no est√°n al d√≠a la proporci√≥n de deserci√≥n es alt√≠sima (~90%%).Es, junto con debtor, la variable m√°s predictiva del modelo.
6. Variable gender (0 = mujer, 1 = hombre). En los estudiantes hay m√°s mujeres que hombres y estos √∫ltimo presentan una mayor tasa de deserci√≥n.
7. Variable scholarship_holder (0 = no, 1 = s√≠). La mayor√≠a (~75%) no posee beca de estudios y el grupo que si presenta beca tiene una menor tasa de deserci√≥n. en consecuencia, funciona como factor protector contra abandono
8. Variable international (0 = nacional, 1 = internacional). Casi todos son nacionales (0) y la proporci√≥n por target es similar. Variable con poca fuerza predictiva.
9. Hallazgos principales:
    - Variables con mayor capacidad de predicci√≥n: debtor, tuition_fees_up_to_date y tuition_fees_up_to_date
    - Variables moderamenten informativas: daytimeevening_attendance y scholarship_holder
    - Variables poco relevantes: displaced, educational_special_needs y international

### 3.3. An√°lisis variables categ√≥ricas ordinales y nominales

#### 3.3.1. An√°lisis UNIVARIADO

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import os

OUTPUT_DIR = "../outputs/figures/EDA/3_categoricas/"
os.makedirs(OUTPUT_DIR, exist_ok=True)



def plot_categorico_univariado(df, column):
    plt.figure(figsize=(10,4))
    
    df[column].value_counts().plot(kind='bar')
    
    plt.title(f"Distribuci√≥n de {column}")
    plt.xlabel(column)
    plt.ylabel("Frecuencia")
    plt.xticks(rotation=45)
    plt.tight_layout()

    filename = f"07_univariado_{column}.png"
    filepath = os.path.join(OUTPUT_DIR, filename)
    # Guardar imagen
    plt.savefig(filepath, dpi=300, bbox_inches='tight')
    plt.show()

    # =================================================================
    # TABLA CON PROPORCI√ìN
    # =================================================================
   
    # Crear tabla resumen
    summary = pd.DataFrame({
        'N': df[column].value_counts(),
        'Porcentaje (%)': (df[column].value_counts(normalize=True) * 100).round(2)
    })

    # Agregar descripci√≥n
    if column in LABELS:
        summary['Descripcion'] = summary.index.map(LABELS[column])
        # Reordenar columnas para que Descripcion est√© primero
        summary = summary[['Descripcion', 'N', 'Porcentaje (%)']]
        
    # Ordenar por N descendente
    summary = summary.sort_values('N', ascending=False)
    display(summary)

VARS_CATEGORICAS = VARS_CATEGORICAS_NOMINALES + VARS_CATEGORICAS_ORDINALES

# Ejecutar para todas las variables categ√≥ricas
for col in VARS_CATEGORICAS:
    print(f"\n ---- Variable: {col.upper()} ----\n")
    plot_categorico_univariado(df, col)

##### 3.3.1.1 An√°lisis UNIVARIADO - Conclusiones preliminares

1. Variable marital_status (6 categor√≠as). Las 2 categor√≠as m√°s representativas son 1 (soltero) con un 89% y 2 (casado) con un 9%. Las dem√°s categor√≠as tiene un porcentaje menor al 3%, no representativo. Esto podr√≠a implicar agrupaci√≥n de categor√≠as y binarizar categor√≠as resultantes (de ser 2). Se debe continuar con el an√°lisis bivariado para analizar la variabilidad respecto del target.

2. Variable application_mode(18 categorias). Las 3 categor√≠as m√°s representativas (76% del dataset) son 1 (1ra fase - contingente general) con un 39%, 17 (2da fase - contingente general) con un 20% y 39 (Mayor de 23 a√±os) con un 18%. Las dem√°s categor√≠as tiene un porcentaje menor al 8%, no representativo.

3. Variable course (17 categor√≠as). Relativamente balanceadas (todas mayor a 100 registros) y solo se visualiza un caso at√≠pico (33, 'Biofuel Production Technologies' con 12 casos), las 3 categor√≠as m√°s representativas son 9500 (Nursing) con un 17%, 9147 (Management) con un 9%, 9085 (Social Service) con un 8% y 9773 (Journalism and Communication) con un 7%.

4. Variable nacionality. (21 categorias). La nacionalidad 1 (Portugu√©s) representa el 98% de los estudiantes, 19 nacionalidades restantes no superan los 20 registros, la gran mayoria tiene menos de 5, a nivel estad√≠stico no aportar√° informaci√≥n al modelo. 

5. Variable previous_qualification (17 categor√≠as). La categor√≠a 1 (Educaci√≥n secundaria) domina con un 84% y 16% tiene otra cualificaci√≥n, de estas ultimas 7 categor√≠as presentan
menos de 10 registros para tener en cuenta en una eventual agrupaci√≥n. Para 39 (Especializaci√≥n tecnol√≥gica), 19 (Ed. b√°sica 3er ciclo) y 3 (Ed. superior - grado) presentan m√°s de 100 registros.

6. Variable fathers_qualification(34 categor√≠as). Top 4 categor√≠as = 85.5% del dataset: 37 (Ed. b√°sica 1er ciclo) 27%, 19 (Ed. b√°sica 3er ciclo) 22%, 1 (Secundaria (12¬∫ a√±o)) 20%,
38 (Ed. b√°sica 2do ciclo) 16%.  22 categor√≠as con N < 10 registros y 6 de estas con N=1.  Educaci√≥n de padres alcanza un 65% de educaci√≥n b√°sica (37 + 19 + 38) y secundaria completa un  20% (1). Se detecta 5 categor√≠as (13, 20, 25 ,31, 33) con valores nulos. Requiere agrupaci√≥n obligatoria 

7. Variable mothers_qualification (29 categor√≠as, 5 menos que fathers). Top 5 categor√≠as = 91% del dataset:  1 (Secundaria (12¬∫ a√±o)) 24%, 37 (Ed. b√°sica 1er ciclo) 23%, 19 (Ed. b√°sica 3er ciclo) 22%, 38 (Ed. b√°sica 2do ciclo) 13% y 3(Superior - Grado) 10%. 19 categor√≠as con N < 10 registros y 5 de estas con N=1.  Educaci√≥n de madres alcanza un 57% de educaci√≥n b√°sica (37 + 19 + 38) y secundaria completa un 24.2% (mayor que los padres (20%)), m√°s balanceada que fathers_qualification y requiere agrupaci√≥n obligatoria. 

8. Variable mothers_occupation (32 categor√≠as). Top 3 categor√≠as = 66% del dataset: 9 (Trabajadores no cualificados) 36%, 4 (Personal administrativo) 18%, 5 (Servicios/Seguridad/Vendedores) 12%. 17 categor√≠as con N < 10 registros y 4 de estas con N=1. Requiere agrupaci√≥n obligatoria.

9. Variable fathers_occupation (46 categor√≠as). Top 3 categor√≠as = 46% del dataset: 9 (Trabajadores no cualificados) 23%, 7 (Trabajadores industria/construcci√≥n) 15%, 5 (Servicios/Seguridad/Vendedores) 12%. 32 categor√≠as con N < 10 registros y 14 de estas con N=1. Requiere agrupaci√≥n obligatoria.

10. Variable application_order (ordinal con 9 categor√≠as). Presenta una distribuci√≥n sesgada con dominancia de 1 categor√≠a, dado que es ordinal a mayor c√≥digo menor es la preferencia del estudiante. Top 2 categor√≠as = 80% del dataset: 1 (2da opci√≥n) 68%, 2 (3ra opci√≥n) 12%. Un registro at√≠pico es que el c√≥digo 0 (1ra opci√≥n), solo hay 1 estudiante y con 9 (√öltima opci√≥n) sucede lo mismo.

#### 3.3.2. An√°lisis BIVARIADO

In [None]:
import numpy as np
import os

# Paleta para el target
palette_target = {
    "Dropout": "#E74C3C",   # Rojo
    "Enrolled": "#1F77B4",  # Azul
    "Graduate": "#2CA02C"   # Verde
}



OUTPUT_DIR = "../outputs/figures/EDA/3_categoricas/"
os.makedirs(OUTPUT_DIR, exist_ok=True)

def plot_categorico_bivariado(df, column, target="target"):
    ctab = pd.crosstab(df[column], df[target], normalize="index")

    print(f"\n===== {column.upper()} vs TARGET =====")
    
    # Decidir orientaci√≥n seg√∫n n√∫mero de categor√≠as
    if len(ctab) > 8:
        figsize = (10, 6)
        kind = "barh"
    else:
        figsize = (8, 4)
        kind = "bar"

    fig, ax = plt.subplots(figsize=figsize)

    ctab.plot(
        kind=kind,
        stacked=True,
        color=list(palette_target.values()),
        ax=ax,
        edgecolor="black"
    )

    plt.title(f"{column} vs {target} (proporciones)", fontsize=12)

    # Ajustar etiquetas seg√∫n orientaci√≥n
    if kind == "bar":
        ax.set_xlabel(column)
        ax.set_ylabel("Proporci√≥n")
        plt.xticks(rotation=25, ha="right", fontsize=8)
    else:
        ax.set_xlabel("Proporci√≥n")  # En horizontal, X es la proporci√≥n
        ax.set_ylabel(column)         # Y es la variable categ√≥rica
        plt.yticks(fontsize=8)

    # Leyenda fuera del gr√°fico
    ax.legend(title="Target", bbox_to_anchor=(1.02, 1), loc='upper left')

    plt.tight_layout()

    filename = f"08_bivariado_{column}.png"
    filepath = os.path.join(OUTPUT_DIR, filename)
    # Guardar imagen
    plt.savefig(filepath, dpi=300, bbox_inches='tight')
    plt.show()

    # =================================================================
    # TABLA CON PROPORCI√ìN + DISTRIBUCI√ìN POR TARGET
    # =================================================================
    
    # Crosstab con conteos
    ct_counts = pd.crosstab(df[column], df['target'])
    
    # Crosstab con porcentajes por fila (cada categor√≠a suma 100%)
    ct_pct = pd.crosstab(df[column], df['target'], normalize='index') * 100

    # Crear tabla resumen
    summary = pd.DataFrame({
        'N': df[column].value_counts(),
        'Porcentaje': df[column].value_counts(normalize=True).round(2),
        'Dropout_N': ct_counts['Dropout'],
        'Dropout_%': ct_pct['Dropout'].round(2),
        'Enrolled_N': ct_counts['Enrolled'],
        'Enrolled_%': ct_pct['Enrolled'].round(2),
        'Graduate_N': ct_counts['Graduate'],
        'Graduate_%': ct_pct['Graduate'].round(2)
    })

    # Agregar descripci√≥n
    if column in LABELS:
        summary['Descripcion'] = summary.index.map(LABELS[column])
        # Reordenar columnas para que Descripcion est√© primero
        summary = summary[['Descripcion', 'N', 'Porcentaje','Dropout_N','Dropout_%','Enrolled_N','Enrolled_%','Graduate_N','Graduate_%']]
    
    # Ordenar por N descendente
    summary = summary.sort_values('N', ascending=False)
    
    display(summary)

# Ejecutar
for col in VARS_CATEGORICAS_NOMINALES + VARS_CATEGORICAS_ORDINALES:
    plot_categorico_bivariado(df, col)

##### 3.3.1.2 An√°lisis BIVARIADO - Conclusiones preliminares

1. Variable marital_status. De las 2 categor√≠as m√°s representativas 1 (soltero) desertan un 30% y 2 (casado) un 47%, este √∫ltimo grupo tiene 1.5 veces m√°s riesgo de desertar y las restantes presentan muy pocos casos (menos de 30 registros) para generar variabilidad significativa respecto del target. Dado este escenario, se crear√° un nueva binaria 
'es_soltero' con valores 1 para solteros y 0 para no solteros.
 
2. Variable application_mode. De las 3 categor√≠as m√°s representativas  1 (1ra fase - contingente general), 17 (2da fase - contingente general) y 39 (Mayor de 23 a√±os) con un 18%, la que presenta mayor % de deserci√≥n es 39 (Mayor de 23 a√±os). Dado este escenario, se podr√≠an realizar 2 tareas en etapa de preprocesamiento: 1-.agrupar las categor√≠as por alg√∫n concepto y 2-. analizar la creaci√≥n de una variable que permita la identificaci√≥n de esta categor√≠a.

3. Variable course. El rango de deserci√≥n por programa es muy amplio (15% - 67%), se considera que es una variable altamente predictiva. Nursing (950) presenta la menor tasa de deserci√≥n (15.4%) y tiene la mayor n√∫mero de estudiantes (N=765). Esto sugiere alta motivaci√≥n y/o mejor soporte en programas de salud. En cambio, los programas t√©cnicos como Informatics Engineering (9119) 54.1% y Equinculture (9130) presentan las mayores tasas de deserci√≥n del 54% y 55%. Pre-procesamiento posible encoding. 

4. Variable nacionality. En la nacionalidad 1 (Portugu√©s) desert√°n el 32.2% (4.314 estudiantes), todas las dem√°s nacionalidades si bien presentan porcentajes de deserci√≥n los registros no son suficientes para ser considerados. En consecuencia, no hay diferencia significativa en deserci√≥n. Esta variable no se considerar√° en los modelos. 

5. Variable previous_qualification. Los estudiantes con Educaci√≥n secundaria desertan en un 29%, con Especializaci√≥n tecnol√≥gica un 32%, con Ed. b√°sica 3er ciclo un 64%. Existe un escenario 
parad√≥gico que los estudiantes con menor grado de estudios (9, 12, 10 y 15) y con estudios de post titulo (2, 3) presentan una tasa de deserci√≥n sobre el 50%. Se visualiza posible agrupaci√≥n 
de categorias por riesgo de deserci√≥n, se debe evaluar como quedar√≠a la distribuci√≥n.

6. Variable fathers_qualification. La categor√≠a 34 (desconocido) presenta la mayor de serci√≥n con un 72%, casos en que el estudiantes que no reportan informaci√≥n del padre. Con un padre con 37 (Ed. b√°sica 1er ciclo) y 38 (Ed. b√°sica 2do ciclo) se tienen tasas de deserci√≥n del 36% y 24%.  No hay relaci√≥n lineal clara entre nivel educativo y deserci√≥n.

7. Variable mothers_qualification. La categor√≠a 34 (desconocido) presenta la mayor de serci√≥n con un 74%, casos en que el estudiantes que no reportan info de la madre. Con un padre con 37 (Ed. b√°sica 1er ciclo) y 38 (Ed. b√°sica 2do ciclo) se tienen tasas de deserci√≥n del 38% y 25%.  No hay relaci√≥n lineal clara entre nivel educativo y deserci√≥n 

8. Variable mothers_occupation. Las categor√≠as que presentan mayor deserci√≥n son: 99 ("en blanco") 77%, 90 (Otra situaci√≥n) 73%, 0 (Estudiante) 68%. En este ultimo caso una madre estudiante podr√≠a implicar una situaci√≥n econ√≥mica inestable. Las dem√°s ocupaciones tienen tasas similares de deserci√≥n con un rango entre 27% - 32% no existiendo gran diferencia entre ocupaciones espec√≠ficas.

9. Variable fathers_occupation. Presenta un comportamiento s√≠mil a  la variable mothers_occupation Las categorias que presentan mayor deserci√≥n son: 99 ("en blanco") 68%, 90 (Otra situaci√≥n) 71%, 0 (Estudiante) 64%. En este ultimo caso un padre estudiante podr√≠a implicar una situaci√≥n econ√≥mica inestable. Las dem√°s ocupaciones tienen tasas similares de deserci√≥n con un rango entre 28% - 36% no existiendo gran diferencia entre ocupaciones espec√≠ficas.

10. Variable application_order. Se detecta patr√≥n especial, dado que el mayor indice de deserci√≥n se encuentra en las primeras opciones de postulacion al grado, por ejemplo, estudiantes que eligieron como 2da opci√≥n (mayor√≠a) tienen la mayor deserci√≥n (34.8%) y estudiantes que eligieron como 7ma opci√≥n tienen la menor deserci√≥n (22.6%).

#### 3.3.3 Conclusiones an√°lisis variables categ√≥ricas ordinales y nominales

1. Algunas variables categ√≥ricas son altamente predictivas, especialmente:
- course (variaci√≥n extrema en deserci√≥n 15‚Äì67%)
- application_mode (categor√≠a >23 a√±os = muy riesgosa)
- fathers_qualification y mothers_qualification sin informaci√≥n de (‚âà 70% deserci√≥n)

2. Otras variables presentan bajo valor predictivo o alta concentraci√≥n en una categor√≠a, ser√° evaluada su exclusi√≥n:
- nacionality
- educational_special_needs
- international

3. Muchas variables necesitan agrupaci√≥n o ingenier√≠a de caracteristicas:
- Agrupaci√≥n de estudios previos (ej. riesgo_calificacion_previa)
- Agrupaci√≥n de ocupaci√≥n (ej. nivel_ocupacion)
- Variable derivada: has_unknown_parent_info 

4. La variable ordinal application_order no presenta un patr√≥n lineal, pero sigue aportando informaci√≥n moderada sobre preferencia del estudiante y riesgo de abandono.

5. Las variables categ√≥ricas nominales y la ordinal del dataset aportan informaci√≥n estructural relevante sobre antecedentes acad√©micos, preferencias de postulaci√≥n y contexto socioecon√≥mico. Varias de ellas, especialmente course, application_mode, y atributos familiares, muestran un papel significativo en la predicci√≥n del abandono. Sin embargo, otras variables, debido a su fuerte desbalance o baja sensibilidad al fen√≥meno de deserci√≥n, deben ser excluidas o transformadas. El adecuado tratamiento de estas variables mediante agrupaciones, encoding avanzado y creaci√≥n de variables derivadas permitir√° mejorar sustancialmente el rendimiento de los modelos predictivos.

### 3.4 Distribuci√≥n de la variable objetivo `Target`
Valores:
- 0 = Dropout
- 1 = Graduate
- 2 = Enrolled

In [None]:
plt.figure(figsize=(5, 4))   # <-- m√°s peque√±o
df['target'].value_counts(normalize=True).plot(
    kind='bar',
    #color=['red', 'green', 'blue']
    color=['#E74C3C', '#2ca02c', '#1f77b4']
)


OUTPUT_DIR = "../outputs/figures/EDA/4_target/"
os.makedirs(OUTPUT_DIR, exist_ok=True)
# Nombre archivo 
filename = f"09_distribucion_target.png"
filepath = os.path.join(OUTPUT_DIR, filename)

plt.title("Distribuci√≥n de la variable objetivo", fontsize=12)
plt.xlabel("Clase", fontsize=10)
plt.ylabel("Proporci√≥n", fontsize=10)
plt.xticks(rotation=0)
plt.tight_layout()
plt.savefig(filepath, dpi=300, bbox_inches='tight')
plt.show()

df['target'].value_counts()

#### Conclusi√≥n de Distribuci√≥n de la variable objetivo `Target`

1. La variable objetivo target presenta tres posibles resultados acad√©micos para cada estudiante: Graduate, Dropout y Enrolled. La distribuci√≥n observada en el dataset es la siguiente:
- Graduate: 2.209 estudiantes (‚âà 50%). Corresponde a estudiantes que lograron titularse (Graduate), representando aproximadamente la mitad del total. 
- Dropout: 1.421 estudiantes (‚âà 32%). La tasa de deserci√≥n (Dropout) es notablemente alta, alcanzando un 32%, lo que confirma que la deserci√≥n es un fen√≥meno relevante y suficientemente frecuente como para justificar el desarrollo de modelos predictivos e intervenciones institucionales.
- Enrolled: 794 estudiantes (‚âà 18%). Corresponde a estudiantes que permanecen activos o no han completado su trayectoria. Aunque este grupo no representa abandono directo, y continua con un grado en proceso.

2. La relaci√≥n entre clases es aproximadamente 2:1 entre No Dropout (Graduate + Enrolled) y Dropout y es un desbalance moderado.

3. La distribuci√≥n del target evidencia que la deserci√≥n afecta a uno de cada tres estudiantes, lo que convierte a este problema en una prioridad institucional. La distribuci√≥n es adecuada para el modelado predictivo y proporciona una base s√≥lida para explorar factores asociados al abandono acad√©mico mediante el An√°lisis Exploratorio de Datos y posteriormente los modelos de Machine Learning.
 



## 4. Conclusiones del EDA

- El dataset contiene **4.424 registros y 37 variables**, con buena estructura.
- No se observan valores nulos significativos.
- Existe un **marcado desbalance** en la variable objetivo.
- Las variables num√©ricas muestran patrones esperables, aunque con algunos valores extremos.
- Se identifican **correlaciones importantes** entre variables de rendimiento.
- Las variables categ√≥ricas est√°n codificadas num√©ricamente; requerir√°n transformaciones.
- El dataset es apropiado para modelos supervisados, pero se necesitar√° posiblemente:
  - Ingenier√≠a de caracter√≠sticas
  - Normalizaci√≥n/estandarizaci√≥n
  - Manejo del desbalance (SMOTE o class weights)
  - Selecci√≥n correcta de la variable objetivo (binaria vs multiclase)

El EDA sienta las bases para avanzar hacia la fase de preprocesamiento y creaci√≥n de pipelines.
