# Nuevo Análisis de Datos

Este notebook contiene un análisis exploratorio de datos para el proyecto de análisis de desempeño estudiantil.

## Objetivos
- Cargar y explorar el dataset
- Realizar análisis descriptivo
- Generar visualizaciones
- Extraer insights relevantes

## Importación de Librerías

Importamos las librerías necesarias para el análisis de datos.

In [None]:
# Librerías para manipulación de datos
import pandas as pd
import numpy as np

# Librerías para visualización
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Librerías para análisis estadístico
from scipy import stats
from scipy.stats import mannwhitneyu, chi2_contingency

# Configuración de visualización
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
%matplotlib inline

# Configuraciones
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
np.random.seed(42)

## Carga de Datos

Cargamos el dataset de desempeño estudiantil.

In [None]:
# Cargar el dataset
df = pd.read_csv('raw_student_data.csv', index_col=0)

# Información básica del dataset
print(f"Dimensiones del dataset: {df.shape}")
print(f"Columnas: {df.columns.tolist()}")

# Primeras filas
df.head()

## Análisis Exploratorio Inicial

Realizamos un análisis exploratorio básico de los datos.

In [None]:
# Información general del dataset
print("=== INFORMACIÓN GENERAL ===")
print(df.info())

print("\n=== ESTADÍSTICAS DESCRIPTIVAS ===")
df.describe()

In [None]:
# Análisis de valores nulos
print("=== VALORES NULOS ===")
nulls = df.isnull().sum()
null_percent = (nulls / len(df)) * 100
null_df = pd.DataFrame({
    'Columna': nulls.index,
    'Valores_Nulos': nulls.values,
    'Porcentaje': null_percent.values
})
null_df = null_df[null_df['Valores_Nulos'] > 0].sort_values('Valores_Nulos', ascending=False)
print(null_df)

## Análisis de la Variable Objetivo

Analizamos la distribución de la variable Target.

In [None]:
# Distribución de la variable Target
target_counts = df['Target'].value_counts()
target_props = df['Target'].value_counts(normalize=True) * 100

print("=== DISTRIBUCIÓN DE TARGET ===")
print(f"Frecuencias:\n{target_counts}")
print(f"\nPorcentajes:\n{target_props.round(2)}")

# Visualización
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

# Gráfico de barras
target_counts.plot(kind='bar', ax=ax1, color=['skyblue', 'lightcoral', 'lightgreen'])
ax1.set_title('Distribución de Target (Frecuencias)')
ax1.set_ylabel('Frecuencia')
ax1.tick_params(axis='x', rotation=45)

# Gráfico de pastel
ax2.pie(target_counts.values, labels=target_counts.index, autopct='%1.1f%%', 
        colors=['skyblue', 'lightcoral', 'lightgreen'])
ax2.set_title('Distribución de Target (Porcentajes)')

plt.tight_layout()
plt.show()

## Variables Numéricas

Análisis de las variables numéricas del dataset.

In [None]:
# Identificar variables numéricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
print(f"Variables numéricas ({len(numeric_cols)}): {numeric_cols}")

# Estadísticas descriptivas extendidas
stats_desc = df[numeric_cols].describe(percentiles=[0.01, 0.05, 0.25, 0.5, 0.75, 0.95, 0.99])
stats_desc

## Correlaciones

Análisis de correlaciones entre variables numéricas.

In [None]:
# Matrix de correlaciones
correlation_matrix = df[numeric_cols].corr()

# Visualización de la matriz de correlaciones
plt.figure(figsize=(15, 12))
sns.heatmap(correlation_matrix, 
            annot=False, 
            cmap='coolwarm', 
            center=0,
            square=True,
            fmt='.2f')
plt.title('Matriz de Correlaciones - Variables Numéricas')
plt.tight_layout()
plt.show()

## Análisis Personalizado

Espacio para análisis específicos adicionales.

In [None]:
# Aquí puedes agregar tu análisis personalizado
print("=== ANÁLISIS PERSONALIZADO ===")
print("Agrega tu código de análisis aquí...")

## Recarga del Dataset

Volvemos a cargar el dataset para análisis adicionales o verificaciones.

In [3]:
# Importar pandas (en caso de que no esté disponible)
import pandas as pd

# Recarga del dataset para análisis adicionales
print("=== RECARGA DEL DATASET ===")

# Cargar nuevamente el dataset
df_reload = pd.read_csv('raw_student_data.csv', index_col=0)

# Verificar que la carga fue exitosa
print(f"Dataset recargado exitosamente")
print(f"Dimensiones: {df_reload.shape}")
print(f"Memoria utilizada: {df_reload.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# Verificar integridad de los datos
print(f"\nVerificación de integridad:")
print(f"- Número de filas: {len(df_reload)}")
print(f"- Número de columnas: {len(df_reload.columns)}")
print(f"- Valores nulos totales: {df_reload.isnull().sum().sum()}")

# Mostrar las primeras filas
print(f"\nPrimeras 3 filas del dataset recargado:")
print(df_reload.head(3))

=== RECARGA DEL DATASET ===
Dataset recargado exitosamente
Dimensiones: (4432, 35)
Memoria utilizada: 1.42 MB

Verificación de integridad:
- Número de filas: 4432
- Número de columnas: 35
- Valores nulos totales: 109

Primeras 3 filas del dataset recargado:
   Marital.status  Application.mode  Application.order  Course  \
1               1                 8                  5       2   
2               1                 6                  1      11   
3               1                 1                  5       5   

   Daytime.evening.attendance  Previous.qualification  Nacionality  \
1                           1                       1            1   
2                           1                       1            1   
3                           1                       1            1   

   Mother.s.qualification  Father.s.qualification  Mother.s.occupation  ...  \
1                      13                      10                    6  ...   
2                       1             

## Descripción Detallada del Conjunto de Datos

Realizamos una descripción completa del dataset de desempeño estudiantil, analizando sus características principales, estructura y contenido.

In [4]:
# Descripción general del dataset
print("=== DESCRIPCIÓN GENERAL DEL CONJUNTO DE DATOS ===")
print(f"Nombre del archivo: raw_student_data.csv")
print(f"Tipo de datos: Análisis de desempeño estudiantil")
print(f"Propósito: Predicción de deserción y éxito académico")

print(f"\n=== DIMENSIONES Y ESTRUCTURA ===")
print(f"• Número total de registros: {len(df_reload):,}")
print(f"• Número total de variables: {len(df_reload.columns)}")
print(f"• Tamaño en memoria: {df_reload.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# Análisis de tipos de datos
print(f"\n=== TIPOS DE VARIABLES ===")
numeric_vars = df_reload.select_dtypes(include=['int64', 'float64']).columns
categorical_vars = df_reload.select_dtypes(include=['object']).columns

print(f"• Variables numéricas: {len(numeric_vars)} ({len(numeric_vars)/len(df_reload.columns)*100:.1f}%)")
print(f"• Variables categóricas: {len(categorical_vars)} ({len(categorical_vars)/len(df_reload.columns)*100:.1f}%)")

print(f"\n=== VARIABLES NUMÉRICAS ===")
for i, var in enumerate(numeric_vars, 1):
    print(f"{i:2d}. {var}")

print(f"\n=== VARIABLES CATEGÓRICAS ===")
for i, var in enumerate(categorical_vars, 1):
    print(f"{i:2d}. {var}")
    unique_vals = df_reload[var].nunique()
    print(f"    └── Valores únicos: {unique_vals}")

=== DESCRIPCIÓN GENERAL DEL CONJUNTO DE DATOS ===
Nombre del archivo: raw_student_data.csv
Tipo de datos: Análisis de desempeño estudiantil
Propósito: Predicción de deserción y éxito académico

=== DIMENSIONES Y ESTRUCTURA ===
• Número total de registros: 4,432
• Número total de variables: 35
• Tamaño en memoria: 1.42 MB

=== TIPOS DE VARIABLES ===
• Variables numéricas: 34 (97.1%)
• Variables categóricas: 1 (2.9%)

=== VARIABLES NUMÉRICAS ===
 1. Marital.status
 2. Application.mode
 3. Application.order
 4. Course
 5. Daytime.evening.attendance
 6. Previous.qualification
 7. Nacionality
 8. Mother.s.qualification
 9. Father.s.qualification
10. Mother.s.occupation
11. Father.s.occupation
12. Displaced
13. Educational.special.needs
14. Debtor
15. Tuition.fees.up.to.date
16. Gender
17. Scholarship.holder
18. Age.at.enrollment
19. International
20. Curricular.units.1st.sem..credited.
21. Curricular.units.1st.sem..enrolled.
22. Curricular.units.1st.sem..evaluations.
23. Curricular.units.1s

In [6]:
# Análisis de la variable objetivo (Target)
print("=== ANÁLISIS DE LA VARIABLE OBJETIVO ===")
target_analysis = df_reload['Target'].value_counts().sort_index()
target_percent = df_reload['Target'].value_counts(normalize=True).sort_index() * 100

print("Variable objetivo: Target")
print("Descripción: Resultado académico final del estudiante")
print("\nCategorías y distribución:")
for category, count in target_analysis.items():
    if pd.notna(category):
        pct = target_percent[category]
        print(f"• {category}: {count:,} estudiantes ({pct:.1f}%)")

# Verificar valores nulos en Target
null_target = df_reload['Target'].isnull().sum()
if null_target > 0:
    null_pct = (null_target / len(df_reload)) * 100
    print(f"• Valores nulos: {null_target:,} registros ({null_pct:.2f}%)")

print(f"\nInterpretación:")
print(f"• Graduate: Estudiantes que completaron exitosamente el programa")
print(f"• Dropout: Estudiantes que abandonaron sin completar")
print(f"• Enrolled: Estudiantes actualmente cursando")

# Balance de clases
print(f"\n=== BALANCE DE CLASES ===")
if len(target_analysis) > 1:
    max_class = target_analysis.max()
    min_class = target_analysis.min()
    balance_ratio = min_class / max_class
    print(f"Ratio de balance (min/max): {balance_ratio:.3f}")
    if balance_ratio < 0.5:
        print("⚠️  Dataset desbalanceado - considerar técnicas de balanceo")
    else:
        print("✅ Dataset relativamente balanceado")

=== ANÁLISIS DE LA VARIABLE OBJETIVO ===
Variable objetivo: Target
Descripción: Resultado académico final del estudiante

Categorías y distribución:
• Dropout: 1,421 estudiantes (32.9%)
• Enrolled: 685 estudiantes (15.8%)
• Graduate: 2,217 estudiantes (51.3%)
• Valores nulos: 109 registros (2.46%)

Interpretación:
• Graduate: Estudiantes que completaron exitosamente el programa
• Dropout: Estudiantes que abandonaron sin completar
• Enrolled: Estudiantes actualmente cursando

=== BALANCE DE CLASES ===
Ratio de balance (min/max): 0.309
⚠️  Dataset desbalanceado - considerar técnicas de balanceo


In [8]:
# Análisis de calidad de datos
print("=== CALIDAD DE LOS DATOS ===")

# Valores nulos por variable
null_analysis = df_reload.isnull().sum()
null_vars = null_analysis[null_analysis > 0].sort_values(ascending=False)

if len(null_vars) > 0:
    print("Variables con valores nulos:")
    for var, count in null_vars.items():
        pct = (count / len(df_reload)) * 100
        print(f"• {var}: {count:,} ({pct:.2f}%)")
else:
    print("✅ No hay valores nulos en el dataset")

# Valores duplicados
duplicates = df_reload.duplicated().sum()
print(f"\nRegistros duplicados: {duplicates:,}")
if duplicates > 0:
    print("⚠️  Se detectaron registros duplicados")
else:
    print("✅ No hay registros duplicados")

# Estadísticas básicas de variables numéricas
print(f"\n=== RESUMEN ESTADÍSTICO - VARIABLES NUMÉRICAS ===")
numeric_summary = df_reload.select_dtypes(include=['int64', 'float64']).describe()
print(f"Variables analizadas: {len(numeric_summary.columns)}")
print(f"Estadísticas disponibles: {list(numeric_summary.index)}")

# Mostrar algunas estadísticas clave
print(f"\nRangos de valores (min-max):")
for col in numeric_summary.columns[:5]:  # Mostrar solo las primeras 5
    min_val = numeric_summary.loc['min', col]
    max_val = numeric_summary.loc['max', col]
    print(f"• {col}: [{min_val:.2f} - {max_val:.2f}]")

=== CALIDAD DE LOS DATOS ===
Variables con valores nulos:
• Target: 109 (2.46%)

Registros duplicados: 8
⚠️  Se detectaron registros duplicados

=== RESUMEN ESTADÍSTICO - VARIABLES NUMÉRICAS ===
Variables analizadas: 34
Estadísticas disponibles: ['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']

Rangos de valores (min-max):
• Marital.status: [1.00 - 6.00]
• Application.mode: [1.00 - 18.00]
• Application.order: [0.00 - 9.00]
• Course: [1.00 - 17.00]
• Daytime.evening.attendance: [0.00 - 1.00]


In [9]:
# Categorización de variables por dominio
print("=== CATEGORIZACIÓN POR DOMINIO ===")

# Definir categorías basadas en los nombres de variables
academic_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['grade', 'units', 'curricular', 'sem'])]
demographic_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['age', 'gender', 'marital', 'nationality'])]
administrative_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['tuition', 'debtor', 'scholarship', 'fees'])]
family_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['mother', 'father', 'parent'])]
economic_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['unemployment', 'inflation', 'gdp'])]
other_vars = [col for col in df_reload.columns if col not in academic_vars + demographic_vars + administrative_vars + family_vars + economic_vars]

print(f"📚 Variables Académicas ({len(academic_vars)}):")
for var in academic_vars[:8]:  # Mostrar solo las primeras 8
    print(f"   • {var}")
if len(academic_vars) > 8:
    print(f"   ... y {len(academic_vars) - 8} más")

print(f"\n👥 Variables Demográficas ({len(demographic_vars)}):")
for var in demographic_vars:
    print(f"   • {var}")

print(f"\n💼 Variables Administrativas ({len(administrative_vars)}):")
for var in administrative_vars:
    print(f"   • {var}")

print(f"\n👨‍👩‍👧‍👦 Variables Familiares ({len(family_vars)}):")
for var in family_vars:
    print(f"   • {var}")

print(f"\n💰 Variables Económicas ({len(economic_vars)}):")
for var in economic_vars:
    print(f"   • {var}")

if len(other_vars) > 0:
    print(f"\n❓ Otras Variables ({len(other_vars)}):")
    for var in other_vars:
        print(f"   • {var}")

print(f"\n=== RESUMEN DE CATEGORIZACIÓN ===")
total_categorized = len(academic_vars) + len(demographic_vars) + len(administrative_vars) + len(family_vars) + len(economic_vars)
print(f"Variables categorizadas: {total_categorized}/{len(df_reload.columns)} ({total_categorized/len(df_reload.columns)*100:.1f}%)")

=== CATEGORIZACIÓN POR DOMINIO ===
📚 Variables Académicas (12):
   • Curricular.units.1st.sem..credited.
   • Curricular.units.1st.sem..enrolled.
   • Curricular.units.1st.sem..evaluations.
   • Curricular.units.1st.sem..approved.
   • Curricular.units.1st.sem..grade.
   • Curricular.units.1st.sem..without.evaluations.
   • Curricular.units.2nd.sem..credited.
   • Curricular.units.2nd.sem..enrolled.
   ... y 4 más

👥 Variables Demográficas (3):
   • Marital.status
   • Gender
   • Age.at.enrollment

💼 Variables Administrativas (3):
   • Debtor
   • Tuition.fees.up.to.date
   • Scholarship.holder

👨‍👩‍👧‍👦 Variables Familiares (4):
   • Mother.s.qualification
   • Father.s.qualification
   • Mother.s.occupation
   • Father.s.occupation

💰 Variables Económicas (3):
   • Unemployment.rate
   • Inflation.rate
   • GDP

❓ Otras Variables (10):
   • Application.mode
   • Application.order
   • Course
   • Daytime.evening.attendance
   • Previous.qualification
   • Nacionality
   • Displaced
 

## Diccionario de Datos

A continuación se genera automáticamente un diccionario de datos para cada una de las variables presentes en `raw_student_data.csv`, incluyendo:
- Tipo pandas y tipo semántico
- Dominio temático
- Nulos y porcentaje
- Cardinalidad y rango (si aplica)
- Ejemplos de valores
- Significado (definición operacional)
- Relevancia analítica/predictiva

Notas:
1. Las clasificaciones semánticas son heurísticas basadas en nombre, cardinalidad y naturaleza esperada de las variables.
2. Variables con códigos numéricos representan categorías codificadas (se sugiere posteriormente mapear a etiquetas descriptivas si se dispone de diccionario externo institucional).
3. Indicadores macroeconómicos tienen baja variabilidad intramuestral (solo 9–10 valores) y podrían aportar poca señal predictiva frente a métricas académicas tempranas.
4. Escala de calificaciones asumida 0–20 (máx observado ≈18.9); ajustar si la institución usa otro sistema.
5. Para cualquier refinamiento manual, editar la estructura `descripciones` en la celda de código siguiente.

In [11]:
import pandas as pd
from textwrap import shorten

# Cargar dataset (independiente de ejecuciones previas)
df_dic = pd.read_csv('raw_student_data.csv', index_col=0)

# Metadatos básicos
def base_stats(s: pd.Series):
    d = {
        'tipo_pandas': str(s.dtype),
        'nulls': int(s.isnull().sum()),
        'null_pct': round(float(s.isnull().mean()*100), 2),
        'n_unique': int(s.nunique(dropna=True))
    }
    if pd.api.types.is_numeric_dtype(s):
        if s.notnull().any():
            d['min'] = float(s.min())
            d['max'] = float(s.max())
        else:
            d['min'] = d['max'] = None
    else:
        d['min'] = d['max'] = None
    # ejemplos
    vals = s.dropna().unique()[:5]
    d['ejemplos'] = ', '.join(map(str, vals))
    return d

# Clasificación heurística (coincide con la previa)

def clasificacion(col, s):
    lower = col.lower()
    dominio = 'otros'
    if 'curricular' in lower or 'units' in lower:
        dominio = 'académico'
    elif any(k in lower for k in ['marital','gender','age','nacionality','nationality']):
        dominio = 'demográfico'
    elif any(k in lower for k in ['mother','father']):
        dominio = 'familiar'
    elif any(k in lower for k in ['unemployment','inflation','gdp']):
        dominio = 'macro'
    elif any(k in lower for k in ['scholarship','tuition','debtor']):
        dominio = 'socioeconómico'
    elif any(k in lower for k in ['displaced','special.needs','international']):
        dominio = 'condición'
    elif 'target' in lower:
        dominio = 'resultado'
    nun = s.nunique(dropna=True)
    if col == 'Target':
        tipo = 'categórico nominal (multiclase)'
    elif pd.api.types.is_float_dtype(s):
        tipo = 'cuantitativa continua'
    elif pd.api.types.is_integer_dtype(s):
        if nun == 2:
            tipo = 'categórica binaria'
        else:
            vals = sorted(s.dropna().unique())
            consecutivo = all(b-a in (0,1) for a,b in zip(vals, vals[1:]))
            if consecutivo and nun < 15:
                tipo = 'ordinal discreta'
            else:
                tipo = 'categórica discreta / código'
    else:
        tipo = 'categórica nominal'
    return dominio, tipo

# Diccionario manual de significados y relevancia (plantilla editable)
# Para mantener concisión se proveen explicaciones sintéticas; ampliar según necesidad institucional.

descripciones = {}

def set_desc(col, significado, relevancia):
    descripciones[col] = {
        'significado': significado.strip(),
        'relevancia': relevancia.strip()
    }

# Ejemplos de definiciones (representativo); completar resto automáticamente si falta
set_desc('Marital.status', 'Estado civil del estudiante al momento de la matrícula (codificado).', 'Puede correlacionar con estabilidad y cargas familiares que influyen en permanencia.')
set_desc('Application.mode', 'Canal o modalidad de postulación/ingreso.', 'Algunos modos pueden asociarse a procesos más selectivos y mayor probabilidad de éxito.')
set_desc('Application.order', 'Orden de preferencia del curso en la candidatura (0 = primera opción).', 'Preferencia alta (más baja numéricamente) puede asociarse a motivación intrínseca y menor riesgo de abandono.')
set_desc('Course', 'Programa o curso académico en que se matricula.', 'Diferentes cursos tienen tasas de retención distintas; fuerte predictor categórico.')
set_desc('Daytime.evening.attendance', 'Indicador si cursa en horario diurno (1) o vespertino (0).', 'Horarios vespertinos pueden asociarse a estudiantes trabajadores con mayor riesgo de abandono.')
set_desc('Previous.qualification', 'Tipo de titulación o estudio previo completado.', 'Mayor preparación previa puede facilitar adaptación y aprobación temprana.')
set_desc('Nacionality', 'Nacionalidad del estudiante (codificada).', 'Puede capturar diferencias culturales o administrativas; cuidado con sesgos.')
set_desc('Mother.s.qualification', 'Nivel educativo de la madre.', 'Proxy de capital cultural y apoyo académico en el hogar.')
set_desc('Father.s.qualification', 'Nivel educativo del padre.', 'Similar a la madre; útil combinado para índice socioeducativo.')
set_desc('Mother.s.occupation', 'Ocupación principal de la madre.', 'Indicador socioeconómico complementario.')
set_desc('Father.s.occupation', 'Ocupación principal del padre.', 'Refuerza perfil socioeconómico familiar.')
set_desc('Displaced', 'Estudiante desplazado (cambio forzado de residencia).', 'Factor de vulnerabilidad que puede aumentar riesgo de abandono.')
set_desc('Educational.special.needs', 'Necesidades educativas especiales declaradas.', 'Puede requerir apoyos adicionales; asociada a desempeño variable.')
set_desc('Debtor', 'Tiene deudas pendientes con la institución.', 'Problemas financieros se correlacionan con probabilidad de abandono.')
set_desc('Tuition.fees.up.to.date', 'Pagos de matrícula al día.', 'Indicador inverso de riesgo financiero inmediato.')
set_desc('Gender', 'Género codificado (0/1).', 'Puede aparecer en patrones pero debe manejarse éticamente; evitar discriminación.')
set_desc('Scholarship.holder', 'Posee beca.', 'La beca reduce presión financiera y puede mejorar retención.')
set_desc('Age.at.enrollment', 'Edad al momento de la matrícula.', 'Edades atípicas (muy altas/bajas) pueden asociarse a trayectorias no tradicionales.')
set_desc('International', 'Estudiante internacional.', 'Adaptación cultural/idioma puede afectar retención.')
# Vars académicas 1er semestre
set_desc('Curricular.units.1st.sem..credited.', 'Número de unidades con créditos asignados en 1er semestre.', 'Refleja carga reconocida; relacionada con progreso.')
set_desc('Curricular.units.1st.sem..enrolled.', 'Unidades matriculadas 1er semestre.', 'Carga académica inicial; exceso puede aumentar riesgo.')
set_desc('Curricular.units.1st.sem..evaluations.', 'Número de evaluaciones realizadas 1er semestre.', 'Actividad evaluativa; densidad puede indicar compromiso.')
set_desc('Curricular.units.1st.sem..approved.', 'Unidades aprobadas 1er semestre.', 'Indicador directo de éxito inicial.')
set_desc('Curricular.units.1st.sem..grade.', 'Promedio de calificaciones 1er semestre.', 'Fuerte predictor temprano de trayectoria y retención.')
set_desc('Curricular.units.1st.sem..without.evaluations.', 'Unidades sin evaluaciones cursadas 1er semestre.', 'Ausencia de evaluaciones puede indicar deserción temprana.')
# Vars académicas 2do semestre
set_desc('Curricular.units.2nd.sem..credited.', 'Créditos asignados en 2do semestre.', 'Progreso acumulado; compara con 1er semestre.')
set_desc('Curricular.units.2nd.sem..enrolled.', 'Unidades matriculadas 2do semestre.', 'Persistencia en carga académica; cambios señalan ajuste o riesgo.')
set_desc('Curricular.units.2nd.sem..evaluations.', 'Evaluaciones realizadas 2do semestre.', 'Continuidad en participación académica.')
set_desc('Curricular.units.2nd.sem..approved.', 'Unidades aprobadas 2do semestre.', 'Consolida desempeño; útil para detectar deterioro (H2).')
set_desc('Curricular.units.2nd.sem..grade.', 'Promedio de calificaciones 2do semestre.', 'Comparar con 1er semestre para tendencia de rendimiento.')
set_desc('Curricular.units.2nd.sem..without.evaluations.', 'Unidades sin evaluaciones 2do semestre.', 'Aumento puede anticipar abandono.')
# Macroeconómicas
set_desc('Unemployment.rate', 'Tasa de desempleo en el periodo de ingreso.', 'Condición macro que puede influir en presión financiera (efecto moderado).')
set_desc('Inflation.rate', 'Tasa de inflación del periodo.', 'Inflación alta puede afectar capacidad de pago.')
set_desc('GDP', 'Variación del PIB (%).', 'Ciclo económico general; relevancia marginal frente a variables académicas.')
# Target
set_desc('Target', 'Resultado académico final (Dropout, Enrolled, Graduate).', 'Variable objetivo (clasificación multiclase).')

# Completar faltantes con plantilla genérica
for col in df_dic.columns:
    if col not in descripciones:
        descripciones[col] = {
            'significado': 'Descripción pendiente (asignar manualmente).',
            'relevancia': 'Relevancia a evaluar.'
        }

rows = []
for col in df_dic.columns:
    s = df_dic[col]
    b = base_stats(s)
    dominio, tipo_sem = clasificacion(col, s)
    desc = descripciones[col]
    rows.append({
        'variable': col,
        'dominio': dominio,
        'tipo_semántico': tipo_sem,
        **b,
        'rango': None if b['min'] is None else f"{b['min']} — {b['max']}",
        'significado': desc['significado'],
        'relevancia': desc['relevancia']
    })

_dict_df = pd.DataFrame(rows)
# Orden por dominio y luego nombre
orden_dom = ['resultado','académico','demográfico','socioeconómico','familiar','condición','macro','otros']
_dict_df['dominio'] = pd.Categorical(_dict_df['dominio'], categorias := orden_dom, ordered=True)
_dict_df = _dict_df.sort_values(['dominio','variable']).reset_index(drop=True)

# Mostrar resumen COMPLETO (todas las variables)
display_cols = ['variable','dominio','tipo_semántico','nulls','null_pct','n_unique','rango','ejemplos']
print('Resumen diccionario (todas las variables):')
print(_dict_df[display_cols].to_string(index=False))

print('\nSignificado y relevancia (todas las variables):')
print(_dict_df[['variable','significado','relevancia']].to_string(index=False))

# Guardar CSV completo
_dict_df.to_csv('data_dictionary.csv', index=False)
print('\nArchivo generado: data_dictionary.csv con', len(_dict_df), 'variables.')

# Vista expandida interactiva (descomentar si se desea en notebook)
# display(_dict_df)


Resumen diccionario (todas las variables):
                                      variable        dominio                  tipo_semántico  nulls  null_pct  n_unique                  rango                                                        ejemplos
                                        Target      resultado categórico nominal (multiclase)    109      2.46         3                   None                                     Dropout, Graduate, Enrolled
           Curricular.units.1st.sem..approved.      académico    categórica discreta / código      0      0.00        23             0.0 — 26.0                                                   0, 6, 5, 7, 4
           Curricular.units.1st.sem..credited.      académico    categórica discreta / código      0      0.00        21             0.0 — 20.0                                                   0, 2, 3, 6, 7
           Curricular.units.1st.sem..enrolled.      académico    categórica discreta / código      0      0.00        23     