# Nuevo An√°lisis de Datos

Este notebook contiene un an√°lisis exploratorio de datos para el proyecto de an√°lisis de desempe√±o estudiantil.

## Objetivos
- Cargar y explorar el dataset
- Realizar an√°lisis descriptivo
- Generar visualizaciones
- Extraer insights relevantes

## Importaci√≥n de Librer√≠as

Importamos las librer√≠as necesarias para el an√°lisis de datos.

In [None]:
# Librer√≠as para manipulaci√≥n de datos
import pandas as pd
import numpy as np

# Librer√≠as para visualizaci√≥n
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go

# Librer√≠as para an√°lisis estad√≠stico
from scipy import stats
from scipy.stats import mannwhitneyu, chi2_contingency

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
%matplotlib inline

# Configuraciones
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
np.random.seed(42)

## Carga de Datos

Cargamos el dataset de desempe√±o estudiantil.

In [None]:
# Cargar el dataset
df = pd.read_csv('raw_student_data.csv', index_col=0)

# Informaci√≥n b√°sica del dataset
print(f"Dimensiones del dataset: {df.shape}")
print(f"Columnas: {df.columns.tolist()}")

# Primeras filas
df.head()

## An√°lisis Exploratorio Inicial

Realizamos un an√°lisis exploratorio b√°sico de los datos.

In [None]:
# Informaci√≥n general del dataset
print("=== INFORMACI√ìN GENERAL ===")
print(df.info())

print("\n=== ESTAD√çSTICAS DESCRIPTIVAS ===")
df.describe()

In [None]:
# An√°lisis de valores nulos
print("=== VALORES NULOS ===")
nulls = df.isnull().sum()
null_percent = (nulls / len(df)) * 100
null_df = pd.DataFrame({
    'Columna': nulls.index,
    'Valores_Nulos': nulls.values,
    'Porcentaje': null_percent.values
})
null_df = null_df[null_df['Valores_Nulos'] > 0].sort_values('Valores_Nulos', ascending=False)
print(null_df)

## An√°lisis de la Variable Objetivo

Analizamos la distribuci√≥n de la variable Target.

In [None]:
# Distribuci√≥n de la variable Target
target_counts = df['Target'].value_counts()
target_props = df['Target'].value_counts(normalize=True) * 100

print("=== DISTRIBUCI√ìN DE TARGET ===")
print(f"Frecuencias:\n{target_counts}")
print(f"\nPorcentajes:\n{target_props.round(2)}")

# Visualizaci√≥n
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(12, 5))

# Gr√°fico de barras
target_counts.plot(kind='bar', ax=ax1, color=['skyblue', 'lightcoral', 'lightgreen'])
ax1.set_title('Distribuci√≥n de Target (Frecuencias)')
ax1.set_ylabel('Frecuencia')
ax1.tick_params(axis='x', rotation=45)

# Gr√°fico de pastel
ax2.pie(target_counts.values, labels=target_counts.index, autopct='%1.1f%%', 
        colors=['skyblue', 'lightcoral', 'lightgreen'])
ax2.set_title('Distribuci√≥n de Target (Porcentajes)')

plt.tight_layout()
plt.show()

## Variables Num√©ricas

An√°lisis de las variables num√©ricas del dataset.

In [None]:
# Identificar variables num√©ricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
print(f"Variables num√©ricas ({len(numeric_cols)}): {numeric_cols}")

# Estad√≠sticas descriptivas extendidas
stats_desc = df[numeric_cols].describe(percentiles=[0.01, 0.05, 0.25, 0.5, 0.75, 0.95, 0.99])
stats_desc

## Correlaciones

An√°lisis de correlaciones entre variables num√©ricas.

In [None]:
# Matrix de correlaciones
correlation_matrix = df[numeric_cols].corr()

# Visualizaci√≥n de la matriz de correlaciones
plt.figure(figsize=(15, 12))
sns.heatmap(correlation_matrix, 
            annot=False, 
            cmap='coolwarm', 
            center=0,
            square=True,
            fmt='.2f')
plt.title('Matriz de Correlaciones - Variables Num√©ricas')
plt.tight_layout()
plt.show()

## An√°lisis Personalizado

Espacio para an√°lisis espec√≠ficos adicionales.

In [None]:
# Aqu√≠ puedes agregar tu an√°lisis personalizado
print("=== AN√ÅLISIS PERSONALIZADO ===")
print("Agrega tu c√≥digo de an√°lisis aqu√≠...")

## Recarga del Dataset

Volvemos a cargar el dataset para an√°lisis adicionales o verificaciones.

In [3]:
# Importar pandas (en caso de que no est√© disponible)
import pandas as pd

# Recarga del dataset para an√°lisis adicionales
print("=== RECARGA DEL DATASET ===")

# Cargar nuevamente el dataset
df_reload = pd.read_csv('raw_student_data.csv', index_col=0)

# Verificar que la carga fue exitosa
print(f"Dataset recargado exitosamente")
print(f"Dimensiones: {df_reload.shape}")
print(f"Memoria utilizada: {df_reload.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# Verificar integridad de los datos
print(f"\nVerificaci√≥n de integridad:")
print(f"- N√∫mero de filas: {len(df_reload)}")
print(f"- N√∫mero de columnas: {len(df_reload.columns)}")
print(f"- Valores nulos totales: {df_reload.isnull().sum().sum()}")

# Mostrar las primeras filas
print(f"\nPrimeras 3 filas del dataset recargado:")
print(df_reload.head(3))

=== RECARGA DEL DATASET ===
Dataset recargado exitosamente
Dimensiones: (4432, 35)
Memoria utilizada: 1.42 MB

Verificaci√≥n de integridad:
- N√∫mero de filas: 4432
- N√∫mero de columnas: 35
- Valores nulos totales: 109

Primeras 3 filas del dataset recargado:
   Marital.status  Application.mode  Application.order  Course  \
1               1                 8                  5       2   
2               1                 6                  1      11   
3               1                 1                  5       5   

   Daytime.evening.attendance  Previous.qualification  Nacionality  \
1                           1                       1            1   
2                           1                       1            1   
3                           1                       1            1   

   Mother.s.qualification  Father.s.qualification  Mother.s.occupation  ...  \
1                      13                      10                    6  ...   
2                       1          

## Descripci√≥n Detallada del Conjunto de Datos

Realizamos una descripci√≥n completa del dataset de desempe√±o estudiantil, analizando sus caracter√≠sticas principales, estructura y contenido.

In [4]:
# Descripci√≥n general del dataset
print("=== DESCRIPCI√ìN GENERAL DEL CONJUNTO DE DATOS ===")
print(f"Nombre del archivo: raw_student_data.csv")
print(f"Tipo de datos: An√°lisis de desempe√±o estudiantil")
print(f"Prop√≥sito: Predicci√≥n de deserci√≥n y √©xito acad√©mico")

print(f"\n=== DIMENSIONES Y ESTRUCTURA ===")
print(f"‚Ä¢ N√∫mero total de registros: {len(df_reload):,}")
print(f"‚Ä¢ N√∫mero total de variables: {len(df_reload.columns)}")
print(f"‚Ä¢ Tama√±o en memoria: {df_reload.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

# An√°lisis de tipos de datos
print(f"\n=== TIPOS DE VARIABLES ===")
numeric_vars = df_reload.select_dtypes(include=['int64', 'float64']).columns
categorical_vars = df_reload.select_dtypes(include=['object']).columns

print(f"‚Ä¢ Variables num√©ricas: {len(numeric_vars)} ({len(numeric_vars)/len(df_reload.columns)*100:.1f}%)")
print(f"‚Ä¢ Variables categ√≥ricas: {len(categorical_vars)} ({len(categorical_vars)/len(df_reload.columns)*100:.1f}%)")

print(f"\n=== VARIABLES NUM√âRICAS ===")
for i, var in enumerate(numeric_vars, 1):
    print(f"{i:2d}. {var}")

print(f"\n=== VARIABLES CATEG√ìRICAS ===")
for i, var in enumerate(categorical_vars, 1):
    print(f"{i:2d}. {var}")
    unique_vals = df_reload[var].nunique()
    print(f"    ‚îî‚îÄ‚îÄ Valores √∫nicos: {unique_vals}")

=== DESCRIPCI√ìN GENERAL DEL CONJUNTO DE DATOS ===
Nombre del archivo: raw_student_data.csv
Tipo de datos: An√°lisis de desempe√±o estudiantil
Prop√≥sito: Predicci√≥n de deserci√≥n y √©xito acad√©mico

=== DIMENSIONES Y ESTRUCTURA ===
‚Ä¢ N√∫mero total de registros: 4,432
‚Ä¢ N√∫mero total de variables: 35
‚Ä¢ Tama√±o en memoria: 1.42 MB

=== TIPOS DE VARIABLES ===
‚Ä¢ Variables num√©ricas: 34 (97.1%)
‚Ä¢ Variables categ√≥ricas: 1 (2.9%)

=== VARIABLES NUM√âRICAS ===
 1. Marital.status
 2. Application.mode
 3. Application.order
 4. Course
 5. Daytime.evening.attendance
 6. Previous.qualification
 7. Nacionality
 8. Mother.s.qualification
 9. Father.s.qualification
10. Mother.s.occupation
11. Father.s.occupation
12. Displaced
13. Educational.special.needs
14. Debtor
15. Tuition.fees.up.to.date
16. Gender
17. Scholarship.holder
18. Age.at.enrollment
19. International
20. Curricular.units.1st.sem..credited.
21. Curricular.units.1st.sem..enrolled.
22. Curricular.units.1st.sem..evaluations.

In [6]:
# An√°lisis de la variable objetivo (Target)
print("=== AN√ÅLISIS DE LA VARIABLE OBJETIVO ===")
target_analysis = df_reload['Target'].value_counts().sort_index()
target_percent = df_reload['Target'].value_counts(normalize=True).sort_index() * 100

print("Variable objetivo: Target")
print("Descripci√≥n: Resultado acad√©mico final del estudiante")
print("\nCategor√≠as y distribuci√≥n:")
for category, count in target_analysis.items():
    if pd.notna(category):
        pct = target_percent[category]
        print(f"‚Ä¢ {category}: {count:,} estudiantes ({pct:.1f}%)")

# Verificar valores nulos en Target
null_target = df_reload['Target'].isnull().sum()
if null_target > 0:
    null_pct = (null_target / len(df_reload)) * 100
    print(f"‚Ä¢ Valores nulos: {null_target:,} registros ({null_pct:.2f}%)")

print(f"\nInterpretaci√≥n:")
print(f"‚Ä¢ Graduate: Estudiantes que completaron exitosamente el programa")
print(f"‚Ä¢ Dropout: Estudiantes que abandonaron sin completar")
print(f"‚Ä¢ Enrolled: Estudiantes actualmente cursando")

# Balance de clases
print(f"\n=== BALANCE DE CLASES ===")
if len(target_analysis) > 1:
    max_class = target_analysis.max()
    min_class = target_analysis.min()
    balance_ratio = min_class / max_class
    print(f"Ratio de balance (min/max): {balance_ratio:.3f}")
    if balance_ratio < 0.5:
        print("‚ö†Ô∏è  Dataset desbalanceado - considerar t√©cnicas de balanceo")
    else:
        print("‚úÖ Dataset relativamente balanceado")

=== AN√ÅLISIS DE LA VARIABLE OBJETIVO ===
Variable objetivo: Target
Descripci√≥n: Resultado acad√©mico final del estudiante

Categor√≠as y distribuci√≥n:
‚Ä¢ Dropout: 1,421 estudiantes (32.9%)
‚Ä¢ Enrolled: 685 estudiantes (15.8%)
‚Ä¢ Graduate: 2,217 estudiantes (51.3%)
‚Ä¢ Valores nulos: 109 registros (2.46%)

Interpretaci√≥n:
‚Ä¢ Graduate: Estudiantes que completaron exitosamente el programa
‚Ä¢ Dropout: Estudiantes que abandonaron sin completar
‚Ä¢ Enrolled: Estudiantes actualmente cursando

=== BALANCE DE CLASES ===
Ratio de balance (min/max): 0.309
‚ö†Ô∏è  Dataset desbalanceado - considerar t√©cnicas de balanceo


In [8]:
# An√°lisis de calidad de datos
print("=== CALIDAD DE LOS DATOS ===")

# Valores nulos por variable
null_analysis = df_reload.isnull().sum()
null_vars = null_analysis[null_analysis > 0].sort_values(ascending=False)

if len(null_vars) > 0:
    print("Variables con valores nulos:")
    for var, count in null_vars.items():
        pct = (count / len(df_reload)) * 100
        print(f"‚Ä¢ {var}: {count:,} ({pct:.2f}%)")
else:
    print("‚úÖ No hay valores nulos en el dataset")

# Valores duplicados
duplicates = df_reload.duplicated().sum()
print(f"\nRegistros duplicados: {duplicates:,}")
if duplicates > 0:
    print("‚ö†Ô∏è  Se detectaron registros duplicados")
else:
    print("‚úÖ No hay registros duplicados")

# Estad√≠sticas b√°sicas de variables num√©ricas
print(f"\n=== RESUMEN ESTAD√çSTICO - VARIABLES NUM√âRICAS ===")
numeric_summary = df_reload.select_dtypes(include=['int64', 'float64']).describe()
print(f"Variables analizadas: {len(numeric_summary.columns)}")
print(f"Estad√≠sticas disponibles: {list(numeric_summary.index)}")

# Mostrar algunas estad√≠sticas clave
print(f"\nRangos de valores (min-max):")
for col in numeric_summary.columns[:5]:  # Mostrar solo las primeras 5
    min_val = numeric_summary.loc['min', col]
    max_val = numeric_summary.loc['max', col]
    print(f"‚Ä¢ {col}: [{min_val:.2f} - {max_val:.2f}]")

=== CALIDAD DE LOS DATOS ===
Variables con valores nulos:
‚Ä¢ Target: 109 (2.46%)

Registros duplicados: 8
‚ö†Ô∏è  Se detectaron registros duplicados

=== RESUMEN ESTAD√çSTICO - VARIABLES NUM√âRICAS ===
Variables analizadas: 34
Estad√≠sticas disponibles: ['count', 'mean', 'std', 'min', '25%', '50%', '75%', 'max']

Rangos de valores (min-max):
‚Ä¢ Marital.status: [1.00 - 6.00]
‚Ä¢ Application.mode: [1.00 - 18.00]
‚Ä¢ Application.order: [0.00 - 9.00]
‚Ä¢ Course: [1.00 - 17.00]
‚Ä¢ Daytime.evening.attendance: [0.00 - 1.00]


In [9]:
# Categorizaci√≥n de variables por dominio
print("=== CATEGORIZACI√ìN POR DOMINIO ===")

# Definir categor√≠as basadas en los nombres de variables
academic_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['grade', 'units', 'curricular', 'sem'])]
demographic_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['age', 'gender', 'marital', 'nationality'])]
administrative_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['tuition', 'debtor', 'scholarship', 'fees'])]
family_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['mother', 'father', 'parent'])]
economic_vars = [col for col in df_reload.columns if any(word in col.lower() for word in ['unemployment', 'inflation', 'gdp'])]
other_vars = [col for col in df_reload.columns if col not in academic_vars + demographic_vars + administrative_vars + family_vars + economic_vars]

print(f"üìö Variables Acad√©micas ({len(academic_vars)}):")
for var in academic_vars[:8]:  # Mostrar solo las primeras 8
    print(f"   ‚Ä¢ {var}")
if len(academic_vars) > 8:
    print(f"   ... y {len(academic_vars) - 8} m√°s")

print(f"\nüë• Variables Demogr√°ficas ({len(demographic_vars)}):")
for var in demographic_vars:
    print(f"   ‚Ä¢ {var}")

print(f"\nüíº Variables Administrativas ({len(administrative_vars)}):")
for var in administrative_vars:
    print(f"   ‚Ä¢ {var}")

print(f"\nüë®‚Äçüë©‚Äçüëß‚Äçüë¶ Variables Familiares ({len(family_vars)}):")
for var in family_vars:
    print(f"   ‚Ä¢ {var}")

print(f"\nüí∞ Variables Econ√≥micas ({len(economic_vars)}):")
for var in economic_vars:
    print(f"   ‚Ä¢ {var}")

if len(other_vars) > 0:
    print(f"\n‚ùì Otras Variables ({len(other_vars)}):")
    for var in other_vars:
        print(f"   ‚Ä¢ {var}")

print(f"\n=== RESUMEN DE CATEGORIZACI√ìN ===")
total_categorized = len(academic_vars) + len(demographic_vars) + len(administrative_vars) + len(family_vars) + len(economic_vars)
print(f"Variables categorizadas: {total_categorized}/{len(df_reload.columns)} ({total_categorized/len(df_reload.columns)*100:.1f}%)")

=== CATEGORIZACI√ìN POR DOMINIO ===
üìö Variables Acad√©micas (12):
   ‚Ä¢ Curricular.units.1st.sem..credited.
   ‚Ä¢ Curricular.units.1st.sem..enrolled.
   ‚Ä¢ Curricular.units.1st.sem..evaluations.
   ‚Ä¢ Curricular.units.1st.sem..approved.
   ‚Ä¢ Curricular.units.1st.sem..grade.
   ‚Ä¢ Curricular.units.1st.sem..without.evaluations.
   ‚Ä¢ Curricular.units.2nd.sem..credited.
   ‚Ä¢ Curricular.units.2nd.sem..enrolled.
   ... y 4 m√°s

üë• Variables Demogr√°ficas (3):
   ‚Ä¢ Marital.status
   ‚Ä¢ Gender
   ‚Ä¢ Age.at.enrollment

üíº Variables Administrativas (3):
   ‚Ä¢ Debtor
   ‚Ä¢ Tuition.fees.up.to.date
   ‚Ä¢ Scholarship.holder

üë®‚Äçüë©‚Äçüëß‚Äçüë¶ Variables Familiares (4):
   ‚Ä¢ Mother.s.qualification
   ‚Ä¢ Father.s.qualification
   ‚Ä¢ Mother.s.occupation
   ‚Ä¢ Father.s.occupation

üí∞ Variables Econ√≥micas (3):
   ‚Ä¢ Unemployment.rate
   ‚Ä¢ Inflation.rate
   ‚Ä¢ GDP

‚ùì Otras Variables (10):
   ‚Ä¢ Application.mode
   ‚Ä¢ Application.order
   ‚Ä¢ Course
   ‚Ä¢ D

## Diccionario de Datos

A continuaci√≥n se genera autom√°ticamente un diccionario de datos para cada una de las variables presentes en `raw_student_data.csv`, incluyendo:
- Tipo pandas y tipo sem√°ntico
- Dominio tem√°tico
- Nulos y porcentaje
- Cardinalidad y rango (si aplica)
- Ejemplos de valores
- Significado (definici√≥n operacional)
- Relevancia anal√≠tica/predictiva

Notas:
1. Las clasificaciones sem√°nticas son heur√≠sticas basadas en nombre, cardinalidad y naturaleza esperada de las variables.
2. Variables con c√≥digos num√©ricos representan categor√≠as codificadas (se sugiere posteriormente mapear a etiquetas descriptivas si se dispone de diccionario externo institucional).
3. Indicadores macroecon√≥micos tienen baja variabilidad intramuestral (solo 9‚Äì10 valores) y podr√≠an aportar poca se√±al predictiva frente a m√©tricas acad√©micas tempranas.
4. Escala de calificaciones asumida 0‚Äì20 (m√°x observado ‚âà18.9); ajustar si la instituci√≥n usa otro sistema.
5. Para cualquier refinamiento manual, editar la estructura `descripciones` en la celda de c√≥digo siguiente.

In [11]:
import pandas as pd
from textwrap import shorten

# Cargar dataset (independiente de ejecuciones previas)
df_dic = pd.read_csv('raw_student_data.csv', index_col=0)

# Metadatos b√°sicos
def base_stats(s: pd.Series):
    d = {
        'tipo_pandas': str(s.dtype),
        'nulls': int(s.isnull().sum()),
        'null_pct': round(float(s.isnull().mean()*100), 2),
        'n_unique': int(s.nunique(dropna=True))
    }
    if pd.api.types.is_numeric_dtype(s):
        if s.notnull().any():
            d['min'] = float(s.min())
            d['max'] = float(s.max())
        else:
            d['min'] = d['max'] = None
    else:
        d['min'] = d['max'] = None
    # ejemplos
    vals = s.dropna().unique()[:5]
    d['ejemplos'] = ', '.join(map(str, vals))
    return d

# Clasificaci√≥n heur√≠stica (coincide con la previa)

def clasificacion(col, s):
    lower = col.lower()
    dominio = 'otros'
    if 'curricular' in lower or 'units' in lower:
        dominio = 'acad√©mico'
    elif any(k in lower for k in ['marital','gender','age','nacionality','nationality']):
        dominio = 'demogr√°fico'
    elif any(k in lower for k in ['mother','father']):
        dominio = 'familiar'
    elif any(k in lower for k in ['unemployment','inflation','gdp']):
        dominio = 'macro'
    elif any(k in lower for k in ['scholarship','tuition','debtor']):
        dominio = 'socioecon√≥mico'
    elif any(k in lower for k in ['displaced','special.needs','international']):
        dominio = 'condici√≥n'
    elif 'target' in lower:
        dominio = 'resultado'
    nun = s.nunique(dropna=True)
    if col == 'Target':
        tipo = 'categ√≥rico nominal (multiclase)'
    elif pd.api.types.is_float_dtype(s):
        tipo = 'cuantitativa continua'
    elif pd.api.types.is_integer_dtype(s):
        if nun == 2:
            tipo = 'categ√≥rica binaria'
        else:
            vals = sorted(s.dropna().unique())
            consecutivo = all(b-a in (0,1) for a,b in zip(vals, vals[1:]))
            if consecutivo and nun < 15:
                tipo = 'ordinal discreta'
            else:
                tipo = 'categ√≥rica discreta / c√≥digo'
    else:
        tipo = 'categ√≥rica nominal'
    return dominio, tipo

# Diccionario manual de significados y relevancia (plantilla editable)
# Para mantener concisi√≥n se proveen explicaciones sint√©ticas; ampliar seg√∫n necesidad institucional.

descripciones = {}

def set_desc(col, significado, relevancia):
    descripciones[col] = {
        'significado': significado.strip(),
        'relevancia': relevancia.strip()
    }

# Ejemplos de definiciones (representativo); completar resto autom√°ticamente si falta
set_desc('Marital.status', 'Estado civil del estudiante al momento de la matr√≠cula (codificado).', 'Puede correlacionar con estabilidad y cargas familiares que influyen en permanencia.')
set_desc('Application.mode', 'Canal o modalidad de postulaci√≥n/ingreso.', 'Algunos modos pueden asociarse a procesos m√°s selectivos y mayor probabilidad de √©xito.')
set_desc('Application.order', 'Orden de preferencia del curso en la candidatura (0 = primera opci√≥n).', 'Preferencia alta (m√°s baja num√©ricamente) puede asociarse a motivaci√≥n intr√≠nseca y menor riesgo de abandono.')
set_desc('Course', 'Programa o curso acad√©mico en que se matricula.', 'Diferentes cursos tienen tasas de retenci√≥n distintas; fuerte predictor categ√≥rico.')
set_desc('Daytime.evening.attendance', 'Indicador si cursa en horario diurno (1) o vespertino (0).', 'Horarios vespertinos pueden asociarse a estudiantes trabajadores con mayor riesgo de abandono.')
set_desc('Previous.qualification', 'Tipo de titulaci√≥n o estudio previo completado.', 'Mayor preparaci√≥n previa puede facilitar adaptaci√≥n y aprobaci√≥n temprana.')
set_desc('Nacionality', 'Nacionalidad del estudiante (codificada).', 'Puede capturar diferencias culturales o administrativas; cuidado con sesgos.')
set_desc('Mother.s.qualification', 'Nivel educativo de la madre.', 'Proxy de capital cultural y apoyo acad√©mico en el hogar.')
set_desc('Father.s.qualification', 'Nivel educativo del padre.', 'Similar a la madre; √∫til combinado para √≠ndice socioeducativo.')
set_desc('Mother.s.occupation', 'Ocupaci√≥n principal de la madre.', 'Indicador socioecon√≥mico complementario.')
set_desc('Father.s.occupation', 'Ocupaci√≥n principal del padre.', 'Refuerza perfil socioecon√≥mico familiar.')
set_desc('Displaced', 'Estudiante desplazado (cambio forzado de residencia).', 'Factor de vulnerabilidad que puede aumentar riesgo de abandono.')
set_desc('Educational.special.needs', 'Necesidades educativas especiales declaradas.', 'Puede requerir apoyos adicionales; asociada a desempe√±o variable.')
set_desc('Debtor', 'Tiene deudas pendientes con la instituci√≥n.', 'Problemas financieros se correlacionan con probabilidad de abandono.')
set_desc('Tuition.fees.up.to.date', 'Pagos de matr√≠cula al d√≠a.', 'Indicador inverso de riesgo financiero inmediato.')
set_desc('Gender', 'G√©nero codificado (0/1).', 'Puede aparecer en patrones pero debe manejarse √©ticamente; evitar discriminaci√≥n.')
set_desc('Scholarship.holder', 'Posee beca.', 'La beca reduce presi√≥n financiera y puede mejorar retenci√≥n.')
set_desc('Age.at.enrollment', 'Edad al momento de la matr√≠cula.', 'Edades at√≠picas (muy altas/bajas) pueden asociarse a trayectorias no tradicionales.')
set_desc('International', 'Estudiante internacional.', 'Adaptaci√≥n cultural/idioma puede afectar retenci√≥n.')
# Vars acad√©micas 1er semestre
set_desc('Curricular.units.1st.sem..credited.', 'N√∫mero de unidades con cr√©ditos asignados en 1er semestre.', 'Refleja carga reconocida; relacionada con progreso.')
set_desc('Curricular.units.1st.sem..enrolled.', 'Unidades matriculadas 1er semestre.', 'Carga acad√©mica inicial; exceso puede aumentar riesgo.')
set_desc('Curricular.units.1st.sem..evaluations.', 'N√∫mero de evaluaciones realizadas 1er semestre.', 'Actividad evaluativa; densidad puede indicar compromiso.')
set_desc('Curricular.units.1st.sem..approved.', 'Unidades aprobadas 1er semestre.', 'Indicador directo de √©xito inicial.')
set_desc('Curricular.units.1st.sem..grade.', 'Promedio de calificaciones 1er semestre.', 'Fuerte predictor temprano de trayectoria y retenci√≥n.')
set_desc('Curricular.units.1st.sem..without.evaluations.', 'Unidades sin evaluaciones cursadas 1er semestre.', 'Ausencia de evaluaciones puede indicar deserci√≥n temprana.')
# Vars acad√©micas 2do semestre
set_desc('Curricular.units.2nd.sem..credited.', 'Cr√©ditos asignados en 2do semestre.', 'Progreso acumulado; compara con 1er semestre.')
set_desc('Curricular.units.2nd.sem..enrolled.', 'Unidades matriculadas 2do semestre.', 'Persistencia en carga acad√©mica; cambios se√±alan ajuste o riesgo.')
set_desc('Curricular.units.2nd.sem..evaluations.', 'Evaluaciones realizadas 2do semestre.', 'Continuidad en participaci√≥n acad√©mica.')
set_desc('Curricular.units.2nd.sem..approved.', 'Unidades aprobadas 2do semestre.', 'Consolida desempe√±o; √∫til para detectar deterioro (H2).')
set_desc('Curricular.units.2nd.sem..grade.', 'Promedio de calificaciones 2do semestre.', 'Comparar con 1er semestre para tendencia de rendimiento.')
set_desc('Curricular.units.2nd.sem..without.evaluations.', 'Unidades sin evaluaciones 2do semestre.', 'Aumento puede anticipar abandono.')
# Macroecon√≥micas
set_desc('Unemployment.rate', 'Tasa de desempleo en el periodo de ingreso.', 'Condici√≥n macro que puede influir en presi√≥n financiera (efecto moderado).')
set_desc('Inflation.rate', 'Tasa de inflaci√≥n del periodo.', 'Inflaci√≥n alta puede afectar capacidad de pago.')
set_desc('GDP', 'Variaci√≥n del PIB (%).', 'Ciclo econ√≥mico general; relevancia marginal frente a variables acad√©micas.')
# Target
set_desc('Target', 'Resultado acad√©mico final (Dropout, Enrolled, Graduate).', 'Variable objetivo (clasificaci√≥n multiclase).')

# Completar faltantes con plantilla gen√©rica
for col in df_dic.columns:
    if col not in descripciones:
        descripciones[col] = {
            'significado': 'Descripci√≥n pendiente (asignar manualmente).',
            'relevancia': 'Relevancia a evaluar.'
        }

rows = []
for col in df_dic.columns:
    s = df_dic[col]
    b = base_stats(s)
    dominio, tipo_sem = clasificacion(col, s)
    desc = descripciones[col]
    rows.append({
        'variable': col,
        'dominio': dominio,
        'tipo_sem√°ntico': tipo_sem,
        **b,
        'rango': None if b['min'] is None else f"{b['min']} ‚Äî {b['max']}",
        'significado': desc['significado'],
        'relevancia': desc['relevancia']
    })

_dict_df = pd.DataFrame(rows)
# Orden por dominio y luego nombre
orden_dom = ['resultado','acad√©mico','demogr√°fico','socioecon√≥mico','familiar','condici√≥n','macro','otros']
_dict_df['dominio'] = pd.Categorical(_dict_df['dominio'], categorias := orden_dom, ordered=True)
_dict_df = _dict_df.sort_values(['dominio','variable']).reset_index(drop=True)

# Mostrar resumen COMPLETO (todas las variables)
display_cols = ['variable','dominio','tipo_sem√°ntico','nulls','null_pct','n_unique','rango','ejemplos']
print('Resumen diccionario (todas las variables):')
print(_dict_df[display_cols].to_string(index=False))

print('\nSignificado y relevancia (todas las variables):')
print(_dict_df[['variable','significado','relevancia']].to_string(index=False))

# Guardar CSV completo
_dict_df.to_csv('data_dictionary.csv', index=False)
print('\nArchivo generado: data_dictionary.csv con', len(_dict_df), 'variables.')

# Vista expandida interactiva (descomentar si se desea en notebook)
# display(_dict_df)


Resumen diccionario (todas las variables):
                                      variable        dominio                  tipo_sem√°ntico  nulls  null_pct  n_unique                  rango                                                        ejemplos
                                        Target      resultado categ√≥rico nominal (multiclase)    109      2.46         3                   None                                     Dropout, Graduate, Enrolled
           Curricular.units.1st.sem..approved.      acad√©mico    categ√≥rica discreta / c√≥digo      0      0.00        23             0.0 ‚Äî 26.0                                                   0, 6, 5, 7, 4
           Curricular.units.1st.sem..credited.      acad√©mico    categ√≥rica discreta / c√≥digo      0      0.00        21             0.0 ‚Äî 20.0                                                   0, 2, 3, 6, 7
           Curricular.units.1st.sem..enrolled.      acad√©mico    categ√≥rica discreta / c√≥digo      0      0.00