# Preprocesado del Dataset "Predict Academic Dropout and Academic Success"

## Análisis y Preparación de Datos para Regresión Logística

### Contexto del Estudio
Para la primera parte del análisis se emplea un notebook externo puesto que, como se ha mencionado anteriormente, la herramienta no soporta este tipo de trabajo. Esta primera fase es de vital importancia ya que constituye el fundamento sobre el cual se construirá todo el análisis posterior.

### Objetivo del Preprocesado
El presente notebook tiene como objetivo realizar el preprocesado exhaustivo del dataset "Predict Academic Dropout and Academic Success" para preparar los datos de manera óptima para posteriormente preparar los modelos pertinentes. El fin es identificar qué variables tienen mayor peso a la hora de determinar si un estudiante abandona sus estudios, garantizando que los datos estén en el formato, escala y calidad necesarios para obtener resultados confiables.

### Fases del Preprocesado
El proceso de preprocesado comprende las siguientes etapas fundamentales:

1. **Exploración y limpieza inicial**: Identificación de la estructura de datos, detección de valores nulos, inconsistencias y problemas de formato
2. **Transformación de variables categóricas**: Conversión de variables no numéricas a formato numérico mediante técnicas de codificación apropiadas
3. **Escalado y normalización**: Estandarización de variables numéricas para garantizar convergencia óptima del algoritmo
4. **Preparación final**: Estructuración de los datos en formato listo para modelado y exportación

### Dataset
El dataset "Predict Academic Dropout and Academic Success" contiene información sobre estudiantes de educación superior, incluyendo variables demográficas, académicas, socioeconómicas y de rendimiento. Con 4,424 registros registros y 37 variables, este dataset permite analizar múltiples factores que influyen en la decisión de un estudiante abandonar o completar sus estudios.

## 1. Importar Librerías Necesarias

In [1]:
# Librerías para manipulación y análisis de datos
import pandas as pd
import numpy as np

# Librerías para preprocesado y modelado
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split

# Librerías para manejo de archivos y serialización
import pickle
import json
from datetime import datetime

# Configuración de pandas para mejor visualización
pd.set_option('display.max_columns', None)
pd.set_option('display.precision', 3)

## 2. Carga y Exploración Inicial del Dataset

### Fundamento Teórico
La exploración inicial permite comprender la estructura, calidad y características de los datos antes de aplicar transformaciones. Los objetivos principales incluyen:

- **Dimensionalidad**: Identificar número de observaciones y variables
- **Tipos de datos**: Distinguir entre variables numéricas y categóricas  
- **Calidad**: Detectar valores faltantes, duplicados o inconsistentes
- **Variable objetivo**: Analizar la distribución de clases

Esta exploración orienta las decisiones de preprocesado y determina las técnicas más apropiadas para cada variable.

### Implementación

In [2]:
# Cargar el dataset
df = pd.read_csv('data.csv', sep=';')

print("INFORMACIÓN BÁSICA DEL DATASET")
print(f"Dimensiones del dataset: {df.shape}")
print(f"Número de filas: {df.shape[0]}")
print(f"Número de columnas: {df.shape[1]}")
print(f"\nPrimeras 5 filas del dataset:")
df.head()

INFORMACIÓN BÁSICA DEL DATASET
Dimensiones del dataset: (4424, 37)
Número de filas: 4424
Número de columnas: 37

Primeras 5 filas del dataset:


Unnamed: 0,Marital status,Application mode,Application order,Course,Daytime/evening attendance\t,Previous qualification,Previous qualification (grade),Nacionality,Mother's qualification,Father's qualification,Mother's occupation,Father's occupation,Admission grade,Displaced,Educational special needs,Debtor,Tuition fees up to date,Gender,Scholarship holder,Age at enrollment,International,Curricular units 1st sem (credited),Curricular units 1st sem (enrolled),Curricular units 1st sem (evaluations),Curricular units 1st sem (approved),Curricular units 1st sem (grade),Curricular units 1st sem (without evaluations),Curricular units 2nd sem (credited),Curricular units 2nd sem (enrolled),Curricular units 2nd sem (evaluations),Curricular units 2nd sem (approved),Curricular units 2nd sem (grade),Curricular units 2nd sem (without evaluations),Unemployment rate,Inflation rate,GDP,Target
0,1,17,5,171,1,1,122.0,1,19,12,5,9,127.3,1,0,0,1,1,0,20,0,0,0,0,0,0.0,0,0,0,0,0,0.0,0,10.8,1.4,1.74,Dropout
1,1,15,1,9254,1,1,160.0,1,1,3,3,3,142.5,1,0,0,0,1,0,19,0,0,6,6,6,14.0,0,0,6,6,6,13.667,0,13.9,-0.3,0.79,Graduate
2,1,1,5,9070,1,1,122.0,1,37,37,9,9,124.8,1,0,0,0,1,0,19,0,0,6,0,0,0.0,0,0,6,0,0,0.0,0,10.8,1.4,1.74,Dropout
3,1,17,2,9773,1,1,122.0,1,38,37,5,3,119.6,1,0,0,1,0,0,20,0,0,6,8,6,13.429,0,0,6,10,5,12.4,0,9.4,-0.8,-3.12,Graduate
4,2,39,1,8014,0,1,100.0,1,37,38,9,9,141.5,0,0,0,1,0,0,45,0,0,6,9,5,12.333,0,0,6,6,6,13.0,0,13.9,-0.3,0.79,Graduate


In [3]:
# Información detallada sobre los tipos de datos
print("INFORMACIÓN SOBRE TIPOS DE DATOS")
print(df.dtypes)
print(f"\nResumen de tipos de datos:")
print(df.dtypes.value_counts())

# Información general del dataset
print("\nINFORMACIÓN GENERAL")
print(df.info())

# Análisis de la variable objetivo
print("\nANÁLISIS DE LA VARIABLE OBJETIVO (Target)")
print("Distribución de la variable Target:")
print(df['Target'].value_counts())
print(f"\nProporción de cada clase:")
print(df['Target'].value_counts(normalize=True).round(4))

INFORMACIÓN SOBRE TIPOS DE DATOS
Marital status                                      int64
Application mode                                    int64
Application order                                   int64
Course                                              int64
Daytime/evening attendance\t                        int64
Previous qualification                              int64
Previous qualification (grade)                    float64
Nacionality                                         int64
Mother's qualification                              int64
Father's qualification                              int64
Mother's occupation                                 int64
Father's occupation                                 int64
Admission grade                                   float64
Displaced                                           int64
Educational special needs                           int64
Debtor                                              int64
Tuition fees up to date                

## 3. Limpieza de Datos y Verificación de Calidad

### Fundamento Teórico
La limpieza de datos es crítica para el rendimiento del modelo. En esta fase se verifican y corrigen:

**1. Completitud de Datos:**
- Verificación de ausencia de valores nulos
- Confirmación de integridad de todas las observaciones

**2. Calidad de Variables Categóricas:**
- Identificación de valores únicos por variable
- Detección de posibles inconsistencias en categorías

In [4]:
# Verificación de valores nulos
print("VERIFICACIÓN DE COMPLETITUD DE DATOS")
valores_nulos_total = df.isnull().sum().sum()
print(f"Total de valores nulos en el dataset: {valores_nulos_total}")

if valores_nulos_total == 0:
    print("El dataset está completo - no contiene valores nulos")
else:
    valores_nulos = df.isnull().sum()
    print("Valores nulos por columna:")
    print(valores_nulos[valores_nulos > 0])
    
    print(f"\nPorcentaje de valores nulos por columna:")
    porcentaje_nulos = (df.isnull().sum() / len(df)) * 100
    print(porcentaje_nulos[porcentaje_nulos > 0].round(2))

# Verificar duplicados
duplicados = df.duplicated().sum()
print(f"\nFilas duplicadas: {duplicados}")
if duplicados == 0:
    print("✓ No se encontraron filas duplicadas")

# Verificar variables categóricas y posibles inconsistencias
print("\nVERIFICACIÓN DE VARIABLES CATEGÓRICAS")
for col in df.columns:
    if df[col].dtype == 'object':
        valores_unicos = df[col].nunique()
        print(f"\n{col}: {valores_unicos} valores únicos")
        if valores_unicos <= 10:
            print(f"  Valores: {df[col].unique()}")
        else:
            print(f"  Primeros 5 valores: {df[col].unique()[:5]}")

VERIFICACIÓN DE COMPLETITUD DE DATOS
Total de valores nulos en el dataset: 0
El dataset está completo - no contiene valores nulos

Filas duplicadas: 0
✓ No se encontraron filas duplicadas

VERIFICACIÓN DE VARIABLES CATEGÓRICAS

Target: 3 valores únicos
  Valores: ['Dropout' 'Graduate' 'Enrolled']


In [5]:
# Crear variable objetivo binaria
print("=== CREACIÓN DE VARIABLE OBJETIVO BINARIA ===")
print("Variable objetivo original:")
print(df['Target'].value_counts())
print("\nProporción de cada clase:")
print(df['Target'].value_counts(normalize=True).round(3))

# Crear variable binaria: 1 = Dropout, 0 = Graduate+Enrolled
df['Dropout'] = (df['Target'] == 'Dropout').astype(int)
print(f"\nVariable objetivo binaria creada:")
print(df['Dropout'].value_counts())
print(f"Proporción de abandono: {df['Dropout'].mean():.3f}")

# Conservar ambas variables para análisis posterior
print(f"\n✓ Variables objetivo disponibles:")
print(f"  - Target (original): {df['Target'].nunique()} categorías")
print(f"  - Dropout (binaria): Para regresión logística")

=== CREACIÓN DE VARIABLE OBJETIVO BINARIA ===
Variable objetivo original:
Target
Graduate    2209
Dropout     1421
Enrolled     794
Name: count, dtype: int64

Proporción de cada clase:
Target
Graduate    0.499
Dropout     0.321
Enrolled    0.179
Name: proportion, dtype: float64

Variable objetivo binaria creada:
Dropout
0    3003
1    1421
Name: count, dtype: int64
Proporción de abandono: 0.321

✓ Variables objetivo disponibles:
  - Target (original): 3 categorías
  - Dropout (binaria): Para regresión logística


## 4. Codificación de Variables Categóricas

### Fundamento Teórico
Las variables categóricas requieren transformación a formato numérico para ser procesadas por algoritmos de machine learning. La técnica **One-Hot Encoding** es la más apropiada para el modelo de regresión logística del que disponemos en la herramienta.

### One-Hot Encoding
Esta técnica convierte cada categoría en una variable binaria independiente:
- Cada categoría se transforma en una columna con valores 0/1
- `drop_first=True` elimina la primera categoría para evitar multicolinealidad
- Preserva la información sin imponer orden artificial

### Variables Categóricas Identificadas
Se identifican por su naturaleza conceptual:
- **Demográficas**: Estado civil, nacionalidad, género
- **Académicas**: Modo de aplicación, curso, calificaciones parentales  
- **Socioeconómicas**: Ocupaciones, becas, situación financiera

Esta estrategia garantiza interpretabilidad de coeficientes y compatibilidad con regularización.

In [6]:
# Identificar variables categóricas
print("IDENTIFICACIÓN DE VARIABLES CATEGÓRICAS")
variables_categoricas = [
    'Marital status', 'Application mode', 'Course', 'Daytime/evening attendance\t',
    'Previous qualification', 'Nacionality', "Mother's qualification", 
    "Father's qualification", "Mother's occupation", "Father's occupation",
    'Displaced', 'Educational special needs', 'Debtor', 'Tuition fees up to date',
    'Gender', 'Scholarship holder', 'International'
]

variables_categoricas = [var for var in variables_categoricas if var in df.columns]
variables_numericas = [col for col in df.columns if col not in variables_categoricas + ['Target', 'Dropout']]

print(f"Variables categóricas identificadas: {len(variables_categoricas)}")
print(f"Variables numéricas identificadas: {len(variables_numericas)}")

# Aplicar One-Hot Encoding
print("\nAPLICANDO ONE-HOT ENCODING")
df_processed = pd.get_dummies(df, columns=variables_categoricas, drop_first=True, dtype=int)

print(f"Dimensiones después de One-Hot Encoding: {df_processed.shape}")
print(f"Variables creadas: {df_processed.shape[1] - df.shape[1]}")

# Conservar todas las variables (Target, Dropout, y las codificadas)
print("\n")
print(f"  - Variables originales conservadas: Target, Dropout")
print(f"  - Variables categóricas codificadas: {len(variables_categoricas)}")
print(f"  - Variables numéricas: {len(variables_numericas)}")
print(f"  - Total variables: {df_processed.shape[1]}")

IDENTIFICACIÓN DE VARIABLES CATEGÓRICAS
Variables categóricas identificadas: 17
Variables numéricas identificadas: 19

APLICANDO ONE-HOT ENCODING
Dimensiones después de One-Hot Encoding: (4424, 240)
Variables creadas: 202


  - Variables originales conservadas: Target, Dropout
  - Variables categóricas codificadas: 17
  - Variables numéricas: 19
  - Total variables: 240


### Justificación del One-Hot Encoding

#### Fundamentación Metodológica
El One-Hot Encoding es la técnica óptima para variables categóricas nominales en regresión logística por tres aspectos fundamentales:

**1. Preservación de Información:** Las variables categóricas no poseen orden inherente. Esta codificación respeta su naturaleza nominal sin imponer relaciones ordinales artificiales.

**2. Interpretabilidad:** Cada coeficiente dummy representa el efecto diferencial de una categoría específica respecto a la categoría de referencia, permitiendo cuantificar el impacto individual de cada factor.

**3. Compatibilidad Estadística:** Las variables binarias (0/1) facilitan la convergencia del algoritmo de máxima verosimilitud y son compatibles con técnicas de regularización.

El parámetro `drop_first=True` evita multicolinealidad perfecta eliminando una categoría de referencia, garantizando la estabilidad estadística del modelo.

## 5. Escalado y Normalización de Variables Numéricas

### Fundamento Metodológico
Se aplica **StandardScaler** que transforma las variables a media=0 y desviación estándar=1, homogeneizando las escalas sin alterar las distribuciones originales. Las variables binarias (0/1) se preservan sin escalado para mantener su interpretabilidad directa. Esta diferenciación permite que el modelo logístico converja de manera estable y que los coeficientes reflejen la importancia relativa real de cada variable, independientemente de sus escalas originales.

In [7]:
# Identificar variables que necesitan escalado (excluyendo variables binarias)
print("IDENTIFICACIÓN DE VARIABLES PARA ESCALADO")
variables_para_escalar = []
variables_binarias = []

for col in df_processed.columns:
    if col != 'Dropout':  # Excluir variable objetivo
        valores_unicos = df_processed[col].nunique()
        if valores_unicos == 2 and set(df_processed[col].unique()).issubset({0, 1}):
            variables_binarias.append(col)
        elif df_processed[col].dtype in ['int64', 'float64']:
            variables_para_escalar.append(col)

print(f"Variables para escalar: {len(variables_para_escalar)}")
print(f"Variables binarias (no escalar): {len(variables_binarias)}")

# Aplicar StandardScaler
print("\nAPLICANDO STANDARDSCALER")
scaler = StandardScaler()
df_scaled = df_processed.copy()

if variables_para_escalar:
    df_scaled[variables_para_escalar] = scaler.fit_transform(df_processed[variables_para_escalar])
    
    # Verificar el escalado
    print("Verificación del escalado:")
    estadisticas_post = df_scaled[variables_para_escalar].describe()
    print(f"Media promedio: {estadisticas_post.loc['mean'].mean():.6f}")
    print(f"Desviación estándar promedio: {estadisticas_post.loc['std'].mean():.6f}")

print(f"\nRESUMEN DEL ESCALADO")
print(f"Variables escaladas: {len(variables_para_escalar)}")
print(f"Variables binarias preservadas: {len(variables_binarias)}")
print(f"Variable objetivo: 1 (Dropout)")

IDENTIFICACIÓN DE VARIABLES PARA ESCALADO
Variables para escalar: 19
Variables binarias (no escalar): 219

APLICANDO STANDARDSCALER
Verificación del escalado:
Media promedio: -0.000000
Desviación estándar promedio: 1.000113

RESUMEN DEL ESCALADO
Variables escaladas: 19
Variables binarias preservadas: 219
Variable objetivo: 1 (Dropout)
Media promedio: -0.000000
Desviación estándar promedio: 1.000113

RESUMEN DEL ESCALADO
Variables escaladas: 19
Variables binarias preservadas: 219
Variable objetivo: 1 (Dropout)


## 6. Exportar el dataset final

In [8]:
# Exportar dataset completo preprocesado en el mismo formato que el original
nombre_archivo = 'data_preprocesado.csv'
df_scaled.to_csv(nombre_archivo, sep=';', index=False)

print(f"\nataset exportado como: {nombre_archivo}")
print(f"Formato: CSV con separador ';' (mismo que archivo original)")
print(f"Observaciones: {df_scaled.shape[0]}")
print(f"Variables: {df_scaled.shape[1]}")



ataset exportado como: data_preprocesado.csv
Formato: CSV con separador ';' (mismo que archivo original)
Observaciones: 4424
Variables: 240


## 7. Análisis Univariado de Variables Clave

### Fundamento Teórico
El análisis univariado examina la distribución individual de cada variable para comprender sus características estadísticas y su relación con la variable objetivo. Este análisis permite:

- **Identificar patrones**: Detectar tendencias, asimetrías y valores atípicos
- **Evaluar discriminación**: Determinar qué variables muestran diferencias entre grupos
- **Validar transformaciones**: Confirmar que el preprocesado preserva la información relevante

### Variables Seleccionadas
Se analizarán variables representativas de diferentes dimensiones:
- **Demográficas**: Edad al momento de inscripción
- **Académicas**: Nota de admisión, rendimiento semestral
- **Socioeconómicas**: Situación de beca, estado de pago de matrícula
- **Resultado**: Variable objetivo (abandono vs. permanencia)

In [None]:
# Cargar librerías adicionales para visualización
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Configurar estilo de visualización
plt.style.use('seaborn-v0_8')
sns.set_palette("husl")
plt.rcParams['figure.figsize'] = (12, 8)

print("=== ANÁLISIS UNIVARIADO DE VARIABLES DEMOGRÁFICAS ===")
print()

# 1. EDAD AL MOMENTO DE INSCRIPCIÓN
print("1. EDAD AL MOMENTO DE INSCRIPCIÓN")
print("=" * 40)

# Estadísticas descriptivas
edad_stats = df['Age at enrollment'].describe()
print("Estadísticas descriptivas:")
print(edad_stats)
print()

# Análisis por grupo
print("Análisis por grupos:")
edad_por_grupo = df.groupby('Target')['Age at enrollment'].describe()
print(edad_por_grupo)
print()

# Prueba de normalidad
_, p_value_shapiro = stats.shapiro(df['Age at enrollment'].sample(min(5000, len(df))))
print(f"Prueba de normalidad (Shapiro-Wilk): p-value = {p_value_shapiro:.6f}")
if p_value_shapiro < 0.05:
    print("→ La distribución NO es normal (p < 0.05)")
else:
    print("→ La distribución es normal (p ≥ 0.05)")
print()

# Análisis de asimetría y curtosis
skewness = stats.skew(df['Age at enrollment'])
kurtosis = stats.kurtosis(df['Age at enrollment'])
print(f"Asimetría: {skewness:.3f}")
print(f"Curtosis: {kurtosis:.3f}")
print()

## 8. Conclusiones del Preprocesado

### Resumen Ejecutivo
El preprocesado del dataset "Predict Academic Dropout and Academic Success" se completó exitosamente aplicando técnicas rigurosas que garantizan la calidad para regresión logística.

#### Técnicas Aplicadas
**1. Limpieza:** Corrección de formatos y confirmación de ausencia de valores nulos
**2. Variable Objetivo:** Transformación a binaria (Dropout vs No-Dropout) 
**3. Codificación:** One-Hot Encoding para todas las variables categóricas
**4. Escalado:** StandardScaler para variables continuas, preservando binarias

#### Calidad del Dataset Final
- ✅ Ausencia total de valores faltantes
- ✅ Variables en formato numérico apropiado  
- ✅ Variables escaladas correctamente (μ≈0, σ≈1)