# Entrega 2 - Preprocesamiento de Datos

Este notebook corresponde a la segunda entrega del proyecto AI4ENG 2025-1.  
Aquí se realiza el preprocesamiento del archivo `train.csv` descargado desde Kaggle.

Se incluyen las siguientes etapas:

1. Carga del archivo
2. Inspección de la estructura del dataset
3. Imputación de valores faltantes
4. Codificación de variables categóricas
5. Normalización de variables numéricas
6. Exportación del dataset limpio

> ⚠️ **Nota importante:**  
> El archivo `train.csv` fue descargado previamente mediante la API de Kaggle en la entrega 1.  
> En este notebook se carga usando una ruta local específica de mi equipo.  
> Esta ruta debe ser modificada si otra persona desea ejecutar este notebook en su propio entorno.

### 1. Importar librerías

Se importan las librerías necesarias para manipulación y limpieza de los datos.  
`pandas` y `numpy` son esenciales para análisis y transformación, mientras que  
`SimpleImputer` y `StandardScaler` se utilizan para rellenar valores nulos y normalizar datos.

In [1]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

### 2. Cargar los datos originales

Cargamos el archivo `train.csv` proporcionado por la competencia de Kaggle.  
Mostramos las primeras filas del dataset para verificar que se haya cargado correctamente.

In [2]:
df = pd.read_csv(r"C:\Users\edwin\OneDrive\Documentos\IA\Proyecto_IA_2025_1\Archivos_Proyecto\train.csv")
df.head()

Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_TIENELAVADORA,...,ESTU_PRIVADO_LIBERTAD,ESTU_PAGOMATRICULAPROPIO,FAMI_TIENECOMPUTADOR,FAMI_TIENEINTERNET.1,FAMI_EDUCACIONMADRE,RENDIMIENTO_GLOBAL,coef_1,coef_2,coef_3,coef_4
0,904256,20212,ENFERMERIA,BOGOTÁ,Entre 5.5 millones y menos de 7 millones,Menos de 10 horas,Estrato 3,Si,Técnica o tecnológica incompleta,Si,...,N,No,Si,Si,Postgrado,medio-alto,0.322,0.208,0.31,0.267
1,645256,20212,DERECHO,ATLANTICO,Entre 2.5 millones y menos de 4 millones,0,Estrato 3,No,Técnica o tecnológica completa,Si,...,N,No,Si,No,Técnica o tecnológica incompleta,bajo,0.311,0.215,0.292,0.264
2,308367,20203,MERCADEO Y PUBLICIDAD,BOGOTÁ,Entre 2.5 millones y menos de 4 millones,Más de 30 horas,Estrato 3,Si,Secundaria (Bachillerato) completa,Si,...,N,No,No,Si,Secundaria (Bachillerato) completa,bajo,0.297,0.214,0.305,0.264
3,470353,20195,ADMINISTRACION DE EMPRESAS,SANTANDER,Entre 4 millones y menos de 5.5 millones,0,Estrato 4,Si,No sabe,Si,...,N,No,Si,Si,Secundaria (Bachillerato) completa,alto,0.485,0.172,0.252,0.19
4,989032,20212,PSICOLOGIA,ANTIOQUIA,Entre 2.5 millones y menos de 4 millones,Entre 21 y 30 horas,Estrato 3,Si,Primaria completa,Si,...,N,No,Si,Si,Primaria completa,medio-bajo,0.316,0.232,0.285,0.294


### 3. Explorar la estructura del dataset

Utilizamos `.info()` para ver el número de filas y columnas, los tipos de datos y la cantidad de valores no nulos.  
Esto nos permite identificar posibles columnas con problemas de formato o valores faltantes.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 692500 entries, 0 to 692499
Data columns (total 21 columns):
 #   Column                          Non-Null Count   Dtype  
---  ------                          --------------   -----  
 0   ID                              692500 non-null  int64  
 1   PERIODO                         692500 non-null  int64  
 2   ESTU_PRGM_ACADEMICO             692500 non-null  object 
 3   ESTU_PRGM_DEPARTAMENTO          692500 non-null  object 
 4   ESTU_VALORMATRICULAUNIVERSIDAD  686213 non-null  object 
 5   ESTU_HORASSEMANATRABAJA         661643 non-null  object 
 6   FAMI_ESTRATOVIVIENDA            660363 non-null  object 
 7   FAMI_TIENEINTERNET              665871 non-null  object 
 8   FAMI_EDUCACIONPADRE             669322 non-null  object 
 9   FAMI_TIENELAVADORA              652727 non-null  object 
 10  FAMI_TIENEAUTOMOVIL             648877 non-null  object 
 11  ESTU_PRIVADO_LIBERTAD           692500 non-null  object 
 12  ESTU_PAGOMATRICU

### 4. Estadísticas descriptivas

Mostramos estadísticas básicas de todas las columnas, tanto numéricas como categóricas.  
Esto incluye media, desviación estándar, máximos, mínimos, y cantidad de valores únicos.

In [4]:
df.describe(include='all')

Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_TIENELAVADORA,...,ESTU_PRIVADO_LIBERTAD,ESTU_PAGOMATRICULAPROPIO,FAMI_TIENECOMPUTADOR,FAMI_TIENEINTERNET.1,FAMI_EDUCACIONMADRE,RENDIMIENTO_GLOBAL,coef_1,coef_2,coef_3,coef_4
count,692500.0,692500.0,692500,692500,686213,661643,660363,665871,669322,652727,...,692500,686002,654397,665871,668836,692500,692500.0,692500.0,692500.0,692500.0
unique,,,948,31,8,5,7,2,12,2,...,2,2,2,2,12,4,,,,
top,,,DERECHO,BOGOTÁ,Entre 1 millón y menos de 2.5 millones,Más de 30 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Si,...,N,No,Si,Si,Secundaria (Bachillerato) completa,alto,,,,
freq,,,53244,282159,204048,249352,232671,592514,128289,563390,...,692466,382201,597670,592514,141744,175619,,,,
mean,494606.130576,20198.366679,,,,,,,,,...,,,,,,,0.268629,0.259996,0.262087,0.262903
std,285585.209455,10.535037,,,,,,,,,...,,,,,,,0.12213,0.09348,0.058862,0.067944
min,1.0,20183.0,,,,,,,,,...,,,,,,,0.0,0.0,0.0,0.0
25%,247324.75,20195.0,,,,,,,,,...,,,,,,,0.203,0.212,0.254,0.255
50%,494564.5,20195.0,,,,,,,,,...,,,,,,,0.24,0.271,0.276,0.285
75%,741782.5,20203.0,,,,,,,,,...,,,,,,,0.314,0.309,0.293,0.303


### 5. Identificar valores faltantes

Contamos cuántos valores nulos hay en cada columna.  
Este paso es fundamental antes de aplicar cualquier algoritmo de aprendizaje automático.

In [5]:
df.isnull().sum()

ID                                    0
PERIODO                               0
ESTU_PRGM_ACADEMICO                   0
ESTU_PRGM_DEPARTAMENTO                0
ESTU_VALORMATRICULAUNIVERSIDAD     6287
ESTU_HORASSEMANATRABAJA           30857
FAMI_ESTRATOVIVIENDA              32137
FAMI_TIENEINTERNET                26629
FAMI_EDUCACIONPADRE               23178
FAMI_TIENELAVADORA                39773
FAMI_TIENEAUTOMOVIL               43623
ESTU_PRIVADO_LIBERTAD                 0
ESTU_PAGOMATRICULAPROPIO           6498
FAMI_TIENECOMPUTADOR              38103
FAMI_TIENEINTERNET.1              26629
FAMI_EDUCACIONMADRE               23664
RENDIMIENTO_GLOBAL                    0
coef_1                                0
coef_2                                0
coef_3                                0
coef_4                                0
dtype: int64

### 6. Imputar valores faltantes

- Se imputan las columnas numéricas con la **media**.
- Se imputan las columnas categóricas con la **moda** (valor más frecuente).

Así evitamos perder filas completas y mantenemos la integridad del dataset.

In [6]:
num_cols = df.select_dtypes(include=['int64', 'float64']).columns
cat_cols = df.select_dtypes(include=['object']).columns

imputer_num = SimpleImputer(strategy='mean')
df[num_cols] = imputer_num.fit_transform(df[num_cols])

imputer_cat = SimpleImputer(strategy='most_frequent')
df[cat_cols] = imputer_cat.fit_transform(df[cat_cols])

### 7. Codificar variables categóricas

Se aplica **One-Hot Encoding** para convertir variables categóricas en variables binarias.  
Esto permite que los algoritmos de machine learning las procesen correctamente.

In [7]:
df = pd.get_dummies(df, columns=cat_cols, drop_first=True)

### 8. Escalar variables numéricas

Se utiliza `StandardScaler` para normalizar las columnas numéricas.  
Esto mejora el rendimiento de modelos sensibles a escalas diferentes entre variables.

In [8]:
scaler = StandardScaler()
df[num_cols] = scaler.fit_transform(df[num_cols])

### 9. Guardar el archivo preprocesado

Se guarda el nuevo dataset limpio y transformado en un archivo CSV llamado `train_preprocessed.csv`.  
Este archivo se usará en la siguiente entrega para entrenamiento y evaluación de modelos.

In [9]:
df.to_csv("train_preprocessed.csv", index=False)
df

Unnamed: 0,ID,PERIODO,coef_1,coef_2,coef_3,coef_4,ESTU_PRGM_ACADEMICO_ACTIVIDAD FISICA Y DEPORTE,ESTU_PRGM_ACADEMICO_ACUICULTURA,ESTU_PRGM_ACADEMICO_ADMINISTRACION,ESTU_PRGM_ACADEMICO_ADMINISTRACION FINANCIERA,...,FAMI_EDUCACIONMADRE_Postgrado,FAMI_EDUCACIONMADRE_Primaria completa,FAMI_EDUCACIONMADRE_Primaria incompleta,FAMI_EDUCACIONMADRE_Secundaria (Bachillerato) completa,FAMI_EDUCACIONMADRE_Secundaria (Bachillerato) incompleta,FAMI_EDUCACIONMADRE_Técnica o tecnológica completa,FAMI_EDUCACIONMADRE_Técnica o tecnológica incompleta,RENDIMIENTO_GLOBAL_bajo,RENDIMIENTO_GLOBAL_medio-alto,RENDIMIENTO_GLOBAL_medio-bajo
0,1.434424,1.294094,0.437002,-0.556223,0.813978,0.060296,0,0,0,0,...,1,0,0,0,0,0,0,0,1,0
1,0.527513,1.294094,0.346934,-0.481341,0.508180,0.016142,0,0,0,0,...,0,0,0,0,0,0,1,1,0,0
2,-0.652132,0.439801,0.232301,-0.492038,0.729034,0.016142,0,0,0,0,...,0,0,0,1,0,0,0,1,0,0
3,-0.084924,-0.319570,1.771650,-0.941332,-0.171371,-1.072993,0,0,0,0,...,0,0,0,1,0,0,0,0,0,0
4,1.731274,1.294094,0.387874,-0.299484,0.389259,0.457683,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
692495,-1.644029,-0.319570,-0.258980,0.117717,0.151416,0.707890,0,0,0,0,...,0,0,0,0,1,0,0,0,1,0
692496,0.909035,1.294094,0.371498,-0.213904,0.270337,-0.042730,0,0,0,0,...,0,0,0,0,1,0,0,1,0,0
692497,0.033541,-1.458627,0.142233,-0.213904,0.881933,0.354657,0,0,0,0,...,0,0,0,0,1,0,0,0,0,1
692498,1.722828,-0.319570,-1.118722,1.775823,-0.018472,0.958097,0,0,0,0,...,0,1,0,0,0,0,0,1,0,0
