# 02 - preprocesado

En este notebook vamos a realizar el preprocesado de los datos que obtenemos del `train.csv` de la competencia de Kaggle Udea/ai4eng 20252.

Este preprocesado es necesario con el fin de 'normalizar' los distintos datos que existen en el `train.csv` ya sea porque estan en un formato nulo o simplemente para facilitar la posterior creacion del modelo.

### Realizamos importaciones iniciales y cargamos los datos

In [None]:
import pandas as pd
import numpy as np
import os, json
from google.colab import userdata
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline

In [None]:
user = userdata.get('KAGGLE_USERNAME')
key = userdata.get('KAGGLE_KEY')
os.environ["KAGGLE_USERNAME"] = user
os.environ["KAGGLE_KEY"] = key
assert user and key, "Faltan los secretos KAGGLE_USERNAME/KAGGLE_KEY"
!kaggle competitions download -c udea-ai-4-eng-20252-pruebas-saber-pro-colombia
!unzip udea*.zip > /dev/null
!wc *.csv

In [None]:
z = pd.read_csv("train.csv")
z.head(10)

## Limpieza inicial de datos

Inicialmente vamos a revisar que datos nulos tenemos, asi como tambien si existen columnas duplicadas, esto es bastante similar a un proceso que realizamos en la primera exploración.

In [None]:
if "F_TIENEINTERNET.1" in z.columns:
    z = z.drop(columns=["F_TIENEINTERNET.1"])

In [None]:
z.info()
z.describe()
z.isnull().sum()

In [None]:
NA = z.isna().mean().sort_values(ascending=False)
NA.head(30)

Ahora si vamos a manejar los datos nulos, mas sin embargo existen distintas estrategias para combatir estos valores nulos, podemos eliminar las filas con valores nulos, ponerlos aplicar media, mediana etc. mas sin embargo estos manejos pueden influir de buena o mala manera para el entrenamiento del modelo, por lo que mas adelante en la entrega #3 probare como se comporta el modelo al interactuar con las distintas formas de manejar estos valores nulos con el fin de encontrar la más adecuada.

### Eliminacion de filas con valores nulos

In [None]:
z_copy_delet_null = z.copy()
z_copy_delet_null.dropna(subset=["F_TIENEAUTOMOVIL", "F_TIENELAVADORA", "F_TIENECOMPUTADOR", "F_ESTRATOVIVIENDA", "E_HORASSEMANATRABAJA", "F_TIENEINTERNET", "F_EDUCACIONMADRE", "F_EDUCACIONPADRE", "E_PAGOMATRICULAPROPIO", "E_VALORMATRICULAUNIVERSIDAD"], inplace=True)
z_copy_delet_null

In [None]:
print("El número de filas eliminadas es:", len(z) - len(z_copy_delet_null))