<a href="https://colab.research.google.com/github/evegat/usm2025-1-dip-ia-edu-v2-evegat/blob/main/Proyecto/04preprocesamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hito 2: Análisis exploratorio del dataset, preprocesamiento y entrenamiento

# **Preprocesamiento**
En este notebook realizamos la transformación y limpieza del dataset antes del modelado. Se revisan duplicados, valores faltantes, tipos de datos, codificación de variables categóricas y normalización de variables numéricas. El resultado final será un conjunto de datos depurado y listo para su análisis predictivo.


In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

# Cargar dataset desde GitHub
url = 'https://github.com/evegat/usm2025-1-dip-ia-edu-v2-evegat/raw/main/Proyecto/01database.csv.gz'
df = pd.read_csv(url, compression='gzip')

print(f" Dataset cargado: {df.shape[0]:,} filas, {df.shape[1]} columnas")


 Dataset cargado: 1,521,923 filas, 17 columnas


## Eliminación de duplicados

Revisamos si hay registros repetidos para garantizar que cada fila represente una observación única.


In [None]:
duplicados = df.duplicated().sum()
print(f"Cantidad de filas duplicadas: {duplicados}")
df.drop_duplicates(inplace=True)


Cantidad de filas duplicadas: 1199510


## Revisión y tratamiento de valores faltantes

Identificamos columnas con datos faltantes y eliminamos las filas incompletas.


In [None]:
print("Valores nulos por columna:")
print(df.isnull().sum())

print("\nPorcentaje de valores nulos:")
print((df.isnull().sum() * 100 / len(df)).round(2))


Valores nulos por columna:
cat_periodo           0
gen_alu               0
rango_edad            0
anio_ing_carr_act     0
tipo_inst_1           0
modalidad             0
jornada               0
region_sede           0
nivel_carrera_1       0
requisito_ingreso     0
valor_matricula      20
valor_arancel        20
acreditada_carr       0
acreditada_inst       0
forma_ingreso         0
AGNO_ORIGEN           0
nomb_carrera          0
dtype: int64

Porcentaje de valores nulos:
cat_periodo          0.00
gen_alu              0.00
rango_edad           0.00
anio_ing_carr_act    0.00
tipo_inst_1          0.00
modalidad            0.00
jornada              0.00
region_sede          0.00
nivel_carrera_1      0.00
requisito_ingreso    0.00
valor_matricula      0.01
valor_arancel        0.01
acreditada_carr      0.00
acreditada_inst      0.00
forma_ingreso        0.00
AGNO_ORIGEN          0.00
nomb_carrera         0.00
dtype: float64


In [None]:
df = df.dropna()
print(f"\n Filas restantes después de eliminar nulos: {df.shape[0]:,}")



 Filas restantes después de eliminar nulos: 322,393


## Codificación de variables categóricas

Las variables categóricas deben ser transformadas en valores numéricos para su uso en modelos predictivos.


In [None]:
# Convertir a texto
df['region_sede'] = df['region_sede'].astype(str)

# Aplicar codificador
le = LabelEncoder()
df['region_sede_cod'] = le.fit_transform(df['region_sede'])

# Mostrar mapeo
print("Codificación de regiones:")
print("\n".join([f"{i}: {cat}" for i, cat in enumerate(le.classes_)]))


Codificación de regiones:
0: Antofagasta
1: Arica y Parinacota
2: Atacama
3: Aysén
4: Biobío
5: Coquimbo
6: La Araucanía
7: Lib. Gral B. O'Higgins
8: Los Lagos
9: Los Ríos
10: Magallanes
11: Maule
12: Metropolitana
13: Tarapacá
14: Valparaíso
15: Ñuble


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['region_sede'] = df['region_sede'].astype(str)


## Revisión de tipos de datos

Nos aseguramos de que cada variable tenga el tipo de dato correcto.


In [None]:
df.dtypes


Unnamed: 0,0
cat_periodo,int64
gen_alu,int64
rango_edad,object
anio_ing_carr_act,int64
tipo_inst_1,object
modalidad,object
jornada,object
region_sede,object
nivel_carrera_1,object
requisito_ingreso,object


## Normalización de variables numéricas

La normalización lleva los valores a un rango comparable, mejorando el rendimiento de modelos sensibles a escalas.


In [None]:
columnas_numericas = ['valor_matricula', 'valor_arancel']
scaler = MinMaxScaler()
df[columnas_numericas] = scaler.fit_transform(df[columnas_numericas])

df[columnas_numericas].describe()


Unnamed: 0,valor_matricula,valor_arancel
count,322393.0,322393.0
mean,0.221838,0.370006
std,0.12325,0.158836
min,0.0,0.0
25%,0.158168,0.256592
50%,0.196412,0.357267
75%,0.261568,0.470386
max,1.0,1.0


## Resultado del preprocesamiento

El dataset ha sido limpiado, codificado y normalizado. Queda disponible como `df` en memoria para continuar el flujo de trabajo en el siguiente notebook.
