<a href="https://colab.research.google.com/github/evegat/usm2025-1-dip-ia-edu-v2-evegat/blob/main/Proyecto/04preprocesamiento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Hito 2: Análisis, preprocesamiento y exploración del dataset


# **Preprocesamiento**
En este notebook realizamos la transformación y limpieza del dataset antes del modelado. Se revisan duplicados, valores faltantes, tipos de datos, codificación de variables categóricas y normalización de variables numéricas. El resultado final será un conjunto de datos depurado y listo para su análisis predictivo.


In [None]:
import pandas as pd
from sklearn.preprocessing import LabelEncoder, MinMaxScaler

# Cargar dataset desde GitHub
url = 'https://github.com/evegat/usm2025-1-dip-ia-edu-v2-evegat/raw/main/Proyecto/01database.csv.gz'
df = pd.read_csv(url, compression='gzip')

print(f" Dataset cargado: {df.shape[0]:,} filas, {df.shape[1]} columnas")


## Eliminación de duplicados

Revisamos si hay registros repetidos para garantizar que cada fila represente una observación única.


In [None]:
duplicados = df.duplicated().sum()
print(f"Cantidad de filas duplicadas: {duplicados}")
df.drop_duplicates(inplace=True)


## Revisión y tratamiento de valores faltantes

Identificamos columnas con datos faltantes y eliminamos las filas incompletas.


In [None]:
print("Valores nulos por columna:")
print(df.isnull().sum())

print("\nPorcentaje de valores nulos:")
print((df.isnull().sum() * 100 / len(df)).round(2))


In [None]:
df = df.dropna()
print(f"\n Filas restantes después de eliminar nulos: {df.shape[0]:,}")


## Codificación de variables categóricas

Las variables categóricas deben ser transformadas en valores numéricos para su uso en modelos predictivos.


In [None]:
# Convertir a texto
df['region_sede'] = df['region_sede'].astype(str)

# Aplicar codificador
le = LabelEncoder()
df['region_sede_cod'] = le.fit_transform(df['region_sede'])

# Mostrar mapeo
print("Codificación de regiones:")
print("\n".join([f"{i}: {cat}" for i, cat in enumerate(le.classes_)]))


## Revisión de tipos de datos

Nos aseguramos de que cada variable tenga el tipo de dato correcto.


In [None]:
df.dtypes


## Normalización de variables numéricas

La normalización lleva los valores a un rango comparable, mejorando el rendimiento de modelos sensibles a escalas.


In [None]:
columnas_numericas = ['valor_matricula', 'valor_arancel']
scaler = MinMaxScaler()
df[columnas_numericas] = scaler.fit_transform(df[columnas_numericas])

df[columnas_numericas].describe()


## Resultado del preprocesamiento

El dataset ha sido limpiado, codificado y normalizado. Queda disponible como `df` en memoria para continuar el flujo de trabajo en el siguiente notebook.
