In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

sns.set()

# Cargar datos
datos = pd.read_csv("train.csv")

# Vista general del dataframe
# Mostrar las primeras filas del DataFrame
print("Primeras filas del conjunto de datos:")
print(datos.head())

# Contar cuántos estudiantes hay por programa académico
print("Cantidad de estudiantes por programa académico:")
print(datos['ESTU_PRGM_ACADEMICO'].value_counts())

# Contar cuántos estudiantes hay por departamento 
print("Cantidad de estudiantes por departamento:")
print(datos['ESTU_PRGM_DEPARTAMENTO'].value_counts())

# Verificar la cantidad de valores nulos en cada columna
print("Cantidad de valores nulos por columna:")
print(datos.isnull().sum())

  from pandas.core import (


Primeras filas del conjunto de datos:
       ID  PERIODO         ESTU_PRGM_ACADEMICO ESTU_PRGM_DEPARTAMENTO  \
0  904256    20212                  ENFERMERIA                 BOGOTÁ   
1  645256    20212                     DERECHO              ATLANTICO   
2  308367    20203       MERCADEO Y PUBLICIDAD                 BOGOTÁ   
3  470353    20195  ADMINISTRACION DE EMPRESAS              SANTANDER   
4  989032    20212                  PSICOLOGIA              ANTIOQUIA   

             ESTU_VALORMATRICULAUNIVERSIDAD ESTU_HORASSEMANATRABAJA  \
0  Entre 5.5 millones y menos de 7 millones       Menos de 10 horas   
1  Entre 2.5 millones y menos de 4 millones                       0   
2  Entre 2.5 millones y menos de 4 millones         Más de 30 horas   
3  Entre 4 millones y menos de 5.5 millones                       0   
4  Entre 2.5 millones y menos de 4 millones     Entre 21 y 30 horas   

  FAMI_ESTRATOVIVIENDA FAMI_TIENEINTERNET                 FAMI_EDUCACIONPADRE  \
0            Es

In [2]:
# Tipos de datos por columna

for c in datos.columns:
    print(f"{c:30} {datos[c].dtype}")


ID                             int64
PERIODO                        int64
ESTU_PRGM_ACADEMICO            object
ESTU_PRGM_DEPARTAMENTO         object
ESTU_VALORMATRICULAUNIVERSIDAD object
ESTU_HORASSEMANATRABAJA        object
FAMI_ESTRATOVIVIENDA           object
FAMI_TIENEINTERNET             object
FAMI_EDUCACIONPADRE            object
FAMI_TIENELAVADORA             object
FAMI_TIENEAUTOMOVIL            object
ESTU_PRIVADO_LIBERTAD          object
ESTU_PAGOMATRICULAPROPIO       object
FAMI_TIENECOMPUTADOR           object
FAMI_TIENEINTERNET.1           object
FAMI_EDUCACIONMADRE            object
RENDIMIENTO_GLOBAL             object
coef_1                         float64
coef_2                         float64
coef_3                         float64
coef_4                         float64


In [3]:
# Conteo de valores faltantes
# Verificar la cantidad de valores nulos en cada columna

print("Cantidad de valores nulos por columna:")
missing = datos.isna().sum()
missing[missing > 0].sort_values(ascending=False)

Cantidad de valores nulos por columna:


FAMI_TIENEAUTOMOVIL               43623
FAMI_TIENELAVADORA                39773
FAMI_TIENECOMPUTADOR              38103
FAMI_ESTRATOVIVIENDA              32137
ESTU_HORASSEMANATRABAJA           30857
FAMI_TIENEINTERNET                26629
FAMI_TIENEINTERNET.1              26629
FAMI_EDUCACIONMADRE               23664
FAMI_EDUCACIONPADRE               23178
ESTU_PAGOMATRICULAPROPIO           6498
ESTU_VALORMATRICULAUNIVERSIDAD     6287
dtype: int64

In [4]:
# Obtener solo columnas categóricas
cat_cols = [col for col in datos.columns if datos[col].dtype == 'object']
print(cat_cols)

# Valores únicos por cada columna categórica
for col in cat_cols:
    print(f"{col:20}", np.unique(datos[col].dropna()))

['ESTU_PRGM_ACADEMICO', 'ESTU_PRGM_DEPARTAMENTO', 'ESTU_VALORMATRICULAUNIVERSIDAD', 'ESTU_HORASSEMANATRABAJA', 'FAMI_ESTRATOVIVIENDA', 'FAMI_TIENEINTERNET', 'FAMI_EDUCACIONPADRE', 'FAMI_TIENELAVADORA', 'FAMI_TIENEAUTOMOVIL', 'ESTU_PRIVADO_LIBERTAD', 'ESTU_PAGOMATRICULAPROPIO', 'FAMI_TIENECOMPUTADOR', 'FAMI_TIENEINTERNET.1', 'FAMI_EDUCACIONMADRE', 'RENDIMIENTO_GLOBAL']
ESTU_PRGM_ACADEMICO  ['3°  CICLO PROFESIONAL NEGOCIOS INTERNACIONALES'
 'ACTIVIDAD FISICA Y DEPORTE' 'ACUICULTURA' 'ADMINISTRACION'
 'ADMINISTRACION  FINANCIERA' 'ADMINISTRACION & SERVICIO'
 'ADMINISTRACION AERONAUTICA' 'ADMINISTRACION AGROPECUARIA'
 'ADMINISTRACION AMBIENTAL'
 'ADMINISTRACION AMBIENTAL Y DE LOS RECURSOS NATURALES'
 'ADMINISTRACION BANCARIA Y FINANCIERA' 'ADMINISTRACION COMERCIAL'
 'ADMINISTRACION COMERCIAL Y DE MERCADEO'
 'ADMINISTRACION DE COMERCIO EXTERIOR' 'ADMINISTRACION DE EMPRESAS'
 'ADMINISTRACION DE EMPRESAS  Y  GESTION AMBIENTAL'
 'ADMINISTRACION DE EMPRESAS AGROINDUSTRIALES'
 'ADMINISTRACION DE

ESTU_PRGM_DEPARTAMENTO ['AMAZONAS' 'ANTIOQUIA' 'ARAUCA' 'ATLANTICO' 'BOGOTÁ' 'BOLIVAR' 'BOYACA'
 'CALDAS' 'CAQUETA' 'CASANARE' 'CAUCA' 'CESAR' 'CHOCO' 'CORDOBA'
 'CUNDINAMARCA' 'GUAVIARE' 'HUILA' 'LA GUAJIRA' 'MAGDALENA' 'META'
 'NARIÑO' 'NORTE SANTANDER' 'PUTUMAYO' 'QUINDIO' 'RISARALDA' 'SAN ANDRES'
 'SANTANDER' 'SUCRE' 'TOLIMA' 'VALLE' 'VAUPES']
ESTU_VALORMATRICULAUNIVERSIDAD ['Entre 1 millón y menos de 2.5 millones'
 'Entre 2.5 millones y menos de 4 millones'
 'Entre 4 millones y menos de 5.5 millones'
 'Entre 5.5 millones y menos de 7 millones'
 'Entre 500 mil y menos de 1 millón' 'Menos de 500 mil'
 'Más de 7 millones' 'No pagó matrícula']
ESTU_HORASSEMANATRABAJA ['0' 'Entre 11 y 20 horas' 'Entre 21 y 30 horas' 'Menos de 10 horas'
 'Más de 30 horas']
FAMI_ESTRATOVIVIENDA ['Estrato 1' 'Estrato 2' 'Estrato 3' 'Estrato 4' 'Estrato 5' 'Estrato 6'
 'Sin Estrato']
FAMI_TIENEINTERNET   ['No' 'Si']
FAMI_EDUCACIONPADRE  ['Educación profesional completa' 'Educación profesional incompleta'
 

In [5]:
# Imputar con la media en columnas numéricas
num_cols = datos.select_dtypes(include=['int64', 'float64']).columns
for col in num_cols:
    if datos[col].isna().sum() > 0:
        datos[col] = datos[col].fillna(datos[col].mean())

In [6]:
# Imputar con 'missing' en columnas categóricas
for col in cat_cols:
    if datos[col].isna().sum() > 0:
        datos[col] = datos[col].fillna('missing')

In [7]:
# Convertimos variables categóricas en dummies (una columna por categoría)
datos = pd.get_dummies(datos, columns=cat_cols)

In [8]:
# Normalización de variables numéricas
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
datos[num_cols] = scaler.fit_transform(datos[num_cols])