# Preprocesado

- Sergio Andres Daza
- Antonia Yepes Quintero

### 1. Cargar librerías

In [62]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
import re

### 2. Cargar los datos

In [63]:
df = pd.read_csv("train.csv")

print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")
df.head()

Filas: 692500, Columnas: 12


Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO,RENDIMIENTO_GLOBAL
0,904256,20212,ENFERMERIA,BOGOTÁ,Entre 5.5 millones y menos de 7 millones,Menos de 10 horas,Estrato 3,Si,Técnica o tecnológica incompleta,Postgrado,No,medio-alto
1,645256,20212,DERECHO,ATLANTICO,Entre 2.5 millones y menos de 4 millones,0,Estrato 3,No,Técnica o tecnológica completa,Técnica o tecnológica incompleta,No,bajo
2,308367,20203,MERCADEO Y PUBLICIDAD,BOGOTÁ,Entre 2.5 millones y menos de 4 millones,Más de 30 horas,Estrato 3,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) completa,No,bajo
3,470353,20195,ADMINISTRACION DE EMPRESAS,SANTANDER,Entre 4 millones y menos de 5.5 millones,0,Estrato 4,Si,No sabe,Secundaria (Bachillerato) completa,No,alto
4,989032,20212,PSICOLOGIA,ANTIOQUIA,Entre 2.5 millones y menos de 4 millones,Entre 21 y 30 horas,Estrato 3,Si,Primaria completa,Primaria completa,No,medio-bajo


### 3. Visualizar información general y estadísticas

In [64]:
print("Información del dataset:")
df.info()

print("\nResumen estadístico:")
display(df.describe(include='all'))

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 692500 entries, 0 to 692499
Data columns (total 12 columns):
 #   Column                          Non-Null Count   Dtype 
---  ------                          --------------   ----- 
 0   ID                              692500 non-null  int64 
 1   PERIODO                         692500 non-null  int64 
 2   ESTU_PRGM_ACADEMICO             692500 non-null  object
 3   ESTU_PRGM_DEPARTAMENTO          692500 non-null  object
 4   ESTU_VALORMATRICULAUNIVERSIDAD  686213 non-null  object
 5   ESTU_HORASSEMANATRABAJA         661643 non-null  object
 6   FAMI_ESTRATOVIVIENDA            660363 non-null  object
 7   FAMI_TIENEINTERNET              665871 non-null  object
 8   FAMI_EDUCACIONPADRE             669322 non-null  object
 9   FAMI_EDUCACIONMADRE             668836 non-null  object
 10  ESTU_PAGOMATRICULAPROPIO        686002 non-null  object
 11  RENDIMIENTO_GLOBAL              692500 non-null  object
dtypes: in

Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO,RENDIMIENTO_GLOBAL
count,692500.0,692500.0,692500,692500,686213,661643,660363,665871,669322,668836,686002,692500
unique,,,948,31,8,5,7,2,12,12,2,4
top,,,DERECHO,BOGOTÁ,Entre 1 millón y menos de 2.5 millones,Más de 30 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) completa,No,alto
freq,,,53244,282159,204048,249352,232671,592514,128289,141744,382201,175619
mean,494606.130576,20198.366679,,,,,,,,,,
std,285585.209455,10.535037,,,,,,,,,,
min,1.0,20183.0,,,,,,,,,,
25%,247324.75,20195.0,,,,,,,,,,
50%,494564.5,20195.0,,,,,,,,,,
75%,741782.5,20203.0,,,,,,,,,,


### 4. Mostrar conteo de valores nulos por columna

In [65]:
print("Valores nulos por columna:")
print(df.isnull().sum())

Valores nulos por columna:
ID                                    0
PERIODO                               0
ESTU_PRGM_ACADEMICO                   0
ESTU_PRGM_DEPARTAMENTO                0
ESTU_VALORMATRICULAUNIVERSIDAD     6287
ESTU_HORASSEMANATRABAJA           30857
FAMI_ESTRATOVIVIENDA              32137
FAMI_TIENEINTERNET                26629
FAMI_EDUCACIONPADRE               23178
FAMI_EDUCACIONMADRE               23664
ESTU_PAGOMATRICULAPROPIO           6498
RENDIMIENTO_GLOBAL                    0
dtype: int64


In [66]:
# Obtener las columnas numéricas y categóricas
numeric_cols = df.select_dtypes(include=[np.number]).columns.tolist()
categorical_cols = df.select_dtypes(include='object').columns.tolist()

### 5. Rellenar valores nulos o NAN

5. Rellenar valores nulos para columnas numéricas con el promedio

In [67]:
for col in numeric_cols:
    n_null = df[col].isnull().sum()
    if n_null > 0:
        mean_value = df[col].mean()
        df[col].fillna(mean_value, inplace=True)
        print(f"Se rellenaron {n_null} valores nulos en la columna '{col}' con el promedio: {mean_value:.2f}")
    else:
        print(f"La columna '{col}' no tiene valores nulos; no se realizó imputación.")

La columna 'ID' no tiene valores nulos; no se realizó imputación.
La columna 'PERIODO' no tiene valores nulos; no se realizó imputación.


5. Rellenar valores nulos en columnas categóricas con la moda (solo si existen nulos)

In [68]:
for col in categorical_cols:
    n_null = df[col].isnull().sum()
    if n_null > 0:
        mode_value = df[col].mode()[0]
        df[col].fillna(mode_value, inplace=True)
        print(f"Se rellenaron {n_null} valores nulos en la columna '{col}' con la moda: {mode_value}")
    else:
        print(f"La columna '{col}' no tiene valores nulos; no se realizó imputación.")

La columna 'ESTU_PRGM_ACADEMICO' no tiene valores nulos; no se realizó imputación.
La columna 'ESTU_PRGM_DEPARTAMENTO' no tiene valores nulos; no se realizó imputación.
Se rellenaron 6287 valores nulos en la columna 'ESTU_VALORMATRICULAUNIVERSIDAD' con la moda: Entre 1 millón y menos de 2.5 millones
Se rellenaron 30857 valores nulos en la columna 'ESTU_HORASSEMANATRABAJA' con la moda: Más de 30 horas
Se rellenaron 32137 valores nulos en la columna 'FAMI_ESTRATOVIVIENDA' con la moda: Estrato 2

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[col].fillna(mode_value, inplace=True)



Se rellenaron 26629 valores nulos en la columna 'FAMI_TIENEINTERNET' con la moda: Si
Se rellenaron 23178 valores nulos en la columna 'FAMI_EDUCACIONPADRE' con la moda: Secundaria (Bachillerato) completa
Se rellenaron 23664 valores nulos en la columna 'FAMI_EDUCACIONMADRE' con la moda: Secundaria (Bachillerato) completa
Se rellenaron 6498 valores nulos en la columna 'ESTU_PAGOMATRICULAPROPIO' con la moda: No
La columna 'RENDIMIENTO_GLOBAL' no tiene valores nulos; no se realizó imputación.


Mostrar la cantidad de valores nulos por columna después de la imputación

In [69]:
print("\nValores nulos por columna (después):")
print(df.isnull().sum())


Valores nulos por columna (después):
ID                                0
PERIODO                           0
ESTU_PRGM_ACADEMICO               0
ESTU_PRGM_DEPARTAMENTO            0
ESTU_VALORMATRICULAUNIVERSIDAD    0
ESTU_HORASSEMANATRABAJA           0
FAMI_ESTRATOVIVIENDA              0
FAMI_TIENEINTERNET                0
FAMI_EDUCACIONPADRE               0
FAMI_EDUCACIONMADRE               0
ESTU_PAGOMATRICULAPROPIO          0
RENDIMIENTO_GLOBAL                0
dtype: int64


### 6. Convertir texto a número la columna RENDIMIENTO_GLOBAL

In [70]:
# Mapeo correcto de texto a valor numérico
mapeo_desempeno = {
    'bajo': 0,
    'medio-bajo': 1,
    'medio-alto': 2,
    'alto': 3
}

# Aplicar el mapeo
df['RENDIMIENTO_GLOBAL'] = df['RENDIMIENTO_GLOBAL'].map(mapeo_desempeno)

# Verifica el resultado
print(df['RENDIMIENTO_GLOBAL'].value_counts())
print(df['RENDIMIENTO_GLOBAL'].dtype)

RENDIMIENTO_GLOBAL
3    175619
0    172987
1    172275
2    171619
Name: count, dtype: int64
int64


### 7. Dejar solo numeros en la columna ESTU_HORASSEMANATRABAJA

In [71]:
def procesar_horas_trabajo(valor):
    if pd.isnull(valor):
        return None
    valor = valor.strip()
    if valor == "0":
        return 0
    elif "Menos de" in valor:
        numeros = re.findall(r'\d+', valor)
        return int(numeros[0])
    elif "Más de" in valor:
        numeros = re.findall(r'\d+', valor)
        return int(numeros[0])
    else:
        numeros = re.findall(r'\d+', valor)
        if len(numeros) == 2:
            return int((int(numeros[0]) + int(numeros[1])) / 2)
        elif len(numeros) == 1:
            return int(numeros[0])
        else:
            return None

df["ESTU_HORASSEMANATRABAJA"] = df["ESTU_HORASSEMANATRABAJA"].apply(procesar_horas_trabajo)
display(df["ESTU_HORASSEMANATRABAJA"].head())

0    10
1     0
2    30
3     0
4    25
Name: ESTU_HORASSEMANATRABAJA, dtype: int64

### 8. Procesar la columna ESTU_VALORMATRICULAUNIVERSIDAD

In [72]:
# Función que devuelve el promedio de los dos valores numéricos extraídos
def extraer_promedio(valor_str):
    numeros = re.findall(r"(\d+\.*\d*)", str(valor_str))
    if len(numeros) >= 2:
        min_val = float(numeros[0])
        max_val = float(numeros[1])
        return (min_val + max_val) / 2
    else:
        return np.nan  # en caso de no encontrar dos valores

# Aplicar la función y sobrescribir la columna original
df['ESTU_VALORMATRICULAUNIVERSIDAD'] = df['ESTU_VALORMATRICULAUNIVERSIDAD'].apply(extraer_promedio)

# Verificar el resultado
print("Columna 'ESTU_VALORMATRICULAUNIVERSIDAD' después de convertir a promedio:")
display(df[['ESTU_VALORMATRICULAUNIVERSIDAD']].head())

Columna 'ESTU_VALORMATRICULAUNIVERSIDAD' después de convertir a promedio:


Unnamed: 0,ESTU_VALORMATRICULAUNIVERSIDAD
0,6.25
1,3.25
2,3.25
3,4.75
4,3.25


### 9. Limpiar FAMI_ESTRATOVIVIENDA para dejar solo el número

In [73]:
# Convertimos a minúsculas, removemos la palabra "estrato" y eliminamos espacios en blanco
df['FAMI_ESTRATOVIVIENDA'] = df['FAMI_ESTRATOVIVIENDA'].str.lower().str.replace('estrato', '').str.strip()
print("Ejemplo de FAMI_ESTRATOVIVIENDA después de limpiar:")
display(df['FAMI_ESTRATOVIVIENDA'].head())

Ejemplo de FAMI_ESTRATOVIVIENDA después de limpiar:


0    3
1    3
2    3
3    4
4    3
Name: FAMI_ESTRATOVIVIENDA, dtype: object

### 10. Tratamiento de variables con valores de "Si" y "No"

In [74]:
# Sobrescribir las columnas originales con sus versiones binarias
df['FAMI_TIENEINTERNET'] = df['FAMI_TIENEINTERNET'].map({'Si': 1, 'No': 0})
df['ESTU_PAGOMATRICULAPROPIO'] = df['ESTU_PAGOMATRICULAPROPIO'].map({'Si': 1, 'No': 0})

# Verificación visual
print("Columnas transformadas a binario:")
display(df[['FAMI_TIENEINTERNET', 'ESTU_PAGOMATRICULAPROPIO']].head())



Columnas transformadas a binario:


Unnamed: 0,FAMI_TIENEINTERNET,ESTU_PAGOMATRICULAPROPIO
0,1,0
1,0,0
2,1,0
3,1,0
4,1,0


### 11. Revision cantidad valores unicos columnas categoricas

In [75]:
# Ver cantidad de valores únicos
num_unicosFM = df["FAMI_EDUCACIONPADRE"].nunique()
print(f"Cantidad estudio padre únicos: {num_unicosFM}")

# Ver lista de valores únicos
print("Estudio padre únicos:")
print(df["FAMI_EDUCACIONPADRE"].unique())

Cantidad estudio padre únicos: 12
Estudio padre únicos:
['Técnica o tecnológica incompleta' 'Técnica o tecnológica completa'
 'Secundaria (Bachillerato) completa' 'No sabe' 'Primaria completa'
 'Educación profesional completa' 'Educación profesional incompleta'
 'Primaria incompleta' 'Postgrado' 'Secundaria (Bachillerato) incompleta'
 'Ninguno' 'No Aplica']


In [76]:
# Ver cantidad de valores únicos
num_unicosFM = df["FAMI_EDUCACIONMADRE"].nunique()
print(f"Cantidad estudio madre únicos: {num_unicosFM}")

# Ver lista de valores únicos
print("Estudio madre únicos:")
print(df["FAMI_EDUCACIONMADRE"].unique())

Cantidad estudio madre únicos: 12
Estudio madre únicos:
['Postgrado' 'Técnica o tecnológica incompleta'
 'Secundaria (Bachillerato) completa' 'Primaria completa'
 'Técnica o tecnológica completa' 'Secundaria (Bachillerato) incompleta'
 'Educación profesional incompleta' 'Educación profesional completa'
 'Primaria incompleta' 'Ninguno' 'No Aplica' 'No sabe']


In [77]:
print("Valor de la variable RENDIMIENTO_GLOBAL (target):")
print(df['RENDIMIENTO_GLOBAL'].value_counts())

Valor de la variable RENDIMIENTO_GLOBAL (target):
RENDIMIENTO_GLOBAL
3    175619
0    172987
1    172275
2    171619
Name: count, dtype: int64


In [78]:
# Ver cantidad de valores únicos
num_unicos = df["ESTU_PRGM_ACADEMICO"].nunique()
print(f"Cantidad de programas únicos: {num_unicos}")

# Ver lista de valores únicos
print("Programas únicos:")
print(df["ESTU_PRGM_ACADEMICO"].unique())

Cantidad de programas únicos: 948
Programas únicos:
['ENFERMERIA' 'DERECHO' 'MERCADEO Y PUBLICIDAD'
 'ADMINISTRACION DE EMPRESAS' 'PSICOLOGIA' 'MEDICINA VETERINARIA'
 'INGENIERIA MECANICA' 'ADMINISTRACIÓN EN SALUD OCUPACIONAL'
 'INGENIERIA INDUSTRIAL' 'ADMINISTRACIÓN FINANCIERA' 'HOTELERIA Y TURISMO'
 'LICENCIATURA EN CIENCIAS SOCIALES' 'LICENCIATURA EN PEDAGOGIA INFANTIL'
 'COMUNICACION SOCIAL' 'CIENCIA POLITICA'
 'PROFESIONAL EN GESTIÓN DE LA SEGURIDAD Y LA SALUD LABORAL'
 'MAESTRO EN MÚSICA' 'INGENIERIA MECATRONICA' 'TRABAJO SOCIAL'
 'LICENCIATURA EN BIOLOGIA Y EDUCACION AMBIENTAL' 'INGENIERIA CIVIL'
 'CONTADURIA PÚBLICA' 'ADMINISTRACION EN SALUD'
 'ADMINISTRACIÓN DE EMPRESAS' 'ESTADISTICA' 'LICENCIATURA EN BIOLOGIA'
 'INGENIERIA AGROINDUSTRIAL' 'ZOOTECNIA' 'COMUNICACION AUDIOVISUAL'
 'LICENCIATURA EN EDUCACION BASICA CON ENFASIS EN HUMANIDADES-INGLES'
 'COMUNICACION SOCIAL  - PERIODISMO' 'SEGURIDAD Y SALUD EN EL TRABAJO'
 'MEDICINA' 'ADMINISTRACION DE LA SEGURIDAD SOCIAL' 'CONTADUR

In [79]:
# Ver cantidad de valores únicos
num_unicos = df["ESTU_PRGM_DEPARTAMENTO"].nunique()
print(f"Cantidad de departamentos únicos: {num_unicos}")

# Ver lista de valores únicos
print("Departamentos únicos:")
print(df["ESTU_PRGM_DEPARTAMENTO"].unique())

Cantidad de departamentos únicos: 31
Departamentos únicos:
['BOGOTÁ' 'ATLANTICO' 'SANTANDER' 'ANTIOQUIA' 'HUILA' 'SUCRE' 'CAQUETA'
 'CUNDINAMARCA' 'BOLIVAR' 'TOLIMA' 'VALLE' 'QUINDIO' 'RISARALDA' 'CORDOBA'
 'META' 'LA GUAJIRA' 'BOYACA' 'NARIÑO' 'CAUCA' 'NORTE SANTANDER' 'CESAR'
 'PUTUMAYO' 'CALDAS' 'MAGDALENA' 'CHOCO' 'CASANARE' 'ARAUCA' 'GUAVIARE'
 'AMAZONAS' 'VAUPES' 'SAN ANDRES']


### 12. Label encoding - orden en columnas FAMI_EDUCACIONMADRE Y PADRE

In [80]:
# Orden según importancia que definiste
orden_educacion = [
    "No aplica",
    "No sabe",
    "Ninguno",
    "Primaria incompleta",
    "Primaria completa",
    "Secundaria (Bachillerato) incompleta",
    "Secundaria (Bachillerato) completa",
    "Técnica o tecnológica incompleta",
    "Técnica o tecnológica completa",
    "Educación profesional incompleta",
    "Educación profesional completa",
    "Postgrado"
]
# Crear diccionario: {'No aplica': 0, 'No sabe': 1, ..., 'Postgrado': 11}
educacion_map = {nivel: idx for idx, nivel in enumerate(orden_educacion)}

# Aplicar a las columnas padre y madre
df["FAMI_EDUCACIONPADRE"] = df["FAMI_EDUCACIONPADRE"].map(educacion_map)
df["FAMI_EDUCACIONMADRE"] = df["FAMI_EDUCACIONMADRE"].map(educacion_map)

display(df["FAMI_EDUCACIONPADRE"].head())
display(df["FAMI_EDUCACIONMADRE"].head())

0    7.0
1    8.0
2    6.0
3    1.0
4    4.0
Name: FAMI_EDUCACIONPADRE, dtype: float64

0    11.0
1     7.0
2     6.0
3     6.0
4     4.0
Name: FAMI_EDUCACIONMADRE, dtype: float64

### 13. ESTU_PRGM_DEPARTAMENTO (31 categorías)

In [81]:
df = pd.get_dummies(df, columns=['ESTU_PRGM_DEPARTAMENTO'], drop_first=True, dtype=int)


### 14. Agrupa todos los programas poco frecuentes como "OTRO" y luego haces One-Hot Encoding.

In [82]:
# Contar frecuencia de cada programa
frecuencias = df['ESTU_PRGM_ACADEMICO'].value_counts()

# Definir umbral mínimo
umbral = 50
programas_comunes = frecuencias[frecuencias > umbral].index

# Reemplazar los programas poco comunes por "OTRO"
df['ESTU_PRGM_ACADEMICO'] = df['ESTU_PRGM_ACADEMICO'].apply(
    lambda x: x if x in programas_comunes else 'OTRO'
)

# One-Hot Encoding con dtype=int para tener 0 y 1
df = pd.get_dummies(df, columns=['ESTU_PRGM_ACADEMICO'], drop_first=True, dtype=int)

# Verificar resultado
print(df.filter(like="ESTU_PRGM_ACADEMICO").head())


   ESTU_PRGM_ACADEMICO_ACTIVIDAD FISICA Y DEPORTE  \
0                                               0   
1                                               0   
2                                               0   
3                                               0   
4                                               0   

   ESTU_PRGM_ACADEMICO_ACUICULTURA  ESTU_PRGM_ACADEMICO_ADMINISTRACION  \
0                                0                                   0   
1                                0                                   0   
2                                0                                   0   
3                                0                                   0   
4                                0                                   0   

   ESTU_PRGM_ACADEMICO_ADMINISTRACION  FINANCIERA  \
0                                               0   
1                                               0   
2                                               0   
3                       

### 15. Reordenar columnas

In [83]:
# Reordenar columnas: todas menos RENDIMIENTO_GLOBAL, luego RENDIMIENTO_GLOBAL
columnas = [col for col in df.columns if col != 'RENDIMIENTO_GLOBAL'] + ['RENDIMIENTO_GLOBAL']
df = df[columnas]

# Verificar
print("Columnas reordenadas:")
print(df.columns.tolist())


Columnas reordenadas:
['ID', 'PERIODO', 'ESTU_VALORMATRICULAUNIVERSIDAD', 'ESTU_HORASSEMANATRABAJA', 'FAMI_ESTRATOVIVIENDA', 'FAMI_TIENEINTERNET', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE', 'ESTU_PAGOMATRICULAPROPIO', 'ESTU_PRGM_DEPARTAMENTO_ANTIOQUIA', 'ESTU_PRGM_DEPARTAMENTO_ARAUCA', 'ESTU_PRGM_DEPARTAMENTO_ATLANTICO', 'ESTU_PRGM_DEPARTAMENTO_BOGOTÁ', 'ESTU_PRGM_DEPARTAMENTO_BOLIVAR', 'ESTU_PRGM_DEPARTAMENTO_BOYACA', 'ESTU_PRGM_DEPARTAMENTO_CALDAS', 'ESTU_PRGM_DEPARTAMENTO_CAQUETA', 'ESTU_PRGM_DEPARTAMENTO_CASANARE', 'ESTU_PRGM_DEPARTAMENTO_CAUCA', 'ESTU_PRGM_DEPARTAMENTO_CESAR', 'ESTU_PRGM_DEPARTAMENTO_CHOCO', 'ESTU_PRGM_DEPARTAMENTO_CORDOBA', 'ESTU_PRGM_DEPARTAMENTO_CUNDINAMARCA', 'ESTU_PRGM_DEPARTAMENTO_GUAVIARE', 'ESTU_PRGM_DEPARTAMENTO_HUILA', 'ESTU_PRGM_DEPARTAMENTO_LA GUAJIRA', 'ESTU_PRGM_DEPARTAMENTO_MAGDALENA', 'ESTU_PRGM_DEPARTAMENTO_META', 'ESTU_PRGM_DEPARTAMENTO_NARIÑO', 'ESTU_PRGM_DEPARTAMENTO_NORTE SANTANDER', 'ESTU_PRGM_DEPARTAMENTO_PUTUMAYO', 'ESTU_PRGM_DEPARTAMENT

In [84]:
df.head()

Unnamed: 0,ID,PERIODO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO,ESTU_PRGM_DEPARTAMENTO_ANTIOQUIA,...,ESTU_PRGM_ACADEMICO_TEOLOGIA,ESTU_PRGM_ACADEMICO_TEOLOGÍA,ESTU_PRGM_ACADEMICO_TERAPIA CARDIORRESPIRATORIA,ESTU_PRGM_ACADEMICO_TERAPIA OCUPACIONAL,ESTU_PRGM_ACADEMICO_TERAPIA RESPIRATORIA,ESTU_PRGM_ACADEMICO_TRABAJO SOCIAL,ESTU_PRGM_ACADEMICO_TRADUCCION INGLES-FRANCES-ESPAÑOL,ESTU_PRGM_ACADEMICO_TURISMO,ESTU_PRGM_ACADEMICO_ZOOTECNIA,RENDIMIENTO_GLOBAL
0,904256,20212,6.25,10,3,1,7.0,11.0,0,0,...,0,0,0,0,0,0,0,0,0,2
1,645256,20212,3.25,0,3,0,8.0,7.0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,308367,20203,3.25,30,3,1,6.0,6.0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,470353,20195,4.75,0,4,1,1.0,6.0,0,0,...,0,0,0,0,0,0,0,0,0,3
4,989032,20212,3.25,25,3,1,4.0,4.0,0,1,...,0,0,0,0,0,0,0,0,0,1


### 16. Dividi PERIODO en año y mes

In [85]:
# 1. Crear copia del DataFrame original
df_model = df.copy()

# 2. Asegurarse de que PERIODO sea string
df_model['PERIODO'] = df_model['PERIODO'].astype(str)

# 3. Extraer AÑO y PERIODO ACADÉMICO
df_model['PERIODO_ANO'] = df_model['PERIODO'].str[:4].astype(int)
df_model['PERIODO_NUM'] = df_model['PERIODO'].str[-1].astype(int)

# 4. Reordenar columnas para dejar RENDIMIENTO_GLOBAL al final
columnas = [col for col in df_model.columns if col != 'RENDIMIENTO_GLOBAL'] + ['RENDIMIENTO_GLOBAL']
df_model = df_model[columnas]

# 5. Verificar resultado
print("Columnas finales del DataFrame listo para el modelo:")
print(df_model.columns.tolist())

# Mostrar las primeras filas
display(df_model.head())


Columnas finales del DataFrame listo para el modelo:
['ID', 'PERIODO', 'ESTU_VALORMATRICULAUNIVERSIDAD', 'ESTU_HORASSEMANATRABAJA', 'FAMI_ESTRATOVIVIENDA', 'FAMI_TIENEINTERNET', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE', 'ESTU_PAGOMATRICULAPROPIO', 'ESTU_PRGM_DEPARTAMENTO_ANTIOQUIA', 'ESTU_PRGM_DEPARTAMENTO_ARAUCA', 'ESTU_PRGM_DEPARTAMENTO_ATLANTICO', 'ESTU_PRGM_DEPARTAMENTO_BOGOTÁ', 'ESTU_PRGM_DEPARTAMENTO_BOLIVAR', 'ESTU_PRGM_DEPARTAMENTO_BOYACA', 'ESTU_PRGM_DEPARTAMENTO_CALDAS', 'ESTU_PRGM_DEPARTAMENTO_CAQUETA', 'ESTU_PRGM_DEPARTAMENTO_CASANARE', 'ESTU_PRGM_DEPARTAMENTO_CAUCA', 'ESTU_PRGM_DEPARTAMENTO_CESAR', 'ESTU_PRGM_DEPARTAMENTO_CHOCO', 'ESTU_PRGM_DEPARTAMENTO_CORDOBA', 'ESTU_PRGM_DEPARTAMENTO_CUNDINAMARCA', 'ESTU_PRGM_DEPARTAMENTO_GUAVIARE', 'ESTU_PRGM_DEPARTAMENTO_HUILA', 'ESTU_PRGM_DEPARTAMENTO_LA GUAJIRA', 'ESTU_PRGM_DEPARTAMENTO_MAGDALENA', 'ESTU_PRGM_DEPARTAMENTO_META', 'ESTU_PRGM_DEPARTAMENTO_NARIÑO', 'ESTU_PRGM_DEPARTAMENTO_NORTE SANTANDER', 'ESTU_PRGM_DEPARTAMENTO_PU

Unnamed: 0,ID,PERIODO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO,ESTU_PRGM_DEPARTAMENTO_ANTIOQUIA,...,ESTU_PRGM_ACADEMICO_TERAPIA CARDIORRESPIRATORIA,ESTU_PRGM_ACADEMICO_TERAPIA OCUPACIONAL,ESTU_PRGM_ACADEMICO_TERAPIA RESPIRATORIA,ESTU_PRGM_ACADEMICO_TRABAJO SOCIAL,ESTU_PRGM_ACADEMICO_TRADUCCION INGLES-FRANCES-ESPAÑOL,ESTU_PRGM_ACADEMICO_TURISMO,ESTU_PRGM_ACADEMICO_ZOOTECNIA,PERIODO_ANO,PERIODO_NUM,RENDIMIENTO_GLOBAL
0,904256,20212,6.25,10,3,1,7.0,11.0,0,0,...,0,0,0,0,0,0,0,2021,2,2
1,645256,20212,3.25,0,3,0,8.0,7.0,0,0,...,0,0,0,0,0,0,0,2021,2,0
2,308367,20203,3.25,30,3,1,6.0,6.0,0,0,...,0,0,0,0,0,0,0,2020,3,0
3,470353,20195,4.75,0,4,1,1.0,6.0,0,0,...,0,0,0,0,0,0,0,2019,5,3
4,989032,20212,3.25,25,3,1,4.0,4.0,0,1,...,0,0,0,0,0,0,0,2021,2,1


### 17. Normalización para el modelo SVM e integrar todo

In [86]:
from sklearn.preprocessing import StandardScaler

# Copia del dataframe para no modificar el original aún
df_scaled = df_model.copy()

# Columnas numéricas a normalizar (puedes ajustar esta lista si es necesario)
columnas_a_normalizar = [
    'ESTU_VALORMATRICULAUNIVERSIDAD',
    'ESTU_HORASSEMANATRABAJA',
    'FAMI_ESTRATOVIVIENDA',
    'FAMI_EDUCACIONPADRE',
    'FAMI_EDUCACIONMADRE',
    'PERIODO_ANO',
    'PERIODO_NUM'
]

# Asegurarse de que todas las columnas estén en tipo numérico (int o float)
for col in columnas_a_normalizar:
    if df_model[col].dtype == 'object':
        # Si es texto (por ejemplo: '3', '4.0'), lo convertimos a numérico
        df_model[col] = df_model[col].apply(lambda x: pd.to_numeric(x, errors='raise'))
    else:
        # Ya es numérica, no hacemos nada
        pass

# Verificar los tipos de datos finales
print("✅ Tipos de datos después de conversión segura:")
print(df_model[columnas_a_normalizar].dtypes)


# Aplicar escalado
scaler = StandardScaler()
df_scaled[columnas_a_normalizar] = scaler.fit_transform(df_scaled[columnas_a_normalizar])

# Revisar resultado
display(df_scaled[columnas_a_normalizar].head())


ValueError: Unable to parse string "sin" at position 0

In [None]:
from sklearn.preprocessing import StandardScaler

# 1. Copia del DataFrame original preprocesado
df_scaled = df_model.copy()

# 2. Columnas a normalizar
columnas_a_normalizar = [
    'ESTU_VALORMATRICULAUNIVERSIDAD',
    'ESTU_HORASSEMANATRABAJA',
    'FAMI_ESTRATOVIVIENDA',
    'FAMI_EDUCACIONPADRE',
    'FAMI_EDUCACIONMADRE',
    'PERIODO_ANO',
    'PERIODO_NUM'
]

# 3. Asegurarse de que esas columnas sean numéricas (ya lo hiciste antes)
for col in columnas_a_normalizar:
    if df_scaled[col].dtype == 'object':
        df_scaled[col] = df_scaled[col].apply(lambda x: pd.to_numeric(x, errors='raise'))

# 4. Escalar columnas seleccionadas
scaler = StandardScaler()
df_scaled[columnas_a_normalizar] = scaler.fit_transform(df_scaled[columnas_a_normalizar])
df_scaled.drop('PERIODO', axis=1, inplace=True)
# 5. Reorganizar columnas para dejar RENDIMIENTO_GLOBAL al final
cols = [col for col in df_scaled.columns if col != 'RENDIMIENTO_GLOBAL'] + ['RENDIMIENTO_GLOBAL']
df_scaled = df_scaled[cols]

# 6. Visualizar
print("🎯 DataFrame final listo para modelar (normalizado y ordenado):")
display(df_scaled.head())


🎯 DataFrame final listo para modelar (normalizado y ordenado):


Unnamed: 0,ID,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO,ESTU_PRGM_DEPARTAMENTO_ANTIOQUIA,ESTU_PRGM_DEPARTAMENTO_ARAUCA,...,ESTU_PRGM_ACADEMICO_TERAPIA CARDIORRESPIRATORIA,ESTU_PRGM_ACADEMICO_TERAPIA OCUPACIONAL,ESTU_PRGM_ACADEMICO_TERAPIA RESPIRATORIA,ESTU_PRGM_ACADEMICO_TRABAJO SOCIAL,ESTU_PRGM_ACADEMICO_TRADUCCION INGLES-FRANCES-ESPAÑOL,ESTU_PRGM_ACADEMICO_TURISMO,ESTU_PRGM_ACADEMICO_ZOOTECNIA,PERIODO_ANO,PERIODO_NUM,RENDIMIENTO_GLOBAL
0,904256,-0.440767,-0.820033,0.450961,1,0.33931,1.800917,0,0,0,...,0,0,0,0,0,0,0,1.347126,-1.156126,2
1,645256,-0.479767,-1.706177,0.450961,0,0.706292,0.232043,0,0,0,...,0,0,0,0,0,0,0,1.347126,-1.156126,0
2,308367,-0.479767,0.952255,0.450961,1,-0.027671,-0.160175,0,0,0,...,0,0,0,0,0,0,0,0.443662,-0.251029,0
3,470353,-0.460267,-1.706177,1.369844,1,-1.862579,-0.160175,0,0,0,...,0,0,0,0,0,0,0,-0.459803,1.559166,3
4,989032,-0.479767,0.509183,0.450961,1,-0.761634,-0.944612,0,1,0,...,0,0,0,0,0,0,0,1.347126,-1.156126,1
