<a href="https://colab.research.google.com/github/sren97/Proyecto-Modelos/blob/main/02%20-%20preprocesado.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import seaborn as sns
import numpy as np
import matplotlib.pyplot as plt
import os

# **Interacción con los Archivos**

## **Descargar archivos CSV**

Con este código se descargan los archivos directamente desde la plataforma Kaggle mediante la API

In [None]:
os.environ['KAGGLE_CONFIG_DIR'] = '.'
!chmod 600 ./kaggle.json
!kaggle competitions download -c udea-ai4eng-20242

Downloading udea-ai4eng-20242.zip to /content
  0% 0.00/20.1M [00:00<?, ?B/s]
100% 20.1M/20.1M [00:00<00:00, 212MB/s]


## **Descomprimir los archivos**

In [None]:
!unzip udea*.zip > /dev/null

In [None]:
!wc *.csv

   296787    296787   4716673 submission_example.csv
   296787   4565553  50135751 test.csv
   692501  10666231 118025055 train.csv
  1286075  15528571 172877479 total


#**Cargar archivos como Dataframes**

In [None]:
train_df = pd.read_csv('train.csv')
test_df = pd.read_csv('test.csv')
auxiliar_df = train_df.copy()

# **Limpieza de Datos**


In [None]:
train_df.columns

Index(['ID', 'PERIODO', 'ESTU_PRGM_ACADEMICO', 'ESTU_PRGM_DEPARTAMENTO',
       'ESTU_VALORMATRICULAUNIVERSIDAD', 'ESTU_HORASSEMANATRABAJA',
       'FAMI_ESTRATOVIVIENDA', 'FAMI_TIENEINTERNET', 'FAMI_EDUCACIONPADRE',
       'FAMI_EDUCACIONMADRE', 'ESTU_PAGOMATRICULAPROPIO',
       'RENDIMIENTO_GLOBAL'],
      dtype='object')

In [None]:
train_df

Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO,RENDIMIENTO_GLOBAL
0,904256,20212,ENFERMERIA,BOGOTÁ,Entre 5.5 millones y menos de 7 millones,Menos de 10 horas,Estrato 3,Si,Técnica o tecnológica incompleta,Postgrado,No,medio-alto
1,645256,20212,DERECHO,ATLANTICO,Entre 2.5 millones y menos de 4 millones,0,Estrato 3,No,Técnica o tecnológica completa,Técnica o tecnológica incompleta,No,bajo
2,308367,20203,MERCADEO Y PUBLICIDAD,BOGOTÁ,Entre 2.5 millones y menos de 4 millones,Más de 30 horas,Estrato 3,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) completa,No,bajo
3,470353,20195,ADMINISTRACION DE EMPRESAS,SANTANDER,Entre 4 millones y menos de 5.5 millones,0,Estrato 4,Si,No sabe,Secundaria (Bachillerato) completa,No,alto
4,989032,20212,PSICOLOGIA,ANTIOQUIA,Entre 2.5 millones y menos de 4 millones,Entre 21 y 30 horas,Estrato 3,Si,Primaria completa,Primaria completa,No,medio-bajo
...,...,...,...,...,...,...,...,...,...,...,...,...
692495,25096,20195,BIOLOGIA,LA GUAJIRA,Entre 500 mil y menos de 1 millón,Entre 11 y 20 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) incompleta,Si,medio-alto
692496,754213,20212,PSICOLOGIA,NORTE SANTANDER,Entre 2.5 millones y menos de 4 millones,Más de 30 horas,Estrato 3,Si,Primaria incompleta,Secundaria (Bachillerato) incompleta,No,bajo
692497,504185,20183,ADMINISTRACIÓN EN SALUD OCUPACIONAL,BOGOTÁ,Entre 1 millón y menos de 2.5 millones,Menos de 10 horas,Estrato 3,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) incompleta,Si,medio-bajo
692498,986620,20195,PSICOLOGIA,TOLIMA,Entre 2.5 millones y menos de 4 millones,Menos de 10 horas,Estrato 1,No,Primaria completa,Primaria completa,Si,bajo


## **Funciones de Limpieza**

In [None]:
train_df.isnull().sum()

Unnamed: 0,0
ID,0
PERIODO,0
ESTU_PRGM_ACADEMICO,0
ESTU_PRGM_DEPARTAMENTO,0
ESTU_VALORMATRICULAUNIVERSIDAD,6287
ESTU_HORASSEMANATRABAJA,30857
FAMI_ESTRATOVIVIENDA,32137
FAMI_TIENEINTERNET,26629
FAMI_EDUCACIONPADRE,23178
FAMI_EDUCACIONMADRE,23664


### **Rendimiento Global**

In [None]:
def rendimientoglobal(df):
  map_dict = {
    "alto":3,
    "medio-alto":2,
    "medio-bajo":1,
    "bajo": 0
  }
  df['RENDIMIENTO_GLOBAL'] = df['RENDIMIENTO_GLOBAL'].map(map_dict)

### **Rendimiento Global Reverso**

In [None]:
def rendimientoglobalreverse(df):
  df['RENDIMIENTO_GLOBAL'] = df['RENDIMIENTO_GLOBAL'].round().astype(int)
  map_dict = {
    3:"alto",
    2:"medio-alto",
    1:"medio-bajo",
    0:"bajo"
  }
  df['RENDIMIENTO_GLOBAL'] = df['RENDIMIENTO_GLOBAL'].map(map_dict)

### **Estrato**

In [None]:
def estrato(df):
  map_dict = {
    'Estrato 1': 1,
    'Estrato 2': 2,
    'Estrato 3': 3,
    'Estrato 4': 4,
    'Estrato 5': 5,
    'Estrato 6': 6,
    'Sin Estrato': 0
  }
  df['FAMI_ESTRATOVIVIENDA'] = df['FAMI_ESTRATOVIVIENDA'].map(map_dict)
  moda = df['FAMI_ESTRATOVIVIENDA'].mode()[0]


  def generar_valores(row):
      if pd.isna(row):
          return moda
      return row
  df['FAMI_ESTRATOVIVIENDA'] = df['FAMI_ESTRATOVIVIENDA'].apply(generar_valores)


### **Internet**

In [None]:
import random
def internet(df):
  map_dict = {
    'Si': 1,
    'No': 0,
  }
  df['FAMI_TIENEINTERNET'] = df['FAMI_TIENEINTERNET'].map(map_dict)
  percent=np.round(df['FAMI_TIENEINTERNET'].mean(),4)

  def assign_value(row):
    est_value=row['FAMI_ESTRATOVIVIENDA']
    if pd.isnull(row['FAMI_TIENEINTERNET']):
        if est_value > 2:
            return 1
        elif np.round(random.random(),4) <=  percent:
            return 1
        else:
            return 0
    else:
        return row['FAMI_TIENEINTERNET']

  df['FAMI_TIENEINTERNET'] = df.apply(assign_value, axis=1)

### **Matricula Propia**

In [None]:
def matriculapropia(df):

    res_mean = auxiliar_df.groupby('ESTU_PAGOMATRICULAPROPIO')["RENDIMIENTO_GLOBAL"].mean()

    df['ESTU_PAGOMATRICULAPROPIO'] = df['ESTU_PAGOMATRICULAPROPIO'].map(res_mean)

    moda = df['ESTU_PAGOMATRICULAPROPIO'].mode()[0]
    def generar_valores(row):
        if pd.isna(row):
            return moda
        return row

    df['ESTU_PAGOMATRICULAPROPIO'] = df['ESTU_PAGOMATRICULAPROPIO'].apply(generar_valores)


### **Horas que Trabaja**

In [None]:
def horassemanatrabaja(df):
  map_dict = {
    '0': 0,
    'Entre 11 y 20 horas': 2,
    'Entre 21 y 30 horas': 3,
    'Menos de 10 horas': 1,
    'Más de 30 horas': 4
  }
  df['ESTU_HORASSEMANATRABAJA'] = df['ESTU_HORASSEMANATRABAJA'].map(map_dict)
  moda = df['ESTU_HORASSEMANATRABAJA'].mode()[0]

  def generar_valores(row):
      if pd.isna(row):
          return moda
      return row

  df['ESTU_HORASSEMANATRABAJA'] = df['ESTU_HORASSEMANATRABAJA'].apply(generar_valores)

### **Valor de la Matricula**

In [None]:
def valormatriculauniversidad(df):
  map_dict = {
    'Entre 1 millón y menos de 2.5 millones': 3,
    'Entre 2.5 millones y menos de 4 millones': 4,
    'Entre 4 millones y menos de 5.5 millones': 5,
    'Entre 5.5 millones y menos de 7 millones': 6,
    'Entre 500 mil y menos de 1 millón': 2,
    'Menos de 500 mil': 1,
    'Más de 7 millones': 7,
    'No pagó matrícula': 0
  }
  df['ESTU_VALORMATRICULAUNIVERSIDAD'] = df['ESTU_VALORMATRICULAUNIVERSIDAD'].map(map_dict)
  moda = df['ESTU_VALORMATRICULAUNIVERSIDAD'].mode()[0]
  def generar_valores(row):
      if pd.isna(row):
          return moda
      return row

  df['ESTU_VALORMATRICULAUNIVERSIDAD'] = df['ESTU_VALORMATRICULAUNIVERSIDAD'].apply(generar_valores)

### **Educación de Padre**

In [None]:
def educacionpadre(df):
  map_dict = {
    'No Aplica': 0,
    'Ninguno': 1,
    'No sabe': 2,
    'Primaria incompleta': 4,
    'Secundaria (Bachillerato) incompleta': 5,
    'Secundaria (Bachillerato) completa': 6,
    'Técnica o tecnológica incompleta': 7,
    'Técnica o tecnológica completa': 8,
    'Educación profesional incompleta': 9,
    'Educación profesional completa': 10,
    'Postgrado': 11
    }

  df['FAMI_EDUCACIONPADRE'] = df['FAMI_EDUCACIONPADRE'].map(map_dict)
  moda = df['FAMI_EDUCACIONPADRE'].mode()[0]

  def generar_valores(row):
      if pd.isna(row):
          return moda
      return row

  df['FAMI_EDUCACIONPADRE'] = df['FAMI_EDUCACIONPADRE'].apply(generar_valores)


### **Educación de Madre**

In [None]:
def educacionmadre(df):
  map_dict = {
    'No Aplica': 0,
    'Ninguno': 1,
    'No sabe': 2,
    'Primaria incompleta': 4,
    'Secundaria (Bachillerato) incompleta': 5,
    'Secundaria (Bachillerato) completa': 6,
    'Técnica o tecnológica incompleta': 7,
    'Técnica o tecnológica completa': 8,
    'Educación profesional incompleta': 9,
    'Educación profesional completa': 10,
    'Postgrado': 11
    }

  df['FAMI_EDUCACIONMADRE'] = df['FAMI_EDUCACIONMADRE'].map(map_dict)
  moda = df['FAMI_EDUCACIONMADRE'].mode()[0]
  def generar_valores(row):
      if pd.isna(row):
          return moda
      return row

    # Aplicar la función para sustituir los valores nulos con una distribución normal equivalente
  df['FAMI_EDUCACIONMADRE'] = df['FAMI_EDUCACIONMADRE'].apply(generar_valores)

### **Periodo**

In [None]:
def periodo(df):
    df['PERIODO'] = df['PERIODO'].astype(int)

    df = pd.get_dummies(df, columns=['PERIODO'], prefix='PERIODO', drop_first=False,dtype=int)

    return df

### **Departamento**

In [None]:
def departamento(df):

    res_mean = auxiliar_df.groupby('ESTU_PRGM_DEPARTAMENTO')["RENDIMIENTO_GLOBAL"].mean()

    df['ESTU_PRGM_DEPARTAMENTO'] = df['ESTU_PRGM_DEPARTAMENTO'].map(res_mean)



### **Programa Acádemico**

In [None]:
def programaacademico(df):

    res_mean = auxiliar_df.groupby('ESTU_PRGM_ACADEMICO')["RENDIMIENTO_GLOBAL"].mean()

    df['ESTU_PRGM_ACADEMICO'] = df['ESTU_PRGM_ACADEMICO'].map(res_mean)



## **Limpieza Total**

In [None]:
def limpiar_df(df, predict=False, test=False):
  if not predict:
    if not test:
      rendimientoglobal(df)
    estrato(df)
    internet(df)
    matriculapropia(df)
    valormatriculauniversidad(df)
    educacionpadre(df)
    educacionmadre(df)
    horassemanatrabaja(df)
    departamento(df)
    programaacademico(df)
    df = periodo(df)
    return df
  elif predict:
    rendimientoglobal(df)

In [None]:
limpiar_df(auxiliar_df, predict=True)
train_df_clean = limpiar_df(train_df)
test_df2 = limpiar_df(test_df, test=True)

In [None]:
train_df_clean

Unnamed: 0,ID,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO,RENDIMIENTO_GLOBAL,PERIODO_20183,PERIODO_20184,PERIODO_20194,PERIODO_20195,PERIODO_20196,PERIODO_20202,PERIODO_20203,PERIODO_20212,PERIODO_20213
0,904256,1.313623,1.557381,6.0,1.0,3.0,1.0,7.0,11.0,1.699441,2,0,0,0,0,0,0,0,1,0
1,645256,1.629461,1.454778,4.0,0.0,3.0,0.0,8.0,7.0,1.699441,0,0,0,0,0,0,0,0,1,0
2,308367,1.479789,1.557381,4.0,4.0,3.0,1.0,6.0,6.0,1.699441,0,0,0,0,0,0,0,1,0,0
3,470353,1.298813,1.734286,5.0,0.0,4.0,1.0,2.0,6.0,1.699441,3,0,0,0,1,0,0,0,0,0
4,989032,1.466303,1.667600,4.0,3.0,3.0,1.0,6.0,6.0,1.699441,1,0,0,0,0,0,0,0,1,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
692495,25096,2.179783,0.692758,2.0,2.0,2.0,1.0,6.0,5.0,1.255480,2,0,0,0,1,0,0,0,0,0
692496,754213,1.466303,1.211838,4.0,4.0,3.0,1.0,4.0,5.0,1.699441,0,0,0,0,0,0,0,0,1,0
692497,504185,0.658559,1.557381,3.0,1.0,3.0,1.0,6.0,5.0,1.255480,1,1,0,0,0,0,0,0,0,0
692498,986620,1.466303,1.297710,4.0,1.0,1.0,0.0,6.0,6.0,1.255480,0,0,0,0,1,0,0,0,0,0


In [None]:
train_df_clean.isnull().sum()

Unnamed: 0,0
ID,0
ESTU_PRGM_ACADEMICO,0
ESTU_PRGM_DEPARTAMENTO,0
ESTU_VALORMATRICULAUNIVERSIDAD,0
ESTU_HORASSEMANATRABAJA,0
FAMI_ESTRATOVIVIENDA,0
FAMI_TIENEINTERNET,0
FAMI_EDUCACIONPADRE,0
FAMI_EDUCACIONMADRE,0
ESTU_PAGOMATRICULAPROPIO,0
