# Primer preprocesado de los datos de test

### Replicamos los recursos locales en el entorno virtual

### Descargamos los datos de la competencia al entorno de trabajo

In [None]:
import os
os.environ['KAGGLE_CONFIG_DIR'] = '.'
!chmod 600 ./kaggle.json
!kaggle competitions download -c udea-ai4eng-20242

Downloading udea-ai4eng-20242.zip to /content
  0% 0.00/20.1M [00:00<?, ?B/s] 35% 7.00M/20.1M [00:00<00:00, 72.2MB/s]
100% 20.1M/20.1M [00:00<00:00, 129MB/s] 


### Descomprimimos el archivo

In [None]:
!unzip udea*.zip > /dev/null

In [None]:
!wc *.csv

   296787    296787   4716673 submission_example.csv
   296787   4565553  50135751 test.csv
   692501  10666231 118025055 train.csv
  1286075  15528571 172877479 total


## Importe de librerías necesarias

Instalamos la librería Unidecode con el objetivo de manejar las cadenas de texto específicamente de la columna "ESTU_PRGM_ACADEMICO". Esto dado que debemos convertirla a minúsculas, eliminar tíldes y procesarlas todas de la manera más uniforme posible.

In [None]:
!pip install unidecode

Collecting fuzzywuzzy
  Downloading fuzzywuzzy-0.18.0-py2.py3-none-any.whl.metadata (4.9 kB)
Downloading fuzzywuzzy-0.18.0-py2.py3-none-any.whl (18 kB)
Installing collected packages: fuzzywuzzy
Successfully installed fuzzywuzzy-0.18.0
Collecting unidecode
  Downloading Unidecode-1.3.8-py3-none-any.whl.metadata (13 kB)
Downloading Unidecode-1.3.8-py3-none-any.whl (235 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.5/235.5 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.8


Usamos las librerías


*   **Unidecode**: Para manejar los datos de la columna de programa académico con la intención de estandarizar la escritura de las mismas.
*   **Pandas**: Para manejar los datos en un objeto Dataframe y poderlos manipular de manera sencilla
*   **numpy**: Para manejar los datos numéricos, ordenar y estandarizar vectores y columnas del dataframe
*   **OneHotEncoder y OrdinalEncoder de Scikitlearn**: Para procesar algunas columnas categóricas aplicándoles OneHot y otras de manera ordinal.


In [None]:
import unidecode as ud
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder



### Cargamos el csv como un dataframe de Pandas
Se guarda en la variable train para usarlo durante todo el preprocesado

In [None]:
test = pd.read_csv("test.csv")
print ("shape of loaded dataframe", test.shape)

shape of loaded dataframe (296786, 12)


Observamos qué columnas tiene el dataframe de Pandas al momento de cargarlo.

In [None]:
test.columns

Index(['Unnamed: 0', 'ID', 'PERIODO', 'ESTU_PRGM_ACADEMICO',
       'ESTU_PRGM_DEPARTAMENTO', 'ESTU_VALORMATRICULAUNIVERSIDAD',
       'ESTU_HORASSEMANATRABAJA', 'FAMI_ESTRATOVIVIENDA', 'FAMI_TIENEINTERNET',
       'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE',
       'ESTU_PAGOMATRICULAPROPIO'],
      dtype='object')

Observamos las primeras 5 filas del dataframe

In [None]:
test.head()

Unnamed: 0.1,Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO
0,0,550236,20183,TRABAJO SOCIAL,BOLIVAR,Menos de 500 mil,Menos de 10 horas,Estrato 3,Si,Técnica o tecnológica completa,Primaria completa,Si
1,1,98545,20203,ADMINISTRACION COMERCIAL Y DE MERCADEO,ANTIOQUIA,Entre 2.5 millones y menos de 4 millones,Entre 21 y 30 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Técnica o tecnológica completa,No
2,2,499179,20212,INGENIERIA MECATRONICA,BOGOTÁ,Entre 1 millón y menos de 2.5 millones,0,Estrato 3,Si,Secundaria (Bachillerato) incompleta,Secundaria (Bachillerato) completa,No
3,3,782980,20195,CONTADURIA PUBLICA,SUCRE,Entre 1 millón y menos de 2.5 millones,Entre 21 y 30 horas,Estrato 1,No,Primaria incompleta,Primaria incompleta,No
4,4,785185,20212,ADMINISTRACION DE EMPRESAS,ATLANTICO,Entre 2.5 millones y menos de 4 millones,Entre 11 y 20 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) completa,No


## One_hot encoding para la columna 'ESTU_PRGMACADEMICO'

#### Estrategia de preprocesado de 'ESTU_PRGM_ACADEMICO'

*   Observamos cuantas carreras únicas hay y cuales de estas son en los datos de Train con los que vamos a entrenar los modelos.
*   Las pasamos todas a minúsculas para que se agrupen algunas que eran las mismas pero escritas con diferentes combinaciones de mayúsculas y minúsculas.
*   Dejamos en un array de numpy solo las carreras que tengan más de 6000 apariciones en el Dataframe original en los datos de Train. Con el objetivo de agrupar al rededor de 20 carreras diferentes.
*   A las demás carreras las agrupamos en un grupo 'otros' con el objetivo de reducir el ruido en los datos y la posible variabilidad que puedan presentar.
*   Aplicar OneHotEncoding a los nuevos datos en la columna en los datos de Train.
*   Copiamos el arreglo que generó en los datos de Train para tener exactamente los mismos datos en la columna tanto en Train como en Test.

In [None]:
carreras_unicas = test['ESTU_PRGM_ACADEMICO'].unique()

Pasamos todas los programas académicos a minúsculas

In [None]:
test['ESTU_PRGM_ACADEMICO'] = test['ESTU_PRGM_ACADEMICO'].apply(lambda x: ud.unidecode(x.lower()))

Vemos los primeros 5 datos del dataset

In [None]:
test.head()

Unnamed: 0.1,Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO
0,0,550236,20183,trabajo social,BOLIVAR,Menos de 500 mil,Menos de 10 horas,Estrato 3,Si,Técnica o tecnológica completa,Primaria completa,Si
1,1,98545,20203,administracion comercial y de mercadeo,ANTIOQUIA,Entre 2.5 millones y menos de 4 millones,Entre 21 y 30 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Técnica o tecnológica completa,No
2,2,499179,20212,ingenieria mecatronica,BOGOTÁ,Entre 1 millón y menos de 2.5 millones,0,Estrato 3,Si,Secundaria (Bachillerato) incompleta,Secundaria (Bachillerato) completa,No
3,3,782980,20195,contaduria publica,SUCRE,Entre 1 millón y menos de 2.5 millones,Entre 21 y 30 horas,Estrato 1,No,Primaria incompleta,Primaria incompleta,No
4,4,785185,20212,administracion de empresas,ATLANTICO,Entre 2.5 millones y menos de 4 millones,Entre 11 y 20 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) completa,No


### Programas recurrentes en el dataset Train

In [None]:
prgm_acads = ['administracion de empresas', 'derecho', 'contaduria publica',
       'psicologia', 'ingenieria industrial', 'ingenieria civil', 'medicina',
       'ingenieria de sistemas', 'licenciatura en pedagogia infantil',
       'ingenieria ambiental', 'trabajo social', 'enfermeria', 'arquitectura',
       'administracion en salud ocupacional', 'negocios internacionales',
       'economia', 'ingenieria mecanica', 'ingenieria electronica',
       'comunicacion social', 'administracion financiera']
len(prgm_acads)

20

Agrupamos los demás programas académicos

In [None]:
array = [element for element in test['ESTU_PRGM_ACADEMICO'] if element not in prgm_acads ]
array

condition = test['ESTU_PRGM_ACADEMICO'].isin(array)
test.loc[condition, 'ESTU_PRGM_ACADEMICO'] = "otros"
test.head()

Unnamed: 0.1,Unnamed: 0,ID,PERIODO,ESTU_PRGM_ACADEMICO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO
0,0,550236,20183,trabajo social,BOLIVAR,Menos de 500 mil,Menos de 10 horas,Estrato 3,Si,Técnica o tecnológica completa,Primaria completa,Si
1,1,98545,20203,otros,ANTIOQUIA,Entre 2.5 millones y menos de 4 millones,Entre 21 y 30 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Técnica o tecnológica completa,No
2,2,499179,20212,otros,BOGOTÁ,Entre 1 millón y menos de 2.5 millones,0,Estrato 3,Si,Secundaria (Bachillerato) incompleta,Secundaria (Bachillerato) completa,No
3,3,782980,20195,contaduria publica,SUCRE,Entre 1 millón y menos de 2.5 millones,Entre 21 y 30 horas,Estrato 1,No,Primaria incompleta,Primaria incompleta,No
4,4,785185,20212,administracion de empresas,ATLANTICO,Entre 2.5 millones y menos de 4 millones,Entre 11 y 20 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) completa,No


Conteo de los grupos de programas académicos que creamos en el paso anterior

In [None]:
test['ESTU_PRGM_ACADEMICO'].value_counts()

Unnamed: 0_level_0,count
ESTU_PRGM_ACADEMICO,Unnamed: 1_level_1
otros,107041
administracion de empresas,33008
derecho,22984
contaduria publica,22103
psicologia,21256
ingenieria industrial,15228
ingenieria civil,9079
medicina,7915
ingenieria de sistemas,7655
licenciatura en pedagogia infantil,6323


### Codificamos los programas académicos que procesamos anteriormente con un OneHotEncoding

In [None]:
encode = OneHotEncoder()

codificadorPrg = encode.fit_transform(test[['ESTU_PRGM_ACADEMICO']])

arreglo = pd.DataFrame(codificadorPrg.toarray(), columns = encode.categories_)
print(arreglo)
test.drop('ESTU_PRGM_ACADEMICO', axis = 1)

test = pd.concat([test, arreglo], axis = 'columns')
test['ESTU_PRGM_ACADEMICO']

Eliminamos la columna 'ESTU_PRGM_ACADEMICO' ya que como la tenemos codificada, podemos entonces prescindir de ella.

In [None]:
test = test.drop('ESTU_PRGM_ACADEMICO', axis = 1)

Visualización del DATASET con la columna ESTU_PRGM_ACADEMICO procesada

In [None]:
test.head()

Unnamed: 0.1,Unnamed: 0,ID,PERIODO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,...,"(ingenieria de sistemas,)","(ingenieria electronica,)","(ingenieria industrial,)","(ingenieria mecanica,)","(licenciatura en pedagogia infantil,)","(medicina,)","(negocios internacionales,)","(otros,)","(psicologia,)","(trabajo social,)"
0,0,550236,20183,BOLIVAR,Menos de 500 mil,Menos de 10 horas,Estrato 3,Si,Técnica o tecnológica completa,Primaria completa,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
1,1,98545,20203,ANTIOQUIA,Entre 2.5 millones y menos de 4 millones,Entre 21 y 30 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Técnica o tecnológica completa,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
2,2,499179,20212,BOGOTÁ,Entre 1 millón y menos de 2.5 millones,0,Estrato 3,Si,Secundaria (Bachillerato) incompleta,Secundaria (Bachillerato) completa,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
3,3,782980,20195,SUCRE,Entre 1 millón y menos de 2.5 millones,Entre 21 y 30 horas,Estrato 1,No,Primaria incompleta,Primaria incompleta,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,4,785185,20212,ATLANTICO,Entre 2.5 millones y menos de 4 millones,Entre 11 y 20 horas,Estrato 2,Si,Secundaria (Bachillerato) completa,Secundaria (Bachillerato) completa,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Eliminación de la columna Unnamed: 0 que no aporta nada al dataset

In [None]:
test = test.drop('Unnamed: 0', axis = 1)

## Categorización ordinal de las columnas categóricas ordinales

In [None]:
test.columns

Index([                                    'ID',
                                      'PERIODO',
                       'ESTU_PRGM_DEPARTAMENTO',
               'ESTU_VALORMATRICULAUNIVERSIDAD',
                      'ESTU_HORASSEMANATRABAJA',
                         'FAMI_ESTRATOVIVIENDA',
                           'FAMI_TIENEINTERNET',
                          'FAMI_EDUCACIONPADRE',
                          'FAMI_EDUCACIONMADRE',
                     'ESTU_PAGOMATRICULAPROPIO',
                ('administracion de empresas',),
       ('administracion en salud ocupacional',),
                 ('administracion financiera',),
                              ('arquitectura',),
                       ('comunicacion social',),
                        ('contaduria publica',),
                                   ('derecho',),
                                  ('economia',),
                                ('enfermeria',),
                      ('ingenieria ambiental',),
                    

## Quitarle los valores nulos a todas las columnas categóricas ordinales


### Conteo de valores nulos

In [None]:
test['FAMI_EDUCACIONMADRE'].value_counts()

Unnamed: 0_level_0,count
FAMI_EDUCACIONMADRE,Unnamed: 1_level_1
Secundaria (Bachillerato) completa,60649
Primaria incompleta,42149
Técnica o tecnológica completa,38571
Educación profesional completa,36477
Secundaria (Bachillerato) incompleta,34566
Primaria completa,24399
Postgrado,20049
Técnica o tecnológica incompleta,11650
Educación profesional incompleta,9647
Ninguno,6335


In [None]:
print(f"Cantidad nulos valor matrícula = {test['ESTU_VALORMATRICULAUNIVERSIDAD'].isna().sum()}")
print(f"Cantidad nulos horas semanales trabaja = {test['ESTU_HORASSEMANATRABAJA'].isna().sum()}")
print(f"Cantidad nulos estrato vivienda = {test['FAMI_ESTRATOVIVIENDA'].isna().sum()}")
print(f"Cantidad nulos educación padre = {test['FAMI_EDUCACIONPADRE'].isna().sum()}")
print(f"Cantidad nulos educación madre = {test['FAMI_EDUCACIONMADRE'].isna().sum()}")

Cantidad nulos valor matrícula = 2723
Cantidad nulos horas semanales trabaja = 13379
Cantidad nulos estrato vivienda = 13795
Cantidad nulos educación padre = 9993
Cantidad nulos educación madre = 10223


### Cambio de valores nulos por 'no info'

In [None]:
test['ESTU_VALORMATRICULAUNIVERSIDAD'] = test['ESTU_VALORMATRICULAUNIVERSIDAD'].fillna("no info")
test['ESTU_HORASSEMANATRABAJA'] = test['ESTU_HORASSEMANATRABAJA'].fillna("no info")
test['FAMI_ESTRATOVIVIENDA'] = test['FAMI_ESTRATOVIVIENDA'].fillna("no info")
test['FAMI_EDUCACIONPADRE'] = test['FAMI_EDUCACIONPADRE'].fillna("no info")
test['FAMI_EDUCACIONMADRE'] = test['FAMI_EDUCACIONMADRE'].fillna("no info")

## Codificación de valores categóricos ordinales.

In [None]:
categories = [
    ['no info', 'No pagó matrícula', 'Menos de 500 mil', 'Entre 500 mil y menos de 1 millón',
     'Entre 1 millón y menos de 2.5 millones', 'Entre 2.5 millones y menos de 4 millones',
     'Entre 4 millones y menos de 5.5 millones', 'Entre 5.5 millones y menos de 7 millones',
     'Más de 7 millones'],  # ESTU_VALORMATRICULAUNIVERSIDAD
    ['no info', '0', 'Menos de 10 horas', 'Entre 11 y 20 horas', 'Entre 21 y 30 horas', 'Más de 30 horas'],  # ESTU_HORASSEMANATRABAJA
    ['no info', 'Sin Estrato', 'Estrato 1', 'Estrato 2', 'Estrato 3', 'Estrato 4', 'Estrato 5', 'Estrato 6'],  # FAMI_ESTRATOVIVIENDA
    ['no info', 'Ninguno', 'No sabe', 'No Aplica', 'Primaria incompleta', 'Primaria completa',
     'Secundaria (Bachillerato) incompleta', 'Secundaria (Bachillerato) completa', 'Técnica o tecnológica incompleta',
     'Técnica o tecnológica completa', 'Educación profesional incompleta', 'Educación profesional completa', 'Postgrado'],  # FAMI_EDUCACIONPADRE
    ['no info', 'Ninguno', 'No sabe', 'No Aplica', 'Primaria incompleta', 'Primaria completa',
     'Secundaria (Bachillerato) incompleta', 'Secundaria (Bachillerato) completa', 'Técnica o tecnológica incompleta',
     'Técnica o tecnológica completa', 'Educación profesional incompleta', 'Educación profesional completa', 'Postgrado'],  # FAMI_EDUCACIONMADRE
]



Utilizamos el objeto OrdinalEncoder para codificar ordinalmente las columnas que son categóricas ordinales.

In [None]:
codificador = OrdinalEncoder(categories=categories)
test[['ESTU_VALORMATRICULAUNIVERSIDAD', 'ESTU_HORASSEMANATRABAJA',
       'FAMI_ESTRATOVIVIENDA', 'FAMI_EDUCACIONPADRE',
       'FAMI_EDUCACIONMADRE']] = codificador.fit_transform(
    test[['ESTU_VALORMATRICULAUNIVERSIDAD', 'ESTU_HORASSEMANATRABAJA',
           'FAMI_ESTRATOVIVIENDA', 'FAMI_EDUCACIONPADRE',
           'FAMI_EDUCACIONMADRE']]
       )

In [None]:
test.head()

Unnamed: 0,ID,PERIODO,ESTU_PRGM_DEPARTAMENTO,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_TIENEINTERNET,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,ESTU_PAGOMATRICULAPROPIO,...,"(ingenieria de sistemas,)","(ingenieria electronica,)","(ingenieria industrial,)","(ingenieria mecanica,)","(licenciatura en pedagogia infantil,)","(medicina,)","(negocios internacionales,)","(otros,)","(psicologia,)","(trabajo social,)"
0,550236,20183,BOLIVAR,2.0,2.0,4.0,Si,9.0,5.0,Si,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
1,98545,20203,ANTIOQUIA,5.0,4.0,3.0,Si,7.0,9.0,No,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
2,499179,20212,BOGOTÁ,4.0,1.0,4.0,Si,6.0,7.0,No,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0
3,782980,20195,SUCRE,4.0,4.0,2.0,No,4.0,4.0,No,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
4,785185,20212,ATLANTICO,5.0,3.0,3.0,Si,7.0,7.0,No,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


#### Contamos los valores que no tienen info en las columnas que no hemos codificado y los llenamos con 'no info'

In [None]:
test['ESTU_PAGOMATRICULAPROPIO'] = test['ESTU_PAGOMATRICULAPROPIO'].fillna('no info')
test['ESTU_PAGOMATRICULAPROPIO'].value_counts()

Unnamed: 0_level_0,count
ESTU_PAGOMATRICULAPROPIO,Unnamed: 1_level_1
No,163869
Si,130110
no info,2807


In [None]:
print(f"Cantidad nulos tiene internet = {test['ESTU_PAGOMATRICULAPROPIO'].isna().sum()}")
test['FAMI_TIENEINTERNET'].value_counts()

Cantidad nulos tiene internet = 0


Unnamed: 0_level_0,count
FAMI_TIENEINTERNET,Unnamed: 1_level_1
Si,254075
No,31172


## Conversión One-Hot de las columnas FAMI_TIENEINTERNET y ESTU_PAGOMATRICULAPROPIO

Hacemos un OneHot encoding de las columnas anteriormente mencionadas ya que no aportan muchos valores diferentes y por lo tanto, no generan muchas columnas adicionales al Dataset

In [None]:
one_hot_encoded = pd.get_dummies(test['ESTU_PAGOMATRICULAPROPIO'], prefix = 'ESTU_PAGOMATRICULAPROPIO')
one_hot_encoded = one_hot_encoded.astype(int)
one_hot_encoded

Unnamed: 0,ESTU_PAGOMATRICULAPROPIO_No,ESTU_PAGOMATRICULAPROPIO_Si,ESTU_PAGOMATRICULAPROPIO_no info
0,0,1,0
1,1,0,0
2,1,0,0
3,1,0,0
4,1,0,0
...,...,...,...
296781,0,1,0
296782,1,0,0
296783,1,0,0
296784,1,0,0


In [None]:
test = pd.concat([test, one_hot_encoded], axis = 1)
test = test.drop('ESTU_PAGOMATRICULAPROPIO', axis = 1)

In [None]:
test['ESTU_PAGOMATRICULAPROPIO_No'].head()

Unnamed: 0,ESTU_PAGOMATRICULAPROPIO_No
0,0
1,1
2,1
3,1
4,1


In [None]:
print(test.columns)

Index([                                    'ID',
                                      'PERIODO',
                       'ESTU_PRGM_DEPARTAMENTO',
               'ESTU_VALORMATRICULAUNIVERSIDAD',
                      'ESTU_HORASSEMANATRABAJA',
                         'FAMI_ESTRATOVIVIENDA',
                           'FAMI_TIENEINTERNET',
                          'FAMI_EDUCACIONPADRE',
                          'FAMI_EDUCACIONMADRE',
                ('administracion de empresas',),
       ('administracion en salud ocupacional',),
                 ('administracion financiera',),
                              ('arquitectura',),
                       ('comunicacion social',),
                        ('contaduria publica',),
                                   ('derecho',),
                                  ('economia',),
                                ('enfermeria',),
                      ('ingenieria ambiental',),
                          ('ingenieria civil',),
                    

In [None]:
one_hot_encoded = pd.get_dummies(test['FAMI_TIENEINTERNET'], prefix = 'FAMI_TIENEINTERNET')
one_hot_encoded = one_hot_encoded.astype(int)
one_hot_encoded

Unnamed: 0,FAMI_TIENEINTERNET_No,FAMI_TIENEINTERNET_Si
0,0,1
1,0,1
2,0,1
3,1,0
4,0,1
...,...,...
296781,0,1
296782,0,1
296783,0,1
296784,0,1


In [None]:
test = pd.concat([test, one_hot_encoded], axis = 1)
test = test.drop('FAMI_TIENEINTERNET', axis = 1)

In [None]:
test['FAMI_TIENEINTERNET_Si'].head()

Unnamed: 0,FAMI_TIENEINTERNET_Si
0,1
1,1
2,1
3,0
4,1


### Eliminamos la columna de departamento para no tenerla en cuenta para este preprocesado

In [None]:
test = test.drop('ESTU_PRGM_DEPARTAMENTO', axis = 1)

In [None]:
test.columns

Index([                                    'ID',
                                      'PERIODO',
               'ESTU_VALORMATRICULAUNIVERSIDAD',
                      'ESTU_HORASSEMANATRABAJA',
                         'FAMI_ESTRATOVIVIENDA',
                          'FAMI_EDUCACIONPADRE',
                          'FAMI_EDUCACIONMADRE',
                ('administracion de empresas',),
       ('administracion en salud ocupacional',),
                 ('administracion financiera',),
                              ('arquitectura',),
                       ('comunicacion social',),
                        ('contaduria publica',),
                                   ('derecho',),
                                  ('economia',),
                                ('enfermeria',),
                      ('ingenieria ambiental',),
                          ('ingenieria civil',),
                    ('ingenieria de sistemas',),
                    ('ingenieria electronica',),
                    

### Eliminamos la columna periodo y ID ya que se considera, no tiene efecto sobre el rendimiento

In [None]:
test = test.drop('PERIODO', axis = 1)

In [None]:
test.head()

Unnamed: 0,ID,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,"(administracion de empresas,)","(administracion en salud ocupacional,)","(administracion financiera,)","(arquitectura,)",...,"(medicina,)","(negocios internacionales,)","(otros,)","(psicologia,)","(trabajo social,)",ESTU_PAGOMATRICULAPROPIO_No,ESTU_PAGOMATRICULAPROPIO_Si,ESTU_PAGOMATRICULAPROPIO_no info,FAMI_TIENEINTERNET_No,FAMI_TIENEINTERNET_Si
0,550236,2.0,2.0,4.0,9.0,5.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,1.0,0,1,0,0,1
1,98545,5.0,4.0,3.0,7.0,9.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,1,0,0,0,1
2,499179,4.0,1.0,4.0,6.0,7.0,0.0,0.0,0.0,0.0,...,0.0,0.0,1.0,0.0,0.0,1,0,0,0,1
3,782980,4.0,4.0,2.0,4.0,4.0,0.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1,0,0,1,0
4,785185,5.0,3.0,3.0,7.0,7.0,1.0,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,1,0,0,0,1


In [None]:
test.shape

(296786, 32)

#### Guardamos el dataset en un archivo con la extensión .csv

In [None]:
test.to_csv('test1.csv', index = False)

In [None]:
!head test1.csv

ID,ESTU_VALORMATRICULAUNIVERSIDAD,ESTU_HORASSEMANATRABAJA,FAMI_ESTRATOVIVIENDA,FAMI_EDUCACIONPADRE,FAMI_EDUCACIONMADRE,"('administracion de empresas',)","('administracion en salud ocupacional',)","('administracion financiera',)","('arquitectura',)","('comunicacion social',)","('contaduria publica',)","('derecho',)","('economia',)","('enfermeria',)","('ingenieria ambiental',)","('ingenieria civil',)","('ingenieria de sistemas',)","('ingenieria electronica',)","('ingenieria industrial',)","('ingenieria mecanica',)","('licenciatura en pedagogia infantil',)","('medicina',)","('negocios internacionales',)","('otros',)","('psicologia',)","('trabajo social',)",ESTU_PAGOMATRICULAPROPIO_No,ESTU_PAGOMATRICULAPROPIO_Si,ESTU_PAGOMATRICULAPROPIO_no info,FAMI_TIENEINTERNET_No,FAMI_TIENEINTERNET_Si
550236,2.0,2.0,4.0,9.0,5.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0,1,0,0,1
98545,5.0,4.0,3.0,7.0,9.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.