# Preparación y transformación de datos

In [1]:
# Instalación de las librerías y frameworks
#!pip install -r requirements.txt

In [2]:
# Import de las librerías requeridas para el EDA
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
import matplotlib.pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

In [3]:
pd.set_option('display.max_columns', None)

In [4]:
# Consulta de los datos
df_datos = pd.read_csv("datos_modelado.csv", sep=";", encoding='ISO-8859-1')

In [5]:
# Consulta de datos para verificar la consulta
df_datos.head()

Unnamed: 0,Sexo,Estado Civil,Discapacidad,Departamento Nacimiento,Programa,Facultad,Tipo Plan,PROMEDIO_1er_SEMESTRE,PROMEDIO_2do_SEMESTRE,Desertor,Cantidad de materias vistas,Promedio de las materias,Cantidad de materias perdidas,Cantidad de creditos inscritos,Semestre Ubicación
0,Femenino,Soltero(a),Ninguna,Meta,comunicación social - periodismo,comunicación social,2,3.73,3.67,No,62,3.898036,1.0,159.0,9.0
1,Femenino,Soltero(a),Ninguna,Bogotá D.C.,comunicación social - periodismo,comunicación social,2,3.67,3.91,No,64,3.96,1.0,159.0,9.0
2,Femenino,Soltero(a),Ninguna,Bogotá D.C.,comunicación social - periodismo,comunicación social,2,3.5,3.53,No,65,3.764576,4.0,165.0,9.0
3,Femenino,Soltero(a),Ninguna,Bogotá D.C.,comunicación social - periodismo,comunicación social,2,3.44,3.62,No,69,3.5845,6.0,171.0,9.0
4,Femenino,Soltero(a),Ninguna,Bogotá D.C.,comunicación social - periodismo,comunicación social,2,4.0,3.9,No,61,4.094545,0.0,156.0,9.0


Las transformaciones seleccionadas para los datos son las siguientes:

1. Datos numericos a los que se les aplica MinMaxScaler:
    - PROMEDIO_1er_SEMESTRE
    - PROMEDIO_2do_SEMESTRE
    - Cantidad de materias vistas
    - Promedio de las materias
    - Cantidad de materias perdidas
    - Cantidad de creditos inscritos

2. Datos categoricos a los que se les aplica la creación de variables dummy:
    - Sexo
    - Estado Civil
    - Discapacidad
    - Departamento Nacimiento
    - Programa
    - Facultad
    - Tipo Plan
    - Semestre Ubicación

In [6]:
from sklearn.preprocessing import MinMaxScaler

In [7]:
scaler = MinMaxScaler()
df_datos_trans = df_datos.copy()

In [8]:
# Transformaciones de valores numericos
df_datos_trans['PROMEDIO_1er_SEMESTRE'] = scaler.fit_transform(df_datos['PROMEDIO_1er_SEMESTRE'].values.reshape(-1, 1))
df_datos_trans['PROMEDIO_2do_SEMESTRE'] = scaler.fit_transform(df_datos['PROMEDIO_2do_SEMESTRE'].values.reshape(-1, 1))
df_datos_trans['Cantidad de materias vistas'] = scaler.fit_transform(df_datos['Cantidad de materias vistas'].values.reshape(-1, 1))
df_datos_trans['Promedio de las materias'] = scaler.fit_transform(df_datos['Promedio de las materias'].values.reshape(-1, 1))
df_datos_trans['Cantidad de materias perdidas'] = scaler.fit_transform(df_datos['Cantidad de materias perdidas'].values.reshape(-1, 1))
df_datos_trans['Cantidad de creditos inscritos'] = scaler.fit_transform(df_datos['Cantidad de creditos inscritos'].values.reshape(-1, 1))


In [9]:
columnas_categoricas = ['Sexo', 'Estado Civil', 'Discapacidad', 'Departamento Nacimiento', 'Programa', 'Facultad',
                                               'Tipo Plan', 'Semestre Ubicación']

In [10]:
# Transformaciones de valores categoricos
df_dummy = pd.get_dummies(df_datos[columnas_categoricas], columns = columnas_categoricas, drop_first = True)

In [11]:
df_dummy.head()

Unnamed: 0,Sexo_Masculino,Estado Civil_Soltero(a),Discapacidad_Discapacidad Intelectual,Discapacidad_Discapacidad Múltiple,Discapacidad_Discapacidad Psicosocial,Discapacidad_Discapacidad Sensorial - Baja Visión,Discapacidad_Discapacidad Sensorial - Ceguera,Discapacidad_Discapacidad Sensorial - Hipoacusia,Discapacidad_Discapacidad Sensorial - Sordera Profund,Discapacidad_Ninguna,Discapacidad_No aplica,Departamento Nacimiento_Antioquia,Departamento Nacimiento_Arauca,"Departamento Nacimiento_Archipiélago de San Andrés, Providencia y Santa Catalina",Departamento Nacimiento_Atlántico,Departamento Nacimiento_Bogotá D.C.,Departamento Nacimiento_Bolívar,Departamento Nacimiento_Boyacá,Departamento Nacimiento_Caldas,Departamento Nacimiento_Caquetá,Departamento Nacimiento_Casanare,Departamento Nacimiento_Cauca,Departamento Nacimiento_Cesar,Departamento Nacimiento_Chocó,Departamento Nacimiento_Cundinamarca,Departamento Nacimiento_Córdoba,Departamento Nacimiento_Guainía,Departamento Nacimiento_Guaviare,Departamento Nacimiento_Huila,Departamento Nacimiento_La Guajira,Departamento Nacimiento_Magdalena,Departamento Nacimiento_Meta,Departamento Nacimiento_Nariño,Departamento Nacimiento_Norte de Santander,Departamento Nacimiento_Putumayo,Departamento Nacimiento_Quindío,Departamento Nacimiento_Risaralda,Departamento Nacimiento_Santander,Departamento Nacimiento_Sucre,Departamento Nacimiento_Tolima,Departamento Nacimiento_Valle del Cauca,Departamento Nacimiento_Vaupés,Departamento Nacimiento_Vichada,Programa_administración de empresas turísticas y hoteleras,Programa_antropología,Programa_arqueología,Programa_ciencia de datos,Programa_comunicación social - periodismo,Programa_conservación y restauración del patrimonio cultural mueble,Programa_contaduría pública,Programa_derecho,Programa_economía,Programa_filosofía,Programa_finanzas y relaciones internacionales,Programa_geografía,Programa_gobierno y relaciones internacionales,Programa_historia,Programa_psicología,Programa_sociología,Programa_trabajo social,Facultad_administración de empresas turísticas y hoteleras,Facultad_ciencias sociales y humanas,Facultad_comunicación social,Facultad_contaduría pública,Facultad_derecho,Facultad_dirección de matemáticas,Facultad_economía,Facultad_estudios del patrimonio cultural,"Facultad_finanzas, gobierno y relaciones internacionales",Tipo Plan_2,Semestre Ubicación_1.0,Semestre Ubicación_2.0,Semestre Ubicación_3.0,Semestre Ubicación_4.0,Semestre Ubicación_5.0,Semestre Ubicación_6.0,Semestre Ubicación_7.0,Semestre Ubicación_8.0,Semestre Ubicación_9.0,Semestre Ubicación_10.0,Semestre Ubicación_11.0,Semestre Ubicación_12.0,Semestre Ubicación_13.0,Semestre Ubicación_14.0,Semestre Ubicación_15.0
0,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False
1,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False
2,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False
3,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False
4,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False


In [12]:
df_dummy.shape

(13092, 85)

In [13]:
df_datos_trans.head()

Unnamed: 0,Sexo,Estado Civil,Discapacidad,Departamento Nacimiento,Programa,Facultad,Tipo Plan,PROMEDIO_1er_SEMESTRE,PROMEDIO_2do_SEMESTRE,Desertor,Cantidad de materias vistas,Promedio de las materias,Cantidad de materias perdidas,Cantidad de creditos inscritos,Semestre Ubicación
0,Femenino,Soltero(a),Ninguna,Meta,comunicación social - periodismo,comunicación social,2,0.755061,0.750511,No,0.575472,0.795517,0.04,0.659751,9.0
1,Femenino,Soltero(a),Ninguna,Bogotá D.C.,comunicación social - periodismo,comunicación social,2,0.742915,0.799591,No,0.59434,0.808163,0.04,0.659751,9.0
2,Femenino,Soltero(a),Ninguna,Bogotá D.C.,comunicación social - periodismo,comunicación social,2,0.708502,0.721881,No,0.603774,0.768281,0.16,0.684647,9.0
3,Femenino,Soltero(a),Ninguna,Bogotá D.C.,comunicación social - periodismo,comunicación social,2,0.696356,0.740286,No,0.641509,0.731531,0.24,0.709544,9.0
4,Femenino,Soltero(a),Ninguna,Bogotá D.C.,comunicación social - periodismo,comunicación social,2,0.809717,0.797546,No,0.566038,0.835622,0.0,0.647303,9.0


In [14]:
df_datos_trans.drop(columns=columnas_categoricas, inplace=True)

In [15]:
df_datos_trans.drop(columns="Desertor", inplace=True)

In [16]:
df_datos_trans.shape

(13092, 6)

In [17]:
df_datos_trans = pd.merge(df_datos_trans, df_dummy, left_index=True, right_index=True)

In [18]:
df_datos_trans.head()

Unnamed: 0,PROMEDIO_1er_SEMESTRE,PROMEDIO_2do_SEMESTRE,Cantidad de materias vistas,Promedio de las materias,Cantidad de materias perdidas,Cantidad de creditos inscritos,Sexo_Masculino,Estado Civil_Soltero(a),Discapacidad_Discapacidad Intelectual,Discapacidad_Discapacidad Múltiple,Discapacidad_Discapacidad Psicosocial,Discapacidad_Discapacidad Sensorial - Baja Visión,Discapacidad_Discapacidad Sensorial - Ceguera,Discapacidad_Discapacidad Sensorial - Hipoacusia,Discapacidad_Discapacidad Sensorial - Sordera Profund,Discapacidad_Ninguna,Discapacidad_No aplica,Departamento Nacimiento_Antioquia,Departamento Nacimiento_Arauca,"Departamento Nacimiento_Archipiélago de San Andrés, Providencia y Santa Catalina",Departamento Nacimiento_Atlántico,Departamento Nacimiento_Bogotá D.C.,Departamento Nacimiento_Bolívar,Departamento Nacimiento_Boyacá,Departamento Nacimiento_Caldas,Departamento Nacimiento_Caquetá,Departamento Nacimiento_Casanare,Departamento Nacimiento_Cauca,Departamento Nacimiento_Cesar,Departamento Nacimiento_Chocó,Departamento Nacimiento_Cundinamarca,Departamento Nacimiento_Córdoba,Departamento Nacimiento_Guainía,Departamento Nacimiento_Guaviare,Departamento Nacimiento_Huila,Departamento Nacimiento_La Guajira,Departamento Nacimiento_Magdalena,Departamento Nacimiento_Meta,Departamento Nacimiento_Nariño,Departamento Nacimiento_Norte de Santander,Departamento Nacimiento_Putumayo,Departamento Nacimiento_Quindío,Departamento Nacimiento_Risaralda,Departamento Nacimiento_Santander,Departamento Nacimiento_Sucre,Departamento Nacimiento_Tolima,Departamento Nacimiento_Valle del Cauca,Departamento Nacimiento_Vaupés,Departamento Nacimiento_Vichada,Programa_administración de empresas turísticas y hoteleras,Programa_antropología,Programa_arqueología,Programa_ciencia de datos,Programa_comunicación social - periodismo,Programa_conservación y restauración del patrimonio cultural mueble,Programa_contaduría pública,Programa_derecho,Programa_economía,Programa_filosofía,Programa_finanzas y relaciones internacionales,Programa_geografía,Programa_gobierno y relaciones internacionales,Programa_historia,Programa_psicología,Programa_sociología,Programa_trabajo social,Facultad_administración de empresas turísticas y hoteleras,Facultad_ciencias sociales y humanas,Facultad_comunicación social,Facultad_contaduría pública,Facultad_derecho,Facultad_dirección de matemáticas,Facultad_economía,Facultad_estudios del patrimonio cultural,"Facultad_finanzas, gobierno y relaciones internacionales",Tipo Plan_2,Semestre Ubicación_1.0,Semestre Ubicación_2.0,Semestre Ubicación_3.0,Semestre Ubicación_4.0,Semestre Ubicación_5.0,Semestre Ubicación_6.0,Semestre Ubicación_7.0,Semestre Ubicación_8.0,Semestre Ubicación_9.0,Semestre Ubicación_10.0,Semestre Ubicación_11.0,Semestre Ubicación_12.0,Semestre Ubicación_13.0,Semestre Ubicación_14.0,Semestre Ubicación_15.0
0,0.755061,0.750511,0.575472,0.795517,0.04,0.659751,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False
1,0.742915,0.799591,0.59434,0.808163,0.04,0.659751,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False
2,0.708502,0.721881,0.603774,0.768281,0.16,0.684647,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False
3,0.696356,0.740286,0.641509,0.731531,0.24,0.709544,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False
4,0.809717,0.797546,0.566038,0.835622,0.0,0.647303,False,True,False,False,False,False,False,False,False,True,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False,True,False,False,False,False,False,False,False,False,True,False,False,False,False,False,False


In [19]:
df_datos_trans.describe()

Unnamed: 0,PROMEDIO_1er_SEMESTRE,PROMEDIO_2do_SEMESTRE,Cantidad de materias vistas,Promedio de las materias,Cantidad de materias perdidas,Cantidad de creditos inscritos
count,13092.0,13092.0,13092.0,13092.0,13092.0,13092.0
mean,0.781489,0.757848,0.422493,0.778099,0.128283,0.338121
std,0.092694,0.183183,0.189702,0.10322,0.158195,0.281573
min,0.0,0.0,0.0,0.0,0.0,0.0
25%,0.732794,0.728016,0.273585,0.729906,0.0,0.0
50%,0.789474,0.793456,0.45283,0.796139,0.08,0.352697
75%,0.840081,0.852761,0.566038,0.847795,0.24,0.60166
max,1.0,1.0,1.0,1.0,1.0,1.0


In [20]:
df_datos_trans.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13092 entries, 0 to 13091
Data columns (total 91 columns):
 #   Column                                                                            Non-Null Count  Dtype  
---  ------                                                                            --------------  -----  
 0   PROMEDIO_1er_SEMESTRE                                                             13092 non-null  float64
 1   PROMEDIO_2do_SEMESTRE                                                             13092 non-null  float64
 2   Cantidad de materias vistas                                                       13092 non-null  float64
 3   Promedio de las materias                                                          13092 non-null  float64
 4   Cantidad de materias perdidas                                                     13092 non-null  float64
 5   Cantidad de creditos inscritos                                                    13092 non-null  float64
 6 

In [21]:
df_datos['Desertor'] = df_datos['Desertor'].replace({'Si': 1, 'No': 0})

In [22]:
df_datos_trans['Desertor'] = df_datos['Desertor']

In [23]:
datos_y = df_datos['Desertor']

In [24]:
datos_y

0        0
1        0
2        0
3        0
4        0
        ..
13087    0
13088    0
13089    0
13090    0
13091    0
Name: Desertor, Length: 13092, dtype: int64

In [25]:
df_datos_trans.to_csv("datos_transformados.csv", index=False, encoding='ISO-8859-1', sep=";")