# 🎢 ETL Análisis de Rendimiento Académico

📌 GitHub: https://github.com/No-Country/C17-75-ft-data-bi

📌 Fuente: https://www.icfes.gov.co/data-icfes

📌 Pasos de proceso ETL:

- Se descargan datos del año 2023
- Se cargan en drive para trabajo en equipo como datos brutos (RAW)
- Se limpian y transforman los datos
- Se cargan en drive los datos limpios

In [None]:
# Librerias
from google.colab import drive
import pandas as pd
import numpy as np

📌 Creamos conexión con Google Drive

📌 Importante darle acceso desde Google Colab

📌 Cargamos la data para realizar limpieza de los datos

In [None]:
drive.mount('/content/drive')
icfes_1 = pd.read_excel('/content/drive/MyDrive/No Country Proyecto/Data/Raw/icfes2023-1.xlsx')
icfes_2 = pd.read_excel('/content/drive/MyDrive/No Country Proyecto/Data/Raw/icfes2023-2.xlsx')

Mounted at /content/drive


In [None]:
# Verificamos los datos cargados
icfes_1.head(1)

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_PAIS_RESIDE,ESTU_DEPTO_RESIDE,ESTU_COD_RESIDE_DEPTO,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,PERCENTIL_ESPECIAL_GLOBAL,ESTU_ESTADOINVESTIGACION
0,TI,COLOMBIA,F,2005-11-04,20231,SB11202310019049,ESTUDIANTE,COLOMBIA,CUNDINAMARCA,25,...,87.0,94.0,B+,422,100.0,67.532814,4.0,4,100.0,PUBLICAR


In [None]:
icfes_2.head(1)

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_PAIS_RESIDE,ESTU_DEPTO_RESIDE,ESTU_COD_RESIDE_DEPTO,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,PERCENTIL_ESPECIAL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,ESTU_ESTADOINVESTIGACION
0,TI,COLOMBIA,M,2005-09-04,20234,SB11202340372332,ESTUDIANTE,COLOMBIA,NORTE SANTANDER,54,...,37.0,11.0,A-,217,26.0,,38.93202,1.0,2.0,PUBLICAR


📌 Agrupamos los datos en un consolidado del año 2023

In [None]:
icfes2023=pd.concat([icfes_1,icfes_2],join='inner') # evitar cargar columnas extras que contiene el examen 2

In [None]:
print('Total de registros para el año 2023: ',len(icfes2023))
icfes2023.head(1)

Total de registros para el año 2023:  563853


Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,ESTU_FECHANACIMIENTO,PERIODO,ESTU_CONSECUTIVO,ESTU_ESTUDIANTE,ESTU_PAIS_RESIDE,ESTU_DEPTO_RESIDE,ESTU_COD_RESIDE_DEPTO,...,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO,PERCENTIL_ESPECIAL_GLOBAL,ESTU_ESTADOINVESTIGACION
0,TI,COLOMBIA,F,2005-11-04,20231,SB11202310019049,ESTUDIANTE,COLOMBIA,CUNDINAMARCA,25,...,87.0,94.0,B+,422,100.0,67.532814,4.0,4.0,100.0,PUBLICAR


In [None]:
# Cantidad de nulos por atributo
len_cols_null = 0
for posicion, atributo in enumerate(icfes2023.isnull().sum()):
  if atributo>0:
    len_cols_null += 1
    print(f'{icfes2023.columns[posicion]}: {atributo}')
print(f'Se tienen {len_cols_null} columnas con nulos')

ESTU_GENERO: 7
ESTU_FECHANACIMIENTO: 8
ESTU_PRESENTACIONSABADO: 421
FAMI_ESTRATOVIVIENDA: 49904
FAMI_PERSONASHOGAR: 29987
FAMI_CUARTOSHOGAR: 31197
FAMI_EDUCACIONPADRE: 43928
FAMI_EDUCACIONMADRE: 44198
FAMI_TRABAJOLABORPADRE: 31484
FAMI_TRABAJOLABORMADRE: 31158
FAMI_TIENEINTERNET: 44653
FAMI_TIENESERVICIOTV: 45940
FAMI_TIENECOMPUTADOR: 30992
FAMI_TIENELAVADORA: 30998
FAMI_TIENEHORNOMICROOGAS: 31610
FAMI_TIENEAUTOMOVIL: 32081
FAMI_TIENEMOTOCICLETA: 31515
FAMI_TIENECONSOLAVIDEOJUEGOS: 32273
FAMI_NUMLIBROS: 49362
FAMI_COMELECHEDERIVADOS: 51435
FAMI_COMECARNEPESCADOHUEVO: 46619
FAMI_COMECEREALFRUTOSLEGUMBRE: 50032
FAMI_SITUACIONECONOMICA: 33835
ESTU_DEDICACIONLECTURADIARIA: 45684
ESTU_DEDICACIONINTERNET: 46868
ESTU_HORASSEMANATRABAJA: 31314
ESTU_TIPOREMUNERACION: 32151
COLE_BILINGUE: 104028
COLE_CARACTER: 22967
PUNT_INGLES: 2501
PERCENTIL_INGLES: 2501
DESEMP_INGLES: 2501
PERCENTIL_GLOBAL: 2501
ESTU_INSE_INDIVIDUAL: 31302
ESTU_NSE_INDIVIDUAL: 31302
ESTU_NSE_ESTABLECIMIENTO: 64
PERCENTIL_ESPE

In [None]:
# Columnas duplicadas
icfes2023.duplicated().sum() #duplicados

0

## 📌 Functions

In [None]:
def values_per_attribute(dataframe:pd.DataFrame, attribute:str):
  len_dataset = len(dataframe)
  for value in dataframe[attribute.upper()].unique():
    if str(value) == 'nan':
      len_attribute = len(dataframe.loc[dataframe[attribute.upper()].isna()])
    else:
      len_attribute = len(dataframe.loc[dataframe[attribute.upper()]==value])
    print(f'- {value}: {len_attribute}, porcentaje: {round(len_attribute*100/len_dataset,3)}%')
# Define function to fill NaN values in FAMI_ESTRATOVIVIENDA column
def fill_nan_fami_estrato(row):
    if pd.isna(row['FAMI_ESTRATOVIVIENDA']):
        if row['ESTU_NSE_INDIVIDUAL'] in [4, 3]:
            if row['ESTU_INSE_INDIVIDUAL'] > 70:
                return 'Estrato 4'
            elif 55 <= row['ESTU_INSE_INDIVIDUAL'] <= 70:
                return 'Estrato 3'
        elif row['ESTU_NSE_INDIVIDUAL'] in [2, 3] and row['ESTU_INSE_INDIVIDUAL'] < 55:
            return 'Estrato 2'
        elif row['ESTU_NSE_INDIVIDUAL'] == 1:
            return 'Estrato 1'
    else:
        return row['FAMI_ESTRATOVIVIENDA']
# Define dictionary to map NSE values to corresponding education levels
nse_education_mapping = {
    1: 'Primaria incompleta',
    2: 'Primaria completa',
    3: 'Secundaria (Bachillerato) completa',
    4: 'Educación profesional completa'
}
nse_food_mapping = {
    1: 4,
    2: 3,
    3: 2,
    4: 1
}

# Define function to fill NaN values in COLE_BILINGUE column
keywords = [
    "BILINGUAL","BILINGÜE","SCHOOL","ACADEMY","INSTITUTE","BRITISH","AMERICAN","INTERNACIONAL"
    "INTERNATIONAL","ANGLO","BILÍNGUE","ENGLISH","INGLES","BRITANIC","BRITANICO","BRITÁNICO","CANADA",
    "U.S.","AUSTRALIAN","CANADIAN","COUNTRY"
]

def fill_nan_cole_bilingue(row):
    if pd.isna(row['COLE_BILINGUE']):
        if any(keyword in row['COLE_NOMBRE_ESTABLECIMIENTO'].upper() for keyword in keywords) or any(keyword in row['COLE_NOMBRE_SEDE'].upper() for keyword in keywords):
            return 'S'
    return row['COLE_BILINGUE']

In [None]:
# Columnas
icfes2023.columns

Index(['ESTU_TIPODOCUMENTO', 'ESTU_NACIONALIDAD', 'ESTU_GENERO',
       'ESTU_FECHANACIMIENTO', 'PERIODO', 'ESTU_CONSECUTIVO',
       'ESTU_ESTUDIANTE', 'ESTU_PAIS_RESIDE', 'ESTU_DEPTO_RESIDE',
       'ESTU_COD_RESIDE_DEPTO', 'ESTU_MCPIO_RESIDE', 'ESTU_COD_RESIDE_MCPIO',
       'ESTU_PRESENTACIONSABADO', 'FAMI_ESTRATOVIVIENDA', 'FAMI_PERSONASHOGAR',
       'FAMI_CUARTOSHOGAR', 'FAMI_EDUCACIONPADRE', 'FAMI_EDUCACIONMADRE',
       'FAMI_TRABAJOLABORPADRE', 'FAMI_TRABAJOLABORMADRE',
       'FAMI_TIENEINTERNET', 'FAMI_TIENESERVICIOTV', 'FAMI_TIENECOMPUTADOR',
       'FAMI_TIENELAVADORA', 'FAMI_TIENEHORNOMICROOGAS', 'FAMI_TIENEAUTOMOVIL',
       'FAMI_TIENEMOTOCICLETA', 'FAMI_TIENECONSOLAVIDEOJUEGOS',
       'FAMI_NUMLIBROS', 'FAMI_COMELECHEDERIVADOS',
       'FAMI_COMECARNEPESCADOHUEVO', 'FAMI_COMECEREALFRUTOSLEGUMBRE',
       'FAMI_SITUACIONECONOMICA', 'ESTU_DEDICACIONLECTURADIARIA',
       'ESTU_DEDICACIONINTERNET', 'ESTU_HORASSEMANATRABAJA',
       'ESTU_TIPOREMUNERACION', 'COLE_CODIGO_

In [None]:
#eliminar columnas seleccionadas previamente
icfes2023.drop(['ESTU_FECHANACIMIENTO','ESTU_CONSECUTIVO','ESTU_COD_RESIDE_DEPTO','ESTU_COD_RESIDE_MCPIO',
                'FAMI_SITUACIONECONOMICA','ESTU_TIPOREMUNERACION','COLE_CODIGO_ICFES','COLE_COD_DANE_ESTABLECIMIENTO',
                'COLE_CALENDARIO','COLE_COD_DANE_SEDE','COLE_COD_MCPIO_UBICACION','COLE_COD_DEPTO_UBICACION',
                'COLE_DEPTO_UBICACION','ESTU_PRIVADO_LIBERTAD','ESTU_COD_MCPIO_PRESENTACION','ESTU_DEPTO_PRESENTACION',
                'ESTU_COD_DEPTO_PRESENTACION','ESTU_ESTADOINVESTIGACION','PERCENTIL_ESPECIAL_GLOBAL'], axis=1, inplace=True)

In [None]:
icfes2023.head(1)

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_NACIONALIDAD,ESTU_GENERO,PERIODO,ESTU_ESTUDIANTE,ESTU_PAIS_RESIDE,ESTU_DEPTO_RESIDE,ESTU_MCPIO_RESIDE,ESTU_PRESENTACIONSABADO,FAMI_ESTRATOVIVIENDA,...,PERCENTIL_SOCIALES_CIUDADANAS,DESEMP_SOCIALES_CIUDADANAS,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO
0,TI,COLOMBIA,F,20231,ESTUDIANTE,COLOMBIA,CUNDINAMARCA,CHÍA,No,Estrato 3,...,97,4,87.0,94.0,B+,422,100.0,67.532814,4.0,4.0


In [None]:
icfes2023.columns

Index(['ESTU_TIPODOCUMENTO', 'ESTU_NACIONALIDAD', 'ESTU_GENERO', 'PERIODO',
       'ESTU_ESTUDIANTE', 'ESTU_PAIS_RESIDE', 'ESTU_DEPTO_RESIDE',
       'ESTU_MCPIO_RESIDE', 'ESTU_PRESENTACIONSABADO', 'FAMI_ESTRATOVIVIENDA',
       'FAMI_PERSONASHOGAR', 'FAMI_CUARTOSHOGAR', 'FAMI_EDUCACIONPADRE',
       'FAMI_EDUCACIONMADRE', 'FAMI_TRABAJOLABORPADRE',
       'FAMI_TRABAJOLABORMADRE', 'FAMI_TIENEINTERNET', 'FAMI_TIENESERVICIOTV',
       'FAMI_TIENECOMPUTADOR', 'FAMI_TIENELAVADORA',
       'FAMI_TIENEHORNOMICROOGAS', 'FAMI_TIENEAUTOMOVIL',
       'FAMI_TIENEMOTOCICLETA', 'FAMI_TIENECONSOLAVIDEOJUEGOS',
       'FAMI_NUMLIBROS', 'FAMI_COMELECHEDERIVADOS',
       'FAMI_COMECARNEPESCADOHUEVO', 'FAMI_COMECEREALFRUTOSLEGUMBRE',
       'ESTU_DEDICACIONLECTURADIARIA', 'ESTU_DEDICACIONINTERNET',
       'ESTU_HORASSEMANATRABAJA', 'COLE_NOMBRE_ESTABLECIMIENTO', 'COLE_GENERO',
       'COLE_NATURALEZA', 'COLE_BILINGUE', 'COLE_CARACTER', 'COLE_NOMBRE_SEDE',
       'COLE_SEDE_PRINCIPAL', 'COLE_AREA_UBICAC

## 📌 Exploratory Data Analysis

###  Steps:

- Analysis each attribute `unique values` and his impact on the whole dataset
- `Codify and simplify` attributes with long text statements and innecesary codes
- `NULL` values with difficult to fill them are going to be `deleted`.

In [None]:
# Document type
attributes_NOTTO_analyse = ['ESTU_DEPTO_RESIDE','ESTU_MCPIO_RESIDE','COLE_NOMBRE_ESTABLECIMIENTO','COLE_NOMBRE_SEDE',
                         'COLE_MCPIO_UBICACION','COLE_MCPIO_PRESENTACION','PUNT_LECTURA_CRITICA', 'PERCENTIL_LECTURA_CRITICA',
                         'DESEMP_LECTURA_CRITICA', 'PUNT_MATEMATICAS', 'PERCENTIL_MATEMATICAS','DESEMP_MATEMATICAS', 'PUNT_C_NATURALES',
                         'PERCENTIL_C_NATURALES','DESEMP_C_NATURALES', 'PUNT_SOCIALES_CIUDADANAS','PERCENTIL_SOCIALES_CIUDADANAS',
                         'DESEMP_SOCIALES_CIUDADANAS','PUNT_INGLES', 'PERCENTIL_INGLES', 'DESEMP_INGLES', 'PUNT_GLOBAL','PERCENTIL_GLOBAL',
                         'ESTU_INSE_INDIVIDUAL','PERCENTIL_ESPECIAL_GLOBAL','ESTU_MCPIO_PRESENTACION']
for attribute in icfes2023.columns:
  if attribute not in attributes_NOTTO_analyse:
    print(attribute.capitalize())
    values_per_attribute(icfes2023, attribute)

Estu_tipodocumento
- TI: 480214, porcentaje: 85.167%
- CC: 71551, porcentaje: 12.69%
- CE: 1325, porcentaje: 0.235%
- CR: 3079, porcentaje: 0.546%
- NES: 1594, porcentaje: 0.283%
- PEP: 479, porcentaje: 0.085%
- PC: 15, porcentaje: 0.003%
- PE: 54, porcentaje: 0.01%
- PPT: 5541, porcentaje: 0.983%
- DNI: 1, porcentaje: 0.0%
Estu_nacionalidad
- COLOMBIA: 555291, porcentaje: 98.482%
- ESPAÑA: 28, porcentaje: 0.005%
- FRANCIA: 5, porcentaje: 0.001%
- VENEZUELA: 8261, porcentaje: 1.465%
- ARGENTINA: 10, porcentaje: 0.002%
- COSTA RICA: 9, porcentaje: 0.002%
- EL SALVADOR: 3, porcentaje: 0.001%
- BRASIL: 11, porcentaje: 0.002%
- ESTADOS UNIDOS: 21, porcentaje: 0.004%
- POLONIA: 1, porcentaje: 0.0%
- BÉLGICA: 1, porcentaje: 0.0%
- URUGUAY: 1, porcentaje: 0.0%
- ARGELIA: 1, porcentaje: 0.0%
- HAITI: 1, porcentaje: 0.0%
- PANAMÁ: 7, porcentaje: 0.001%
- REINO UNIDO: 2, porcentaje: 0.0%
- CANADÁ: 2, porcentaje: 0.0%
- ECUADOR: 84, porcentaje: 0.015%
- MÉXICO: 16, porcentaje: 0.003%
- ALEMANIA: 

📌 Eliminate low impact on the whole dataset categories per attribute
- **ESTU_TIPODOCUMENTO:** CE, CR, NES, PEP, PC, PE, PPT, DNI
- **ESTU_NACIONALIDAD:** drop column because a value represent the 98% of the poblation (Colombia)
- **ESTU_PAIS_RESIDE:** drop column because a value represent the 98% of the poblation (Colombia)
- **COLE_GENERO:** drop column because a value represent the 96% of the poblation (Mixto)
- **ESTU_NSE_INDIVIDUAL:** eliminate NaN values, because with NaN we identify a socioeconomic level of a person, we'll use it to determine some values of other columns
- **ESTU_NSE_ESTABLECIMIENTO:** same as before
- **ESTU_ESTADOINVESTIGACION:** drop column because it is constant
- **ESTU_ESTUDIANTE:** drop column because it is constant
- **DROP DEPENDENT COLUMNS:** reviewing the document: https://www2.icfes.gov.co/documents/39286/2231027/Edicion+4+-+boletin+saber+al+detalle+.pdf/f9a33ad6-7559-99a5-5f7f-16d2f9b16f76?version=1.4&t=1678150151066 related with the NSE and INSE value, we decided to eliminate the columns: FAMI_TIENEINTERNET,FAMI_TIENESERVICIOTV, FAMI_TIENECOMPUTADOR, FAMI_TIENELAVADORA, FAMI_TIENEHORNOMICROOGAS, FAMI_TIENEAUTOMOVIL, FAMI_TIENEMOTOCICLETA and FAMI_TIENECONSOLAVIDEOJUEGOS

In [None]:
df_icfes2023 = icfes2023.loc[~icfes2023['ESTU_TIPODOCUMENTO'].isin(['CE','CR','NES','PEP','PC','PE','PPT','DNI']) &
              icfes2023['ESTU_NSE_INDIVIDUAL'].notna() & icfes2023['ESTU_NSE_ESTABLECIMIENTO'].notna()]
df_icfes2023.drop(columns=['ESTU_NACIONALIDAD','COLE_GENERO','FAMI_TIENEINTERNET','FAMI_TIENESERVICIOTV',
                           'FAMI_TIENECOMPUTADOR','FAMI_TIENELAVADORA','FAMI_TIENEHORNOMICROOGAS','FAMI_TIENEAUTOMOVIL',
                           'FAMI_TIENEMOTOCICLETA','FAMI_TIENECONSOLAVIDEOJUEGOS','ESTU_ESTUDIANTE','ESTU_PAIS_RESIDE'],inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_icfes2023.drop(columns=['ESTU_NACIONALIDAD','COLE_GENERO','FAMI_TIENEINTERNET','FAMI_TIENESERVICIOTV',


📌 Fill some NaN values with useful information
- FAMI_ESTRATOVIVIENDA:
	- Persons with NSE in (4,3) and INSE over 70 is going to be 'ESTRATO 4'
	- Persons with NSE in (4,3) and INSE between 55 and 70 is going to be 'ESTRATO 3'
	- Persons with NSE in (2,3) and INSE less than 55 is going to be 'ESTRATO 2'
	- Persons with NSE 1 is going to be 'ESTRATO 1'
- FAMI_EDUCACIONMADRE (se aplicara de manera similar al padre):
	- NSE 1 = 'Primaria incompleta'
	- NSE 2 = 'Primaria completa'
	- NSE 3 = 'Secundaria (Bachillerato) completa'
	- NSE 4 = 'Educación profesional completa'
- COLE_BILINGUE:
	- Should be S If COLE_NOMBRE_ESTABLECIMIENTO or COLE_NOMBRE_SEDE has ['BILINGÜE','BILINGUE','BILINGUAL','BRITÁNICO','BRITANICO',BRITANIC','AMERICAN','AMERICANO']

In [None]:
df_icfes2023_fillnans = df_icfes2023.copy()
# Apply the function to fill NaN values in FAMI_ESTRATOVIVIENDA column
df_icfes2023_fillnans['FAMI_ESTRATOVIVIENDA'] = df_icfes2023.apply(fill_nan_fami_estrato, axis=1)
# Fill NaN values in FAMI_EDUCACIONMADRE column based on NSE values
df_icfes2023_fillnans['FAMI_EDUCACIONMADRE'] = df_icfes2023['FAMI_EDUCACIONMADRE'].fillna(df_icfes2023_fillnans['ESTU_NSE_INDIVIDUAL'].map(nse_education_mapping))
df_icfes2023_fillnans['FAMI_EDUCACIONPADRE'] = df_icfes2023['FAMI_EDUCACIONPADRE'].fillna(df_icfes2023_fillnans['ESTU_NSE_INDIVIDUAL'].map(nse_education_mapping))
# Apply the function to fill NaN values in COLE_BILINGUE column
df_icfes2023_fillnans['COLE_BILINGUE'] = df_icfes2023.apply(fill_nan_cole_bilingue, axis=1)
# Fill NaN values in meal
df_icfes2023_fillnans['FAMI_COMELECHEDERIVADOS'] = df_icfes2023['FAMI_COMELECHEDERIVADOS'].fillna(df_icfes2023_fillnans['ESTU_NSE_INDIVIDUAL'].map(nse_food_mapping))
df_icfes2023_fillnans['FAMI_COMECEREALFRUTOSLEGUMBRE'] = df_icfes2023['FAMI_COMECEREALFRUTOSLEGUMBRE'].fillna(df_icfes2023_fillnans['ESTU_NSE_INDIVIDUAL'].map(nse_food_mapping))
df_icfes2023_fillnans['FAMI_COMECARNEPESCADOHUEVO'] = df_icfes2023['FAMI_COMECARNEPESCADOHUEVO'].fillna(df_icfes2023_fillnans['ESTU_NSE_INDIVIDUAL'].map(nse_food_mapping))

In [None]:
df_icfes2023_fillnans.isna().sum()

ESTU_TIPODOCUMENTO                   0
ESTU_GENERO                          7
PERIODO                              0
ESTU_DEPTO_RESIDE                    0
ESTU_MCPIO_RESIDE                    0
ESTU_PRESENTACIONSABADO            165
FAMI_ESTRATOVIVIENDA              3964
FAMI_PERSONASHOGAR                1288
FAMI_CUARTOSHOGAR                 2403
FAMI_EDUCACIONPADRE                  0
FAMI_EDUCACIONMADRE                  0
FAMI_TRABAJOLABORPADRE            2678
FAMI_TRABAJOLABORMADRE            2256
FAMI_NUMLIBROS                   28153
FAMI_COMELECHEDERIVADOS              0
FAMI_COMECARNEPESCADOHUEVO           0
FAMI_COMECEREALFRUTOSLEGUMBRE        0
ESTU_DEDICACIONLECTURADIARIA     24672
ESTU_DEDICACIONINTERNET          25767
ESTU_HORASSEMANATRABAJA           2265
COLE_NOMBRE_ESTABLECIMIENTO          0
COLE_NATURALEZA                      0
COLE_BILINGUE                    92722
COLE_CARACTER                    20590
COLE_NOMBRE_SEDE                     0
COLE_SEDE_PRINCIPAL      

In [None]:
df_icfes2023_fillnans['FAMI_EDUCACIONPADRE'].mode()[0]

'Secundaria (Bachillerato) completa'

In [None]:
# Codify values per attribute
df_icfes2023_fillnans['PERIODO'] = df_icfes2023_fillnans['PERIODO'].replace({20231: 1, 20234: 2})
df_icfes2023_fillnans['FAMI_ESTRATOVIVIENDA'] = df_icfes2023_fillnans['FAMI_ESTRATOVIVIENDA'].replace({'Estrato 1': 1, 'Estrato 2': 2, 'Estrato 3': 3,
                                                                                           'Estrato 4': 4, 'Estrato 5': 5, 'Estrato 6': 6})
df_icfes2023_fillnans['FAMI_CUARTOSHOGAR'] = df_icfes2023_fillnans['FAMI_CUARTOSHOGAR'].replace({'Uno': 1,'Dos': 2, 'Tres': 3, 'Cuatro': 4,
                                                                                                 'Cinco': 5, 'Seis o mas': 6})
for atributo in ['FAMI_EDUCACIONPADRE','FAMI_EDUCACIONMADRE']:
  df_icfes2023_fillnans[atributo] = df_icfes2023_fillnans[atributo].replace({
      'No sabe':'Ninguno',
      'No Aplica':'Ninguno',
  })
  df_icfes2023_fillnans[atributo] = df_icfes2023_fillnans[atributo].fillna('Ninguno')
for atributo in ['FAMI_TRABAJOLABORPADRE','FAMI_TRABAJOLABORMADRE']:
  df_icfes2023_fillnans[atributo] = df_icfes2023_fillnans[atributo].replace({
      'Es dueño de un negocio grande, tiene un cargo de nivel directivo o gerencial': 1,
      'Es agricultor, pesquero o jornalero': 2,
      'Trabaja como profesional (por ejemplo médico, abogado, ingeniero)': 3,
      'Trabaja en el hogar, no trabaja o estudia': 4,
      'Es dueño de un negocio pequeño (tiene pocos empleados o no tiene, por ejemplo tienda, papelería, etc': 5,
      'No sabe': 6,
      'Es operario de máquinas o conduce vehículos (taxita, chofer)': 7,
      'Pensionado': 8,
      'Tiene un trabajo de tipo auxiliar administrativo (por ejemplo, secretario o asistente)': 9,
      'Es vendedor o trabaja en atención al público': 10,
      'Trabaja por cuenta propia (por ejemplo plomero, electricista)': 11,
      'No aplica': 6,
      'Trabaja como personal de limpieza, mantenimiento, seguridad o construcción': 12
  })
  df_icfes2023_fillnans[atributo] = df_icfes2023_fillnans[atributo].fillna(df_icfes2023_fillnans[atributo].mode()[0])
  df_icfes2023_fillnans[atributo] = df_icfes2023_fillnans[atributo].astype('int')
for atributo in ['FAMI_COMELECHEDERIVADOS', 'FAMI_COMECEREALFRUTOSLEGUMBRE', 'FAMI_COMECARNEPESCADOHUEVO']:
  df_icfes2023_fillnans[atributo] = df_icfes2023_fillnans[atributo].replace({
      'Todos o casi todos los días': 1,
      '1 o 2 veces por semana': 2,
      '3 a 5 veces por semana': 3,
      'Nunca o rara vez comemos eso': 4
  })
  df_icfes2023_fillnans[atributo] = df_icfes2023_fillnans[atributo].fillna(df_icfes2023_fillnans[atributo].mode()[0])
  df_icfes2023_fillnans[atributo] = df_icfes2023_fillnans[atributo].astype('int')
df_icfes2023_fillnans['FAMI_NUMLIBROS'] = df_icfes2023_fillnans['FAMI_NUMLIBROS'].replace({
    'MÁS DE 100 LIBROS': 1,
    '11 A 25 LIBROS': 2,
    '0 A 10 LIBROS': 3,
    '26 A 100 LIBROS': 4
})
df_icfes2023_fillnans['FAMI_NUMLIBROS'] = df_icfes2023_fillnans['FAMI_NUMLIBROS'].fillna(df_icfes2023_fillnans['FAMI_NUMLIBROS'].mode()[0])
df_icfes2023_fillnans['FAMI_NUMLIBROS'] = df_icfes2023_fillnans['FAMI_NUMLIBROS'].astype('int')
df_icfes2023_fillnans['ESTU_DEDICACIONLECTURADIARIA'] = df_icfes2023_fillnans['ESTU_DEDICACIONLECTURADIARIA'].replace({
    'Entre 1 y 2 horas': 1,
    'Más de 2 horas': 2,
    'No leo por entretenimiento': 3,
    '30 minutos o menos': 4,
    'Entre 30 y 60 minutos': 6
})
df_icfes2023_fillnans['ESTU_DEDICACIONLECTURADIARIA'] = df_icfes2023_fillnans['ESTU_DEDICACIONLECTURADIARIA'].fillna(df_icfes2023_fillnans['ESTU_DEDICACIONLECTURADIARIA'].mode()[0])
df_icfes2023_fillnans['ESTU_DEDICACIONLECTURADIARIA'] = df_icfes2023_fillnans['ESTU_DEDICACIONLECTURADIARIA'].astype('int')
df_icfes2023_fillnans['ESTU_DEDICACIONINTERNET'] = df_icfes2023_fillnans['ESTU_DEDICACIONINTERNET'].replace({
    'Entre 1 y 3 horas': 1,
    'Entre 30 y 60 minutos': 2,
    'Más de 3 horas': 3,
    '30 minutos o menos': 4,
    'No Navega Internet': 5
})
df_icfes2023_fillnans['ESTU_DEDICACIONINTERNET'] = df_icfes2023_fillnans['ESTU_DEDICACIONINTERNET'].fillna(df_icfes2023_fillnans['ESTU_DEDICACIONINTERNET'].mode()[0])
df_icfes2023_fillnans['ESTU_DEDICACIONINTERNET'] = df_icfes2023_fillnans['ESTU_DEDICACIONINTERNET'].astype('int')
df_icfes2023_fillnans['ESTU_HORASSEMANATRABAJA'] = df_icfes2023_fillnans['ESTU_HORASSEMANATRABAJA'].replace({
    '0': 1,
    'Más de 30 horas': 2,
    'Menos de 10 horas': 3,
    'Entre 11 y 20 horas': 4,
    'Entre 21 y 30 horas': 5
})
df_icfes2023_fillnans['ESTU_HORASSEMANATRABAJA'] = df_icfes2023_fillnans['ESTU_HORASSEMANATRABAJA'].fillna(df_icfes2023_fillnans['ESTU_HORASSEMANATRABAJA'].mode()[0])
df_icfes2023_fillnans['ESTU_HORASSEMANATRABAJA'] = df_icfes2023_fillnans['ESTU_HORASSEMANATRABAJA'].astype('int')
df_icfes2023_fillnans['COLE_CARACTER'] = df_icfes2023_fillnans['COLE_CARACTER'].replace({'NO APLICA':'ACADÉMICO'})
df_icfes2023_fillnans['COLE_CARACTER'] = df_icfes2023_fillnans['COLE_CARACTER'].fillna(df_icfes2023_fillnans['COLE_CARACTER'].mode()[0])
df_icfes2023_fillnans['COLE_SEDE_PRINCIPAL'] = df_icfes2023_fillnans['COLE_SEDE_PRINCIPAL'].replace({'S ':'S','N ':'N'})
# Eliminar filas con 'Sin Estrato'
df_icfes2023_fillnans = df_icfes2023_fillnans[df_icfes2023_fillnans['FAMI_ESTRATOVIVIENDA'] != 'Sin Estrato']

In [None]:
# Se eliminan los NaN faltantes
df_icfes2023_fillnans.dropna(inplace=True)

In [None]:
# Document type
attributes_NOTTO_analyse = ['ESTU_DEPTO_RESIDE','ESTU_MCPIO_RESIDE','COLE_NOMBRE_ESTABLECIMIENTO','COLE_NOMBRE_SEDE',
                         'COLE_MCPIO_UBICACION','COLE_MCPIO_PRESENTACION','PUNT_LECTURA_CRITICA', 'PERCENTIL_LECTURA_CRITICA',
                         'DESEMP_LECTURA_CRITICA', 'PUNT_MATEMATICAS', 'PERCENTIL_MATEMATICAS','DESEMP_MATEMATICAS', 'PUNT_C_NATURALES',
                         'PERCENTIL_C_NATURALES','DESEMP_C_NATURALES', 'PUNT_SOCIALES_CIUDADANAS','PERCENTIL_SOCIALES_CIUDADANAS',
                         'DESEMP_SOCIALES_CIUDADANAS','PUNT_INGLES', 'PERCENTIL_INGLES', 'DESEMP_INGLES', 'PUNT_GLOBAL','PERCENTIL_GLOBAL',
                         'ESTU_INSE_INDIVIDUAL','PERCENTIL_ESPECIAL_GLOBAL','ESTU_MCPIO_PRESENTACION']
for attribute in df_icfes2023_fillnans.columns:
  if attribute not in attributes_NOTTO_analyse:
    print(attribute.capitalize())
    values_per_attribute(df_icfes2023_fillnans, attribute)

Estu_tipodocumento
- TI: 358212, porcentaje: 88.258%
- CC: 47657, porcentaje: 11.742%
Estu_genero
- F: 220145, porcentaje: 54.24%
- M: 185724, porcentaje: 45.76%
Periodo
- 1: 10202, porcentaje: 2.514%
- 2: 395667, porcentaje: 97.486%
Estu_presentacionsabado
- No: 369501, porcentaje: 91.039%
- Si: 36368, porcentaje: 8.961%
Fami_estratovivienda
- 3: 100831, porcentaje: 24.843%
- 2: 151454, porcentaje: 37.316%
- 1: 110981, porcentaje: 27.344%
- 5: 9521, porcentaje: 2.346%
- 4: 27890, porcentaje: 6.872%
- 6: 5192, porcentaje: 1.279%
Fami_personashogar
- 5 a 6: 113936, porcentaje: 28.072%
- 3 a 4: 218908, porcentaje: 53.936%
- 1 a 2: 39951, porcentaje: 9.843%
- 7 a 8: 24828, porcentaje: 6.117%
- 9 o más: 8246, porcentaje: 2.032%
Fami_cuartoshogar
- 4.0: 49400, porcentaje: 12.171%
- 2.0: 154509, porcentaje: 38.069%
- 3.0: 162689, porcentaje: 40.084%
- 6.0: 6329, porcentaje: 1.559%
- 5.0: 12902, porcentaje: 3.179%
- 1.0: 20040, porcentaje: 4.938%
Fami_educacionpadre
- Educación profesional co

In [None]:
# Tipos de datos
df_icfes2023_fillnans.dtypes

ESTU_TIPODOCUMENTO                object
ESTU_GENERO                       object
PERIODO                            int64
ESTU_DEPTO_RESIDE                 object
ESTU_MCPIO_RESIDE                 object
ESTU_PRESENTACIONSABADO           object
FAMI_ESTRATOVIVIENDA              object
FAMI_PERSONASHOGAR                object
FAMI_CUARTOSHOGAR                float64
FAMI_EDUCACIONPADRE               object
FAMI_EDUCACIONMADRE               object
FAMI_TRABAJOLABORPADRE             int64
FAMI_TRABAJOLABORMADRE             int64
FAMI_NUMLIBROS                     int64
FAMI_COMELECHEDERIVADOS            int64
FAMI_COMECARNEPESCADOHUEVO         int64
FAMI_COMECEREALFRUTOSLEGUMBRE      int64
ESTU_DEDICACIONLECTURADIARIA       int64
ESTU_DEDICACIONINTERNET            int64
ESTU_HORASSEMANATRABAJA            int64
COLE_NOMBRE_ESTABLECIMIENTO       object
COLE_NATURALEZA                   object
COLE_BILINGUE                     object
COLE_CARACTER                     object
COLE_NOMBRE_SEDE

In [None]:
# NaNs
df_icfes2023_fillnans.isna().sum()

ESTU_TIPODOCUMENTO               0
ESTU_GENERO                      0
PERIODO                          0
ESTU_DEPTO_RESIDE                0
ESTU_MCPIO_RESIDE                0
ESTU_PRESENTACIONSABADO          0
FAMI_ESTRATOVIVIENDA             0
FAMI_PERSONASHOGAR               0
FAMI_CUARTOSHOGAR                0
FAMI_EDUCACIONPADRE              0
FAMI_EDUCACIONMADRE              0
FAMI_TRABAJOLABORPADRE           0
FAMI_TRABAJOLABORMADRE           0
FAMI_NUMLIBROS                   0
FAMI_COMELECHEDERIVADOS          0
FAMI_COMECARNEPESCADOHUEVO       0
FAMI_COMECEREALFRUTOSLEGUMBRE    0
ESTU_DEDICACIONLECTURADIARIA     0
ESTU_DEDICACIONINTERNET          0
ESTU_HORASSEMANATRABAJA          0
COLE_NOMBRE_ESTABLECIMIENTO      0
COLE_NATURALEZA                  0
COLE_BILINGUE                    0
COLE_CARACTER                    0
COLE_NOMBRE_SEDE                 0
COLE_SEDE_PRINCIPAL              0
COLE_AREA_UBICACION              0
COLE_JORNADA                     0
COLE_MCPIO_UBICACION

In [None]:
# Nulos
df_icfes2023_fillnans.isnull().sum()

ESTU_TIPODOCUMENTO               0
ESTU_GENERO                      0
PERIODO                          0
ESTU_DEPTO_RESIDE                0
ESTU_MCPIO_RESIDE                0
ESTU_PRESENTACIONSABADO          0
FAMI_ESTRATOVIVIENDA             0
FAMI_PERSONASHOGAR               0
FAMI_CUARTOSHOGAR                0
FAMI_EDUCACIONPADRE              0
FAMI_EDUCACIONMADRE              0
FAMI_TRABAJOLABORPADRE           0
FAMI_TRABAJOLABORMADRE           0
FAMI_NUMLIBROS                   0
FAMI_COMELECHEDERIVADOS          0
FAMI_COMECARNEPESCADOHUEVO       0
FAMI_COMECEREALFRUTOSLEGUMBRE    0
ESTU_DEDICACIONLECTURADIARIA     0
ESTU_DEDICACIONINTERNET          0
ESTU_HORASSEMANATRABAJA          0
COLE_NOMBRE_ESTABLECIMIENTO      0
COLE_NATURALEZA                  0
COLE_BILINGUE                    0
COLE_CARACTER                    0
COLE_NOMBRE_SEDE                 0
COLE_SEDE_PRINCIPAL              0
COLE_AREA_UBICACION              0
COLE_JORNADA                     0
COLE_MCPIO_UBICACION

In [None]:
# Filas y columnas
df_icfes2023_fillnans.shape

(405869, 50)

In [None]:
df_icfes2023_fillnans.info()

<class 'pandas.core.frame.DataFrame'>
Index: 405869 entries, 0 to 551147
Data columns (total 50 columns):
 #   Column                         Non-Null Count   Dtype  
---  ------                         --------------   -----  
 0   ESTU_TIPODOCUMENTO             405869 non-null  object 
 1   ESTU_GENERO                    405869 non-null  object 
 2   PERIODO                        405869 non-null  int64  
 3   ESTU_DEPTO_RESIDE              405869 non-null  object 
 4   ESTU_MCPIO_RESIDE              405869 non-null  object 
 5   ESTU_PRESENTACIONSABADO        405869 non-null  object 
 6   FAMI_ESTRATOVIVIENDA           405869 non-null  object 
 7   FAMI_PERSONASHOGAR             405869 non-null  object 
 8   FAMI_CUARTOSHOGAR              405869 non-null  float64
 9   FAMI_EDUCACIONPADRE            405869 non-null  object 
 10  FAMI_EDUCACIONMADRE            405869 non-null  object 
 11  FAMI_TRABAJOLABORPADRE         405869 non-null  int64  
 12  FAMI_TRABAJOLABORMADRE         4058

# 🎯 Data Load
- Export the data to `drive` in parquet format.

In [None]:
df_icfes2023_fillnans.to_parquet('/content/drive/MyDrive/No Country Proyecto/Data/Clean/Icfes2023.parquet')

In [None]:
# Prueba
df_test = pd.read_parquet('/content/drive/MyDrive/No Country Proyecto/Data/Clean/Icfes2023.parquet')
df_test.head()

Unnamed: 0,ESTU_TIPODOCUMENTO,ESTU_GENERO,PERIODO,ESTU_DEPTO_RESIDE,ESTU_MCPIO_RESIDE,ESTU_PRESENTACIONSABADO,FAMI_ESTRATOVIVIENDA,FAMI_PERSONASHOGAR,FAMI_CUARTOSHOGAR,FAMI_EDUCACIONPADRE,...,PERCENTIL_SOCIALES_CIUDADANAS,DESEMP_SOCIALES_CIUDADANAS,PUNT_INGLES,PERCENTIL_INGLES,DESEMP_INGLES,PUNT_GLOBAL,PERCENTIL_GLOBAL,ESTU_INSE_INDIVIDUAL,ESTU_NSE_INDIVIDUAL,ESTU_NSE_ESTABLECIMIENTO
0,TI,F,1,CUNDINAMARCA,CHÍA,No,3,5 a 6,4.0,Educación profesional completa,...,97,4,87.0,94.0,B+,422,100.0,67.532814,4.0,4.0
3,CC,F,1,VALLE,CALI,No,3,3 a 4,4.0,Ninguno,...,1,1,58.0,43.0,A2,200,12.0,41.863163,2.0,3.0
4,TI,F,1,VALLE,CALI,No,2,1 a 2,2.0,Secundaria (Bachillerato) incompleta,...,52,3,69.0,57.0,B1,263,39.0,51.223795,3.0,3.0
6,TI,F,1,VALLE,CAICEDONIA,No,1,3 a 4,2.0,Primaria incompleta,...,42,2,50.0,29.0,A1,295,54.0,39.984838,1.0,3.0
7,TI,M,1,VALLE,JAMUNDÍ,No,1,5 a 6,2.0,Técnica o tecnológica completa,...,64,3,52.0,34.0,A1,320,66.0,50.613232,2.0,3.0


In [None]:
df_test.shape

(405869, 50)