<a href="https://colab.research.google.com/github/carloscastillo10/predicting-academic-performance/blob/main/annex-a.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
from tqdm import tqdm
import pandas as pd
import numpy as np
pd.options.display.max_columns = 30
pd.set_option('mode.chained_assignment', None)

In [None]:
def load_data(path):
    data = pd.read_csv(path)
    data.columns = data.columns.str.lower()
    return data

In [None]:
default_values = {
    'provincia': 'NO DEFINIDO',
    'canton': 'NO DEFINIDO',
    'discapacidad': 'NO',
    'tipo_discapacidad': 'NO DEFINIDO',
    'porcentaje_de_discapacidades': 0,
    'numero_discapacidades': 0
}

# Obtener las columnas que contienen valores en blanco en alguno de sus registros
def get_empty_columns(data):
    columns_empty = data.isnull().any().to_frame().reset_index()
    columns_empty = columns_empty.rename(columns={'index': 'column', 0: 'is_empty'})
    return columns_empty[columns_empty.is_empty == True]


# Filtrar el dataset mediante a la fake identificacion
def filter_by_fake_identification(fake_identification):
    return enrollment_data[enrollment_data.fake_identificacion == fake_identification]

# Obtener por cada columna el valor no nulo mas reciente
def get_value_of_recent_period(student_data, column_name):
    
    # Ordenar del periodo mas reciente a las mas antiguo
    sorted_data_filter = student_data[['codigo_periodo', column_name]].dropna().sort_values(by='codigo_periodo', ascending = False)

    if not sorted_data_filter.empty:
        return sorted_data_filter.iloc[0][column_name]
    
    if column_name in default_values.keys():
        return default_values[column_name]
    
    return np.NAN


In [None]:
enrollment_path = 'data/matriculasANNONYM.csv'
enrollment_data = load_data(enrollment_path)
enrollment_data.head(5)

Unnamed: 0,fake_identificacion,ciclo_academico,codigo_programa,codigo_malla,codigo_periodo,region,zona,centro,tipo_de_est_programa,tipo_de_ingreso,periodo_admision,estatus_cursos,estatus_de_pago,descripcion_de_becas,porcentaje_de_beca,descripcion_descuento,porcentaje_des_matricula,monto_descuento_automatico,convenios_y_contratos,formas_de_pago,tipo_de_pago,provincia,canton,edad,sexo,discapacidad,tipo_discapacidad,porcentaje_de_discapacidades,numero_discapacidades
0,XTLA48155273548078,6,INFO_D1,IFD6,202164,QUITO,METROPOLIT,QUITO-TURUBAMBA,CONTINUO,ADAPTACION DE CARRERA/MALLA,202062,CURSOS INSCRITOS,CON PAGO TOTAL,CONVENIO DE ADJUDICACIÓN DE BE,10.0,DESCUENTO COVID-19 ARANCELES GRADO - DESCUENT...,20.0,90.26,MINISTERIO DEL INTERIOR - POLICIA NACIONAL DEL...,BANCOS ON LINE,PAGO EN BANCO,,,,,,,,
1,UXEI98025937081073,1,INFO_D1,IFD6,202164,QUITO,METROPOLIT,QUITO-CARCELEN,NUEVO,CAMBIO DE PROGRAMA,202164,CURSOS INSCRITOS,CON PAGO TOTAL,,,DESCUENTO COVID-19 ARANCELES GRADO - DESCUENT...,120.0,,,TARJETA ONLINE,PAGO CON TARJETA,,,,,,,,
2,GPAJ23677358509910,6,INFO_D1,IFD6,202164,GUAYAQUIL,GRAN-GYE,GUAYAQUIL,CONTINUO,ADAPTACION DE CARRERA/MALLA,202062,CURSOS INSCRITOS,CON PAGO TOTAL,,,DESCUENTO COVID-19 ARANCELES GRADO - DESCUENT...,20.0,35.64,,BANCOS ON LINE,PAGO EN BANCO,,,,,,,,
3,ZOER11008237530420,3,INFO_D1,IFD6,202164,QUITO,METROPOLIT,QUITO-TURUBAMBA,CONTINUO,INGRESO REGULAR,202064,CURSOS CADUCADOS,,,,,,,,,,,,,,,,,
4,YPKN05597705348880,8,INFO_D1,IFD6,202164,QUITO,METROPOLIT,QUITO,CONTINUO,ADAPTACION DE CARRERA/MALLA,202062,CURSOS INSCRITOS,CON PAGO TOTAL,,,DESCUENTO COVID-19 ARANCELES GRADO - DESCUENT...,20.0,45.8,,TARJETA ONLINE,PAGO CON TARJETA,,,,,,,,


In [None]:
fake_identifications = enrollment_data.fake_identificacion.unique()

# Analisis de las acciones a realizar de un solo estudiante

### Extraer todas las matriculas que ha realizado el estudiante

In [None]:
fake_identification = fake_identifications[0]
student_data = filter_by_fake_identification(fake_identification)
student_data

Unnamed: 0,fake_identificacion,ciclo_academico,codigo_programa,codigo_malla,codigo_periodo,region,zona,centro,tipo_de_est_programa,tipo_de_ingreso,periodo_admision,estatus_cursos,estatus_de_pago,descripcion_de_becas,porcentaje_de_beca,descripcion_descuento,porcentaje_des_matricula,monto_descuento_automatico,convenios_y_contratos,formas_de_pago,tipo_de_pago,provincia,canton,edad,sexo,discapacidad,tipo_discapacidad,porcentaje_de_discapacidades,numero_discapacidades
0,XTLA48155273548078,6,INFO_D1,IFD6,202164,QUITO,METROPOLIT,QUITO-TURUBAMBA,CONTINUO,ADAPTACION DE CARRERA/MALLA,202062,CURSOS INSCRITOS,CON PAGO TOTAL,CONVENIO DE ADJUDICACIÓN DE BE,10.0,DESCUENTO COVID-19 ARANCELES GRADO - DESCUENT...,20.0,90.26,MINISTERIO DEL INTERIOR - POLICIA NACIONAL DEL...,BANCOS ON LINE,PAGO EN BANCO,,,,,,,,
1534,XTLA48155273548078,7,INFO_D1,IFD6,202262,QUITO,METROPOLIT,QUITO-TURUBAMBA,CONTINUO,ADAPTACION DE CARRERA/MALLA,202062,CURSOS INSCRITOS,CON PAGO TOTAL,CONVENIO DE ADJUDICACIÓN DE BE,10.0,DESC RED. FAC. INGENIERIAS Y ARQUITECTURA GR.D...,20.0,108.31,MINISTERIO DEL INTERIOR - POLICIA NACIONAL DEL...,BANCOS ON LINE,PAGO EN BANCO,,,,,,,,
2478,XTLA48155273548078,8,INFO_D1,IFD6,202264,QUITO,METROPOLIT,QUITO-TURUBAMBA,CONTINUO,ADAPTACION DE CARRERA/MALLA,202062,CURSOS INSCRITOS,CON PAGO TOTAL,CONVENIO DE ADJUDICACIÓN DE BE,10.0,DESC RED. FAC. INGENIERIAS Y ARQUITECTURA GR.D...,,143.45,MINISTERIO DEL INTERIOR - POLICIA NACIONAL DEL...,BANCOS ON LINE,PAGO EN BANCO,,,,,,,,
3646,XTLA48155273548078,5,INFO_D1,IFD6,202062,QUITO,METROPOLIT,QUITO-TURUBAMBA,CONTINUO,ADAPTACION DE CARRERA/MALLA,202062,CURSOS INSCRITOS,CON PAGO TOTAL,BECA CONVENIO-SITUACION ECO.GR,10.0,DESCUENTO POR NUMERO DE COMPONENTES GRADO DIST...,5.0,150.9,MINISTERIO DEL INTERIOR - POLICIA NACIONAL DEL...,BANCOS ON LINE,PAGO EN BANCO,,NO DEFINIDO,,,,,,
3903,XTLA48155273548078,4,INFO_D1,IFD6,202064,QUITO,METROPOLIT,QUITO-TURUBAMBA,CONTINUO,ADAPTACION DE CARRERA/MALLA,202062,CURSOS INSCRITOS,CON PAGO TOTAL,BECA CONVENIO-SITUACION ECO.GR - BECA SITUACIO...,10.0,DESCUENTO COVID-19 ARANCELES GRADO - DESCUENT...,25.0,124.07,MINISTERIO DEL INTERIOR - POLICIA NACIONAL DEL...,BANCOS ON LINE,PAGO EN BANCO,NO DEFINIDO,NO DEFINIDO,24.0,MUJER,NO,,,0.0
5331,XTLA48155273548078,5,INFO_D1,IFD6,202162,QUITO,METROPOLIT,QUITO-TURUBAMBA,CONTINUO,ADAPTACION DE CARRERA/MALLA,202062,CURSOS INSCRITOS,CON PAGO TOTAL,BECA CONVENIO-SITUACION ECO.GR - BECA RENDIMIE...,15.0,DESCUENTO COVID-19 ARANCELES GRADO - DESCUENT...,20.0,132.44,MINISTERIO DEL INTERIOR - POLICIA NACIONAL DEL...,BANCOS MANUALES,PAGO EN BANCO,NO DEFINIDO,NO DEFINIDO,24.0,MUJER,NO,,,0.0


### Extraer las columnas que contienen valores vacios de cada estudiante

In [None]:
student_empty_columns = get_empty_columns(student_data)
student_empty_columns

Unnamed: 0,column,is_empty
16,porcentaje_des_matricula,True
21,provincia,True
22,canton,True
23,edad,True
24,sexo,True
25,discapacidad,True
26,tipo_discapacidad,True
27,porcentaje_de_discapacidades,True
28,numero_discapacidades,True


In [None]:
student_data[['ciclo_academico', 'codigo_periodo', 'porcentaje_des_matricula']]

Unnamed: 0,ciclo_academico,codigo_periodo,porcentaje_des_matricula
0,6,202164,20.0
1534,7,202262,20.0
2478,8,202264,
3646,5,202062,5.0
3903,4,202064,25.0
5331,5,202162,20.0


### Por cada columna se extrae el valor no nulo mas reciente

In [None]:
column_name = 'porcentaje_des_matricula'

# Ordenar del periodo mas reciente a las mas antiguo
sorted_data_filter = student_data[['codigo_periodo', column_name]].dropna().sort_values(by='codigo_periodo', ascending = False)

if not sorted_data_filter.empty:
    recent_period_value = sorted_data_filter.iloc[0][column_name]
else:
    if column_name in default_values.keys():
        recent_period_value = default_values[column_name]
    else:
        recent_period_value = np.NAN

student_data[column_name] = student_data.loc[
    student_data.fake_identificacion == fake_identification, column_name
].fillna(recent_period_value)

student_data[['ciclo_academico', 'codigo_periodo', 'porcentaje_des_matricula']]

Unnamed: 0,ciclo_academico,codigo_periodo,porcentaje_des_matricula
0,6,202164,20.0
1534,7,202262,20.0
2478,8,202264,20.0
3646,5,202062,5.0
3903,4,202064,25.0
5331,5,202162,20.0


# Limpieza de datos

## 1. Completar datos faltantes de cada estudiante

In [None]:
def create_progress_bar(total, description):
    return tqdm(
        total = total, 
        desc = description, 
        position = 0 
    )

def close_progress_bar(progress_bar):
    progress_bar.clear()
    progress_bar.close()

def complete_null_values(student_empty_columns, student_data, fake_identification, completed_enrollment_data):
    for column_name in student_empty_columns:

        # Por cada columna se extrae el valor no nulo mas reciente
        recent_period_value = get_value_of_recent_period(student_data, column_name)

        # Reemplazar los valores nulos de cada columna por el el valor mas reciente
        student_data[column_name] = student_data[column_name].fillna(recent_period_value)
    
    return student_data

In [None]:
enrollment_data = load_data(enrollment_path)
fake_identifications = enrollment_data.fake_identificacion.unique()
completed_enrollment_data = pd.DataFrame()
progress_bar = create_progress_bar(len(fake_identifications), 'Estudiantes procesados')
students_processed = 1

for fake_identification in fake_identifications:
    
    # Extraer todas las matriculas que ha realizado cada uno de los estudiantes y ordenada por codigo_periodo del mas reciente al mas antiguo
    student_data = filter_by_fake_identification(fake_identification)

    # Extraer las columnas que contienen valores vacios de cada estudiante
    student_empty_columns = get_empty_columns(student_data).column.to_list()

    # Completar los valores nulos de cada columna
    completed_student_data = complete_null_values(student_empty_columns, student_data, fake_identification, completed_enrollment_data)
    completed_enrollment_data = pd.concat([completed_enrollment_data, completed_student_data])
    
    # Actualizar progressbar
    students_processed =+ 1
    progress_bar.update(students_processed)

completed_student_data = completed_student_data.reset_index()
close_progress_bar(progress_bar)

Estudiantes procesados: 100%|██████████| 2087/2087 [01:15<00:00, 27.50it/s]


## 2. Convertir a mayúsculas todas las columnas que son de tipo string

In [None]:
# 'object' representa a las columnas que son de tipo string
string_columns = completed_enrollment_data.select_dtypes(include = ['object']).columns

for column_name in string_columns:
    completed_enrollment_data[column_name] = completed_enrollment_data[column_name].str.upper()

## 3. Eliminar datos repetidos
* Eliminar el codigo de periodo repetido **`"202164 - 202164"`**.
* Eliminar el tipo de ingreso repetido **`"ADAPTACION DE CARRERA/MALLA - ADAPTACION DE CARRERA/MALLA"`**

In [None]:
def split_text(data, column_name, separator):
    return data[column_name].str.split(separator, expand = True).drop([1], axis=1)

In [None]:
repeating_columns = [
    {'name': 'periodo_admision', 'separator': '-'}, 
    {'name': 'tipo_de_ingreso', 'separator': '-'}
]

for column in repeating_columns:
    column_name = column['name']
    separator = column['separator']
    completed_enrollment_data[column_name] = split_text(completed_enrollment_data, column_name, separator)

## 4. Cambiar tipos de datos de las variables numericas
* Convertir de float a int las columnas que tienen una naturaleza de numeros enteros

In [None]:
# Int64 soporta que los numericos coexistan con valores vacios(NaN)
columns_data_types = {
    'periodo_admision': 'Int64',
    'porcentaje_de_beca': 'Int64',
    'porcentaje_des_matricula': 'Int64',
    'edad': 'Int64',
    'porcentaje_de_discapacidades': 'Int64',
    'numero_discapacidades': 'Int64'
}

In [None]:
for column_name in columns_data_types.keys():
    column_type = columns_data_types[column_name]
    completed_enrollment_data[column_name] = completed_enrollment_data[column_name].astype(column_type)

In [None]:
completed_enrollment_data.to_csv('completed-enrollment-data.csv', index=False)

# Obtener el listado de estudiantes a los que no se les puede asociar un valor previo

In [None]:
fake_identifications = completed_enrollment_data.fake_identificacion.unique()
empty_enrollment_data = pd.DataFrame()
progress_bar = create_progress_bar(len(fake_identifications), 'Estudiantes procesados')
students_processed = 1
for fake_identification in fake_identifications:
    student_data = completed_enrollment_data[completed_enrollment_data.fake_identificacion == fake_identification]
    student_empty_columns = get_empty_columns(student_data).column.to_list()
    
    if student_empty_columns:
        empty_enrollment_data = pd.concat([empty_enrollment_data, student_data])
    
    # Actualizar progressbar
    students_processed =+ 1
    progress_bar.update(students_processed)

empty_enrollment_data.to_csv('empty-enrollment-data.csv', index=False)
close_progress_bar(progress_bar)

Estudiantes procesados: 100%|██████████| 2087/2087 [00:15<00:00, 134.80it/s]


In [None]:
columns_empty = get_empty_columns(empty_enrollment_data).column.to_list()

for column_name in columns_empty:
    len_empty = len(empty_enrollment_data[empty_enrollment_data[column_name].isnull()]['fake_identificacion'].unique())
    print(f"Hay {len_empty} estudiantes que no tienen valor en la columna {column_name}")

Hay 28 estudiantes que no tienen valor en la columna tipo_de_ingreso
Hay 28 estudiantes que no tienen valor en la columna periodo_admision
Hay 148 estudiantes que no tienen valor en la columna estatus_de_pago
Hay 500 estudiantes que no tienen valor en la columna descripcion_de_becas
Hay 478 estudiantes que no tienen valor en la columna porcentaje_de_beca
Hay 61 estudiantes que no tienen valor en la columna descripcion_descuento
Hay 335 estudiantes que no tienen valor en la columna porcentaje_des_matricula
Hay 645 estudiantes que no tienen valor en la columna monto_descuento_automatico
Hay 1110 estudiantes que no tienen valor en la columna convenios_y_contratos
Hay 224 estudiantes que no tienen valor en la columna formas_de_pago
Hay 209 estudiantes que no tienen valor en la columna tipo_de_pago
Hay 846 estudiantes que no tienen valor en la columna edad
Hay 860 estudiantes que no tienen valor en la columna sexo
