<div >
<img src = "figs/dsa_banner.png" />
</div>

# Preprocesamiento

### Integrantes:
    - Catalina García García
    - Camilo Alejandro Grande Sánchez
    - Jesús Alberto Parada Pérez
    - Jorge Esteban Caballero Rodríguez


In [1]:
import numpy as np
import pandas as pd
from sklearn.impute import SimpleImputer

import warnings
warnings.filterwarnings("ignore")

## Carga de datos

Se cargan los datos de las fuentes dadas:

In [2]:
def cargar_datos(filename, nombre_base):
    data = pd.read_excel(f"data/{filename}")
    return data

data = cargar_datos("Base perfilación de competencias_310823.xlsx", "Base de datos:")    

## Selección de Componentes

A partir del análisis realizado anteriormente se decidió dejar únicamente las preguntas que afectan las 12 primeras componentes las cuales son:
    ['p7', 'p12', 'p5', 'p15', 'p9', 'p2', 'p17', 'p18', 'p20', 'p6']

In [3]:
#componentes a eliminar:
coldrops = ['p1', 'p3', 'p4', 'p8', 'p10', 'p11', 'p13', 'p14', 'p16', 'p19']

def select_comp(data):
    data_sc = data.drop(coldrops,axis=1)
    return data_sc

data_sc = select_comp(data)

##  Eliminar faltantes

Se procede a eliminar los missing en la variable regional en caso de presentarce, ya que para la fundación Future Education es un requisito saber con certeza la regional a la que pertenece un docente:

In [4]:
## Eliminar missing
data_sc.dropna(inplace=True, subset = ["regional"])

### Imputación univariada

Se procede a corregir errores comunes en los dominios: 
- departamento: el dominio NINGUNO no es un valor valido y se debe imputar o eliminar.
- ubicacioninstitucion: la ubicación ninguna no es valida, debe ser urbana o rural
- edades: todos son docentes, maestros o agentes educativos, por lo que todos son mayores de edad; las edades 0 a 6, 7 a 14 y 15 a 17, no son validas, se debe imputar o eliminar.
- sexoinscrito: la opción Mujer no es valida, se debe reemplazar por mujer.

Esto se realizará con una imputación univariada con estrategia de la más frecuente

In [5]:
# Reemplazar los valores incorrectos con NaN
data_sc["departamento"] = data_sc["departamento"].replace("NINGUNO", np.nan)
data_sc["ubicacioninstitucion"] = data_sc["ubicacioninstitucion"].replace("ninguna", np.nan)
data_sc["edades"] = data_sc["edades"].replace(
    ["Entre 0 y 6 años", "Entre 7 y 14 años", "Entre 15 y 17 años"], np.nan
)
# Reemplazar los valores Mujer con mujer
data_sc["sexoinscrito"] = data_sc["sexoinscrito"].replace("Mujer", "mujer")

In [6]:
## Imputar con la moda
estrategia="most_frequent"

imp = SimpleImputer(missing_values=np.nan, strategy=estrategia)
imp.fit(data_sc)
# Imputar los valores faltantes en el DataFrame
data_imputado = pd.DataFrame(imp.transform(data_sc), columns=data_sc.columns)

## Mapeo Respuestas

In [7]:
# Mapear las respuestas a los valores numéricos
mapeo_respuestas = {
    "Nunca": 1,
    "A veces": 2,
    "Constantemente": 3,
    "Siempre": 4
}

# Variables
variables_p = ['p2', #Creatividad e innovación
               'p5', 'p6', 'p7', # Resolucion de problemas
               'p9', 'p12', # Pensamiento critico
               'p15', # Trabajo colaborativo
               'p17', 'p18', 'p20'] # Comunicación

# Aplicar el mapeo a las columnas correspondientes
for variable in variables_p:
    data_imputado[variable] = data_imputado[variable].replace(mapeo_respuestas)

Se hace la codificación y se encuentra que el instrumento tiene preguntas inversas/negativas donde la opción `Nunca` es **Siempre**, `A veces` es **Constantemente**, `Constantemente` es **A veces**, y `Siempre` es **Nunca**.

Se procede a invertir estas preguntas.

In [8]:
# Variables que deben invertirse
variables_invertir = ["p2", "p7", "p18", "p20"]

# Invertir las respuestas en las columnas seleccionadas
for variable in variables_invertir:
    data_imputado[variable] = 5 - data_imputado[variable]  # esto "invierte" los alores

## Separar y almacenar datos

Se realiza el almacenamiento de los datos y se generan bases con solo los socioeconómicos para visualización y las preguntas para los modelos

In [9]:
col_select=['p7', 'p12', 'p5', 'p15', 'p9', 'p2', 'p17', 'p18', 'p20', 'p6']
col_select2=['ID','p7', 'p12', 'p5', 'p15', 'p9', 'p2', 'p17', 'p18', 'p20', 'p6']
data_SE = data_imputado.drop(col_select,axis=1)

data_p = data_imputado[col_select2]

In [11]:
data_imputado.to_excel('data/BD_G22.xlsx')
data_p.to_excel('data/BD_G22_P.xlsx')
data_SE.to_excel('data/BD_G22_SE.xlsx')