<img src="Archivos/miia.jpg" width=800x>

# Laboratorio 2

## Hito: desarrollo de una herramienta analítica usando paquetes especializados para análisis de datos en Python

Este laboratorio corresponde al 34% de la calificación total del curso y su entrega está planteada para el final de la semana 8. Su objetivo es poner en práctica las competencias adquiridas sobre el uso de los paquetes Pandas, Seaborn y Scikit Learn, entre otros, para hacer exploración, análisis descriptivo, y abordar preguntas de negocio para un caso basado en datos reales. 

Especificamente, al desarrollar este laboratorio pondrás a prueba tus habilidades para:

1. Identificar y abordar una pregunta de negocio a partir de un contexto dado.
2. Cargar datos desde archivos utilizando métodos de Pandas.
3. Explorar, manejar, limpiar y agregar DataFrames.
5. Implementar análisis combinando métricas descriptivas, visualización, filtrado y agrupación.
6. Implementar análisis basado en modelos estadísticos o de machine learning.
7. Utilizar paquetes como ipywidgets o panel para agregar interactividad a los análisis de manera sencilla.

Te recomendamos leer por completo el enunciado del laboratorio antes de comenzar, de forma que tengas claro el propósito completo de la actividad, y puedas desarrollar tu solución apuntando a él en cada paso.

##  Contexto: *Desigualdad y factores de éxito en Pruebas "Saber 11" (Colombia)*

El ICFES es el Instituto Colombiano para el Fomento de la Educación Superior y está adscrito al Ministerio de Educación a nivel nacional. Como parte de sus funciones, el ICFES administra las pruebas *Saber 11*, las cuales evalúan a todos los estudiantes del país al final de su educación secundaria. El examen contiene preguntas que evalúan una variedad de áreas del conocimiento (p.ej., matemáticas, ciencias naturales), y se lleva a cabo dos veces al año, respondiendo a los diferentes calendarios académicos que siguen las instituciones educativas. Al momento de inscribirse a las pruebas, los estudiantes deben llenar un formulario que recoge información socio-demográfica y relacionada con la institución a la que pertenecen, con el fin de obtener evidencia respecto al desempeño de los estudiantes en la prueba según sus condiciones particulares.

<img src="Archivos/saberpro.png" width=700x>

Al igual que otros países de la región, Colombia tiene grandes retos en términos de desigualdad, particularmente en el contexto de educación primaria y secundaria. Por esta razón, para el Estado colombiano es muy valioso el amplio registro de datos que el ICFES genera alrededor de las Pruebas Saber 11, pues con ellos se pueden generar análisis sobre la calidad de la educación en el país y eventualmente dar lugar a recomendaciones sobre políticas públicas. En particular, la problemática a abordar en este caso de estudio es *desigualdad y factores de éxito en las pruebas Saber 11*. 

Los objetivos de este caso de estudio son:

* Entender el contenido de los archivos de datos proporcionados sobre las pruebas Saber11, generar un reporte acerca de sus características principales, e identificar qué partes de dicho contenido serán relevantes para el análisis.
* Identificar características de las variables de interés y relaciones entre ellas, por ejemplo, a través de agrupación, visualizaciones, y descriptivos en general.
* Abordar preguntas de negocio relacionadas con la problemática planteada, particularmente con respecto a los factores que puedan incidir significativamente en el puntaje de una persona que presenta la prueba; especialmente aquellos que se relacionen con mal desempeño.
* Generar una herramienta sencilla que permita a un usuario interactuar con alguno de los análisis realizados de forma relevante en el contexto del problema.

# 1. Entender el contenido de los archivos de datos

Esta misión consiste en hacerse una idea general del contenido de los datos y seleccionar un segmento de ellos que tenga potencial para los análisis propuestos.

Pautas generales:
* Leer los archivos de datos y agregarlos según sea necesario.
* Inspeccionar el archivo a partir de su encabezado, columnas, descripciones de las variables según su tipo (numéricas, categóricas).
* Definir un sub-conjunto de variables (e.g., una lista) que puedan ser relevantes para la problemática de interés.

Preguntas guía:
* ¿Qué dimensiones tienen los datos?
* ¿Con cuántos años y periodos de evaluación se cuenta?
* ¿Cuáles variables pueden ser de interés para la problemática planteada?
* ¿Qué porcentaje de datos faltantes o no válidos hay en las columnas de interés? ¿Podría eso afectar el análisis, y cómo abordarlo?

Esta misión corresponde a trabajo interno del analista, por lo cual no tiene un entregable para el cliente. Como entregable, puedes generar un reporte básico sobre el contenido de los archivos de datos, ya sea a través de la impresión de mensajes, la presentación de tablas resumen, u otros.

## Respuesta

**Nota:** Las decisiones tomadas tuvieron en cuenta el documento `DICCIONARIO DE VARIABLES SABER 11° PERIODO 20191 a 20202.pdf` disponible en el repositorio del ICFES.

Se decidió seleccionar datos de 3 periodos de evaluación, comprendidos entre el 2019 y 2021.

In [None]:
import numpy as np
import pandas as pd

pd.set_option('display.max_columns', 100)
# !!!!!  Pendiente modificar esto para que cambie desde los zips
data_20191 = pd.read_csv('SB11_20191.txt', sep="¬")
data_20192 = pd.read_csv('SB11_20192.txt', sep="¬")
data_20201 = pd.read_csv('SB11_20201.txt', sep="¬")
data_20202 = pd.read_csv('SB11_20202.txt', sep="¬")
data_20211 = pd.read_csv('SB11_20211.txt', sep="¬")

  return func(*args, **kwargs)


A continuación se examina el tamaño de los conjuntos de datos para cada periodo.

In [None]:
datasets = {'20191': data_20191, '20192': data_20192, 
            '20201': data_20201, '20202': data_20202,
            '20211': data_20211}

print("Tamaño de cada conjunto de datos")
for periodo, dataset in datasets.items():
    print(periodo, ":", dataset.shape)

Se nota que existen diferencias en la forma de dataframes. La mayoría de los datos procede de los periodos 201902 y 20202, y no hay el mismo número de columnas en todos los conjuntos de datos. Para evaluar la calidad de los datos, se procede a revisar también si hay diferencias entre periodos de un mismo año.

In [None]:
# Se verificará si los nombres de columnas son los mismos entre cada año.
print("Los nombres de columnas son idénticos entre los 2 periodos de 2019 y 2020:")
for año in ('2019', '2020'):
    print(año, ":", all(datasets[año + '1'].columns.values == datasets[año + '2'].columns.values))

Se observa que el año 2019 tiene diferencia en nombres por lo que se encontrarán los índices y nombres de las columnas discordantes.

In [None]:
ind_col_dif = [indice for indice, identico in enumerate(datasets['20191'].columns.values == datasets['20192'].columns.values)
                       if identico == False]

print("Diferencias en columnas para el año 2019:")
for indice in ind_col_dif:
    print(datasets['20191'].columns[indice], datasets['20192'].columns[indice])

Se concluye entonces que ambos dataframes del año 2019 tienen las mismas columnas, sólo que en orden diferente. Este hecho no supone problema, pero requiere tener cuidado al momento de hacer concatenaciones vertical, pues se deberán alinear las columnas.

Se procede a abordar entonces el problema de las diferencias de columnas entre años.

In [None]:
print("Diferencia de columnas (2019 respecto a 2020):\n",
      set(datasets['20191'].columns.values).difference(set(datasets['20201'].columns.values)))

print("Diferencia de columnas del (2019 respecto a 2021):\n",
      set(datasets['20191'].columns.values).difference(set(datasets['20211'].columns.values)))

print("Diferencia de columnas del (2020 respecto a 2019):\n",
      set(datasets['20201'].columns.values).difference(set(datasets['20191'].columns.values)))   

print("Diferencia de columnas del (2020 respecto a 2021):\n",
      set(datasets['20201'].columns.values).difference(set(datasets['20211'].columns.values)))

print("Diferencia de columnas del (2021 respecto a 2019):\n",
      set(datasets['20211'].columns.values).difference(set(datasets['20191'].columns.values)))

print("Diferencia de columnas del (2021 respecto a 2020):\n",
      set(datasets['20211'].columns.values).difference(set(datasets['20201'].columns.values)))

Estas diferencias significarían datos nulos en caso de concatenar las columnas tal cual cómo están. Para solucionar este problema se toma el siguiente curso de acción:

* Descartar `ESTU_ETNIA` (grupo étnico minoritario al que pertenece el evaluado) de los conjuntos de datos del año 2019, ante la discontinuidad de esta columna para los años 2020 y 2021.
* Descartar `ESTU_GENERACION-E` de los dataframes del 2019 y 2020, pues esta es una consecuencia del desempeño pero <u>no un factor explicativo</u> de este.

* Las variables `ESTU_INSE_INDIVIDUAL` y `ESTU_NSE_INDIVIDUAL` representan el índice y nivel (respectivamente) socioeconómico del evaluado y están presentes en los conjuntos de datos del 2019 pero no en los del 2020 y 2021. Si bien potencialmente podrían ser reconstruidos mediante una regresión logística multinomial, se sospecha que la información de ambas variables puede estar altamente correlacionada con las de las variables `FAMI_ESTRATOVIVIENDA`, `FAMI_SITUACIONECONOMICA`, `FAMI_PERSONAS_HOGAR`, `FAMI_TRABAJOLABORPADRE`  y `FAMI_TRABAJOLABORMADRE`, por lo que para avanzar el análisis más rápidamente y evitar problemas de multicolinealidad si se decide utilizar una técnica de regresión lineal, se decide por el descarte de ambas.
* Se descarta la columna `PERCENTIL_ESPECIAL_GLOBAL` pues sólo está presente en el dataframe del 2021.

In [None]:
datasets['20191'].drop("ESTU_ETNIA", axis=1, inplace=True)
datasets['20192'].drop("ESTU_ETNIA", axis=1, inplace=True)

datasets['20191'].drop("ESTU_GENERACION-E", axis=1, inplace=True)
datasets['20192'].drop("ESTU_GENERACION-E", axis=1, inplace=True)
datasets['20201'].drop("ESTU_GENERACION-E", axis=1, inplace=True)
datasets['20202'].drop("ESTU_GENERACION-E", axis=1, inplace=True)

datasets['20191'].drop(["ESTU_INSE_INDIVIDUAL", "ESTU_NSE_INDIVIDUAL"], axis=1, inplace=True)
datasets['20192'].drop(["ESTU_INSE_INDIVIDUAL", "ESTU_NSE_INDIVIDUAL"], axis=1, inplace=True)
datasets['20201'].drop(["ESTU_INSE_INDIVIDUAL", "ESTU_NSE_INDIVIDUAL"], axis=1, inplace=True)
datasets['20202'].drop(["ESTU_INSE_INDIVIDUAL", "ESTU_NSE_INDIVIDUAL"], axis=1, inplace=True)

datasets['20211'].drop("PERCENTIL_ESPECIAL_GLOBAL", axis=1, inplace=True)

Solamente queda `ESTU_NSE_ESTABLECIMIENTO` como columna discordante. Quizá pueda obtenerse mediante un cruce de los códigos de las sedes con los datos de 2019 y 2020.

In [None]:
nse_establecimientos = []

for periodo in datasets:
    try:
        temp_df = datasets[periodo][["COLE_COD_DANE_SEDE", "ESTU_NSE_ESTABLECIMIENTO"]].copy()
        temp_df = temp_df[datasets[periodo]["ESTU_NSE_ESTABLECIMIENTO"].isna() == False]
        temp_df.drop_duplicates(subset=["COLE_COD_DANE_SEDE", "ESTU_NSE_ESTABLECIMIENTO"],
                                keep='first', inplace=True, ignore_index=False)
        nse_establecimientos.append(temp_df)
    except:
        pass
    
nse_establecimientos = pd.concat(nse_establecimientos, axis=0, ignore_index=True)
nse_establecimientos.drop_duplicates(subset=["COLE_COD_DANE_SEDE", "ESTU_NSE_ESTABLECIMIENTO"],
                                     keep='first', inplace=True, ignore_index=False)

# Se crea la columna ESTU_NSE_ESTABLECIMIENTO para el dataframe del 2021
datasets["20211"] = pd.merge(datasets["20211"], nse_establecimientos, on="COLE_COD_DANE_SEDE", how="left")

# Se reemplazan los ESTU_NSE_ESTABLECIMIENTO faltantes en los demás periodos

def look(row):
    if np.isnan(row["ESTU_NSE_ESTABLECIMIENTO"]) == True:
        try:
            value = nse_establecimientos.loc[nse_establecimientos["COLE_COD_DANE_SEDE"] == row["COLE_COD_DANE_SEDE"],
                                       "ESTU_NSE_ESTABLECIMIENTO"].values[0]
            return value
        except:
            return np.NaN

for periodo in ("20191", "20192", "20201", "20202"):
    datasets[periodo].loc[datasets[periodo]["ESTU_NSE_ESTABLECIMIENTO"].isna(),
                          "ESTU_NSE_ESTABLECIMIENTO"]\
    = datasets[periodo][datasets[periodo]["ESTU_NSE_ESTABLECIMIENTO"].isna()].apply(lambda row: look(row), axis=1)

Ahora se procederá a la concatenación de los dataframes de todos los años y se examina el número de valores nulos por columna:

In [None]:
df = pd.concat(list(datasets.values()), axis=0, ignore_index=True, sort=True)

pd.set_option('display.max_rows', 100)
print(df.shape)
print("Faltantes:\n", df.isna().sum() )

Se observan que existen 180196 valores faltantes en la columna `COLE_BILINGUE`. Esto puede afectar las conclusiones en un potencial análisis que compare desempeño en la prueba de inglés respecto al carácter bilingüe del establecimiento educativo.

Una posibilidad es que existan fallos parciales en los datos, es decir, para ciertos estudiantes no se reporta la información del caracter de su bilingüe de su colegio, pero para otros del mismo establecimiento sí: en este caso sería factible cruzar la información y recuperarla.

Para el caso de fallos completos de los datos, es decir, ningún estudiante de un colegio dado tiene información del caracter de su colegio, la única forma de cubrir estos vacíos sería una investigación exhaustiva de estos establecimientos en otras fuentes, lo cual sería dispendioso: Se decide eliminar los registros con estas características.

In [None]:
groups = df.COLE_BILINGUE.isna().groupby(df.COLE_COD_DANE_SEDE, sort = False).mean()

# Descarte de fallos completos
df = df.query("~(COLE_COD_DANE_SEDE.isin(@groups[@groups == 1].index.values))")

# Tratamiento de datos parciales
sedes_bilinguismo = df[~(df["COLE_BILINGUE"].isna())][["COLE_COD_DANE_SEDE", "COLE_BILINGUE"]]
sedes_bilinguismo.drop_duplicates(subset="COLE_COD_DANE_SEDE",
                                  keep='first', inplace=True, ignore_index=True)

df = pd.merge(df, sedes_bilinguismo, on="COLE_COD_DANE_SEDE", how="left")
df = df.drop("COLE_BILINGUE_x", axis=1, inplace=False).rename(columns = {"COLE_BILINGUE_y": "COLE_BILINGUE"})

También se descartarán los nulos en `DESEMP_INGLES`, `PUNT_INGLES`, `PERCENTIL_INGLES`, `PERCENTIL_GLOBAL` y `ESTU_NSE_ESTABLECIMIENTO` puesto que ya no representan una porción significativa de la muestra.

Se aprecia además que los faltantes de `ESTU_COD_RESIDE_DEPTO` y `ESTU_COD_RESIDE_MCPIO` tienen el mismo número que `ESTU_DEPTO_RESIDE` y `ESTU_MCPIO_RESIDE`, por lo que dicha información no es recuperable y será eliminada.

In [None]:
df = df[~(df[["DESEMP_INGLES", "PUNT_INGLES", "PERCENTIL_INGLES",
              "PERCENTIL_GLOBAL", "ESTU_NSE_ESTABLECIMIENTO", "ESTU_COD_RESIDE_DEPTO",
              "ESTU_COD_RESIDE_MCPIO"]].isna().any(axis="columns"))]

No se consideran de interés las variables `ESTU_COD_DEPTO_PRESENTACION`, `ESTU_COD_MCPIO_PRESENTACION`, `ESTU_DEPTO_PRESENTACION`, `ESTU_DEPTO_RESIDE`, `ESTU_MCPIO_PRESENTACION`, `ESTU_MCPIO_RESIDE`, `COLE_CODIGO_ICFES`, `COLE_COD_DEPTO_UBICACION`, `COLE_COD_MCPIO_UBICACION` puesto que son claves externas de información que también se encuentra explícita en la tabla en forma de texto, siendo así redundantes.

In [None]:
df = df.drop(columns=["ESTU_COD_DEPTO_PRESENTACION", "ESTU_COD_MCPIO_PRESENTACION", "ESTU_DEPTO_PRESENTACION",
                      "ESTU_DEPTO_RESIDE", "ESTU_MCPIO_PRESENTACION", "ESTU_MCPIO_RESIDE", "COLE_CODIGO_ICFES",
                      "COLE_COD_DEPTO_UBICACION", "COLE_COD_MCPIO_UBICACION"], inplace=False)

Tampoco se consideran de interés para la problemática a las variables `ESTU_ESTADOINVESTIGACION`, `ESTU_TIPODOCUMENTO`, `ESTU_NACIONALIDAD`, `ESTU_ESTUDIANTE` y `ESTU_CONSECUTIVO`. No se tendrán en cuenta las variables con prefijo `DESEMP`, puesto que ya se cuenta con información de puntaje y percentil, y se excluirán del análisis las variables `COLE_SEDE_PRINCIPAL`, `COLE_NOMBRE_ESTABLECIMIENTO`, `COLE_NOMBRE_SEDE` y `COLE_CALENDARIO`.

In [None]:
df = df.drop(columns=["ESTU_ESTADOINVESTIGACION", "ESTU_TIPODOCUMENTO", "ESTU_NACIONALIDAD", "ESTU_CONSECUTIVO",
                      "COLE_SEDE_PRINCIPAL", "COLE_NOMBRE_ESTABLECIMIENTO", "ESTU_ESTUDIANTE", "COLE_NOMBRE_SEDE",
                      "COLE_CALENDARIO"], inplace=False)

df = df.loc[:, ~df.columns.str.startswith('DESEMP')]

Se decide enfocar el estudio solamente en hábitos, nutrición, división urbana-rural y en los indicadores y percepción de la situación económica del hogar y del establecimiento educativo.

In [None]:
df = df[["COLE_AREA_UBICACION", "COLE_NATURALEZA", "ESTU_DEDICACIONINTERNET",
         "ESTU_DEDICACIONLECTURADIARIA", "ESTU_HORASSEMANATRABAJA", "FAMI_COMECARNEPESCADOHUEVO",
         "FAMI_COMECEREALFRUTOSLEGUMBRE", "FAMI_COMELECHEDERIVADOS", "FAMI_NUMLIBROS", "FAMI_ESTRATOVIVIENDA",
         "FAMI_SITUACIONECONOMICA", "FAMI_TIENECOMPUTADOR", "FAMI_TIENECONSOLAVIDEOJUEGOS", "FAMI_TIENESERVICIOTV",
         "FAMI_TIENEINTERNET", "PERCENTIL_C_NATURALES", "PERCENTIL_GLOBAL", "PERCENTIL_INGLES", "PERCENTIL_LECTURA_CRITICA",
         "PERCENTIL_MATEMATICAS", "PERCENTIL_SOCIALES_CIUDADANAS", "PUNT_C_NATURALES", "PUNT_GLOBAL", "PUNT_INGLES",
         "PUNT_LECTURA_CRITICA", "PUNT_MATEMATICAS", "PUNT_SOCIALES_CIUDADANAS", "COLE_BILINGUE", "ESTU_NSE_ESTABLECIMIENTO"]]

Se descartan los registros que tengan faltantes en todas las siguientes columnas: `ESTU_DEDICACIONINTERNET`, `ESTU_DEDICACIONLECTURADIARIA`, `ESTU_HORASSEMANATRABAJA`, `FAMI_COMECARNEPESCADOHUEVO`, `FAMI_COMECEREALFRUTOSLEGUMBRE`, `FAMI_COMELECHEDERIVADOS`, `FAMI_NUMLIBROS`, `FAMI_ESTRATOVIVIENDA`, `FAMI_TIENECOMPUTADOR`, `FAMI_TIENECONSOLAVIDEOJUEGOS`, `FAMI_TIENESERVICIOTV`, `FAMI_TIENEINTERNET`.

In [None]:
df = df[~(df[['ESTU_DEDICACIONINTERNET', 'ESTU_DEDICACIONLECTURADIARIA', 'ESTU_HORASSEMANATRABAJA',
              'FAMI_COMECARNEPESCADOHUEVO', 'FAMI_COMECEREALFRUTOSLEGUMBRE', 'FAMI_COMELECHEDERIVADOS',
              'FAMI_NUMLIBROS', 'FAMI_ESTRATOVIVIENDA', 'FAMI_TIENECOMPUTADOR', 'FAMI_TIENECONSOLAVIDEOJUEGOS',
              'FAMI_TIENESERVICIOTV', 'FAMI_TIENEINTERNET']].isna().all(axis="columns"))]

Se revisan ahora la forma y faltantes del dataframe resultante:

In [None]:
print(df.shape)
print("Faltantes:\n", df.isna().sum())

Permanecen entonces las siguientes variables:

* Explicativas: `COLE_AREA_UBICACION`, `ESTU_GENERO`, `COLE_NATURALEZA`, `ESTU_DEDICACIONINTERNET`, `ESTU_DEDICACIONLECTURADIARIA`, `ESTU_HORASSEMANATRABAJA`, `FAMI_COMECARNEPESCADOHUEVO`, `FAMI_COMECEREALFRUTOSLEGUMBRE`, `FAMI_COMELECHEDERIVADOS`, `FAMI_NUMLIBROS`, `FAMI_ESTRATOVIVIENDA`, `FAMI_TIENECOMPUTADOR`, `FAMI_TIENECONSOLAVIDEOJUEGOS`, `FAMI_TIENESERVICIOTV`, `FAMI_TIENEINTERNET`, `COLE_BILINGUE`, `ESTU_NSE_ESTABLECIMIENTO`.
* Respuesta: `PERCENTIL_C_NATURALES`, `PERCENTIL_GLOBAL`, `PERCENTIL_INGLES`, `PERCENTIL_LECTURA_CRITICA`, `PERCENTIL_MATEMATICAS`, `PERCENTIL_SOCIALES_CIUDADANAS`, `PUNT_C_NATURALES`, `PUNT_GLOBAL`, `PUNT_INGLES`, `PUNT_LECTURA_CRITICA`, `PUNT_MATEMATICAS`, `PUNT_SOCIALES_CIUDADANAS`.

Se decide conservar los registros con datos nulos, puesto que los que se preservan sí tienen información para una columna pero no para otra, dándole mayor potencia al análisis exploratorio de los datos; no obstante si al recurrir un análisis inferencial llegase a necesitar el uso de absolutamente todas las columnas explicativas, se descartaran aquellas filas que tengan al menos 1 dato nulo, puesto que no representan una fracción significativa de la muestra del dataframe.

Ahora se verifica el tipo de datos.

In [None]:
df.dtypes

* Las columnas con prefijo `COLE` son almacenadas correctamente como cadenas, puesto que son variables cualitativas nominales.
* Los columnas con prefijo `PUNT` y `PERCENTIL` son variables discretas en los archivos. Entonces `PUNT_INGLES`, `PERCENTIL_GLOBAL` y `PERCENTIL_INGLES` deben ser convertidos a enteros.
* Las columnas con prefijos `ESTU` y `FAMI` son variables cualitativas ordinales, pero están siendo almacenadas como cadenas, por lo que deben ser convertidas a factores que siguen una jerarquía, haciendo así posible el cálculo de correlaciones.

In [None]:
# Conversión de PUNT_INGLES, PERCENTIL_GLOBAL y PERCENTIL_INGLES a enteros
df[["PUNT_INGLES", "PERCENTIL_GLOBAL", "PERCENTIL_INGLES"]] = df[["PUNT_INGLES", "PERCENTIL_GLOBAL", "PERCENTIL_INGLES"]].astype(int)


def codificacion_var_ordinales(df_columna, lista_cats_ordenadas):
    columna_codificada = df_columna.astype('category')
    columna_codificada = columna_codificada.cat.reorder_categories(lista_cats_ordenadas, ordered=True)
    return columna_codificada.cat.codes

# Categorización ordinal de las columnas con prefijos ESTU y FAMI.
df['ESTU_CAT_DEDICACIONINTERNET'] = codificacion_var_ordinales(df['ESTU_DEDICACIONINTERNET'],
                                                               ['No Navega Internet', '30 minutos o menos',
                                                                'Entre 30 y 60 minutos', 'Entre 1 y 3 horas', 'Más de 3 horas'])

df['ESTU_CAT_DEDICACIONLECTURADIARIA'] = codificacion_var_ordinales(df['ESTU_DEDICACIONLECTURADIARIA'],
                                                                    ['No leo por entretenimiento', '30 minutos o menos',
                                                                     'Entre 30 y 60 minutos', 'Entre 1 y 2 horas',
                                                                     'Más de 2 horas'])

df['ESTU_CAT_HORASSEMANATRABAJA'] = codificacion_var_ordinales(df['ESTU_HORASSEMANATRABAJA'],
                                                               ['0', 'Menos de 10 horas', 'Entre 11 y 20 horas',
                                                                'Entre 21 y 30 horas', 'Más de 30 horas'])

df['FAMI_CAT_COMECARNEPESCADOHUEVO'] = codificacion_var_ordinales(df['FAMI_COMECARNEPESCADOHUEVO'],
                                                                  ['Nunca o rara vez comemos eso', '1 o 2 veces por semana',
                                                                   '3 a 5 veces por semana', 'Todos o casi todos los días'])

df['FAMI_CAT_COMECEREALFRUTOSLEGUMBRE'] = codificacion_var_ordinales(df['FAMI_COMECEREALFRUTOSLEGUMBRE'],
                                                                     ['Nunca o rara vez comemos eso', '1 o 2 veces por semana',
                                                                      '3 a 5 veces por semana', 'Todos o casi todos los días'])

df['FAMI_CAT_COMELECHEDERIVADOS'] = codificacion_var_ordinales(df['FAMI_COMELECHEDERIVADOS'],
                                                               ['Nunca o rara vez comemos eso', '1 o 2 veces por semana',
                                                                '3 a 5 veces por semana', 'Todos o casi todos los días'])

df['FAMI_CAT_NUMLIBROS'] = codificacion_var_ordinales(df['FAMI_NUMLIBROS'],
                                                      ['0 A 10 LIBROS', '11 A 25 LIBROS', '26 A 100 LIBROS',
                                                       'MÁS DE 100 LIBROS'])

df['FAMI_CAT_ESTRATOVIVIENDA'] = codificacion_var_ordinales(df['FAMI_ESTRATOVIVIENDA'],
                                                            ['Sin Estrato', 'Estrato 1', 'Estrato 2', 'Estrato 3',
                                                             'Estrato 4', 'Estrato 5', 'Estrato 6'])

df['FAMI_CAT_SITUACIONECONOMICA'] = codificacion_var_ordinales(df['FAMI_SITUACIONECONOMICA'], ['Peor', 'Igual', 'Mejor'])

df['FAMI_CAT_TIENECOMPUTADOR'] = codificacion_var_ordinales(df['FAMI_TIENECOMPUTADOR'], ['No', 'Si'])

df['FAMI_CAT_TIENECONSOLAVIDEOJUEGOS'] = codificacion_var_ordinales(df['FAMI_TIENECONSOLAVIDEOJUEGOS'], ['No', 'Si'])

df['FAMI_CAT_TIENESERVICIOTV'] = codificacion_var_ordinales(df['FAMI_TIENESERVICIOTV'], ['No', 'Si'])

df['FAMI_CAT_TIENEINTERNET'] = codificacion_var_ordinales(df['FAMI_TIENEINTERNET'], ['No', 'Si'])

df['ESTU_CAT_NSE_ESTABLECIMIENTO'] = codificacion_var_ordinales(df['ESTU_NSE_ESTABLECIMIENTO'], [1, 2, 3, 4])

df.head()

# 2. Identificar características y relaciones en las variables

Esta misión consiste en utilizar análisis descriptivos para explorar patrones o relaciones en las variables de interés para la problemática planteada.

Pautas generales:
* Utilizar Matplotlib y/o Seaborn para inspeccionar visualmente variables de interés; los métodos `distplot`, `pairplot`, `boxplot`, o `violinplot`, entre otros, pueden ser de utilidad.
* Utilizar el método `groupby` de Pandas, en conjunto con la visualización, para proveer evidencia sobre el impacto de variables socio-demográficas de interés sobre el desempeño de los estudiantes en la prueba.

Preguntas guía:
* ¿Hay patrones de interés en las distribuciones de las variables, o en las relaciones entre ellas?
* ¿Existe algún impacto significativo de variables socio-demográficas en los puntajes globales o por área?
* ¿Sobre cuáles variables vale la pena hacer un análisis más profundo?

El entregable de esta misión es un reporte (p.ej., un conjunto de visualizaciones) que de cuenta de los comportamientos más interesantes que se observen en las variables de interés para el contexto propuesto. El propósito de esta exploración es generar hipótesis o preguntas que guíen análisis más profundos. En ese sentido, con base en lo aprendido en esta sección, identifique las tres preguntas analíticas que plantearía con mayor prioridad, teniendo en cuenta el contexto y los datos disponibles; estas preguntas NO se deben abordar en términos de código para el laboratorio (únicamente formularse).

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.gridspec import GridSpec

En primer lugar, interesa comprobar si existe una brecha entre los colegios urbanos y rurales.

In [None]:
fig = plt.figure(figsize=(30, 20))
gs = GridSpec(nrows = 3, ncols = 2)

ax0 = fig.add_subplot(gs[0])
ax0 = sns.violinplot(x="COLE_AREA_UBICACION", y="PUNT_GLOBAL", data=df)
plt.setp(ax0, title = 'PUNT_GLOBAL')

ax1 = fig.add_subplot(gs[1])
ax1 = sns.violinplot(x="COLE_AREA_UBICACION", y="PUNT_MATEMATICAS", data=df)
plt.setp(ax1, title = 'PUNT_MATEMATICAS')

ax2 = fig.add_subplot(gs[2])
ax2 = sns.violinplot(x="COLE_AREA_UBICACION", y="PUNT_C_NATURALES", data=df)
plt.setp(ax2, title = 'PUNT_C_NATURALES')

ax3 = fig.add_subplot(gs[3])
ax3 = sns.violinplot(x="COLE_AREA_UBICACION", y="PUNT_INGLES", data=df)
plt.setp(ax3, title = 'PUNT_INGLES')

ax4 = fig.add_subplot(gs[4])
ax4 = sns.violinplot(x="COLE_AREA_UBICACION", y="PUNT_LECTURA_CRITICA", data=df)
plt.setp(ax4, title = 'PUNT_LECTURA_CRITICA')

ax5 = fig.add_subplot(gs[5])
ax5 = sns.violinplot(x="COLE_AREA_UBICACION", y='PUNT_SOCIALES_CIUDADANAS', data=df)
plt.setp(ax5, title = 'PUNT_SOCIALES_CIUDADANAS')

plt.show()

puntajes = ["PUNT_GLOBAL", "PUNT_MATEMATICAS", "PUNT_C_NATURALES", "PUNT_INGLES", "PUNT_LECTURA_CRITICA",
            'PUNT_SOCIALES_CIUDADANAS']

df[puntajes + ["COLE_AREA_UBICACION"]].groupby("COLE_AREA_UBICACION").describe()

De los gráficos anteriores y la tabla de estadísticos descriptivos se observa que existe una diferencia entre las medias de las áreas geográficas, favoreciendo en todos los puntajes a los estudiantes de colegios ubicados en áreas urbanas.

* La mayoría de las diferencias de las medias de puntaje en las pruebas específicas tiene una magnitud de aproximadamente 3-4 puntos, pero está se amplifica a 5 para la prueba de inglés.
* El efecto acumulado de las diferencias genera una diferencia total de aproximadamente 10.5 puntos en el puntaje general.


A continuación, se examina la diferencia entre puntajes de los colegios urbanos y públicos.

In [None]:
fig = plt.figure(figsize=(30, 20))
gs = GridSpec(nrows = 3, ncols = 2)

ax0 = fig.add_subplot(gs[0])
ax0 = sns.violinplot(x="COLE_NATURALEZA", y="PUNT_GLOBAL", data=df)
plt.setp(ax0, title = 'PUNT_GLOBAL')

ax1 = fig.add_subplot(gs[1])
ax1 = sns.violinplot(x="COLE_NATURALEZA", y="PUNT_MATEMATICAS", data=df)
plt.setp(ax1, title = 'PUNT_MATEMATICAS')

ax2 = fig.add_subplot(gs[2])
ax2 = sns.violinplot(x="COLE_NATURALEZA", y="PUNT_C_NATURALES", data=df)
plt.setp(ax2, title = 'PUNT_C_NATURALES')

ax3 = fig.add_subplot(gs[3])
ax3 = sns.violinplot(x="COLE_NATURALEZA", y="PUNT_INGLES", data=df)
plt.setp(ax3, title = 'PUNT_INGLES')

ax4 = fig.add_subplot(gs[4])
ax4 = sns.violinplot(x="COLE_NATURALEZA", y="PUNT_LECTURA_CRITICA", data=df)
plt.setp(ax4, title = 'PUNT_LECTURA_CRITICA')

ax5 = fig.add_subplot(gs[5])
ax5 = sns.violinplot(x="COLE_NATURALEZA", y='PUNT_SOCIALES_CIUDADANAS', data=df)
plt.setp(ax5, title = 'PUNT_SOCIALES_CIUDADANAS')

plt.show()

df[puntajes + ["COLE_NATURALEZA"]].groupby("COLE_NATURALEZA").describe()

La diferencia de puntajes mucho más acentuada por la naturaleza privada o pública del colegio.

* Las medias de los colegios privados superan a la de los públicos, tanto en el puntaje general como el de las pruebas específicas.

* Si se detalla la distribución de los mejores puntajes de las pruebas específicas de matemáticas, inglés, lectura crítica, ciencias naturales y competencias ciudadanas, se nota como la mayoría corresponde a puntajes de colegios privados.

    * La diferencia en rendimiento es especialmente pronunciada para la prueba de inglés, donde las medias están separadas por alrededor de 10 puntos, y el cuantil 75 para los estudiantes de colegios privados es 9 puntos más alto que los de los colegios públicos.
    
Como siguiente paso, se evaluarán las diferencias entre niveles socioeconómicos de los establecimientos:

In [None]:
fig = plt.figure(figsize=(30, 20))
gs = GridSpec(nrows = 3, ncols = 2)

ax0 = fig.add_subplot(gs[0])
ax0 = sns.violinplot(x="ESTU_NSE_ESTABLECIMIENTO", y="PUNT_GLOBAL", data=df)
plt.setp(ax0, title = 'PUNT_GLOBAL')

ax1 = fig.add_subplot(gs[1])
ax1 = sns.violinplot(x="ESTU_NSE_ESTABLECIMIENTO", y="PUNT_MATEMATICAS", data=df)
plt.setp(ax1, title = 'PUNT_MATEMATICAS')

ax2 = fig.add_subplot(gs[2])
ax2 = sns.violinplot(x="ESTU_NSE_ESTABLECIMIENTO", y="PUNT_C_NATURALES", data=df)
plt.setp(ax2, title = 'PUNT_C_NATURALES')

ax3 = fig.add_subplot(gs[3])
ax3 = sns.violinplot(x="ESTU_NSE_ESTABLECIMIENTO", y="PUNT_INGLES", data=df)
plt.setp(ax3, title = 'PUNT_INGLES')

ax4 = fig.add_subplot(gs[4])
ax4 = sns.violinplot(x="ESTU_NSE_ESTABLECIMIENTO", y="PUNT_LECTURA_CRITICA", data=df)
plt.setp(ax4, title = 'PUNT_LECTURA_CRITICA')

ax5 = fig.add_subplot(gs[5])
ax5 = sns.violinplot(x="ESTU_NSE_ESTABLECIMIENTO", y='PUNT_SOCIALES_CIUDADANAS', data=df)
plt.setp(ax5, title = 'PUNT_SOCIALES_CIUDADANAS')

plt.show()

df[puntajes + ["ESTU_NSE_ESTABLECIMIENTO"]].groupby("ESTU_NSE_ESTABLECIMIENTO").describe()

In [None]:
sns.barplot(df["FAMI_NUMLIBROS"])

In [None]:
df.columns

In [None]:
fig = plt.figure(figsize=(30, 20))

ax = sns.heatmap(
    df.corr(), 
    vmin=-1, vmax=1, center=0,
    cmap=sns.diverging_palette(20, 220, n=200),
    square=True
)
ax.set_xticklabels(
    ax.get_xticklabels(),
    rotation=45,
    horizontalalignment='right'
);

In [None]:
#df1 = df[~(df.isna().any(axis="columns"))]
#print("Faltantes:\n", df1.notna().sum())

# Verificación de tipos de datos

# Transformaciones

# Subseccion de datos

In [None]:
# Preguntas analíticas

# 3. Abordar preguntas de negocio planteadas

Esta misión consiste en proponer, implementar y evaluar el desempeño modelo(s) que busque(n) explicar las relaciones entre factores socio-demográficos y desempeño en la prueba.

Pautas generales:
* Seleccionar variables y proponer modelos acordes a dichas variables y al contexto del problema.
* Utilizar los paquetes StatsModels y Scikit Learn para indagar sobre los aspectos que contribuyen al éxito de los estudiantes. Particularmente, las clases correspondientes a regresión lineal y regresión logística, entre otras, pueden ser útiles.
* Utilizar las métricas de evaluación de desempeño (disponibles en los paquetes mencionados), para concluir sobre la validez de los modelos propuestos.

Preguntas guía:
* ¿Existe algún sub-conjunto de variables socio-demográficas que explique razonablemente bien el desempeño de los estudiantes en la prueba?
* Definiendo como "estudiante en riesgo" a quien tenga un puntaje por debajo del percentil $\alpha$ en más de la mitad de las áreas de la prueba, ¿cuáles variables socio-demográficas permitirían "predecir" si un estudiante pertenecerá a dicho grupo?

El entregable de esta misión es un reporte sobre el desempeño de los modelos propuestos para abordar al menos una de las preguntas guía planteadas, acompañado de una conclusión sobre los resultados del modelo (si son válidos) en el contexto de la problemática planteada.

In [None]:
# Código

# 4. Desarrollar una herramienta interactiva de análisis

Esta misión consiste en desarrollar una herramienta interactiva sencilla (que sea relevante en el contexto del problema) a partir de alguno de los análisis realizados en las secciones 2 o 3.

Pautas generales:
* Seleccionar uno de los análisis previos que pueda verse enriquecido con alguna característica de interactividad.
* Seleccionar los parámetros que el usuario podrá cambiar.
* Desarrollar las funciones que se deben ejecutar con cada acción del usuario.
* Utilizar los paquetes `ipywidgets` o `panel` para implementar la herramienta.

Pregunta guía:
* ¿Cuál(es) es la pregunta que el usuario podrá hacerle a la herramienta, y cómo aporta al análisis?
* ¿Qué aprendizajes clave puede explorar u obtener el usuario con esta herramienta basada en los datos?

El entregable de esta misión es la herramienta implementada, acompañada de las instrucciones necesarias para que un usuario la pueda utilizar.

In [None]:
# Código