# Laboratorio 2

## Desarrollo de una herramienta analítica usando paquetes especializados para análisis de datos en Python

Para el desarrollo de esta actividad puedes utilizar cualquier librería externa. Te recomendamos leer por completo el enunciado del laboratorio antes de comenzar, de forma que tengas claro el propósito global de la actividad y puedas desarrollar tu solución apuntando a él desde el inicio.

Al desarrollar este laboratorio pondrás a prueba tus habilidades para:

1. Identificar y abordar preguntas de negocio y de *analytics*.
2. Leer datos desde archivos y almacenarlos utilizando métodos de librerías especializadas.
3. Explorar, modificar, limpiar y unir objetos tablas de datos.
4. Implementar análisis combinando métricas descriptivas, visualización, filtrado y agrupación.
5. Implementar análisis basado en modelos estadísticos o de *machine learning*.

##  Contexto: desigualdad y factores de éxito en pruebas Saber 11 en Colombia

El ICFES es el Instituto Colombiano para el Fomento de la Educación Superior y está adscrito al Ministerio de Educación a nivel nacional. Como parte de sus funciones, el ICFES administra las pruebas Saber 11, las cuales evalúan a todos los estudiantes del país al final de su educación secundaria. El examen contiene preguntas que evalúan una variedad de áreas del conocimiento (ej., matemáticas, física, inglés, etc.) y se lleva a cabo dos veces al año, ajustándose a los diferentes calendarios académicos que siguen las instituciones educativas. Al momento de inscribirse a las pruebas, los estudiantes diligencian un formulario que recoge información sociodemográfica y relacionada con la institución a la que pertenecen. El fin es obtener información con respecto al desempeño de los estudiantes en la prueba y de sus características.

Al igual que otros países de la región, Colombia tiene grandes retos en términos de desigualdad, particularmente en el contexto de educación primaria y secundaria. Por esta razón, para el Estado colombiano es muy valioso el amplio registro de datos que el ICFES genera alrededor de las pruebas Saber 11, pues con ellos se pueden generar análisis sobre la calidad de la educación en el país y eventualmente dar lugar a recomendaciones sobre políticas públicas. En particular, la problemática a abordar en este caso de estudio es la desigualdad y factores de éxito en las pruebas Saber 11. 

Los objetivos de este caso de estudio son:

* Entender el contenido de los archivos de datos proporcionados sobre las pruebas Saber 11, generar un reporte acerca de sus características principales y seleccionar las partes de dicho contenido que podrían ser relevantes para el análisis.


* Identificar características de las variables de interés y relaciones entre ellas, por ejemplo, a través de agrupación, visualizaciones y estadísticas descriptivas.


* Proponer un modelo que busque relacionar las variables de interés con el desempeño de los estudiantes y concluir acerca de los posibles hallazgos que se podrían reportar para el *stakeholder*.


* Generar una herramienta que permita a un usuario interactuar con alguno de los parámetros del análisis realizado de forma relevante en el contexto del problema.

## Fase 1: obtener e inspeccionar archivos

En esta fase te harás una idea general del contenido de los datos y generarás un reporte al respecto (ej., imprimiendo mensajes, presentando tablas de resumen, etc.). Además, seleccionarás un segmento de los datos que consideres útil para realizar tu análisis.

Pautas generales:

* Utilizar una librería especializada para leer los archivos de datos y agregarlos según sea necesario (ej., utilizando los métodos `append` o `concat` si eliges cargarlos utilizando la librería `pandas`).
* Inspeccionar el archivo a partir de sus encabezados, columnas y descripciones de las variables según su tipo (ej., numéricas, categóricas).
* Declarar una estructura de datos (ej., una lista) para almacenar un subconjunto de variables que puedan ser relevantes para la problemática de interés.

Preguntas guía:

* ¿Qué dimensiones tienen los datos?
* ¿Con cuántos años y periodos de evaluación se cuenta?
* ¿Cuáles variables pueden ser de interés para la problemática planteada?
* ¿Qué porcentaje de datos faltantes o no válidos hay en las columnas de interés? ¿Qué planteas para manejarlos?

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns

calendario_a = pd.read_csv('./archivos/Examen_Saber_11_20221.csv', sep=';', low_memory=False)
calendario_b = pd.read_csv('./archivos/Examen_Saber_11_20222.csv', sep=';', low_memory=False)

columnas_comunes = calendario_a.columns.intersection(calendario_b.columns)
df = pd.concat([
    calendario_a[columnas_comunes],
    calendario_b[columnas_comunes]
], ignore_index=True)

In [None]:
print(f'Dimensión de ambos conjuntos: {df.shape}')
print(f'''\nDimensión de los datos del calendario A: {calendario_a.shape}
      Filas calendario A: {calendario_a.shape[0]}
      Columnas calendario A: {calendario_a.shape[1]}''')
print(f'''\nDimensión de los datos del calendario B: {calendario_b.shape}
      Filas calendario B: {calendario_b.shape[0]}
      Columnas calendario B: {calendario_b.shape[1]}''')

print(f"\nAños y periodos en el conjunto de datos: 2022-1 y 2022-2")

columnas = ['desemp_sociales_ciudadanas','estu_repite','fami_tieneinternet','cole_bilingue',
            'fami_estratovivienda', 'cole_area_ubicacion', 'estu_nse_establecimiento',
            'desemp_c_naturales', 'desemp_lectura_critica', 'desemp_matematicas',
            'desemp_ingles', 'estu_nse_individual', 'estu_inse_individual',
            'fami_numlibros', 'punt_global']
columnas_target = columnas
print(f"\nVariables de interés para la problemática:\n {columnas_target}")

faltantes = df[columnas_target].isna().sum() / df.shape[0] * 100
print("\nPorcentaje de datos faltantes por columna de interés:")
print(", ".join([f"{columna}: {porcentaje:.2f}%" for columna, porcentaje in faltantes.items()]))

df_filtrado = df[columnas_target].copy()
for col in df_filtrado.columns:
    if df_filtrado[col].dtype == 'object':
        df_filtrado[col] = df_filtrado[col].fillna('Sin dato')
    else:
        df_filtrado[col] = pd.to_numeric(df_filtrado[col], errors='coerce')
        df_filtrado[col] = df_filtrado[col].fillna(df_filtrado[col].median())

print(f"\nDimensiones después de imputar faltantes:")
print(f"→ Columnas conservadas: {df_filtrado.shape[1]}")
print(f"→ Filas disponibles: {df_filtrado.shape[0]}")

## Fase 2: identificar características y relaciones en las variables

En esta fase realizarás análisis descriptivo para identificar posibles patrones o relaciones entre las variables de interés para la problemática planteada. Además, expondrás estadísticas descriptivas y visualizaciones para concluir al respecto de los patrones y las relaciones identificadas. Finalmente, elegirás el segmento de los datos sobre el cual profundizarás con tu análisis (este puede ser, o no, igual al seleccionado anteriormente).

Pautas generales:

* Calcular estadísticas descriptivas básicas (por lo menos, media/mediana y varianza/desviación) para cada variable sociodemográfica relevante en el contexto del problema.
* Utilizar librerías especializadas (ej., `matplotlib`, `seaborn`, etc.) para inspeccionar visualmente variables de interés. Los métodos `distplot`, `pairplot`, `boxplot`, o `violinplot`, entre otros, pueden ser útiles.
* Utilizar el método `groupby` de `pandas`, en conjunto con métodos de visualización, puede proveer evidencia del impacto de las variables sociodemográficas de interés sobre el desempeño de los estudiantes en la prueba.

Preguntas guía:

* ¿Hay patrones de interés en las distribuciones de las variables o en las relaciones entre ellas?
* ¿Consideras que existe algún impacto significativo de variables sociodemográficas en los puntajes globales o por área?
* ¿Sobre cuáles variables harías un análisis más profundo?

In [None]:
df_corr = df[columnas].copy()

for col in df_corr.columns:
    if df_corr[col].dtype == 'object' or str(df_corr[col].dtype).startswith('category'):
        df_corr[col] = df_corr[col].astype('category').cat.codes

df_corr.dropna(inplace=True)

correlaciones = df_corr.corr()
plt.figure(figsize=(10, 8))
sns.heatmap(correlaciones, annot=True, fmt=".2f")
plt.title('Correlación con Puntaje Global')
plt.tight_layout()
plt.show()

In [None]:
df_corr = df[columnas].copy()

for col in df_corr.columns:
    if df_corr[col].dtype == 'object' or str(df_corr[col].dtype).startswith('category'):
        df_corr[col] = df_corr[col].astype('category').cat.codes

df_corr.dropna(inplace=True)

correlaciones = df_corr.corr()

if 'punt_global' in correlaciones.columns:
    plt.figure(figsize=(10, 6))
    sns.heatmap(correlaciones[['punt_global']].sort_values(by='punt_global', ascending=False),
                annot=True, cmap='Spectral', fmt=".2f", linewidths=0.5)
    plt.title('Correlación solo con Puntaje Global (variables seleccionadas)', fontsize=14)
    plt.xticks(rotation=45, ha='right')
    plt.yticks(rotation=0)
    plt.tight_layout()
    plt.show()

In [None]:
df_vis = df[columnas].copy()
df_vis.dropna(inplace=True)

def agrupar_estrato(e):
    if e in [1, 2]: return 'Bajo'
    elif e in [3, 4]: return 'Medio'
    elif e in [5, 6]: return 'Alto'
    else: return 'Otro'
df_vis['estrato_grupo'] = df_vis['fami_estratovivienda'].apply(agrupar_estrato)

df_vis['inse_tertil'] = pd.qcut(df_vis['estu_inse_individual'], q=3, labels=['Bajo', 'Medio', 'Alto'])

df_vis['internet_area'] = df_vis['fami_tieneinternet'].astype(str) + "_" + df_vis['cole_area_ubicacion'].astype(str)
df_vis['bilingue_estrato'] = df_vis['cole_bilingue'].astype(str) + "_" + df_vis['estrato_grupo']
df_vis['repite_nse'] = df_vis['estu_repite'].astype(str) + "_" + df_vis['estu_nse_individual'].astype(str)

def perfil_socioeco(row):
    estrato = row['fami_estratovivienda']
    internet = row['fami_tieneinternet']
    if estrato in [1, 2] and internet == 0:
        return 'Bajo'
    elif (estrato in [1, 2] and internet == 1) or (estrato in [3, 4] and internet == 0):
        return 'Medio-bajo'
    elif (estrato in [3, 4] and internet == 1) or (estrato in [5, 6] and internet == 0):
        return 'Medio-alto'
    elif estrato in [5, 6] and internet == 1:
        return 'Alto'
    else:
        return 'Otro'

df_vis['perfil_socioeco'] = df_vis.apply(perfil_socioeco, axis=1)

for col in df_vis.columns:
    if df_vis[col].dtype == 'object' or str(df_vis[col].dtype).startswith('category'):
        df_vis[col] = df_vis[col].astype('category').cat.codes

plt.figure(figsize=(10, 6))
sns.boxplot(x='fami_numlibros', y='punt_global', data=df_vis)
plt.title('Boxplot: Número de libros vs Puntaje Global')
plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 6))
sns.scatterplot(x='estu_inse_individual', y='punt_global', hue='cole_bilingue', data=df_vis, alpha=0.5)
plt.title('INSE vs Puntaje Global (color por Bilingüe)')
plt.tight_layout()
plt.show()

plt.figure(figsize=(10, 6))
sns.scatterplot(x='fami_estratovivienda', y='punt_global', hue='fami_tieneinternet', data=df_vis, alpha=0.5)
plt.title('Estrato vs Puntaje Global (color por Internet)')
plt.tight_layout()
plt.show()

In [None]:
plt.rcParams['font.family'] = 'DejaVu Sans'

df_vis.dropna(inplace=True)

fig, axes = plt.subplots(2, 2, figsize=(16, 12))
sns.set(style="whitegrid")

sns.boxplot(x='fami_numlibros', y='punt_global', data=df_vis, ax=axes[0, 0])
axes[0, 0].set_title('Boxplot: Número de libros vs Puntaje Global')
axes[0, 0].tick_params(axis='x', rotation=45)

sns.scatterplot(x='estu_inse_individual', y='punt_global', hue='cole_bilingue',
                data=df_vis, alpha=0.5, ax=axes[0, 1])
axes[0, 1].set_title('INSE vs Puntaje Global (color por Bilingüe)')
axes[0, 1].legend(loc='upper right')

sns.scatterplot(x='fami_estratovivienda', y='punt_global', hue='fami_tieneinternet',
                data=df_vis, alpha=0.5, ax=axes[1, 0])
axes[1, 0].set_title('Estrato vs Puntaje Global (color por Internet)')
axes[1, 0].legend(loc='upper right')

sns.violinplot(x='estu_nse_individual', y='desemp_sociales_ciudadanas',
               hue='estu_nse_individual', data=df_vis, ax=axes[1, 1], legend=False)
axes[1, 1].set_title('Desempeño en Sociales vs NSE Individual')
axes[1, 1].tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()

In [None]:
def codificar_libros(valor):
    if pd.isna(valor): return np.nan
    valor = str(valor).strip().upper()
    if "0 A 10" in valor: return 1
    elif "11 A 25" in valor: return 2
    elif "26 A 100" in valor: return 3
    elif "MÁS DE 100" in valor or "MAS DE 100" in valor: return 4
    else: return np.nan

df_a = calendario_a.copy()
df_a['libros_codificados'] = df_a['fami_numlibros'].apply(codificar_libros)

df_libros = df_a[['libros_codificados']].dropna()
print("\n📚 Estadísticas para número de libros (codificados):")
print(df_libros.agg(['mean', 'median', 'std', 'var']).round(2))

## Fase 3: abordar relación variables-desempeño a través de un modelo

En esta fase propondrás, implementarás y reportarás el desempeño de uno o más modelos (al menos uno predictivo) que busquen explicar las relaciones entre factores sociodemográficos y el desempeño en la prueba. Además, concluirás con respecto a la validez de al menos un modelo y los posibles hallazgos que se podrían reportar para el *stakeholder*.

Pautas generales:

* Seleccionar variables y proponer modelos acordes a estas y al contexto del problema.
* Utilizar librerías especializadas (ej., `statsmodels`, `sklearn`, etc.) para indagar sobre los aspectos que contribuyen al éxito de los estudiantes. Los módulos correspondientes a regresión lineal y regresión logística pueden ser útiles.
* Asegurar el cumplimiento de los supuestos y buenas prácticas de cada modelo.
* Utilizar las métricas de evaluación de desempeño (disponibles en las librerías especilizadas), para concluir sobre la validez de los modelos propuestos.

Preguntas guía:

* ¿Existe algún sub-conjunto de variables socio-demográficas que explique razonablemente bien el desempeño de los estudiantes en la prueba?

In [None]:
variables_modelo = [
    'libros_codificados', 'estu_nse_individual', 'estu_inse_individual',
    'fami_tieneinternet', 'cole_area_ubicacion',
    'desemp_lectura_critica', 'desemp_matematicas',
    'desemp_c_naturales', 'desemp_sociales_ciudadanas',
    'punt_global'
]

df_modelo = df_a[variables_modelo].copy()

for col in df_modelo.columns:
    if df_modelo[col].dtype == 'object':
        df_modelo[col] = df_modelo[col].fillna('Sin dato')
    else:
        df_modelo[col] = df_modelo[col].fillna(df_modelo[col].median())

for col in df_modelo.columns:
    if df_modelo[col].dtype == 'object':
        df_modelo[col] = df_modelo[col].astype('category').cat.codes

X = df_modelo.drop(columns='punt_global')
y = df_modelo['punt_global']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.5, random_state=42)

modelo = LinearRegression()
modelo.fit(X_train, y_train)

y_pred = modelo.predict(X_test)
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
r2 = r2_score(y_test, y_pred)

print("📊 Evaluación del modelo de regresión múltiple:")
print(f"→ R² (explicación de la varianza): {r2:.3f}")
print(f"→ RMSE (error promedio en puntaje): {rmse:.2f}")

In [None]:
coeficientes = pd.DataFrame({
    'Variable': X.columns,
    'Coeficiente': modelo.coef_
}).sort_values(by='Coeficiente', ascending=False)

print("📊 Importancia de las variables en el modelo:")
print(coeficientes)

In [None]:
residuos = y_test - y_pred

plt.figure(figsize=(8, 5))
plt.scatter(y_pred, residuos, alpha=0.5)
plt.axhline(0, color='red', linestyle='--')
plt.title('Distribución de residuos del modelo')
plt.xlabel('Predicción del puntaje')
plt.ylabel('Error (residuo)')
plt.tight_layout()
plt.show()

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(8, 5))
plt.scatter(y_test, y_pred, alpha=0.5)
plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'r--')
plt.xlabel('Puntaje real')
plt.ylabel('Puntaje predicho')
plt.title('Comparación entre puntaje real y predicho')
plt.tight_layout()
plt.show()

## Fase 4

Deberás elegir y realizar una de las dos alternativas que se encuentran a continuación.

### Alternativa 1: desarrollar una herramienta interactiva de análisis

En esta fase desarrollarás, a partir de alguno de los análisis realizados, una herramienta interactiva que sea relevante en el contexto del problema, acompañada de las instrucciones necesarias para que un usuario la pueda utilizar.

Pautas generales:

* Seleccionar uno de los análisis previos que pueda verse enriquecido con alguna característica de interactividad.
* Seleccionar el/los parámetro(s) que el usuario podrá cambiar.
* Desarrollar las funciones que se deben ejecutar con cada acción del usuario.
* Utilizar una librería especializada (ej., `ipywidgets`, `panel`, etc.) para implementar la herramienta.

Preguntas guía:

* ¿Cuál o cuáles preguntas podrá hacerle el usuario a la herramienta y cómo aporta la respuesta al análisis?
* ¿Qué aprendizajes clave puede explorar u obtener el usuario con esta herramienta?

In [None]:
# Implementa tu respuesta en esta celda}


### Alternativa 2: registrar en bases de datos relacionales con PySpark

En esta fase desarrollarás, a partir de alguno de los análisis realizados, un _script_ que sea relevante en el contexto del problema, acompañado de las instrucciones necesarias para que un usuario lo pueda ejecutar.

Pautas generales:

* Cargar en una base de datos relacional (tipo SQL) el segmento de los datos sobre el cual profundizaste en tu anális, utilizando una tabla distinta para cada categoría de campos. Por ejemplo, una categoría puedes ser información del colegio; en cuyo caso, una tabla debería contener un registro único para cada colegio y todos los campos asociados.

* Los campos, a excepción de los identificadores, deben existir en un única tabla.

* Cada registro debe existir una única vez en su respectiva tabla.

* Cada registro debe tener un identificador único en su tabla, el cual establece una relación entre tablas.

* Seleccionar uno de los modelos predictivos implementados.

* Crear en la base de datos relacional una tabla que contenga únicamente los identificadores del registro y la predicción de la variable de respuesta hecha por el modelo.

* Desarrollar _queries_ de SQL según las siguientes indicaciones y concluir acerca de los resultados:
    * Un _query_ que seleccione todos registros y los agregue en una única tabla. Para esto debes relacionar las tablas por su identificador, utilizando el método `JOIN`.
    * Un _query_ que contenga el puntaje promedio de los estudiantes, agrupado por año y por colegio.
    * Distintos _queries_ que calculen medidas de error de predicción del modelo a partir de los datos reales y las predicciones respectivas. Debes reportar el error para cada registro, el error total de los registros de entrenamiento y el error total de los registros de prueba.
    * Haz dos _queries_ adicionales que resulten interesantes.

Preguntas guía:

* ¿Cómo aporta la segmentación de los datos en categorías de campos al manejo de los datos?
* ¿Qué filtros y agrupaciones podemos aplicar sobre los datos con el fin de obtener información relevante?

In [None]:
# Implementa tu respuesta en esta celda


## Referencias

*  J. VanderPlas (2016) *Python Data Science Handbook: Essential Tools for Working with Data* O'Reilly Media, Inc.
*  scikit-learn developers . (2020). Demo of DBSCAN clustering algorithm. 11 Diciembre 2020, de scikit-learn <br> https://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html#sphx-glr-auto-examples-cluster-plot-dbscan-py

## Créditos

__Autores__: Camilo Hernando Gómez Castro, Alejandro Mantilla Redondo, Jose Fernando Barrera de Plaza, Diego Alejandro Cely Gómez.

__Fecha última actualización__: 29/09/2022