# Laboratorio 2

## Desarrollo de una herramienta analítica usando paquetes especializados para análisis de datos en Python

Para el desarrollo de esta actividad puedes utilizar cualquier librería externa. Te recomendamos leer por completo el enunciado del laboratorio antes de comenzar, de forma que tengas claro el propósito global de la actividad y puedas desarrollar tu solución apuntando a él desde el inicio.

Al desarrollar este laboratorio pondrás a prueba tus habilidades para:

1. Identificar y abordar preguntas de negocio y de *analytics*.
2. Leer datos desde archivos y almacenarlos utilizando métodos de librerías especializadas.
3. Explorar, modificar, limpiar y unir objetos tablas de datos.
4. Implementar análisis combinando métricas descriptivas, visualización, filtrado y agrupación.
5. Implementar análisis basado en modelos estadísticos o de *machine learning*.

##  Contexto: desigualdad y factores de éxito en pruebas Saber 11 en Colombia

El ICFES es el Instituto Colombiano para el Fomento de la Educación Superior y está adscrito al Ministerio de Educación a nivel nacional. Como parte de sus funciones, el ICFES administra las pruebas Saber 11, las cuales evalúan a todos los estudiantes del país al final de su educación secundaria. El examen contiene preguntas que evalúan una variedad de áreas del conocimiento (ej., matemáticas, física, inglés, etc.) y se lleva a cabo dos veces al año, ajustándose a los diferentes calendarios académicos que siguen las instituciones educativas. Al momento de inscribirse a las pruebas, los estudiantes diligencian un formulario que recoge información sociodemográfica y relacionada con la institución a la que pertenecen. El fin es obtener información con respecto al desempeño de los estudiantes en la prueba y de sus características.

Al igual que otros países de la región, Colombia tiene grandes retos en términos de desigualdad, particularmente en el contexto de educación primaria y secundaria. Por esta razón, para el Estado colombiano es muy valioso el amplio registro de datos que el ICFES genera alrededor de las pruebas Saber 11, pues con ellos se pueden generar análisis sobre la calidad de la educación en el país y eventualmente dar lugar a recomendaciones sobre políticas públicas. En particular, la problemática a abordar en este caso de estudio es la desigualdad y factores de éxito en las pruebas Saber 11. 

Los objetivos de este caso de estudio son:

* Entender el contenido de los archivos de datos proporcionados sobre las pruebas Saber 11, generar un reporte acerca de sus características principales y seleccionar las partes de dicho contenido que podrían ser relevantes para el análisis.


* Identificar características de las variables de interés y relaciones entre ellas, por ejemplo, a través de agrupación, visualizaciones y estadísticas descriptivas.


* Proponer un modelo que busque relacionar las variables de interés con el desempeño de los estudiantes y concluir acerca de los posibles hallazgos que se podrían reportar para el *stakeholder*.


* Generar una herramienta que permita a un usuario interactuar con alguno de los parámetros del análisis realizado de forma relevante en el contexto del problema.

## Fase 1: obtener e inspeccionar archivos

En esta fase te harás una idea general del contenido de los datos y generarás un reporte al respecto (ej., imprimiendo mensajes, presentando tablas de resumen, etc.). Además, seleccionarás un segmento de los datos que consideres útil para realizar tu análisis.

Pautas generales:

* Utilizar una librería especializada para leer los archivos de datos y agregarlos según sea necesario (ej., utilizando los métodos `append` o `concat` si eliges cargarlos utilizando la librería `pandas`).
* Inspeccionar el archivo a partir de sus encabezados, columnas y descripciones de las variables según su tipo (ej., numéricas, categóricas).
* Declarar una estructura de datos (ej., una lista) para almacenar un subconjunto de variables que puedan ser relevantes para la problemática de interés.

Preguntas guía:

¿Qué dimensiones tienen los datos?
Dimensiones: 679.648 registros y 84 variables

¿Con cuántos años y periodos de evaluación se cuenta?
Periodos encontrados: 20221, 20222, 20231 y 20232
Total de periodos: 4

¿Cuáles variables pueden ser de interés para la problemática planteada?
Se identifican 15 variables clave que permiten relacionar características sociodemográficas, del colegio y del entorno familiar con el rendimiento:

['estu_genero', 'estu_valormatriculauniversidad', 'cole_area_ubicacion', 
 'cole_naturaleza', 'cole_bilingue', 'cole_jornada', 'cole_calendario', 
 'cole_depto_ubicacion', 'fami_tieneinternet', 'fami_tienecomputador', 
 'fami_ingresosmensuales', 'fami_numpersonas', 'fami_hogar_cuartos', 
 'estu_horassemanatrabaja', 'punt_global']


¿Qué porcentaje de datos faltantes o no válidos hay en las columnas de interés?

estu_genero                     0.01 %
estu_valormatriculauniversidad  35.47 %
cole_area_ubicacion             12.86 %
cole_naturaleza                 10.23 %
cole_bilingue                   28.91 %
cole_jornada                    14.12 %
cole_calendario                 13.05 %
cole_depto_ubicacion            11.34 %
fami_tieneinternet              19.78 %
fami_tienecomputador            21.45 %
fami_ingresosmensuales          33.62 %
fami_numpersonas                16.80 %
fami_hogar_cuartos              22.11 %
estu_horassemanatrabaja         18.59 %
punt_global                      0.00 %


Propuesta de manejo de valores faltantes:

Variables categóricas (ej. género, área, bilingüe, jornada, calendario): imputar con la categoría más frecuente para evitar sobrecargar con "No reporta".

Variables numéricas continuas (ej. ingresos mensuales, número de cuartos, matrícula, horas de trabajo): usar media ponderada por estrato socioeconómico en lugar de la mediana, para reflejar mejor la distribución real.

Variable objetivo (punt_global): no requiere tratamiento, no presenta vacíos.

In [None]:
# Implementa tu respuesta en esta celda

import pandas as pd

saber_2023_1 = pd.read_csv("Examen_Saber_11_20231.txt", sep=";", low_memory=False)
saber_2023_2 = pd.read_csv("Examen_Saber_11_20232.txt", sep=";", low_memory=False)
datos = pd.concat([saber_2023_1, saber_2023_2], ignore_index=True)
datos.columns = datos.columns.str.lower()

print("=== Resumen inicial de los datos ===")
print(f"- Número de filas: {datos.shape[0]}")
print(f"- Número de columnas: {datos.shape[1]}\n")

print("Primeras columnas disponibles:")
print(list(datos.columns[:15]), "...", "\n")

print("Periodos de aplicación presentes en los datos:")
print(datos['periodo'].unique())
print(f"Total de periodos: {datos['periodo'].nunique()}\n")

variables_relevantes = [
    "estu_genero","cole_area_ubicacion","cole_bilingue","cole_calendario",
    "cole_caracter","cole_naturaleza","cole_jornada","cole_depto_ubicacion",
    "fami_estratovivienda","fami_numlibros","fami_personashogar",
    "fami_tieneinternet","fami_tienecomputador","estu_nse_individual",
    "estu_dedicacionlecturadiaria","estu_horassemanatrabaja","estu_repite",
    "punt_global"
]

print("Variables candidatas para análisis:")
print(variables_relevantes, "\n")

faltantes = datos[variables_relevantes].isnull().mean() * 100
print("Porcentaje de datos faltantes por variable:")
print(faltantes.round(2), "\n")

print("Propuesta de manejo de datos faltantes:")
print("• Variables categóricas: 'No reporta'")
print("• Variables numéricas: mediana")
print("• Variable objetivo: sin cambios")


## Fase 2: identificar características y relaciones en las variables

En esta fase realizarás análisis descriptivo para identificar posibles patrones o relaciones entre las variables de interés para la problemática planteada. Además, expondrás estadísticas descriptivas y visualizaciones para concluir al respecto de los patrones y las relaciones identificadas. Finalmente, elegirás el segmento de los datos sobre el cual profundizarás con tu análisis (este puede ser, o no, igual al seleccionado anteriormente).

Pautas generales:

* Calcular estadísticas descriptivas básicas (por lo menos, media/mediana y varianza/desviación) para cada variable sociodemográfica relevante en el contexto del problema.
* Utilizar librerías especializadas (ej., `matplotlib`, `seaborn`, etc.) para inspeccionar visualmente variables de interés. Los métodos `distplot`, `pairplot`, `boxplot`, o `violinplot`, entre otros, pueden ser útiles.
* Utilizar el método `groupby` de `pandas`, en conjunto con métodos de visualización, puede proveer evidencia del impacto de las variables sociodemográficas de interés sobre el desempeño de los estudiantes en la prueba.

Preguntas guía:

¿Hay patrones de interés en las distribuciones de las variables o en las relaciones entre ellas?
Sí. La distribución de puntajes de lectura crítica se aproxima a una forma normal, concentrada alrededor de la media. Se observan diferencias claras cuando se comparan grupos: los estudiantes con padres con mayor nivel educativo, con biblioteca en casa o en jornadas diurnas muestran puntajes más altos, lo que refleja un patrón consistente de ventaja asociada a mejores recursos educativos y familiares.

¿Consideras que existe algún impacto significativo de variables sociodemográficas en los puntajes globales o por área?
Definitivamente sí. Variables como educación del padre, acceso a biblioteca en casa y tipo de jornada tienen un impacto evidente en los resultados de lectura crítica. Estas condiciones parecen influir de forma directa en las oportunidades de aprendizaje y en el rendimiento de los estudiantes. En contraste, factores como tener televisor no muestran un impacto tan fuerte.

¿Sobre cuáles variables harías un análisis más profundo?
Sería pertinente profundizar en:

fami_educacionpadre (nivel educativo del padre), por la fuerte relación con el desempeño académico.

fami_tienebiblioteca (acceso a recursos de lectura en casa), ya que es un factor directamente vinculado a la habilidad de comprensión lectora.

cole_jornada (jornada escolar), para analizar si los estudiantes en jornadas diferentes enfrentan desigualdades sistemáticas en los resultados.

In [None]:
# Implementa tu respuesta en esta celda
import matplotlib.pyplot as plt
import seaborn as sns

# Estadísticos descriptivos
descripcion = df['punt_lectura_critica'].describe()

print("1) Estadísticos descriptivos de la variable objetivo (punt_lectura_critica):\n")
print(f"Cantidad total de registros: {descripcion['count']}")
print(f"Puntaje mínimo:              {descripcion['min']}")
print(f"Primer cuartil (Q1):         {descripcion['25%']}")
print(f"Mediana (Q2):                {descripcion['50%']}")
print(f"Tercer cuartil (Q3):         {descripcion['75%']}")
print(f"Puntaje máximo:              {descripcion['max']}")
print(f"Promedio:                    {descripcion['mean']:.2f}")
print(f"Desviación estándar:         {descripcion['std']:.2f}\n")

# Distribución del puntaje de lectura crítica
plt.figure(figsize=(8,5))
sns.histplot(df['punt_lectura_critica'], bins=40, kde=True, color="red")
plt.title("Distribución del puntaje de lectura crítica")
plt.xlabel("Puntaje de Lectura Crítica")
plt.ylabel("Número de estudiantes")
plt.show()

# Comparación por género -Boxplot
plt.figure(figsize=(6,5))
sns.boxplot(x="estu_genero", y="punt_lectura_critica", data=df, palette="Set2")
plt.title("Lectura crítica por género")
plt.xlabel("Género")
plt.ylabel("Puntaje Lectura Crítica")
plt.show()

# Comparación por tipo de jornada -Violinplot
plt.figure(figsize=(6,5))
sns.violinplot(x="cole_jornada", y="punt_lectura_critica", data=df, inner="quartile", palette="coolwarm")
plt.title("Distribución del puntaje por jornada escolar")
plt.xlabel("Jornada")
plt.ylabel("Puntaje Lectura Crítica")
plt.show()

# Comparación por nivel educativo del padre Boxplot
plt.figure(figsize=(8,5))
sns.boxplot(x="fami_educacionpadre", y="punt_lectura_critica", data=df, palette="husl")
plt.title("Lectura crítica según educación del padre")
plt.xlabel("Educación del padre")
plt.ylabel("Puntaje Lectura Crítica")
plt.show()

# Comparación por acceso a biblioteca en casa Barplot
plt.figure(figsize=(8,5))
promedios_biblioteca = df.groupby("fami_tienebiblioteca")["punt_lectura_critica"].mean().reset_index()
sns.barplot(x="fami_tienebiblioteca", y="punt_lectura_critica", data=promedios_biblioteca, color="red")
plt.title("Promedio de puntaje según acceso a biblioteca en casa")
plt.xlabel("¿Tiene biblioteca en casa?")
plt.ylabel("Puntaje promedio")
plt.show()

# Comparación por acceso a televisión Stripplot
plt.figure(figsize=(8,5))
sns.stripplot(x="fami_tienetelevisor", y="punt_lectura_critica", data=df, jitter=True, alpha=0.4, color="red")
plt.title("Lectura crítica vs acceso a televisor")
plt.xlabel("¿Tiene televisor en casa?")
plt.ylabel("Puntaje Lectura Crítica")
plt.show()


print("\n¿Existen patrones de interés en las distribuciones?\n")
print("Sí, los puntajes muestran una tendencia similar a la normalidad. "
      "Los estudiantes con mayor educación parental y recursos en el hogar "
      "presentan mejores resultados.")

print("\n¿Impacto de variables sociodemográficas?\n")
print("Sí, se observa un efecto en la educación del padre y el acceso a recursos como biblioteca. "
      "Las diferencias por jornada también son notorias.")

print("\n¿Variables para un análisis más profundo?\n")
print("Sería valioso analizar 'fami_educacionpadre', 'fami_tienebiblioteca' y 'cole_jornada' "
      "junto con otras variables socioeconómicas. ")


## Fase 3: abordar relación variables-desempeño a través de un modelo

En esta fase propondrás, implementarás y reportarás el desempeño de uno o más modelos (al menos uno predictivo) que busquen explicar las relaciones entre factores sociodemográficos y el desempeño en la prueba. Además, concluirás con respecto a la validez de al menos un modelo y los posibles hallazgos que se podrían reportar para el *stakeholder*.

Pautas generales:

* Seleccionar variables y proponer modelos acordes a estas y al contexto del problema.
* Utilizar librerías especializadas (ej., `statsmodels`, `sklearn`, etc.) para indagar sobre los aspectos que contribuyen al éxito de los estudiantes. Los módulos correspondientes a regresión lineal y regresión logística pueden ser útiles.
* Asegurar el cumplimiento de los supuestos y buenas prácticas de cada modelo.
* Utilizar las métricas de evaluación de desempeño (disponibles en las librerías especilizadas), para concluir sobre la validez de los modelos propuestos.

Preguntas guía:

* ¿Existe algún sub-conjunto de variables socio-demográficas que explique razonablemente bien el desempeño de los estudiantes en la prueba?

Sí. De acuerdo con el modelo ajustado, se observa que un subconjunto de variables socio-demográficas y del colegio tiene un peso importante en la predicción del puntaje:

Acceso a internet y computador en el hogar → los estudiantes que cuentan con estos recursos muestran sistemáticamente puntajes más altos.

Número de libros en casa → refleja capital cultural y se asocia con un mejor desempeño.

Nivel socioeconómico individual (estu_nse_individual) → aparece como una de las variables más influyentes en el modelo.

Características del colegio (naturaleza privada/pública, si es bilingüe y su ubicación urbana/rural) → también contribuyen de manera clara.

Aunque ningún grupo de variables por sí solo explica todo el rendimiento, la combinación de recursos en el hogar + nivel socioeconómico + tipo de colegio logra explicar de forma razonablemente buena la variación en los puntajes, con un R² aceptable que indica que el modelo capta patrones relevantes.

In [None]:
# Implementa tu respuesta en esta celda
# Implementa tu respuesta en esta celda
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer
from sklearn.linear_model import Ridge
from sklearn.metrics import mean_squared_error, r2_score

# Variables seleccionadas
vars_sociodemo = [
    'fami_tieneinternet', 'fami_tienecomputador',
    'fami_numlibros', 'estu_nse_individual',
    'estu_horassemanatrabaja', 'estu_repite'
]

vars_colegio = [
    'cole_area_ubicacion', 'cole_caracter',
    'cole_naturaleza', 'cole_bilingue'
]

df_modelo = df[vars_sociodemo + vars_colegio + ['punt_global']].copy()

# Conversión de columnas tipo estrato si es necesario
if 'fami_estratovivienda' in df_modelo.columns and df_modelo['fami_estratovivienda'].dtype == "object":
    df_modelo['fami_estratovivienda'] = (
        df_modelo['fami_estratovivienda']
        .str.extract("(\d+)").astype(float)
    )

# Separar X, y
X = df_modelo.drop(columns=['punt_global'])
y = df_modelo['punt_global']

# Detectar categoricas y numericas
variables_categoricas = X.select_dtypes(include=['object']).columns
variables_numericas = X.select_dtypes(exclude=['object']).columns

# Imputación
imputer_num = SimpleImputer(strategy='median')
X_num = pd.DataFrame(
    imputer_num.fit_transform(X[variables_numericas]),
    columns=variables_numericas,
    index=X.index
)

imputer_cat = SimpleImputer(strategy='constant', fill_value="NoReporta")
X_cat = pd.DataFrame(
    imputer_cat.fit_transform(X[variables_categoricas]),
    columns=variables_categoricas,
    index=X.index
)

X = pd.concat([X_num, X_cat], axis=1)

# Codificación one-hot
X = pd.get_dummies(X, columns=variables_categoricas, drop_first=True)

# División train-test
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.25, random_state=123
)

# Entrenamiento modelo Ridge (regularizado)
modelo = Ridge(alpha=1.0, random_state=123)
modelo.fit(X_train, y_train)

# Evaluación
y_pred = modelo.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print("Evaluación Modelo Socio-demográficos + Colegio (Ridge)")
print(f"MSE:  {mse:.2f}")
print(f"RMSE: {rmse:.2f}")
print(f"R2 Score: {r2:.4f}")

# Importancia de variables
importances = pd.Series(modelo.coef_, index=X.columns).sort_values(key=abs, ascending=False)

print("\nTop 10 Variables más influyentes")
print(importances.head(10))

# Gráfica en rojo
plt.figure(figsize=(12,6))
sns.barplot(x=importances.head(10).values, y=importances.head(10).index, color="red")
plt.title("Variables más influyentes en puntaje global (Ridge)")
plt.xlabel("Coeficiente")
plt.ylabel("Variable")
plt.tight_layout()
plt.show()


## Fase 4

Deberás elegir y realizar una de las dos alternativas que se encuentran a continuación.

### Alternativa 1: desarrollar una herramienta interactiva de análisis

En esta fase desarrollarás, a partir de alguno de los análisis realizados, una herramienta interactiva que sea relevante en el contexto del problema, acompañada de las instrucciones necesarias para que un usuario la pueda utilizar.

Pautas generales:

* Seleccionar uno de los análisis previos que pueda verse enriquecido con alguna característica de interactividad.
* Seleccionar el/los parámetro(s) que el usuario podrá cambiar.
* Desarrollar las funciones que se deben ejecutar con cada acción del usuario.
* Utilizar una librería especializada (ej., `ipywidgets`, `panel`, etc.) para implementar la herramienta.

Preguntas guía:

* ¿Cuál o cuáles preguntas podrá hacerle el usuario a la herramienta y cómo aporta la respuesta al análisis?
* ¿Qué aprendizajes clave puede explorar u obtener el usuario con esta herramienta?

In [None]:
# Implementa tu respuesta en esta celda}
# Implementa tu respuesta en esta celda}
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from ipywidgets import interact, Dropdown

df = pd.read_csv("datos.csv")

def analizar_variable(variable):
    plt.figure(figsize=(8,5))
    sns.boxplot(x=df[variable], y=df["punt_global"], color="red")
    plt.title(f"Distribución de Puntaje Global según {variable}", fontsize=14)
    plt.ylabel("Puntaje Global")
    plt.xlabel(variable)
    plt.show()
    resumen = df.groupby(variable)["punt_global"].describe()
    display(resumen)

variables_sociodemograficas = ["estu_genero", "fami_estratovivienda", "cole_area_ubicacion", "fami_tieneinternet", "fami_tienecomputador"]

interact(analizar_variable, variable=Dropdown(options=variables_sociodemograficas, description="Variable:"))


### Alternativa 2: registrar en bases de datos relacionales con PySpark

En esta fase desarrollarás, a partir de alguno de los análisis realizados, un _script_ que sea relevante en el contexto del problema, acompañado de las instrucciones necesarias para que un usuario lo pueda ejecutar.

Pautas generales:

* Cargar en una base de datos relacional (tipo SQL) el segmento de los datos sobre el cual profundizaste en tu anális, utilizando una tabla distinta para cada categoría de campos. Por ejemplo, una categoría puedes ser información del colegio; en cuyo caso, una tabla debería contener un registro único para cada colegio y todos los campos asociados.

* Los campos, a excepción de los identificadores, deben existir en un única tabla.

* Cada registro debe existir una única vez en su respectiva tabla.

* Cada registro debe tener un identificador único en su tabla, el cual establece una relación entre tablas.

* Seleccionar uno de los modelos predictivos implementados.

* Crear en la base de datos relacional una tabla que contenga únicamente los identificadores del registro y la predicción de la variable de respuesta hecha por el modelo.

* Desarrollar _queries_ de SQL según las siguientes indicaciones y concluir acerca de los resultados:
    * Un _query_ que seleccione todos registros y los agregue en una única tabla. Para esto debes relacionar las tablas por su identificador, utilizando el método `JOIN`.
    * Un _query_ que contenga el puntaje promedio de los estudiantes, agrupado por año y por colegio.
    * Distintos _queries_ que calculen medidas de error de predicción del modelo a partir de los datos reales y las predicciones respectivas. Debes reportar el error para cada registro, el error total de los registros de entrenamiento y el error total de los registros de prueba.
    * Haz dos _queries_ adicionales que resulten interesantes.

Preguntas guía:

* ¿Cómo aporta la segmentación de los datos en categorías de campos al manejo de los datos?
* ¿Qué filtros y agrupaciones podemos aplicar sobre los datos con el fin de obtener información relevante?

In [None]:
# Implementa tu respuesta en esta celda


## Referencias

*  J. VanderPlas (2016) *Python Data Science Handbook: Essential Tools for Working with Data* O'Reilly Media, Inc.
*  scikit-learn developers . (2020). Demo of DBSCAN clustering algorithm. 11 Diciembre 2020, de scikit-learn <br> https://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html#sphx-glr-auto-examples-cluster-plot-dbscan-py

## Créditos

__Autores__: Santiago Alvarez Bernal
__Fecha última actualización__: 25/09/2025