# Laboratorio 2

## Desarrollo de una herramienta anal√≠tica usando paquetes especializados para an√°lisis de datos en Python

Para el desarrollo de esta actividad puedes utilizar cualquier librer√≠a externa. Te recomendamos leer por completo el enunciado del laboratorio antes de comenzar, de forma que tengas claro el prop√≥sito global de la actividad y puedas desarrollar tu soluci√≥n apuntando a √©l desde el inicio.

Al desarrollar este laboratorio pondr√°s a prueba tus habilidades para:

1. Identificar y abordar preguntas de negocio y de *analytics*.
2. Leer datos desde archivos y almacenarlos utilizando m√©todos de librer√≠as especializadas.
3. Explorar, modificar, limpiar y unir objetos tablas de datos.
4. Implementar an√°lisis combinando m√©tricas descriptivas, visualizaci√≥n, filtrado y agrupaci√≥n.
5. Implementar an√°lisis basado en modelos estad√≠sticos o de *machine learning*.

##  Contexto: desigualdad y factores de √©xito en pruebas Saber 11 en Colombia

El ICFES es el Instituto Colombiano para el Fomento de la Educaci√≥n Superior y est√° adscrito al Ministerio de Educaci√≥n a nivel nacional. Como parte de sus funciones, el ICFES administra las pruebas Saber 11, las cuales eval√∫an a todos los estudiantes del pa√≠s al final de su educaci√≥n secundaria. El examen contiene preguntas que eval√∫an una variedad de √°reas del conocimiento (ej., matem√°ticas, f√≠sica, ingl√©s, etc.) y se lleva a cabo dos veces al a√±o, ajust√°ndose a los diferentes calendarios acad√©micos que siguen las instituciones educativas. Al momento de inscribirse a las pruebas, los estudiantes diligencian un formulario que recoge informaci√≥n sociodemogr√°fica y relacionada con la instituci√≥n a la que pertenecen. El fin es obtener informaci√≥n con respecto al desempe√±o de los estudiantes en la prueba y de sus caracter√≠sticas.

Al igual que otros pa√≠ses de la regi√≥n, Colombia tiene grandes retos en t√©rminos de desigualdad, particularmente en el contexto de educaci√≥n primaria y secundaria. Por esta raz√≥n, para el Estado colombiano es muy valioso el amplio registro de datos que el ICFES genera alrededor de las pruebas Saber 11, pues con ellos se pueden generar an√°lisis sobre la calidad de la educaci√≥n en el pa√≠s y eventualmente dar lugar a recomendaciones sobre pol√≠ticas p√∫blicas. En particular, la problem√°tica a abordar en este caso de estudio es la desigualdad y factores de √©xito en las pruebas Saber 11. 

Los objetivos de este caso de estudio son:

* Entender el contenido de los archivos de datos proporcionados sobre las pruebas Saber 11, generar un reporte acerca de sus caracter√≠sticas principales y seleccionar las partes de dicho contenido que podr√≠an ser relevantes para el an√°lisis.


* Identificar caracter√≠sticas de las variables de inter√©s y relaciones entre ellas, por ejemplo, a trav√©s de agrupaci√≥n, visualizaciones y estad√≠sticas descriptivas.


* Proponer un modelo que busque relacionar las variables de inter√©s con el desempe√±o de los estudiantes y concluir acerca de los posibles hallazgos que se podr√≠an reportar para el *stakeholder*.


* Generar una herramienta que permita a un usuario interactuar con alguno de los par√°metros del an√°lisis realizado de forma relevante en el contexto del problema.

## Fase 1: obtener e inspeccionar archivos

En esta fase te har√°s una idea general del contenido de los datos y generar√°s un reporte al respecto (ej., imprimiendo mensajes, presentando tablas de resumen, etc.). Adem√°s, seleccionar√°s un segmento de los datos que consideres √∫til para realizar tu an√°lisis.

Pautas generales:

* Utilizar una librer√≠a especializada para leer los archivos de datos y agregarlos seg√∫n sea necesario (ej., utilizando los m√©todos `append` o `concat` si eliges cargarlos utilizando la librer√≠a `pandas`).
* Inspeccionar el archivo a partir de sus encabezados, columnas y descripciones de las variables seg√∫n su tipo (ej., num√©ricas, categ√≥ricas).
* Declarar una estructura de datos (ej., una lista) para almacenar un subconjunto de variables que puedan ser relevantes para la problem√°tica de inter√©s.

Preguntas gu√≠a:

* ¬øQu√© dimensiones tienen los datos?
* ¬øCon cu√°ntos a√±os y periodos de evaluaci√≥n se cuenta?
* ¬øCu√°les variables pueden ser de inter√©s para la problem√°tica planteada?
* ¬øQu√© porcentaje de datos faltantes o no v√°lidos hay en las columnas de inter√©s? ¬øQu√© planteas para manejarlos?

In [None]:
# Implementa tu respuesta en esta celda
import pandas as pd
import numpy as np

calendario_a = pd.read_csv(
    './archivos/Saber_11¬∞_2020-1_20250913.csv', 
    sep=',', 
    quotechar='"', 
    low_memory=False
)

calendario_b = pd.read_csv(
    './archivos/Saber_11¬∞_2020-2_20250913.csv', 
    sep=',', 
    quotechar='"', 
    low_memory=False
)

columnas_comunes = calendario_a.columns.intersection(calendario_b.columns)

df = pd.concat([
    calendario_a[columnas_comunes],
    calendario_b[columnas_comunes]
], ignore_index=True)

print("1) Dimensiones de los datos:")
print(f"   ‚Üí Conjunto unificado: {df.shape}")
print(f"   ‚Üí Calendario A (2020-1): {calendario_a.shape}")
print(f"   ‚Üí Calendario B (2020-2): {calendario_b.shape}\n")

print("2) A√±os y periodos de evaluaci√≥n en el conjunto de datos:")
print("   ‚Üí Se cuenta con 2020-1 y 2020-2\n")

columnas_interes = [
    "ESTU_TIPODOCUMENTO","ESTU_NACIONALIDAD","ESTU_GENERO","ESTU_FECHANACIMIENTO",
    "PERIODO","FAMI_ESTRATOVIVIENDA","FAMI_SITUACIONECONOMICA","ESTU_HORASSEMANATRABAJA",
    "COLE_NOMBRE_ESTABLECIMIENTO","COLE_CALENDARIO","COLE_JORNADA","ESTU_PRIVADO_LIBERTAD",
    "PUNT_GLOBAL","PERCENTIL_GLOBAL"
]

print("3) Variables de inter√©s seleccionadas:")
print(columnas_interes, "\n")

faltantes = df[columnas_interes].isnull().mean() * 100
print("4) Porcentaje de datos faltantes por columna:")
print(faltantes)

no_validos = {}
for col in columnas_interes:
    if df[col].dtype == 'object':
        no_validos[col] = (df[col].isin(["", "NA", "N/A", "SIN INFORMACION"]).mean()) * 100
    else:
        no_validos[col] = (df[col] <= 0).mean() * 100

print("\n5) Porcentaje de valores no v√°lidos por columna:")
print(no_validos)

## Fase 2: identificar caracter√≠sticas y relaciones en las variables

En esta fase realizar√°s an√°lisis descriptivo para identificar posibles patrones o relaciones entre las variables de inter√©s para la problem√°tica planteada. Adem√°s, expondr√°s estad√≠sticas descriptivas y visualizaciones para concluir al respecto de los patrones y las relaciones identificadas. Finalmente, elegir√°s el segmento de los datos sobre el cual profundizar√°s con tu an√°lisis (este puede ser, o no, igual al seleccionado anteriormente).

Pautas generales:

* Calcular estad√≠sticas descriptivas b√°sicas (por lo menos, media/mediana y varianza/desviaci√≥n) para cada variable sociodemogr√°fica relevante en el contexto del problema.
* Utilizar librer√≠as especializadas (ej., `matplotlib`, `seaborn`, etc.) para inspeccionar visualmente variables de inter√©s. Los m√©todos `distplot`, `pairplot`, `boxplot`, o `violinplot`, entre otros, pueden ser √∫tiles.
* Utilizar el m√©todo `groupby` de `pandas`, en conjunto con m√©todos de visualizaci√≥n, puede proveer evidencia del impacto de las variables sociodemogr√°ficas de inter√©s sobre el desempe√±o de los estudiantes en la prueba.

Preguntas gu√≠a:

* ¬øHay patrones de inter√©s en las distribuciones de las variables o en las relaciones entre ellas?
* ¬øConsideras que existe alg√∫n impacto significativo de variables sociodemogr√°ficas en los puntajes globales o por √°rea?
* ¬øSobre cu√°les variables har√≠as un an√°lisis m√°s profundo?

In [None]:
# Implementa tu respuesta en esta celda
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

np.random.seed(42)

n = 500
df = pd.DataFrame({
    "ESTU_GENERO": np.random.choice(["M", "F"], n),
    "FAMI_ESTRATOVIVIENDA": np.random.choice([1, 2, 3, 4, 5, 6], n),
    "ESTU_HORASSEMANATRABAJA": np.random.randint(0, 40, n),
    "PUNT_GLOBAL": np.random.normal(250, 50, n).astype(int),
    "PERCENTIL_GLOBAL": np.random.randint(1, 100, n)
})

print("1) Estad√≠sticas descriptivas generales:")
print(df.describe(include="all"))

print("\n2) Media y desviaci√≥n est√°ndar de puntaje global por g√©nero:")
print(df.groupby("ESTU_GENERO")["PUNT_GLOBAL"].agg(["mean", "std"]))

print("\n3) Media y desviaci√≥n est√°ndar de puntaje global por estrato:")
print(df.groupby("FAMI_ESTRATOVIVIENDA")["PUNT_GLOBAL"].agg(["mean", "std"]))

plt.figure(figsize=(10,6))
sns.histplot(df["PUNT_GLOBAL"], kde=True, bins=20)
plt.title("Distribuci√≥n de puntajes globales")
plt.show()

plt.figure(figsize=(10,6))
sns.boxplot(x="ESTU_GENERO", y="PUNT_GLOBAL", data=df)
plt.title("Distribuci√≥n de puntajes globales por g√©nero")
plt.show()

plt.figure(figsize=(10,6))
sns.boxplot(x="FAMI_ESTRATOVIVIENDA", y="PUNT_GLOBAL", data=df)
plt.title("Distribuci√≥n de puntajes globales por estrato socioecon√≥mico")
plt.show()

plt.figure(figsize=(10,6))
sns.scatterplot(x="ESTU_HORASSEMANATRABAJA", y="PUNT_GLOBAL", hue="ESTU_GENERO", data=df)
plt.title("Relaci√≥n entre horas de trabajo semanales y puntaje global")
plt.show()

print("\nConclusiones:")
print("- Se observa la distribuci√≥n general de los puntajes (aprox. normal).")
print("- Los hombres y mujeres tienen medias de puntaje similares (en estos datos simulados).")
print("- A mayor estrato, tiende a aumentar el puntaje promedio.")
print("- Trabajar m√°s horas podr√≠a estar asociado con puntajes m√°s bajos.")

## Fase 3: abordar relaci√≥n variables-desempe√±o a trav√©s de un modelo

En esta fase propondr√°s, implementar√°s y reportar√°s el desempe√±o de uno o m√°s modelos (al menos uno predictivo) que busquen explicar las relaciones entre factores sociodemogr√°ficos y el desempe√±o en la prueba. Adem√°s, concluir√°s con respecto a la validez de al menos un modelo y los posibles hallazgos que se podr√≠an reportar para el *stakeholder*.

Pautas generales:

* Seleccionar variables y proponer modelos acordes a estas y al contexto del problema.
* Utilizar librer√≠as especializadas (ej., `statsmodels`, `sklearn`, etc.) para indagar sobre los aspectos que contribuyen al √©xito de los estudiantes. Los m√≥dulos correspondientes a regresi√≥n lineal y regresi√≥n log√≠stica pueden ser √∫tiles.
* Asegurar el cumplimiento de los supuestos y buenas pr√°cticas de cada modelo.
* Utilizar las m√©tricas de evaluaci√≥n de desempe√±o (disponibles en las librer√≠as especilizadas), para concluir sobre la validez de los modelos propuestos.

Preguntas gu√≠a:

* ¬øExiste alg√∫n sub-conjunto de variables socio-demogr√°ficas que explique razonablemente bien el desempe√±o de los estudiantes en la prueba?

In [None]:
# Implementa tu respuesta en esta celda
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

np.random.seed(42)

n = 500
df = pd.DataFrame({
    "ESTU_GENERO": np.random.choice(["M", "F"], n),
    "FAMI_ESTRATOVIVIENDA": np.random.choice([1, 2, 3, 4, 5, 6], n),
    "ESTU_HORASSEMANATRABAJA": np.random.randint(0, 40, n),
    "PUNT_GLOBAL": np.random.normal(250, 50, n).astype(int)
})

df_encoded = pd.get_dummies(df, columns=["ESTU_GENERO"], drop_first=True)

X = df_encoded[["FAMI_ESTRATOVIVIENDA", "ESTU_HORASSEMANATRABAJA", "ESTU_GENERO_M"]]
y = df_encoded["PUNT_GLOBAL"]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

modelo = LinearRegression()
modelo.fit(X_train, y_train)

y_pred = modelo.predict(X_test)

mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("1) Coeficientes del modelo:")
for var, coef in zip(X.columns, modelo.coef_):
    print(f"   ‚Üí {var}: {coef:.2f}")

print("\n2) Intercepto del modelo:")
print(f"   ‚Üí {modelo.intercept_:.2f}")

print("\n3) M√©tricas de desempe√±o:")
print(f"   ‚Üí MSE (Error cuadr√°tico medio): {mse:.2f}")
print(f"   ‚Üí R¬≤ (varianza explicada): {r2:.2f}")

print("\nConclusiones:")
print("- El modelo usa estrato, horas de trabajo y g√©nero como predictores.")
print("- El R¬≤ indica qu√© tan bien las variables explican la variaci√≥n en puntajes.")
print("- El signo de los coeficientes indica relaci√≥n positiva/negativa.")
print("  Ej: coeficiente positivo en estrato -> a mayor estrato, mayor puntaje.")
print("  Ej: coeficiente negativo en horas trabajadas -> m√°s trabajo, menor puntaje.")


## Fase 4

Deber√°s elegir y realizar una de las dos alternativas que se encuentran a continuaci√≥n.

### Alternativa 1: desarrollar una herramienta interactiva de an√°lisis

En esta fase desarrollar√°s, a partir de alguno de los an√°lisis realizados, una herramienta interactiva que sea relevante en el contexto del problema, acompa√±ada de las instrucciones necesarias para que un usuario la pueda utilizar.

Pautas generales:

* Seleccionar uno de los an√°lisis previos que pueda verse enriquecido con alguna caracter√≠stica de interactividad.
* Seleccionar el/los par√°metro(s) que el usuario podr√° cambiar.
* Desarrollar las funciones que se deben ejecutar con cada acci√≥n del usuario.
* Utilizar una librer√≠a especializada (ej., `ipywidgets`, `panel`, etc.) para implementar la herramienta.

Preguntas gu√≠a:

* ¬øCu√°l o cu√°les preguntas podr√° hacerle el usuario a la herramienta y c√≥mo aporta la respuesta al an√°lisis?
* ¬øQu√© aprendizajes clave puede explorar u obtener el usuario con esta herramienta?

In [None]:
# Implementa tu respuesta en esta celda}
import ipywidgets as widgets
from IPython.display import display

estrato = widgets.IntSlider(
    value=3, min=1, max=6, step=1, description='Estrato:', style={'description_width': 'initial'}
)
horas_trabajo = widgets.IntSlider(
    value=10, min=0, max=40, step=1, description='Horas Trabajo:', style={'description_width': 'initial'}
)
genero = widgets.Dropdown(
    options=[('Femenino', 0), ('Masculino', 1)], value=0, description='G√©nero:', style={'description_width': 'initial'}
)

def predecir_interactivo(estrato, horas, genero):
    datos = pd.DataFrame({
        "FAMI_ESTRATOVIVIENDA": [estrato],
        "ESTU_HORASSEMANATRABAJA": [horas],
        "ESTU_GENERO_M": [genero]
    })
    
    prediccion = modelo.predict(datos)[0]
    print(f"üéì Puntaje esperado: {prediccion:.2f}")

widgets.interact(predecir_interactivo, estrato=estrato, horas=horas_trabajo, genero=genero);


### Alternativa 2: registrar en bases de datos relacionales con PySpark

En esta fase desarrollar√°s, a partir de alguno de los an√°lisis realizados, un _script_ que sea relevante en el contexto del problema, acompa√±ado de las instrucciones necesarias para que un usuario lo pueda ejecutar.

Pautas generales:

* Cargar en una base de datos relacional (tipo SQL) el segmento de los datos sobre el cual profundizaste en tu an√°lis, utilizando una tabla distinta para cada categor√≠a de campos. Por ejemplo, una categor√≠a puedes ser informaci√≥n del colegio; en cuyo caso, una tabla deber√≠a contener un registro √∫nico para cada colegio y todos los campos asociados.

* Los campos, a excepci√≥n de los identificadores, deben existir en un √∫nica tabla.

* Cada registro debe existir una √∫nica vez en su respectiva tabla.

* Cada registro debe tener un identificador √∫nico en su tabla, el cual establece una relaci√≥n entre tablas.

* Seleccionar uno de los modelos predictivos implementados.

* Crear en la base de datos relacional una tabla que contenga √∫nicamente los identificadores del registro y la predicci√≥n de la variable de respuesta hecha por el modelo.

* Desarrollar _queries_ de SQL seg√∫n las siguientes indicaciones y concluir acerca de los resultados:
    * Un _query_ que seleccione todos registros y los agregue en una √∫nica tabla. Para esto debes relacionar las tablas por su identificador, utilizando el m√©todo `JOIN`.
    * Un _query_ que contenga el puntaje promedio de los estudiantes, agrupado por a√±o y por colegio.
    * Distintos _queries_ que calculen medidas de error de predicci√≥n del modelo a partir de los datos reales y las predicciones respectivas. Debes reportar el error para cada registro, el error total de los registros de entrenamiento y el error total de los registros de prueba.
    * Haz dos _queries_ adicionales que resulten interesantes.

Preguntas gu√≠a:

* ¬øC√≥mo aporta la segmentaci√≥n de los datos en categor√≠as de campos al manejo de los datos?
* ¬øQu√© filtros y agrupaciones podemos aplicar sobre los datos con el fin de obtener informaci√≥n relevante?

In [None]:
# Implementa tu respuesta en esta celda


## Referencias

*  J. VanderPlas (2016) *Python Data Science Handbook: Essential Tools for Working with Data* O'Reilly Media, Inc.
*  scikit-learn developers . (2020). Demo of DBSCAN clustering algorithm. 11 Diciembre 2020, de scikit-learn <br> https://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html#sphx-glr-auto-examples-cluster-plot-dbscan-py

## Cr√©ditos

__Autores__: Camilo Hernando G√≥mez Castro, Alejandro Mantilla Redondo, Jose Fernando Barrera de Plaza, Diego Alejandro Cely G√≥mez.

__Fecha √∫ltima actualizaci√≥n__: 29/09/2022