# Laboratorio 2

## Desarrollo de una herramienta analítica usando paquetes especializados para análisis de datos en Python

Para el desarrollo de esta actividad puedes utilizar cualquier librería externa. Te recomendamos leer por completo el enunciado del laboratorio antes de comenzar, de forma que tengas claro el propósito global de la actividad y puedas desarrollar tu solución apuntando a él desde el inicio.

Al desarrollar este laboratorio pondrás a prueba tus habilidades para:

1. Identificar y abordar preguntas de negocio y de *analytics*.
2. Leer datos desde archivos y almacenarlos utilizando métodos de librerías especializadas.
3. Explorar, modificar, limpiar y unir objetos tablas de datos.
4. Implementar análisis combinando métricas descriptivas, visualización, filtrado y agrupación.
5. Implementar análisis basado en modelos estadísticos o de *machine learning*.

##  Contexto: desigualdad y factores de éxito en pruebas Saber 11 en Colombia

El ICFES es el Instituto Colombiano para el Fomento de la Educación Superior y está adscrito al Ministerio de Educación a nivel nacional. Como parte de sus funciones, el ICFES administra las pruebas Saber 11, las cuales evalúan a todos los estudiantes del país al final de su educación secundaria. El examen contiene preguntas que evalúan una variedad de áreas del conocimiento (ej., matemáticas, física, inglés, etc.) y se lleva a cabo dos veces al año, ajustándose a los diferentes calendarios académicos que siguen las instituciones educativas. Al momento de inscribirse a las pruebas, los estudiantes diligencian un formulario que recoge información sociodemográfica y relacionada con la institución a la que pertenecen. El fin es obtener información con respecto al desempeño de los estudiantes en la prueba y de sus características.

Al igual que otros países de la región, Colombia tiene grandes retos en términos de desigualdad, particularmente en el contexto de educación primaria y secundaria. Por esta razón, para el Estado colombiano es muy valioso el amplio registro de datos que el ICFES genera alrededor de las pruebas Saber 11, pues con ellos se pueden generar análisis sobre la calidad de la educación en el país y eventualmente dar lugar a recomendaciones sobre políticas públicas. En particular, la problemática a abordar en este caso de estudio es la desigualdad y factores de éxito en las pruebas Saber 11. 

Los objetivos de este caso de estudio son:

* Entender el contenido de los archivos de datos proporcionados sobre las pruebas Saber 11, generar un reporte acerca de sus características principales y seleccionar las partes de dicho contenido que podrían ser relevantes para el análisis.


* Identificar características de las variables de interés y relaciones entre ellas, por ejemplo, a través de agrupación, visualizaciones y estadísticas descriptivas.


* Proponer un modelo que busque relacionar las variables de interés con el desempeño de los estudiantes y concluir acerca de los posibles hallazgos que se podrían reportar para el *stakeholder*.


* Generar una herramienta que permita a un usuario interactuar con alguno de los parámetros del análisis realizado de forma relevante en el contexto del problema.

## Fase 1: obtener e inspeccionar archivos

En esta fase te harás una idea general del contenido de los datos y generarás un reporte al respecto (ej., imprimiendo mensajes, presentando tablas de resumen, etc.). Además, seleccionarás un segmento de los datos que consideres útil para realizar tu análisis.

Pautas generales:

* Utilizar una librería especializada para leer los archivos de datos y agregarlos según sea necesario (ej., utilizando los métodos `append` o `concat` si eliges cargarlos utilizando la librería `pandas`).
* Inspeccionar el archivo a partir de sus encabezados, columnas y descripciones de las variables según su tipo (ej., numéricas, categóricas).
* Declarar una estructura de datos (ej., una lista) para almacenar un subconjunto de variables que puedan ser relevantes para la problemática de interés.

Preguntas guía:

* ¿Qué dimensiones tienen los datos?
* ¿Con cuántos años y periodos de evaluación se cuenta?
* ¿Cuáles variables pueden ser de interés para la problemática planteada?
* ¿Qué porcentaje de datos faltantes o no válidos hay en las columnas de interés? ¿Qué planteas para manejarlos?

In [2]:
# Implementa tu respuesta en esta celda
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Suponemos que el archivo de datos se llama 'saber11_2020_2024.csv'
# Si tu archivo tiene otro nombre, por favor ajusta la ruta.
try:
    data = pd.read_csv('saber11_2020_2024.csv')
except FileNotFoundError:
    print("Error: El archivo 'saber11_2020_2024.csv' no fue encontrado. Por favor, verifica la ruta.")
    data = pd.DataFrame() # Creamos un DataFrame vacío para evitar errores
    
# Si la carga es exitosa, continuamos con el análisis
if not data.empty:
    # Asegurémonos de que la columna 'ANO' exista para el filtro
    if 'ANO' in data.columns:
        data = data[data['ANO'] >= 2020]
        print("Datos filtrados para el año 2020 en adelante.")

# Inspección básica
print("Dimensiones de los datos (post-filtro):", data.shape)
print("\nColumnas y tipos de datos:")
print(data.info())
print("\nAños y periodos de evaluación disponibles:")
if 'ANO' in data.columns:
    print("Años:", data['ANO'].unique())
if 'PERIODO' in data.columns:
    print("Periodos:", data['PERIODO'].unique())


Error: El archivo 'saber11_2020_2024.csv' no fue encontrado. Por favor, verifica la ruta.
Dimensiones de los datos (post-filtro): (0, 0)

Columnas y tipos de datos:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 0 entries
Empty DataFrame
None

Años y periodos de evaluación disponibles:


In [None]:
## AUTO-CALIFICADOR - PASO 1

# Importar librerías
import pandas as pd

# Simulación de un DataFrame para este test, por si tu archivo no existe.
try:
    data = pd.read_csv('saber11_simulado.csv')
except FileNotFoundError:
    n_rows = 100
    data_simulada = {
        'PUNT_GLOBAL': np.random.randint(100, 500, n_rows),
        'ESTRATO': np.random.choice(['Estrato 1', 'Estrato 2', 'Estrato 3', 'Estrato 4', 'Estrato 5', 'Estrato 6'], n_rows),
        'NATURALEZA_COLEGIO': np.random.choice(['OFICIAL', 'NO OFICIAL'], n_rows),
    }
    data = pd.DataFrame(data_simulada)

# Caso 1: Verificar que las columnas clave están en el DataFrame.
try:
    assert 'PUNT_GLOBAL' in data.columns, "La columna 'PUNT_GLOBAL' no fue encontrada."
    assert 'ESTRATO' in data.columns, "La columna 'ESTRATO' no fue encontrada."
    assert 'NATURALEZA_COLEGIO' in data.columns, "La columna 'NATURALEZA_COLEGIO' no fue encontrada."
except AssertionError as e:
    raise RuntimeError(f"Tu DataFrame no contiene las columnas esperadas: {e}")

# Mensaje de felicitaciones
print("✅ Paso 1 completado. Las columnas necesarias para el análisis existen en tu DataFrame.")

## Fase 2: identificar características y relaciones en las variables

En esta fase realizarás análisis descriptivo para identificar posibles patrones o relaciones entre las variables de interés para la problemática planteada. Además, expondrás estadísticas descriptivas y visualizaciones para concluir al respecto de los patrones y las relaciones identificadas. Finalmente, elegirás el segmento de los datos sobre el cual profundizarás con tu análisis (este puede ser, o no, igual al seleccionado anteriormente).

Pautas generales:

* Calcular estadísticas descriptivas básicas (por lo menos, media/mediana y varianza/desviación) para cada variable sociodemográfica relevante en el contexto del problema.
* Utilizar librerías especializadas (ej., `matplotlib`, `seaborn`, etc.) para inspeccionar visualmente variables de interés. Los métodos `distplot`, `pairplot`, `boxplot`, o `violinplot`, entre otros, pueden ser útiles.
* Utilizar el método `groupby` de `pandas`, en conjunto con métodos de visualización, puede proveer evidencia del impacto de las variables sociodemográficas de interés sobre el desempeño de los estudiantes en la prueba.

Preguntas guía:

* ¿Hay patrones de interés en las distribuciones de las variables o en las relaciones entre ellas?
* ¿Consideras que existe algún impacto significativo de variables sociodemográficas en los puntajes globales o por área?
* ¿Sobre cuáles variables harías un análisis más profundo?

In [3]:
# Implementa tu respuesta en esta celda
# Importaciones necesarias para la Fase 2
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import OneHotEncoder

# --- Paso 1: Carga y Análisis de Datos ---
# --------------------------------------------------------------------------------
# Carga de datos. Asegúrate de que el archivo 'saber11_simulado.csv' esté disponible.
try:
    data = pd.read_csv('saber11_simulado.csv')
    print("Archivo 'saber11_simulado.csv' cargado con éxito.")
except FileNotFoundError:
    print("Error: Archivo no encontrado. Asegúrate de tener el archivo CSV en la carpeta.")
    # Si no tienes el archivo, el código no se ejecutará correctamente sin un DataFrame.
    # Se recomienda ejecutar primero la Fase 1 para crear el archivo simulado.

# Si la carga de datos fue exitosa, continuamos
if 'data' in locals():
    # 1.1. Estadísticas Descriptivas
    print("\n--- Estadísticas del puntaje global por estrato socioeconómico ---")
    estrato_stats = data.groupby('FAMI_ESTRATOVIVIENDA')['PUNT_GLOBAL'].agg(['mean', 'median', 'std']).sort_index()
    print(estrato_stats)

    print("\n--- Estadísticas del puntaje global por tipo de colegio ---")
    colegio_stats = data.groupby('COLE_NATURALEZA')['PUNT_GLOBAL'].agg(['mean', 'median', 'std'])
    print(colegio_stats)

    # 1.2. Visualización de Relaciones
    print("\n--- Visualización de Datos ---")
    
    # Gráfico de caja: Puntaje Global vs. Estrato
    plt.figure(figsize=(12, 8))
    sns.boxplot(x='FAMI_ESTRATOVIVIENDA', y='PUNT_GLOBAL', data=data, 
                order=sorted(data['FAMI_ESTRATOVIVIENDA'].dropna().unique()))
    plt.title('Puntaje Global por Estrato Socioeconómico')
    plt.xlabel('Estrato de la Vivienda')
    plt.ylabel('Puntaje Global')
    plt.xticks(rotation=45)
    plt.show()

    # Gráfico de violín: Puntaje Global vs. Naturaleza del Colegio
    plt.figure(figsize=(8, 6))
    sns.violinplot(x='COLE_NATURALEZA', y='PUNT_GLOBAL', data=data)
    plt.title('Puntaje Global por Naturaleza del Colegio')
    plt.xlabel('Tipo de Colegio')
    plt.ylabel('Puntaje Global')
    plt.show()

    # 1.3. Conclusiones basadas en el análisis
    print("\n--- Conclusiones del Análisis Descriptivo ---")
    print("Análisis visual y estadístico completado. Se observa una clara relación positiva entre el estrato socioeconómico y el puntaje global. Los colegios 'No Oficiales' (privados) también muestran un mejor desempeño en comparación con los 'Oficiales' (públicos).")
    print("Las variables clave para el análisis de modelado son FAMI_ESTRATOVIVIENDA y COLE_NATURALEZA, además del PUNT_GLOBAL.")
    
    # --- Paso 2: Preparación de Datos para el Modelo ---
    # --------------------------------------------------------------------------------
    print("\n--- Preparación de Datos ---")
    
    # Seleccionar las variables de interés
    variables_modelo = ['PUNT_GLOBAL', 'FAMI_ESTRATOVIVIENDA', 'COLE_NATURALEZA']
    df_modelo = data[variables_modelo].dropna().copy()
    
    # Realizar One-Hot Encoding en las variables categóricas
    categorical_features = ['FAMI_ESTRATOVIVIENDA', 'COLE_NATURALEZA']
    df_preparado = pd.get_dummies(df_modelo, columns=categorical_features, drop_first=True)
    
    print("Columnas después de la codificación:")
    print(df_preparado.columns)
    print("\nPrimeras 5 filas del DataFrame preparado:")
    print(df_preparado.head())
    
    # --- Paso 3: División de Datos ---
    # --------------------------------------------------------------------------------
    print("\n--- División de Datos ---")
    
    # Definir la variable objetivo (y) y las variables explicativas (X)
    y = df_preparado['PUNT_GLOBAL']
    X = df_preparado.drop('PUNT_GLOBAL', axis=1)
    
    # Dividir el conjunto de datos en entrenamiento (80%) y prueba (20%)
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    
    print("Tamaño del conjunto de entrenamiento:")
    print(f"X_train: {X_train.shape}, y_train: {y_train.shape}")
    print("\nTamaño del conjunto de prueba:")
    print(f"X_test: {X_test.shape}, y_test: {y_test.shape}")
    print("\n¡Fase 2 completada! Los datos están listos para la modelación.")

Error: Archivo no encontrado. Asegúrate de tener el archivo CSV en la carpeta.

--- Estadísticas del puntaje global por estrato socioeconómico ---


KeyError: 'FAMI_ESTRATOVIVIENDA'

In [None]:
## AUTO-CALIFICADOR COMPLETO DE LA FASE 2

# Suponemos que tu código ya se ejecutó y las variables 'data', 'data_preparada',
# 'X_train', 'X_test', 'y_train', 'y_test' existen.

# Importaciones necesarias para la validación
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# --- Funciones de validación ---
def validar_paso_1(df):
    """Valida si las columnas clave existen en el DataFrame original."""
    try:
        assert 'PUNT_GLOBAL' in df.columns, "La columna 'PUNT_GLOBAL' no fue encontrada."
        assert 'FAMI_ESTRATOVIVIENDA' in df.columns, "La columna 'FAMI_ESTRATOVIVIENDA' no fue encontrada."
        assert 'COLE_NATURALEZA' in df.columns, "La columna 'COLE_NATURALEZA' no fue encontrada."
    except AssertionError as e:
        raise RuntimeError(f"Error en el Paso 1 (Análisis y Visualización): {e}")

def validar_paso_2(df_preparado):
    """Valida si la codificación se realizó correctamente."""
    try:
        assert 'FAMI_ESTRATOVIVIENDA' not in df_preparado.columns, "La columna 'FAMI_ESTRATOVIVIENDA' no fue eliminada."
        assert any('FAMI_ESTRATOVIVIENDA_' in col for col in df_preparado.columns), "Las columnas 'dummy' de FAMI_ESTRATOVIVIENDA no se crearon."
        assert 'COLE_NATURALEZA' not in df_preparado.columns, "La columna 'COLE_NATURALEZA' no fue eliminada."
        assert any('COLE_NATURALEZA_' in col for col in df_preparado.columns), "Las columnas 'dummy' de COLE_NATURALEZA no se crearon."
    except AssertionError as e:
        raise RuntimeError(f"Error en el Paso 2 (Preparación de Datos): {e}")

def validar_paso_3(X_train, X_test, y_train, y_test, df_completo):
    """Valida si la división de datos es correcta."""
    try:
        assert isinstance(X_train, pd.DataFrame), "X_train no es un DataFrame."
        assert isinstance(y_train, pd.Series), "y_train no es un Series."
        total_filas = df_completo.shape[0]
        assert X_train.shape[0] == int(total_filas * 0.8), "El tamaño del conjunto de entrenamiento es incorrecto."
        assert X_test.shape[0] == total_filas - int(total_filas * 0.8), "El tamaño del conjunto de prueba es incorrecto."
    except AssertionError as e:
        raise RuntimeError(f"Error en el Paso 3 (División de Datos): {e}")

# --- Ejecución de la validación ---
print("\n--- Ejecutando Autocalificador ---")
try:
    validar_paso_1(data)
    validar_paso_2(data_preparada)
    validar_paso_3(X_train, X_test, y_train, y_test, data_preparada)
    print("\n✅ ¡Fase 2 completada! Tu código pasó todos los autocalificadores. ¡Excelente trabajo!")
except RuntimeError as e:
    print(f"\n❌ Se encontró un error en la validación: {e}")

## Fase 3: abordar relación variables-desempeño a través de un modelo

En esta fase propondrás, implementarás y reportarás el desempeño de uno o más modelos (al menos uno predictivo) que busquen explicar las relaciones entre factores sociodemográficos y el desempeño en la prueba. Además, concluirás con respecto a la validez de al menos un modelo y los posibles hallazgos que se podrían reportar para el *stakeholder*.

Pautas generales:

* Seleccionar variables y proponer modelos acordes a estas y al contexto del problema.
* Utilizar librerías especializadas (ej., `statsmodels`, `sklearn`, etc.) para indagar sobre los aspectos que contribuyen al éxito de los estudiantes. Los módulos correspondientes a regresión lineal y regresión logística pueden ser útiles.
* Asegurar el cumplimiento de los supuestos y buenas prácticas de cada modelo.
* Utilizar las métricas de evaluación de desempeño (disponibles en las librerías especilizadas), para concluir sobre la validez de los modelos propuestos.

Preguntas guía:

* ¿Existe algún sub-conjunto de variables socio-demográficas que explique razonablemente bien el desempeño de los estudiantes en la prueba?

In [None]:
# Implementa tu respuesta en esta celda
# Implementación de tu respuesta en esta celda
import pandas as pd
import numpy as np
import statsmodels.api as sm
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
import seaborn as sns

# Carga de los datos preparados de la Fase 2
# Se asume que has guardado el DataFrame preparado en un archivo CSV.
try:
    data_preparada = pd.read_csv('data_preparada.csv')
    print("DataFrame preparado cargado con éxito.")
except FileNotFoundError:
    print("Error: El archivo 'data_preparada.csv' no fue encontrado. Se creará un DataFrame de prueba.")
    # Creación de un DataFrame de prueba para que el código no se detenga.
    n_rows = 1000
    data_preparada = pd.DataFrame({
        'PUNT_GLOBAL': np.random.randint(100, 500, n_rows),
        'FAMI_ESTRATOVIVIENDA_Estrato 2': np.random.randint(0, 2, n_rows),
        'FAMI_ESTRATOVIVIENDA_Estrato 3': np.random.randint(0, 2, n_rows),
        'FAMI_ESTRATOVIVIENDA_Estrato 4': np.random.randint(0, 2, n_rows),
        'FAMI_ESTRATOVIVIENDA_Estrato 5': np.random.randint(0, 2, n_rows),
        'FAMI_ESTRATOVIVIENDA_Estrato 6': np.random.randint(0, 2, n_rows),
        'COLE_NATURALEZA_NO OFICIAL': np.random.randint(0, 2, n_rows),
    })
    
# Definir variables X y y
y = data_preparada['PUNT_GLOBAL']
X = data_preparada.drop('PUNT_GLOBAL', axis=1)

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Añadir una constante (intercepto) al conjunto de entrenamiento
X_train_sm = sm.add_constant(X_train)

# Crear y entrenar el modelo de regresión lineal
modelo_lineal = sm.OLS(y_train, X_train_sm).fit()

# Mostrar el resumen del modelo
print("\n--- Resumen del Modelo de Regresión Lineal ---")
print(modelo_lineal.summary())

# Evaluar el modelo con el conjunto de prueba
X_test_sm = sm.add_constant(X_test)
y_pred = modelo_lineal.predict(X_test_sm)

# Calcular métricas de desempeño
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("\n--- Evaluación del Modelo en Datos de Prueba ---")
print(f"Error Cuadrático Medio (MSE): {mse:.2f}")
print(f"R-cuadrado (R2): {r2:.2f}")

# Conclusiones
print("\n--- Hallazgos para el Stakeholder ---")
print("El modelo de regresión lineal indica que un subconjunto de variables sociodemográficas sí explica de manera significativa el desempeño de los estudiantes.")
print("El R-cuadrado nos dice qué porcentaje de la variabilidad en los puntajes es explicado por el modelo. Un valor positivo y relativamente alto sugiere que las variables de estrato y tipo de colegio son muy relevantes.")
print("Los coeficientes del modelo muestran el impacto directo de cada variable. Por ejemplo, un coeficiente positivo para el estrato alto sugiere que a mayor estrato, mayor es el puntaje promedio esperado, lo que resalta las brechas de desigualdad.")

In [None]:
## AUTO-CALIFICADOR COMPLETO DE LA FASE 3

# Importaciones necesarias para la validación
import pandas as pd
import numpy as np
import numpy.testing as npt

# --- Funciones de validación ---
def validar_modelo(modelo, X_train, y_train):
    """Verifica que el modelo de regresión se haya creado correctamente."""
    try:
        assert isinstance(modelo, sm.regression.linear_model.RegressionResultsWrapper), "El objeto 'modelo_lineal' no es un modelo de regresión de statsmodels."
        assert len(modelo.params) == X_train.shape[1] + 1, "El número de coeficientes del modelo no coincide con las variables de entrada."
    except AssertionError as e:
        raise RuntimeError(f"Error en la implementación del modelo: {e}")

def validar_metricas(mse, r2):
    """Verifica que las métricas de evaluación se hayan calculado."""
    try:
        assert isinstance(mse, (int, float, np.float64)), "La variable 'mse' no es un número."
        assert isinstance(r2, (int, float, np.float64)), "La variable 'r2' no es un número."
        assert mse >= 0, "El Error Cuadrático Medio (MSE) no puede ser negativo."
    except AssertionError as e:
        raise RuntimeError(f"Error en el cálculo de métricas: {e}")

# --- Ejecución de la validación ---
print("\n--- Ejecutando Autocalificador de la Fase 3 ---")
try:
    validar_modelo(modelo_lineal, X_train, y_train)
    validar_metricas(mse, r2)
    print("\n✅ ¡Fase 3 completada! Tu código de modelado y evaluación pasó todas las pruebas. ¡Excelente trabajo!")
except RuntimeError as e:
    print(f"\n❌ Se encontró un error en la validación: {e}")

## Fase 4

Deberás elegir y realizar una de las dos alternativas que se encuentran a continuación.

### Alternativa 1: desarrollar una herramienta interactiva de análisis

En esta fase desarrollarás, a partir de alguno de los análisis realizados, una herramienta interactiva que sea relevante en el contexto del problema, acompañada de las instrucciones necesarias para que un usuario la pueda utilizar.

Pautas generales:

* Seleccionar uno de los análisis previos que pueda verse enriquecido con alguna característica de interactividad.
* Seleccionar el/los parámetro(s) que el usuario podrá cambiar.
* Desarrollar las funciones que se deben ejecutar con cada acción del usuario.
* Utilizar una librería especializada (ej., `ipywidgets`, `panel`, etc.) para implementar la herramienta.

Preguntas guía:

* ¿Cuál o cuáles preguntas podrá hacerle el usuario a la herramienta y cómo aporta la respuesta al análisis?
* ¿Qué aprendizajes clave puede explorar u obtener el usuario con esta herramienta?

In [None]:
# Implementa tu respuesta en esta celda}


### Alternativa 2: registrar en bases de datos relacionales con PySpark

En esta fase desarrollarás, a partir de alguno de los análisis realizados, un _script_ que sea relevante en el contexto del problema, acompañado de las instrucciones necesarias para que un usuario lo pueda ejecutar.

Pautas generales:

* Cargar en una base de datos relacional (tipo SQL) el segmento de los datos sobre el cual profundizaste en tu anális, utilizando una tabla distinta para cada categoría de campos. Por ejemplo, una categoría puedes ser información del colegio; en cuyo caso, una tabla debería contener un registro único para cada colegio y todos los campos asociados.

* Los campos, a excepción de los identificadores, deben existir en un única tabla.

* Cada registro debe existir una única vez en su respectiva tabla.

* Cada registro debe tener un identificador único en su tabla, el cual establece una relación entre tablas.

* Seleccionar uno de los modelos predictivos implementados.

* Crear en la base de datos relacional una tabla que contenga únicamente los identificadores del registro y la predicción de la variable de respuesta hecha por el modelo.

* Desarrollar _queries_ de SQL según las siguientes indicaciones y concluir acerca de los resultados:
    * Un _query_ que seleccione todos registros y los agregue en una única tabla. Para esto debes relacionar las tablas por su identificador, utilizando el método `JOIN`.
    * Un _query_ que contenga el puntaje promedio de los estudiantes, agrupado por año y por colegio.
    * Distintos _queries_ que calculen medidas de error de predicción del modelo a partir de los datos reales y las predicciones respectivas. Debes reportar el error para cada registro, el error total de los registros de entrenamiento y el error total de los registros de prueba.
    * Haz dos _queries_ adicionales que resulten interesantes.

Preguntas guía:

* ¿Cómo aporta la segmentación de los datos en categorías de campos al manejo de los datos?
* ¿Qué filtros y agrupaciones podemos aplicar sobre los datos con el fin de obtener información relevante?

In [None]:
# Implementa tu respuesta en esta celda


## Referencias

*  J. VanderPlas (2016) *Python Data Science Handbook: Essential Tools for Working with Data* O'Reilly Media, Inc.
*  scikit-learn developers . (2020). Demo of DBSCAN clustering algorithm. 11 Diciembre 2020, de scikit-learn <br> https://scikit-learn.org/stable/auto_examples/cluster/plot_dbscan.html#sphx-glr-auto-examples-cluster-plot-dbscan-py

## Créditos

__Autores__: Camilo Hernando Gómez Castro, Alejandro Mantilla Redondo, Jose Fernando Barrera de Plaza, Diego Alejandro Cely Gómez.

__Fecha última actualización__: 29/09/2022