# <img style="float: left; padding-right: 20px; width: 200px" src="https://raw.githubusercontent.com/raxlab/imt2200-data/main/media/logo.jpg">  IMT 2200 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Instituto de Ingeniería Matemática y Computacional**<br>
**Semestre 2025-S2**<br>
**Profesor:** Rodrigo A. Carrasco <br>

# <h1><center>Tarea 03: Exploración de datos </center></h1>

**Fecha de Entrega:** 28 de octubre de 2025, a las 23:59.

**Fecha de publicación**: 14 de octubre de 2025.

**Formato de entrega:** Notebook ejecutado y comentado (`.ipynb`) en el módulo de Tarea 03 habilitado en Canvas.

## Instrucciones

- Esta Tarea debe desarrollarse de manera totalmente *individual*, de acuerdo a lo establecido en la sección de Integridad Académica en el programa del curso.
- La Tarea debe ser desarrollada en lenguaje de programación Python y la entrega en formato Jupyter Notebook.
- El desarrollo del Notebook debe ser claro y ordenado, incluyendo anotaciones (markdown) y comentarios que permitan seguir fácilmente el código y los pasos implementados a los correctores, y siguiendo buenas prácticas de programación. La presentación y claridad del notebook y código forman parte de la evaluación de la tarea.
- Notebook **autocontenible** que:
   - Ejecute sin errores todas las celdas.
  - Contenga tanto el código como los comentarios y explicaciones necesarias.
  - Incluya visualizaciones claras y correctamente etiquetadas.
- No se aceptarán notebooks con celdas rotas o que dependan de rutas externas no indicadas en la tarea.

- Deben hacer sus consultas y comentarios sobre la Tarea a través del canal de Tareas en el Foro del curso en Canvas.

---

## 1. Objetivos

- Aplicar los conceptos iniciales de manejo de datos y análisis exploratorio vistos en clases.
- Practicar la lectura, limpieza y manipulación de datos en Python.
- Desarrollar habilidades para visualizar y describir patrones y tendencias en conjuntos de datos reales.
- Fomentar la capacidad de comunicar resultados de forma clara y fundamentada.

### 1.1 Objetivo educacional

Esta Tarea tiene como objetivo que los estudiantes desarrollen la capacidad de manejar algunas de las librerías centrales para el desarrollo de Ciencia de Datos, con foco en la lectura y exploración de datos. 

Para los ejercicios a continuación, usted deberá leer, inspeccionar, manipular y graficar conjuntos de datos en distintos formatos, de manera de responder las preguntas de cada parte de la Tarea.

### 1.2 Pregunta de ciencia de datos

En esta tarea vamos a analizar la distribución de vulneribilidad escolar para distintos establecimientos educacionales en Chile, desde enseñanza parvularia hasta enseñanza media. Específicamente, queremos entender cómo se comporta un índice de vulnerabilidad en relación a variables como ruralidad, tipo de dependencia y comuna del establecimiento.

---

## 2. Datos

En este estudio, trabajaremos con los resultados publicados anualmente sobre por la JUNAEB
sobre vulnerabilidad de establecimientos educacionales en todo el territorio nacional. Estos resultados están disponibles en la siguiente página web:

* Índices de Vulnerabilidad (JUNAEB): https://www.junaeb.cl/medicion-la-vulnerabilidad-ivm/

Adicionalmente, para visualizar las variables, utilizaremos los mapas vectoriales que disponibiliza la Biblioteca del Congreso Nacional (BCN):

* Mapoteca BCN: https://www.bcn.cl/siit/mapas_vectoriales/index_html

### 2.1 Descarga de datos y conceptos generales (1 punto)

Acceda a los links entregados y descargue el set de datos del **Índice de Vulnerabilidad Multidimensional de Establecimientos Educacionales** para el año 2025. Este debería ser un documento XLSX con múltiples pestañas, incluyendo entre estas un índice que describe las columnas presentes en la base de datos.
Descargue además los archivos correspondientes a la **División comunal: polígonos de las comunas de Chile**. Este se descarga en formato `.zip` y contiene archivos shapefile para visualizar las comunas del país.

Investigue sobre este índice y responda de manera concisa: 
* ¿En qué consiste el IVM? ¿Qué rango de valores toma y qué significan? 
* ¿Cómo se obtiene el IVM de un establecimiento educacional?



Respuesta:

¿En qué consiste el IVM? El Índice de Vulnerabilidad Multidimensional (IVM) es una medida estadística que evalúa la vulnerabilidad "no observable" de un estudiante según su trayectoria escolar. Fue desarrollado por Junaeb y la Pontificia Universidad Católica de Chile. Se calcula anualmente de forma independiente para cuatro etapas: Parvularia, 1° Ciclo Básico, 2° Ciclo Básico y Media.

¿Qué rango de valores toma y qué significan? El IVM genera un puntaje que oscila entre 0 y 100, donde 100 representa la máxima vulnerabilidad posible. Este puntaje numérico también se expresa en cuatro categorías: bajo, medio, alto o muy alto.

¿Cómo se obtiene el IVM? Se obtiene consolidando múltiples fuentes de datos. Alrededor del 70% de la información proviene de la Encuesta de Vulnerabilidad de Junaeb (aplicada en pre-kínder, kínder, 1°, 5° básico y I° Medio). El 30% restante proviene de registros administrativos de otras instituciones del Estado (como MINEDUC, Registro Civil, FONASA, MDS, etc.). Luego, se aplican modelos estadísticos (como Análisis Factorial) para calcular el puntaje final.

## 3. Lectura y limpieza de datos (1 punto)

### 3.1 Datos de establecimientos (0.5 puntos)
El archivo descargado contiene información sobre establecimientos de cuatro tipos: Parvularia, Primer Ciclo Básica, Segundo Ciclo Básica y Media.
Cargue los datos de los establecimientos en cuatro DataFrames distintos.

Revise cada uno de sus sets de datos y haga un proceso de limpieza si lo considera necesario (manejo de valores nulos, duplicados, inválidos, transformación de tipos de datos, etc). De haberlos, identifique qué atributos son categóricos y transforme los tipos de columna de acuerdo a su decisión, mostrando todos los posibles valores de cada categoría.

Justifique **todas** sus decisiones, **incluso** si decide no realizar una limpieza o transformación.

Finalmente, responda:

* a. ¿Cuántos establecimientos tiene cada set de datos?
* b. ¿Cuánto espacio en memoria ocupan en total los 4 datasets?
* c. ¿Cuántos estudiantes fueron evaluados en todo el país para cada nivel de enseñanza para el año 2025?


In [1]:
import pandas as pd
import matplotlib.pyplot as plt


In [13]:

df_parv = pd.read_excel("data/IVM_Establecimientos_2025-2.xlsx", sheet_name="Parvularia")
df_basica1 = pd.read_excel("data/IVM_Establecimientos_2025-2.xlsx", sheet_name="1º Ciclo Básico")
df_basica2 = pd.read_excel("data/IVM_Establecimientos_2025-2.xlsx", sheet_name="2º Ciclo Básico")
df_media = pd.read_excel("data/IVM_Establecimientos_2025-2.xlsx", sheet_name="Media")


In [None]:
df_parv.info()
df_parv.notnull().sum()
df_parv.describe()
df_parv.duplicated().sum()

#viendo esto se ve que no hay datos nulos ni duplicados en el dataset de parvulario y por lo tanto no necesita mas limpieza de la que ya existe


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6163 entries, 0 to 6162
Data columns (total 21 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ID_RBD                    6163 non-null   int64  
 1   DV_RBD                    6163 non-null   int64  
 2   DS_NOM_ESTABLE            6163 non-null   object 
 3   DS_TIPO_DEPENDENCIA       6163 non-null   object 
 4   DS_RURALIDAD              6163 non-null   object 
 5   ID_REGION_ESTABLE         6163 non-null   int64  
 6   ID_PROVINCIA_ESTABLE      6163 non-null   int64  
 7   ID_COMUNA_ESTABLE         6163 non-null   int64  
 8   DS_COMUNA_ESTABLE         6163 non-null   object 
 9   N EVALUADO                6163 non-null   int64  
 10  IVM Establecimiento       6163 non-null   float64
 11  IVM Bajo                  6163 non-null   int64  
 12  IVM Medio                 6163 non-null   int64  
 13  IVM Alto                  6163 non-null   int64  
 14  IVM Muy 

np.int64(0)

In [28]:
df_basica1.info()
df_basica1.notnull().sum()
df_basica1.describe()
df_basica1.duplicated().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7082 entries, 0 to 7081
Data columns (total 23 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ID_RBD                7082 non-null   int64  
 1   DV_RBD                7082 non-null   int64  
 2   DS_NOM_ESTABLE        7082 non-null   object 
 3   DS_TIPO_DEPENDENCIA   7082 non-null   object 
 4   DS_RURALIDAD          7082 non-null   object 
 5   ID_REGION_ESTABLE     7082 non-null   int64  
 6   ID_PROVINCIA_ESTABLE  7082 non-null   int64  
 7   ID_COMUNA_ESTABLE     7082 non-null   int64  
 8   DS_COMUNA_ESTABLE     7082 non-null   object 
 9   N EVALUADO            7082 non-null   int64  
 10  IVM Establecimiento   7082 non-null   float64
 11  IVM Bajo              7082 non-null   int64  
 12  IVM Medio             7082 non-null   int64  
 13  IVM Alto              7082 non-null   int64  
 14  IVM Muy Alto          7082 non-null   int64  
 15  IVM Salud            

np.int64(0)

In [29]:
df_basica2.info()
df_basica2.notnull().sum()
df_basica2.describe()
df_basica2.duplicated().sum()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5662 entries, 0 to 5661
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ID_RBD                5662 non-null   int64  
 1   DV_RBD                5662 non-null   int64  
 2   DS_NOM_ESTABLE        5662 non-null   object 
 3   DS_TIPO_DEPENDENCIA   5662 non-null   object 
 4   DS_RURALIDAD          5662 non-null   object 
 5   ID_REGION_ESTABLE     5662 non-null   int64  
 6   ID_PROVINCIA_ESTABLE  5662 non-null   int64  
 7   ID_COMUNA_ESTABLE     5662 non-null   int64  
 8   DS_COMUNA_ESTABLE     5662 non-null   object 
 9   N EVALUADO            5662 non-null   int64  
 10  IVM Establecimiento   5662 non-null   float64
 11  IVM Bajo              5662 non-null   int64  
 12  IVM Medio             5662 non-null   int64  
 13  IVM Alto              5662 non-null   int64  
 14  IVM Muy Alto          5662 non-null   int64  
dtypes: float64(1), int64(

np.int64(0)

In [30]:
df_media.info()
df_media.notnull().sum()
df_media.describe()
df_media.duplicated().sum()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2618 entries, 0 to 2617
Data columns (total 15 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   ID_RBD                2618 non-null   int64  
 1   DV_RBD                2618 non-null   int64  
 2   DS_NOM_ESTABLE        2618 non-null   object 
 3   DS_TIPO_DEPENDENCIA   2618 non-null   object 
 4   DS_RURALIDAD          2618 non-null   object 
 5   ID_REGION_ESTABLE     2618 non-null   int64  
 6   ID_PROVINCIA_ESTABLE  2618 non-null   int64  
 7   ID_COMUNA_ESTABLE     2618 non-null   int64  
 8   DS_COMUNA_ESTABLE     2618 non-null   object 
 9   N EVALUADO            2618 non-null   int64  
 10  IVM Establecimiento   2618 non-null   float64
 11  IVM Bajo              2618 non-null   int64  
 12  IVM Medio             2618 non-null   int64  
 13  IVM Alto              2618 non-null   int64  
 14  IVM Muy Alto          2618 non-null   int64  
dtypes: float64(1), int64(

np.int64(0)

--Se revisaron los datasets y se concluyo que ya estan ordenados y limpiados acordemente para ser utilizados en el analisis.

In [51]:
n = df_parv.memory_usage(deep=True).sum()
kb = n / 1024
m = kb / 1024
print(m)

2.4612369537353516


In [55]:
n2 = df_basica1.memory_usage(deep=True).sum() 
kb2 = n2 / 1024
m2 = kb2 / 1024
print(m2)

2.919889450073242


In [53]:
n3 = df_basica2.memory_usage(deep=True).sum()
kb3 = n3 / 1024
m3 = kb3 / 1024
print(m3)

2.000594139099121


In [54]:
n4 =df_media.memory_usage(deep=True).sum()
kb4 = n4 / 1024
m4 = kb4 / 1024
print(m4)

0.9323234558105469


In [57]:
total = m + m2 + m3 + m4
print(total)

8.314043998718262


# Respuestas

A) el dataset parvulario tiene 6163 establecimientos, el primer ciclo básico tiene 7082 establecimientos, el segundo ciclo básico tiene 5662 establecimientos, y el dataset de media tiene 2618 establecimientos.
b) 


### 3.2 Datos geográficos (0.5 puntos)

Cargue en un GeoDataFrame de GeoPandas la información de los polígonos de cada comuna del país.

Como realizamos en la Tarea pasada, puede transformar el Coordinate Reference System (CRS) a EPSG 4326, para tener la información de los puntos de los polígonos con latitud y longitud.

In [None]:
# Respuesta

## 4. Análisis descriptivo (1.5 puntos)

En esta sección haremos una exploración preliminar de los 4 sets de datos cargados. Para cada una de las siguientes preguntas, sustente su respuesta con al menos un gráfico y su análisis respectivo.

**Recomendación:** puede utilizar el método `subplots()` de `matplotlib.pyplot` para facilitar la visualización de múltiples gráficos a la vez.

### 4.1 Ruralidad (0.8 pts)
* a. ¿Cuál es la cantidad de establecimientos rurales vs urbanos según nivel de enseñanza?
* b. ¿Cómo se distribuye el IVM según nivel de enseñanza y ruralidad?


In [None]:
# respuestas

Respuesta y comentarios:

### 4.2 Tipo de establecimiento (0.7 pts)

* ¿Cómo es la distribución del IVM promedio de los establecimientos según tipo de dependencia y nivel de enseñanza? 

In [None]:
# respuestas

Respuesta y comentarios:

### 4.3 Pregunta Bono: Dimensiones de vulnerabilidad (1 punto)

Para los niveles de enseñanza Parvularia y Básica Primer ciclo (1-4º), tenemos información sobre distintas dimensiones de que se utilizan para calcular el IVM, como condición socioeconómica familiar y comunal, salud, etc. 

* Para todo Chile, en promedio, ¿cuál es la dimensión con mayor puntaje de IVM para cada uno de estos dos niveles de enseñanza?

In [None]:
# Respuestas

Respuesta y comentarios:

## 5. Agrupación de bases de datos (2 puntos)

El objetivo de esta sección será agrupar los establecimientos según la comuna en la que se encuentran para obtener un resumen general sobre la vulnerabilidad escolar en cada una de ellas. Al finalizar esta sección, tendremos un nuevo DataFrame `agg_comunal` que contenga, al menos, la siguiente información:

* Comuna (nombre y ID)
* Región (ID)
* Cantidad de establecimientos rurales de la comuna
* Cantidad de establecimientos urbanos de la comuna
* Cantidad total de establecimientos de la comuna
* Porcentaje de establecimientos rurales
* IVM Promedio Parvularia de la comuna
* IVM Promedio Básica Primer Ciclo de la comuna
* IVM Promedio Básica Segundo Ciclo de la comuna
* IVM Promedio Media de la comuna
* Objeto geometry de GeoPandas correspondiente al polígono de la comuna respectiva

Armaremos este DataFrame paso a paso.

### 5.1 Cálculo de IVM promedio por comuna (0.8 pts)

Primero, para cada uno sus 4 DataFrames, calcule el promedio de la columna `IVM Establecimiento` según comuna. Almacene este valor en una nueva columna llamada `IVM Promedio {NIVEL DE ENSEÑANZA}` (por ejemplo, para enseñanza parvularia, cree la columna `IVM Promedio Parvularia`).

Junte los 4 resultados que obtuvo en un solo DataFrame `ivm_comunal` que contenga:
* Comuna (nombre y ID)
* Región (ID)
* IVM Promedio Parvularia de la comuna
* IVM Promedio Básica Primer Ciclo de la comuna
* IVM Promedio Básica Segundo Ciclo de la comuna
* IVM Promedio Media de la comuna

Ponga siempre atención al tamaño de sus DataFrames: como estamos agrupando comunalmente, estos siempre debiesen tener una cantidad de filas igual a las comunas de Chile.

In [None]:
# respuestas

### 5.2 Establecimientos por comuna y ruralidad (0.8 pts)

Ahora contaremos la cantidad de establecimientos por comuna según ruralidad. Como buscamos la cantidad total de establecimientos, consideramos establecimientos de todos los niveles educacionales vistos. Para esto, combine los 4 DataFrames que cargó y genere un nuevo DataFrame `estab_comunal` que contenga:

* Comuna (ID)
* Cantidad de establecimientos rurales
* Cantidad de establecimientos urbanos
* Cantidad total de establecimientos
* Porcentaje de establecimientos rurales (Establecimientos rurales / Total establecimientos * 100)

Tenga en cuenta de que pueden aparecer establecimientos duplicados al combinar estos 4 DataFrames (por ejemplo, establecimientos que imparten múltiples niveles de enseñanza, desde 1º básico hasta 4º medio). Preocúpese de manejar estos casos antes de agrupar sus datos según ruralidad.

In [None]:
# respuestas

### 5.3 Unión de bases de datos y polígonos (0.4 pts)

Finalmente, vamos a generar el DataFrame `agg_comunal` con la información de los dos previos DataFrames creados.
Combine la información de las dos secciones anteriores para crear su base de datos unificada. Por último, agregue la columna `geometry` con la información geográfica de cada comuna.

In [None]:
# respuestas

## 6. Análisis de vulnerabilidad por comuna (1.5 puntos)

### 6.1 Mapa de calor (0.8 pts)

Genere mapas de calor de las comunas de Chile según el IVM promedio de los establecimientos educacionales. Realice esto para cada etapa de enseñanza (Parvularia, Básica 1, Básica 2 y Media). Analice y comente sus resultados:
* ¿Cómo se diferencia la vulnerabilidad en distintos sectores del país según nivel de enseñanza?

In [None]:
# Respuesta

Comentarios y análisis:

### 6.2 Relación entre ruralidad comunal y vulnerabilidad (0.7 pts)

En la sección **5.2** definimos el **porcentaje de ruralidad** de cada comuna según la cantidad de establecimientos rurales en cada una. Analice y visualice los datos en `agg_comunal` para responder la siguiente pregunta:

* ¿Hay alguna correlación entre el IVM promedio y el porcentaje de ruralidad en las comunas de Chile?

In [None]:
# respuestas

## 7 Pregunta Bono (2 punto)

* Proponga una pregunta de análisis que le interese responder con los datos de cualquiera de las bases de datos leídas o generadas durante esta Tarea.
Respóndala de la misma forma que las preguntas anteriores, generando una o varias visualizaciones y analizando sus resultados. Justifique 

**Recomendación**: Trate de proponer una pregunta que justifique el uso de agregación de datos y visualización. En otras palabras, que
no pueda ser respondida directamente sin el uso de gráficos (por ejemplo, *"¿cuál es el establecimiento con mayor IVM?"* puede ser respondida con una búsqueda rápida en el DataFrame).

**Pregunta propuesta:**

In [None]:
# respuesta