# <img style="float: left; padding-right: 20px; width: 200px" src="https://raw.githubusercontent.com/raxlab/imt2200-data/main/media/logo.jpg">  IMT 2200 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Instituto de Ingeniería Matemática y Computacional**<br>
**Semestre 2024-S2**<br>
**Profesor:** Rodrigo A. Carrasco <br>
---

# <h1><center>Tarea 03: EDA - Exploración de Datos</center></h1>

## Instrucciones

- Fecha de publicación: día 17 de octubre de 2024.

- Fecha de límite de entrega: día 7 de noviembre de 2024, a las 23:59.

- Vía de entrega: En el módulo de tareas en Canvas, en el ítem 'Tarea 3'.

- Esta Tarea debe desarrollarse de manera totalmente *individual*, de acuerdo a lo establecido en la sección de Integridad Académica en el programa del curso.

- La Tarea debe ser desarrollada en lenguaje de programación Python y la entrega en formato Jupyter Notebook.

- El desarrollo del Notebook debe ser claro y ordenado, incluyendo anotaciones (markdown) y comentarios que permitan seguir fácilmente el código y los pasos implementados a los correctores, y siguiendo buenas prácticas de programación. La presentación y claridad del notebook y código forman parte de la evaluación de la tarea.

- Se sugiere hacer consultas y comentarios sobre la Tarea a traves del canal de Tareas en el Foro del curso en Canvas.


## 1. Objetivos de la Tarea

### 1.1 Objetivo educacional

Esta Tarea tiene como objetivo que los estudiantes desarrollen la capacidad de manejar algunas de las librerías centrales para el desarrollo de Ciencia de Datos, con foco en la exploración de datos (EDA).

En los ejercicios a desarrollar a continuación, usted deberá extraer y explorar datos en distintos formatos, de manera de responder las preguntas de cada parte de la Tarea.

### 1.2 Pregunta de ciencia de datos

Esta tarea tiene como objetivo crear y realizar un análisis descriptivo de una base de datos para el estudio de factores determinantes en el rendimiento de las pruebas de admisión a la educación superior en Chile. En particular, se busca analizar la relación entre el rendimiento en las pruebas y factores determinantes como indicadores socioeconómicos y notas de enseñanza media.

## 2. Datos

Para este estudio, se utilizarán datos generados y publicados por el  Centro de Estudios del Ministerio de Educación de Chile: https://datosabiertos.mineduc.cl/pruebas-de-admision-a-la-educacion-superior/ <br>

El Centro de Estudios pone a disposición del público en general la plataforma Datos Abiertos para compartir información estadística en materia de educación, que incluye bases de datos de establecimientos educacionales, estudiantes y párvulos, docentes y asistentes de la educación, y sostenedores. Además, se entrega información georreferenciada.

Para el análisis planteado, se considerarán las siguientes fuentes de datos:

* **[BD1] Paes 2024 - Inscritos Puntajes:** colección que agrupa datos para descagar información de puntajes del 2024.
https://datosabiertos.mineduc.cl/wp-content/uploads/2024/05/PAES-2024-Inscritos-Puntajes.rar

* **[BD2] Paes 2024 - Socioeconómicos:** datos de indicadores socioeconómicos relativos a la paes 2024.
https://datosabiertos.mineduc.cl/wp-content/uploads/2024/05/PAES-2024-Socioeconomicos.rar

* **[BD3] Paes 2024 - Matrícula:** datos de sobre las matrículas en cada establecimiento en 2024.
https://datosabiertos.mineduc.cl/wp-content/uploads/2024/05/PAES-2024-Matricula.rar

* **[BD4]** Cartografía de comunas de Chile: capa vectorial disponible en la biblioteca del congreso nacional, https://www.bcn.cl/obtienearchivo?id=repositorio/10221/10396/2/Comunas.zip

## 3. Limpieza de Datos

Nuestro primer objetivo será generar un conjunto de datos limpio y consistente en una única tabla con valores promedio de NOTAS, ASISTENCIA, y RAZÓN DOCENTES/ESTUDIANTES para cada COMUNA del país. Para construir esta tabla, haga los pasos a continuación.

### 3.1 Acceso y revisión de bases

Para cada conjuntos de datos, descargue los archivos correspondientes al año 2024 y léalos armando un dataframe para cada uno. Consulte la documentación asociada para identificar el contenido de cada uno.

Cada una de las bases de datos requiere un procesamiento previo al análisis. Aplique las operaciones necesarias para generar los conjuntos de datos limpios descritos en los siguientes puntos.

In [None]:
#Instalar dependencias
import pandas as pd
import numpy as np

#importar y abrir BD1
inscritos_economico = pd.read_csv('data/economico.csv', sep=';')
inscritos_economico.head()

In [None]:
#Importar y abrir BD2
inscritos_puntaje = pd.read_csv('data/puntaje.csv', sep=';')
inscritos_puntaje.head()

In [None]:
#Importar y abrir BD3
bd_matricula = pd.read_csv('data/matricula.csv', sep=';')
bd_matricula.head()

### 3.2 Calculando extensión y limpieza de datos

Calcule el largo de cada uno de estos archivo, en algunas ocasiones podemos obtener valores indeseados como n/a, por lo que deberá eliminarlas y luego volver a calcular el largo de cada uno de estos archivos.

Realice un análisis y resuma que significa la extensión de cada uno de estos archivos. Comenté como afecta la presencia de valores n/a en los datos si es que aplica y como se puede solucionar.

¿Que porcentaje de los que rindieron la prueba finalmente se matriculó?

In [None]:
# Verificar largo de cada BD
print("Extensión BD3: ", len(inscritos_economico))
print("Extensión BD3: ", len(inscritos_puntaje))
print("Extensión BD3: ", len(bd_matricula))

In [None]:
#Borrar valores n/a
inscritos_economico = inscritos_economico.dropna()
inscritos_puntaje = inscritos_puntaje.dropna()
bd_matricula = bd_matricula.dropna()

# Verificar largo de cada BD
print("Extensión BD3: ", len(inscritos_economico))
print("Extensión BD3: ", len(inscritos_puntaje))
print("Extensión BD3: ", len(bd_matricula))

### 3.4 Extendiendo el DataFrame (5 puntos)

A partir de  **[BD2]** y **[BD3]**, genere un único dataframe **[BD2_3]** con la siguiente estructura:

| |ESTABLECIMIENTO |	COMUNA |	REGION |	DC_TOT |	MAT_TOTAL| 	RAZON_DOC_EST|
|---|---|---|---|---|---|---|
|0 |	LICEO POLITECNICO ARICA 	|15101 |	15 	|71 |	664| 	0.106928|
|1 |	PARVULARIO LAS ESPIGUITAS 	|15101 |	15 	|16 |	170| 	0.094118|
|2 |	ESC. PEDRO VICENTE GUTIERREZ TORRES| 	15101| 	15 |	28| 	470| 	0.059574|
|... |	...| 	...| 	... |	...| 	...| 	...|

La variable `RAZON_DOC_EST` se define como la razón entre docentes y estudiantes de cada establecimiento, calculada como
`RAZON_DOC_EST=DC_TOT/MAT_TOTAL`, donde `DC_TOT` es el total de docentes del establecimiento, y `MAT_TOT` es la matrícula total de alumnos.

Para ello, ud. debe:
* Unir las bases de datos mediante una columna común.
* Renombrar las columnas que sea necesario.
* Eliminar registros de establecimientos con matrícula igual a cero.
* Crear las nuevas columnas que se requiera.
* Eliminar columnas innecesarias.
* Eliminar registros con datos nulos.

## 4. Cálculo de promedios y análisis descriptivos

### 4.1 Cálculo de promedios

Con base en las matrículas, deberas en primer lugar calcular el PUNTAJE_PONDERADO de INGENIERIA en la UC con sede en SANTIAGO.
Además deberás indicar el PUNTAJE_PONDERADO de la persona con mayor puntaje de esta carrera y la con menor PUNTAJE_PONDERADO.

Hint: el código de la carrera es 12039

In [None]:
#Filtrar por carrera
ing_uc = bd_matricula[bd_matricula['CODIGO_CARRERA'] == 12039]

#Promedio de puntaje de odonto_unab

#Sortear por puntaje

#Obtener valor del primero y del último

### 4.2 Cálculo de promedios por grupo

Ahora con la base de datos de inscritos puntajes BD1 deberas agrupar los resultados por comuna (se sugiere agrupar por NOMBRE_COMUNA_EGRESO) y posteriormente calcular el promedio de CORRECTAS_REG_M1 por comuna.

¿Cuál es la comuna con mayor promedio de respuestas correctas en M1? ¿Cuál es la comuna con menor promedio de respuestas correctas en M1? ¿Cuál es el promedio y la mediana de respuestas correctas en M1 a nivel nacional?

In [None]:
# Agrupar por comuna

#Calcular promedio por comuna

#Sortear por promedio

#Obtener valor del primero, ultimo y promedio y mediana

### 4.3 Cálculo por grupo

Siguiendo la misma lógica previa, ¿Cuales son los 10 establecimientos con mejor comprensión lectora? Justifique su respuesta con un análisis acompañado de un código que respalde su postura.

In [None]:
# 

## 5 Unión de bases de datos

### 5.1 Genración de un único DataFrame

Como hemos visto, necesitamos de información crucial en cada una de las bases de datos para poder realizar un análisis más profundo. Por lo que deberás unir las bases de datos de manera que puedas obtener un dataframe con la siguiente estructura:

Deberás usar MRUN como llave para unir las bases de datos.

Además De BD1 deberás recopilar la siguiente información para asociarla a un nuevo esquema:
- NOMBRE_UNIDAD_EDUC
- NOMBRE_COMUNA_EGRESO
- PROMEDIO_NOTAS
- PTJE_NEM
- PTJE_RANKING
- Información asociada a las pruebas de lenguaje y matemáticas

De la BD2 deberás recopilar la siguiente información para asociarla al esquema:
- NOMBRE_COMUNA_DOMICILIO
- INGRESO_PERCAPITA_GRUPO_FA

De la BD3 deberás recopilar la siguiente información para asociarla al esquema:
- NOMBRE_CARRERA
- SEDE
- SIGLA_UNIVERSIDAD
- PREFERENCIA
- PUNTAJE_PONDERADO
- LUGAR_EN_LA_LISTA


In [None]:
# Unir las tablas en un dataframe con algunos datos de cada tabla


### 5.2 Agregar preguntas de interés

Agregar preguntas de interés y responderlas con el DataFrame generado.


## 6. Análisis de datos

A partir de las bases de datos nuevas, analice y responda las preguntas enunciadas a continuación. Para cada pregunta,  debe incluir **al menos un análisis estadístico y un gráfico** que sustenten su respuesta, y **una conclusión o comentario** a partir de dichos análisis. Justifique claramente todos sus análisis y conclusiones.

### 6.1 Creando un mapa

Utilizando la nueva base de datos y la cartografía de comunas de Chile, genere un mapa calor de Chile según la cantidad de matriculados según su comuna de domicilio.

### 6.2 Conteste las siguientes preguntas usando las bases creadas en los puntos anteriores.

#### a. ¿Cómo es la distribución de puntajes de matemáticas m1 de los chilenos?

#### b. ¿Cómo es la distribución de puntajes de comprensión lectora de los chilenos?

#### c. ¿Cómo varía el PUNTAJE_PONDERADO de los estudiantes de acuerdo al INGRESO_PERCAPITA_GRUPO_FA? ¿Hay algún patrón detectable?

#### d. ¿Puede identificar alguna correlación entre el PTJE_RANKING, su LUGAR_EN_LA_LISTA, e INGRESO_PERCAPITA_GRUPO_FA para los inscritos? ¿Cree que es posible realizar este análisis, y plantear algún modelo (general o parcial) a partir de los datos utilizados?

Justifique y argumente claramente su respuesta.
