In [1]:
import numpy as np
import pandas as pd
from IPython.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

# <img style="float: left; padding: 0px 10px 0px 0px;" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg/1920px-Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg.png"  width="80" /> MCD3020 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Profesora:** Paula Aguirre <br>

## Tutorial 6: Combinación y agrupación de datos, parte I.

## Introducción.

Este ejercicio tiene como objetivo poner en práctica y demostrar alguna operaciones de combinación y agurpación de datos.

Como caso de estudio, suponga la siguiente situación: necesitamos crear y realizar un análisis descriptivo de una base de datos para el estudio de factores determinantes en el rendimiento escolar de los estudiantes de educación básica y media en Chile. En particular, se busca analizar la relación entre el **rendimiento escolar**, representado por el promedio general de notas de cada estudiante, y factores determinantes como el **porcentaje de asistencia a clases, y la razón entre docentes y estudiantes de los establecimientos educacionales**. 

Para este estudio, se utilizarán datos generados y publicados por el  Centro de Estudios del Ministerio de Educación de Chile, https://centroestudios.mineduc.cl/: <br>

*El Centro de Estudios pone a disposición del público en general la plataforma Datos Abiertos para compartir información estadística en materia de educación, que incluye bases de datos de establecimientos educacionales, estudiantes y párvulos, docentes y asistentes de la educación, y sostenedores. Además, se entrega información georreferenciada.*

Para el análisis planteado, se considerarán las siguientes fuentes de datos y columnas clave de cada una de ellas:

#### [BD1] Rendimiento académico por estudiante, desde el año 2002 al 2021.

Esta base de datos resumida contiene las siguientes variables:

* `COD_COMUNA`: código de la comuna a la cual pertenece el estudiante.
* `NIVEL`: es una variable categórica que indica el nivel de enseñanza agrupado al cual pertenece cada estudiante, cuyos valores pueden ser [*media_ch, media_tp, básica*], donde *media_ch* corresponde a la educación media científico-humanista, y *media_tp* a la educación media técnico-profesional.
* `SIT_FINAL`:  es una variable categórica que indica la situación final de promoción al cierre del año escolar (P: Promovido, R: Reprobado).
* `PROM_GRAL`: promedio general de notas, en escala de 1 a 7.

| | COD_COMUNA |	NIVEL |	EDAD_ALU |	PROM_GRAL |	ASISTENCIA| SIT_FINAL|
|--- | --- | --- | --- |--- | --- |---|
|0| 	15101| 	media |	15 |	6.4 |	97| P|
|1| 	15101| 	media |	14 |	5.1 |	91|P|
|2| 	15101| 	media |	16 |	4.8 |	85|P|
|3| 	15101| 	media |	14 |	5.2 |	89|P|
|...| 	...| 	... |	... |	... |	...|...|



#### [BD2] Dotación docente por establecimiento.

* `RBD`: código de establecimiento.
* `NOM_RBD`: nombre del establecimiento.
* `COD_COM_RBD`:  código de la comuna del establecimeinto
* `DC_TOT`: total de docentes en el establecimiento

|	RBD|	NOM_RBD|	COD_COM_RBD|	DC_TOT|
|--- | --- | --- | --- |
|0|	1|	LICEO POLITECNICO ARICA|	15101|	71|
|1|	2|	PARVULARIO LAS ESPIGUITAS|	15101	|16|
|2|	3|	ESC. PEDRO VICENTE GUTIERREZ TORRES	|15101	|28|
|3|	4|	LICEO OCTAVIO PALMA PEREZ	|15101|	64|
|4|	5|	JOVINA NARANJO FERNANDEZ	|15101	|


#### [BD3] Resumen de matrícula por establecimiento.


|	RBD|	NOM_RBD|	COD_COM_RBD|	MAT_TOT|
|--- | --- | --- | --- |
|0|	1|	LICEO POLITECNICO ARICA|	15101|	664|
|1|	2|	PARVULARIO LAS ESPIGUITAS|	15101	|170|
|2|	3|	ESC. PEDRO VICENTE GUTIERREZ TORRES	|15101	|470|
|3|	4|	LICEO OCTAVIO PALMA PEREZ	|15101|	974|
|4|	5|	JOVINA NARANJO FERNANDEZ	|15101	|818|


#### El primer objetivo para el análisis, es generar un conjunto de datos limpio, consistente en una única tabla con valores promedio  de NOTAS, ASISTENCIA, y RAZÓN DOCENTES/ESTUDIANTES para cada COMUNA del país. 






### 1. Unión de bases de datos mediante una columna común. <br>


A partir de  **[BD2]** y **[BD3]**, genere un único dataframe **[BD2_3]** con la siguiente estructura:

| |ESTABLECIMIENTO |	COMUNA |	REGION |	DC_TOT |	MAT_TOTAL| 	RAZON_DOC_EST|
|---|---|---|---|---|---|---|
|0 |	LICEO POLITECNICO ARICA 	|15101 |	15 	|71 |	664| 	0.106928|
|1 |	PARVULARIO LAS ESPIGUITAS 	|15101 |	15 	|16 |	170| 	0.094118|
|2 |	ESC. PEDRO VICENTE GUTIERREZ TORRES| 	15101| 	15 |	28| 	470| 	0.059574|
|... |	...| 	...| 	... |	...| 	...| 	...|

La variable `RAZON_DOC_EST` se define como la razón entre docentes y estudiantes de cada establecimiento, calculada como
`RAZON_DOC_EST=DC_TOT/MAT_TOTAL`, donde `DC_TOT` es el total de docentes del establecimiento, y `MAT_TOT` es la matrícula total de alumnos.

Para ello, ud. debe:<br>
**a)** Unir las bases de datos mediante una columna común. <br>
**b)** Renombrar las columnas que sea necesario.<br>
**c)** Eliminar registros de establecimientos con matrícula igual a cero.<br>
**d)** Crear las nuevas columnas que se requiera.<br>
**e)** Eliminar columnas innecesarias.<br>
**f)** Eliminar registros con datos nulos.<br>

In [2]:
b2=pd.read_csv('https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/semana4/Dotacion_docente_2021.csv',delimiter=';')
b2.head()

Unnamed: 0,AGNO,RBD,DGV_RBD,NOM_RBD,COD_REG_RBD,NOM_REG_RBD_A,COD_PRO_RBD,COD_COM_RBD,NOM_COM_RBD,COD_DEPROV_RBD,...,DC_SUP_SOST,HH_SUP_SOST,DC_SUBDIR,HH_SUBDIR,DC_PROF_ENC,HH_PROF_ENC,DC_EDUC_TRAD,HH_EDUC_TRAD,DC_TOT,HH_TOT
0,2021,1,9,LICEO POLITECNICO ARICA,15,AYP,151,15101,ARICA,151,...,0,0,0,0,0,0,0,0,71,2291
1,2021,2,7,PARVULARIO LAS ESPIGUITAS,15,AYP,151,15101,ARICA,151,...,0,0,0,0,0,0,0,0,16,539
2,2021,3,5,ESC. PEDRO VICENTE GUTIERREZ TORRES,15,AYP,151,15101,ARICA,151,...,0,0,0,0,0,0,0,0,28,1090
3,2021,4,3,LICEO OCTAVIO PALMA PEREZ,15,AYP,151,15101,ARICA,151,...,0,0,0,0,0,0,0,0,64,2546
4,2021,5,1,JOVINA NARANJO FERNANDEZ,15,AYP,151,15101,ARICA,151,...,0,0,0,0,0,0,0,0,70,2629


In [3]:
len(b2['RBD'].unique())

16479

In [4]:
b2=b2[['RBD','NOM_RBD','COD_COM_RBD','DC_TOT']]
b2

Unnamed: 0,RBD,NOM_RBD,COD_COM_RBD,DC_TOT
0,1,LICEO POLITECNICO ARICA,15101,71
1,2,PARVULARIO LAS ESPIGUITAS,15101,16
2,3,ESC. PEDRO VICENTE GUTIERREZ TORRES,15101,28
3,4,LICEO OCTAVIO PALMA PEREZ,15101,64
4,5,JOVINA NARANJO FERNANDEZ,15101,70
...,...,...,...,...
16474,41881,SALA CUNA GABRIELA MISTRAL,2201,0
16475,41883,SALA CUNA Y JARDIN INFANTIL AMANECER,13101,0
16476,41884,JARDIN INFANTIL MAHAY MONTESSORI,13115,0
16477,41888,ESCUELA HOSPITALARIA CHILOE,10201,3


In [5]:
bd3=pd.read_csv('https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/semana4/Resumen_Matricula_EE_Oficial_2021.csv',delimiter=';')
bd3.head()

Unnamed: 0,AGNO,RBD,DGV_RBD,NOM_RBD,COD_DEPE,COD_DEPE2,RURAL_RBD,COD_REG_RBD,NOM_REG_RBD_A,COD_PRO_RBD,...,CUR_SIM_03,CUR_SIM_04,CUR_SIM_05,CUR_SIM_06,CUR_SIM_07,CUR_SIM_08,CUR_SIM_TOT,CUR_COMB_01,CUR_COMB_02,CUR_COMB_TOT
0,2021,1,9,LICEO POLITECNICO ARICA,6,5,0,15,AYP,151,...,0,0,0,0,20,16,36,0,0,0
1,2021,2,7,PARVULARIO LAS ESPIGUITAS,6,5,0,15,AYP,151,...,0,0,0,0,0,0,8,0,0,0
2,2021,3,5,ESC. PEDRO VICENTE GUTIERREZ TORRES,6,5,1,15,AYP,151,...,43,0,0,4,0,0,47,0,0,0
3,2021,4,3,LICEO OCTAVIO PALMA PEREZ,6,5,0,15,AYP,151,...,0,0,27,0,0,0,27,0,0,0
4,2021,5,1,JOVINA NARANJO FERNANDEZ,6,5,0,15,AYP,151,...,0,0,15,5,0,0,28,0,0,0


In [6]:
bd3=bd3[['RBD','COD_REG_RBD','NOM_RBD','COD_COM_RBD','MAT_TOTAL']]
bd3

Unnamed: 0,RBD,COD_REG_RBD,NOM_RBD,COD_COM_RBD,MAT_TOTAL
0,1,15,LICEO POLITECNICO ARICA,15101,664
1,2,15,PARVULARIO LAS ESPIGUITAS,15101,170
2,3,15,ESC. PEDRO VICENTE GUTIERREZ TORRES,15101,470
3,4,15,LICEO OCTAVIO PALMA PEREZ,15101,974
4,5,15,JOVINA NARANJO FERNANDEZ,15101,818
...,...,...,...,...,...
16493,41921,13,JARDIN INFANTIL BAMBU,13114,0
16494,41923,4,SALA CUNA Y JARDIN INFANTIL LITTLE SMILES,4101,0
16495,41924,8,ESCUELA DE LENGUAJE EL ROBLE,8108,0
16496,41925,13,JARDIN INFANTIL WALDORF GABRIELA MISTRAL,13114,0


In [8]:
#Merge en base al nombre del establecimiento. Probar: distintos resultados al cambiar el argumento 'how'
bd2_3=b2.merge(bd3,on=['NOM_RBD'],how='inner')
bd2_3

Unnamed: 0,RBD_x,NOM_RBD,COD_COM_RBD_x,DC_TOT,RBD_y,COD_REG_RBD,COD_COM_RBD_y,MAT_TOTAL
0,1,LICEO POLITECNICO ARICA,15101,71,1,15,15101,664
1,2,PARVULARIO LAS ESPIGUITAS,15101,16,2,15,15101,170
2,3,ESC. PEDRO VICENTE GUTIERREZ TORRES,15101,28,3,15,15101,470
3,4,LICEO OCTAVIO PALMA PEREZ,15101,64,4,15,15101,974
4,5,JOVINA NARANJO FERNANDEZ,15101,70,5,15,15101,818
...,...,...,...,...,...,...,...,...
23004,41881,SALA CUNA GABRIELA MISTRAL,2201,0,41881,2,2201,0
23005,41883,SALA CUNA Y JARDIN INFANTIL AMANECER,13101,0,41883,13,13101,0
23006,41884,JARDIN INFANTIL MAHAY MONTESSORI,13115,0,41884,13,13115,0
23007,41888,ESCUELA HOSPITALARIA CHILOE,10201,3,41888,10,10201,13


In [9]:
b2[b2.duplicated(subset=['NOM_RBD'],keep=False)].sort_values(by='NOM_RBD')

Unnamed: 0,RBD,NOM_RBD,COD_COM_RBD,DC_TOT
4338,5209,ANDRES BELLO,8207,0
3975,4799,ANDRES BELLO,8110,0
8901,11433,ANEXA,8104,0
3599,4376,ANEXA,8311,0
13528,24544,ANEXO FONTANAR,13114,0
...,...,...,...,...
4049,4885,,8104,0
4155,5004,,8102,0
4219,5076,,8202,0
4278,5141,,8203,0


In [10]:
#Elegimos sólo un subconjunto de b2 para evitar repeticiones de columnas.
#Merge en base a nombre y código de establecimiento para evitar confusiones en el merge
bd2_3=b2.merge(bd3[['RBD','NOM_RBD','MAT_TOTAL','COD_COM_RBD']],on=['RBD','NOM_RBD','COD_COM_RBD'],how='inner')
bd2_3

Unnamed: 0,RBD,NOM_RBD,COD_COM_RBD,DC_TOT,MAT_TOTAL
0,1,LICEO POLITECNICO ARICA,15101,71,664
1,2,PARVULARIO LAS ESPIGUITAS,15101,16,170
2,3,ESC. PEDRO VICENTE GUTIERREZ TORRES,15101,28,470
3,4,LICEO OCTAVIO PALMA PEREZ,15101,64,974
4,5,JOVINA NARANJO FERNANDEZ,15101,70,818
...,...,...,...,...,...
16440,41881,SALA CUNA GABRIELA MISTRAL,2201,0,0
16441,41883,SALA CUNA Y JARDIN INFANTIL AMANECER,13101,0,0
16442,41884,JARDIN INFANTIL MAHAY MONTESSORI,13115,0,0
16443,41888,ESCUELA HOSPITALARIA CHILOE,10201,3,13


In [11]:
bd2_3=bd2_3[bd2_3['MAT_TOTAL']>0]

In [12]:
bd2_3['RAZON_DOC_EST']=bd2_3['DC_TOT']/bd2_3['MAT_TOTAL']
bd2_3

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  bd2_3['RAZON_DOC_EST']=bd2_3['DC_TOT']/bd2_3['MAT_TOTAL']


Unnamed: 0,RBD,NOM_RBD,COD_COM_RBD,DC_TOT,MAT_TOTAL,RAZON_DOC_EST
0,1,LICEO POLITECNICO ARICA,15101,71,664,0.106928
1,2,PARVULARIO LAS ESPIGUITAS,15101,16,170,0.094118
2,3,ESC. PEDRO VICENTE GUTIERREZ TORRES,15101,28,470,0.059574
3,4,LICEO OCTAVIO PALMA PEREZ,15101,64,974,0.065708
4,5,JOVINA NARANJO FERNANDEZ,15101,70,818,0.085575
...,...,...,...,...,...,...
16420,41846,CEIA INAPEWMA LA SERENA,4101,9,12,0.750000
16428,41859,ESCUELA BASICA COLEGIO TRIGALES DEL MAIPO,13201,14,161,0.086957
16430,41862,ESCUELA ESPECIAL DE LENGUAJE CASTILLO DEL VALLE,10101,1,16,0.062500
16435,41872,COLEGIO SAN FRANCISCO DE ASIS,10307,9,95,0.094737


In [13]:
bd2_3.dropna(inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  bd2_3.dropna(inplace=True)


In [14]:
bd2_3.rename(columns={'NOM_RBD':'ESTABLECIMIENTO','COD_COM_RBD':'COMUNA'},inplace=True)
bd2_3

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  bd2_3.rename(columns={'NOM_RBD':'ESTABLECIMIENTO','COD_COM_RBD':'COMUNA'},inplace=True)


Unnamed: 0,RBD,ESTABLECIMIENTO,COMUNA,DC_TOT,MAT_TOTAL,RAZON_DOC_EST
0,1,LICEO POLITECNICO ARICA,15101,71,664,0.106928
1,2,PARVULARIO LAS ESPIGUITAS,15101,16,170,0.094118
2,3,ESC. PEDRO VICENTE GUTIERREZ TORRES,15101,28,470,0.059574
3,4,LICEO OCTAVIO PALMA PEREZ,15101,64,974,0.065708
4,5,JOVINA NARANJO FERNANDEZ,15101,70,818,0.085575
...,...,...,...,...,...,...
16420,41846,CEIA INAPEWMA LA SERENA,4101,9,12,0.750000
16428,41859,ESCUELA BASICA COLEGIO TRIGALES DEL MAIPO,13201,14,161,0.086957
16430,41862,ESCUELA ESPECIAL DE LENGUAJE CASTILLO DEL VALLE,10101,1,16,0.062500
16435,41872,COLEGIO SAN FRANCISCO DE ASIS,10307,9,95,0.094737


In [15]:
bd2_3.to_csv('DatosEstablecimientos.csv',index=False)