In [1]:
import numpy as np
import pandas as pd
from IPython.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

# <img style="float: left; padding: 0px 10px 0px 0px;" src="https://upload.wikimedia.org/wikipedia/commons/thumb/8/84/Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg/1920px-Escudo_de_la_Pontificia_Universidad_Cat%C3%B3lica_de_Chile.svg.png"  width="80" /> MCD3020 - Introducción a Ciencia de Datos
**Pontificia Universidad Católica de Chile**<br>
**Profesora:** Paula Aguirre <br>

## Tutorial 7: Combinación y agrupación de datos, parte II.

## Introducción.

Este ejercicio tiene como objetivo crear y realizar un análisis descriptivo de una base de datos para el estudio de factores determinantes en el rendimiento escolar de los estudiantes de educación básica y media en Chile. En particular, se busca analizar la relación entre el **rendimiento escolar**, representado por el promedio general de notas de cada estudiante, y factores determinantes como el **porcentaje de asistencia a clases, y la razón entre docentes y estudiantes de los establecimientos educacionales**. 

Para este estudio, se utilizarán datos generados y publicados por el  Centro de Estudios del Ministerio de Educación de Chile, https://centroestudios.mineduc.cl/: <br>

*El Centro de Estudios pone a disposición del público en general la plataforma Datos Abiertos para compartir información estadística en materia de educación, que incluye bases de datos de establecimientos educacionales, estudiantes y párvulos, docentes y asistentes de la educación, y sostenedores. Además, se entrega información georreferenciada.*

Para el análisis planteado, se considerarán las siguientes fuentes de datos y columnas clave de cada una de ellas:

#### [BD1] Rendimiento académico por estudiante, desde el año 2002 al 2021.

Esta base de datos resumida contiene las siguientes variables:

* `COD_COMUNA`: código de la comuna a la cual pertenece el estudiante.
* `NIVEL`: es una variable categórica que indica el nivel de enseñanza agrupado al cual pertenece cada estudiante, cuyos valores pueden ser [*media_ch, media_tp, básica*], donde *media_ch* corresponde a la educación media científico-humanista, y *media_tp* a la educación media técnico-profesional.
* `SIT_FINAL`:  es una variable categórica que indica la situación final de promoción al cierre del año escolar (P: Promovido, R: Reprobado).
* `PROM_GRAL`: promedio general de notas, en escala de 1 a 7.

| | COD_COMUNA |	NIVEL |	EDAD_ALU |	PROM_GRAL |	ASISTENCIA| SIT_FINAL|
|--- | --- | --- | --- |--- | --- |---|
|0| 	15101| 	media |	15 |	6.4 |	97| P|
|1| 	15101| 	media |	14 |	5.1 |	91|P|
|2| 	15101| 	media |	16 |	4.8 |	85|P|
|3| 	15101| 	media |	14 |	5.2 |	89|P|
|...| 	...| 	... |	... |	... |	...|...|



#### [BD2] Dotación docente por establecimiento.

* `RBD`: código de establecimiento.
* `NOM_RBD`: nombre del establecimiento.
* `COD_COM_RBD`:  código de la comuna del establecimeinto
* `DC_TOT`: total de docentes en el establecimiento

|	RBD|	NOM_RBD|	COD_COM_RBD|	DC_TOT|
|--- | --- | --- | --- |
|0|	1|	LICEO POLITECNICO ARICA|	15101|	71|
|1|	2|	PARVULARIO LAS ESPIGUITAS|	15101	|16|
|2|	3|	ESC. PEDRO VICENTE GUTIERREZ TORRES	|15101	|28|
|3|	4|	LICEO OCTAVIO PALMA PEREZ	|15101|	64|
|4|	5|	JOVINA NARANJO FERNANDEZ	|15101	|


#### [BD3] Resumen de matrícula por establecimiento.


|	RBD|	NOM_RBD|	COD_COM_RBD|	MAT_TOT|
|--- | --- | --- | --- |
|0|	1|	LICEO POLITECNICO ARICA|	15101|	664|
|1|	2|	PARVULARIO LAS ESPIGUITAS|	15101	|170|
|2|	3|	ESC. PEDRO VICENTE GUTIERREZ TORRES	|15101	|470|
|3|	4|	LICEO OCTAVIO PALMA PEREZ	|15101|	974|
|4|	5|	JOVINA NARANJO FERNANDEZ	|15101	|818|


#### El primer objetivo para el análisis, es generar un conjunto de datos limpio, consistente en una única tabla con valores promedio  de NOTAS, ASISTENCIA, y RAZÓN DOCENTES/ESTUDIANTES para cada COMUNA del país. En el tutorial anterior, ya se generó una base de datos integrada con la RAZÓN DOCENTES/ESTUDIANTES por establecimiento. En este ejercicio, abordaremos las operaciones de agrupación de datos.




## 1. Agrupación de datos de establecimientos por comuna. <br>

 En base a **[BD2_3]**, genere un dataframe resumido que contenga el promedio de la razón DOCENTE/ESTUDIANTES para todos los establecimientos de cada comuna.

In [2]:
bd2_3=pd.read_csv('DatosEstablecimientos.csv')
bd2_3.head()

Unnamed: 0,RBD,ESTABLECIMIENTO,COMUNA,DC_TOT,MAT_TOTAL,RAZON_DOC_EST
0,1,LICEO POLITECNICO ARICA,15101,71,664,0.106928
1,2,PARVULARIO LAS ESPIGUITAS,15101,16,170,0.094118
2,3,ESC. PEDRO VICENTE GUTIERREZ TORRES,15101,28,470,0.059574
3,4,LICEO OCTAVIO PALMA PEREZ,15101,64,974,0.065708
4,5,JOVINA NARANJO FERNANDEZ,15101,70,818,0.085575


In [3]:
bd2_3_mean=bd2_3.groupby(by='COMUNA')

In [5]:
bd2_3_mean=bd2_3.groupby(by='COMUNA')['MAT_TOTAL'].mean()
bd2_3_mean

COMUNA
1101     386.789474
1107     680.872340
1401     296.833333
1402      26.000000
1403      43.200000
            ...    
16301    282.410256
16302    166.142857
16303    151.363636
16304    148.000000
16305    382.444444
Name: MAT_TOTAL, Length: 344, dtype: float64

In [6]:
bd2_3_mean=bd2_3.groupby(by='COMUNA',as_index=False)['MAT_TOTAL'].mean()
bd2_3_mean

Unnamed: 0,COMUNA,MAT_TOTAL
0,1101,386.789474
1,1107,680.872340
2,1401,296.833333
3,1402,26.000000
4,1403,43.200000
...,...,...
339,16301,282.410256
340,16302,166.142857
341,16303,151.363636
342,16304,148.000000


### Otras formas de uso de GROUPBY

In [7]:
#Múltiples agregaciones para una columna
bd2_3.groupby(by='COMUNA',as_index=False)['RAZON_DOC_EST'].agg(['mean','std'])

Unnamed: 0,COMUNA,mean,std
0,1101,0.127484,0.240135
1,1107,0.050986,0.014520
2,1401,0.122446,0.079935
3,1402,0.689666,0.905799
4,1403,0.567564,0.818185
...,...,...,...
339,16301,0.172035,0.106582
340,16302,0.186438,0.132330
341,16303,0.160520,0.061640
342,16304,0.286362,0.159198


In [8]:
#Agregaciones con nombre
bd2_3.groupby(by='COMUNA',as_index=False).agg(razonDE_promedio = ("RAZON_DOC_EST", "mean"),razonDE_max = ("RAZON_DOC_EST", "max"))

Unnamed: 0,COMUNA,razonDE_promedio,razonDE_max
0,1101,0.127484,2.000000
1,1107,0.050986,0.103896
2,1401,0.122446,0.285714
3,1402,0.689666,3.000000
4,1403,0.567564,2.000000
...,...,...,...
339,16301,0.172035,0.555556
340,16302,0.186438,0.571429
341,16303,0.160520,0.258065
342,16304,0.286362,0.500000


In [9]:
#Ordenar los resultados

bd2_3.groupby(by='COMUNA',as_index=False).agg(razonDE_promedio = ("RAZON_DOC_EST", "mean"),
                                              razonDE_max = ("RAZON_DOC_EST", "max")).sort_values(by="razonDE_promedio", ascending=False)

Unnamed: 0,COMUNA,razonDE_promedio,razonDE_max
322,15202,1.045999,3.000000
320,15102,0.916402,3.000000
218,10204,0.739287,2.000000
321,15201,0.725355,2.000000
3,1402,0.689666,3.000000
...,...,...,...
278,13124,0.064755,0.111111
291,13302,0.062551,0.189655
66,5605,0.061692,0.078125
305,13604,0.058542,0.119048


## 2. Agrupación de los datos de estudiantes por comuna.

En base a **[BD1]**, genere un nuevo dataframe que contenga los valores promedio de `PROM_GRAL` y de `ASISTENCIA` de los alumnos de cada comuna.


In [10]:
bd1=pd.read_csv('https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/semana4/rendimientoAcademicoPorEstudiante_sample.csv')
bd1.head()

  bd1=pd.read_csv('https://raw.githubusercontent.com/paguirre-uc/mds3020_2022/main/semana4/rendimientoAcademicoPorEstudiante_sample.csv')


Unnamed: 0,REGION,COMUNA,NIVEL,EDAD_ALU,PROM_GRAL,ASISTENCIA,SIT_FINAL
0,7,7402,media_tp,16,5.4,86,P
1,13,13302,media_ch,15,4.9,89,P
2,4,4102,basica,12,6.3,68,P
3,13,13120,basica,6,6.6,65,P
4,4,4106,basica,10,6.5,85,P


In [12]:
bd1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 902394 entries, 0 to 902393
Data columns (total 7 columns):
 #   Column      Non-Null Count   Dtype  
---  ------      --------------   -----  
 0   REGION      902394 non-null  int64  
 1   COMUNA      902394 non-null  int64  
 2   NIVEL       902394 non-null  object 
 3   EDAD_ALU    902394 non-null  object 
 4   PROM_GRAL   902394 non-null  float64
 5   ASISTENCIA  902394 non-null  int64  
 6   SIT_FINAL   902394 non-null  object 
dtypes: float64(1), int64(3), object(3)
memory usage: 48.2+ MB


In [13]:
bd1_mean=bd1.groupby(by='COMUNA',as_index=False).mean()
bd1_mean

TypeError: agg function failed [how->mean,dtype->object]

### Otra forma de agrupación: pivot_table

In [14]:
pv=pd.pivot_table(bd1,index='COMUNA',values=['PROM_GRAL','ASISTENCIA'],aggfunc='mean')
pv

Unnamed: 0_level_0,ASISTENCIA,PROM_GRAL
COMUNA,Unnamed: 1_level_1,Unnamed: 2_level_1
1101,89.042102,6.049039
1107,88.867904,5.879217
1401,87.968187,5.966490
1402,92.227848,6.270886
1403,93.898551,5.724638
...,...,...
16301,91.822151,6.070323
16302,93.189420,5.962628
16303,92.284689,6.050239
16304,88.056000,6.088000


In [15]:
pv=pd.pivot_table(bd1,index='COMUNA',values=['PROM_GRAL','ASISTENCIA'],aggfunc='mean',columns='NIVEL')
pv

Unnamed: 0_level_0,ASISTENCIA,ASISTENCIA,ASISTENCIA,PROM_GRAL,PROM_GRAL,PROM_GRAL
NIVEL,basica,media_ch,media_tp,basica,media_ch,media_tp
COMUNA,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
1101,89.278001,88.946395,87.164466,6.167839,5.869385,5.521489
1107,88.809793,88.727700,89.410456,5.961808,5.708685,5.633815
1401,86.348266,91.877193,92.597938,5.999277,5.885965,5.873196
1402,89.934426,100.000000,100.000000,6.386885,5.788889,5.966667
1403,95.870370,87.625000,85.857143,5.838889,5.500000,5.100000
...,...,...,...,...,...,...
16301,91.044070,91.147059,95.954023,6.156039,6.009743,5.783908
16302,93.898287,90.262295,90.890909,6.091863,5.445902,5.487273
16303,92.429412,91.854545,91.173913,6.110000,5.654545,6.113043
16304,89.268156,85.000000,85.000000,6.284358,5.601471,5.400000


In [16]:
bd1.groupby(by=['COMUNA','NIVEL'])['ASISTENCIA'].mean()

COMUNA  NIVEL   
1101    basica      89.278001
        media_ch    88.946395
        media_tp    87.164466
1107    basica      88.809793
        media_ch    88.727700
                      ...    
16304   media_ch    85.000000
        media_tp    85.000000
16305   basica      95.627451
        media_ch    97.652997
        media_tp    96.449438
Name: ASISTENCIA, Length: 968, dtype: float64

## 3. Unión de datasets de establecimientos y notas de estudiantes a nivel de comunas.

Genere el dataframe final para el análisis: una única tabla con valores promedio  de NOTAS, ASISTENCIA, y RAZÓN DOCENTES/ESTUDIANTES para cada COMUNA del país.

In [17]:
df_final=bd2_3_mean.merge(bd1_mean,on='COMUNA',how='inner')
df_final

NameError: name 'bd1_mean' is not defined