<a href="https://colab.research.google.com/github/Viny2030/HUMAI/blob/main/agrupacion_agregacion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<a href="https://colab.research.google.com/github/institutohumai/cursos-python/blob/master/AnalisisDeDatos/3_Agrupacion_y_Agregacion/agrupacion_agregacion.ipynb"> <img src='https://colab.research.google.com/assets/colab-badge.svg' /> </a>
<div align="center"> Recordá abrir en una nueva pestaña </div>

# Agrupación


## Tabla de Contenidos

    I. Agrupación y agregación
        I. Introducción
            I. Crear columnas
    III. Funciones de Agregación simple
    IV. GroupBy: Trabajando sobre grupos
        I. Clases que se encargan de la Agregación en Pandas
        II. DataSetGroupBy
            I. Lazy Evaluation
            II. Iterar sobre los grupos
        III. SeriesGroupBy
        IV. Agregaciones múltiples
        V. MultiIndex
        VI. Ejercicios

## Introducción

En esta clase vamos a ver cómo agrupar datos a partir de una clave para trabajar sobre distintos grupos.
El primer dataset que vamos a utilizar es del portal de datos abiertos de España.  Los datos se pueden encontrar <a href='http://opendata.esri.es/datasets/paro-por-municipio-espa%C3%B1a/geoservice'> aquí</a> y la única modificación que se les hizo fue reemplazar el código de provincia por la descripción de la misma

In [1]:
! pip install plotly



In [2]:
import pandas as pd
import plotly.express as px

In [3]:
df = pd.read_csv('https://storage.googleapis.com/humai-datasets/aws_s3/analisis_de_datos/3_Agrupacion_y_Agregacion/parodesprov.csv')

In [4]:
df.sort_values('Codigo').head(6)

Unnamed: 0,OBJECTID,Codigo,Texto,Cod_Prov,Cod_CCAA,TotalParoRegistrado,PAD_1C02,PAD_1_COD_PROV,PAD_1_COD_CCAA,Shape__Area,Shape__Length,Codigop
0,1,1001,Alegría-Dulantzi,1,16,184.0,2856.0,Araba/Álava,16.0,37092690.0,48191.568537,1.0
8170,8171,1001,Alegría-Dulantzi,1,16,185.0,2913.0,,,37092690.0,48191.568751,
1,2,1002,Amurrio,1,16,766.0,10260.0,Araba/Álava,16.0,179911400.0,90623.621986,1.0
8171,8172,1002,Amurrio,1,16,766.0,10291.0,,,179911400.0,90623.621773,
2,3,1003,Aramaio,1,16,18.0,1502.0,Araba/Álava,16.0,137706600.0,58592.914048,1.0
8172,8173,1003,Aramaio,1,16,18.0,1496.0,,,137706600.0,58592.915252,


Noten que en este conjunto de datos, al parecer la base está duplicada. Los municipios figuran dos veces, una vez con el código de provincia en NaN y otra vez con el código de provincia informado. Los valores de paro y población son muy cercanos en todos los casos, así que podemos considerarlas cercanas en el tiempo.

In [5]:
df = df[df['PAD_1_COD_PROV'].notnull()].copy()

## Niveles de Agregación

Además de los municipios (identificados por la variable Código), tenemos dos niveles de agregación geográfica, la provincia (Cod_Prov) y la comunidad autónoma (Cod_CAA).

Veamos qué valores toman y cómo se combinan.


In [6]:
# ¿Cuántos municipios tiene cada comunidad? ¿Hay alguno que no tenga CCAA asociada?
df['Cod_CCAA'].value_counts(dropna=False)

Unnamed: 0_level_0,count
Cod_CCAA,Unnamed: 1_level_1
7,2248
9,947
8,919
1,778
2,731
10,542
11,388
12,314
15,272
16,251


In [7]:
# ¿Cuántas CCAA hay?
len(df['Cod_CCAA'].unique())

19

In [8]:
# ¿Cuántos municipios tiene cada provincia? ¿Hay alguno que no tenga provincia asociada?
df['Cod_Prov'].value_counts(dropna=False)

Unnamed: 0_level_0,count
Cod_Prov,Unnamed: 1_level_1
9,371
37,362
8,311
50,293
19,288
31,272
46,266
5,248
49,248
16,238


In [9]:
# ¿Cuántas provincias hay?
len(df['Cod_Prov'].unique())

52

In [10]:
# ¿Hay alguna provincia que tenga más de una CCAA asociada?
df[['Cod_CCAA','Cod_Prov']].drop_duplicates().sort_values('Cod_Prov')

Unnamed: 0,Cod_CCAA,Cod_Prov
0,16,1
51,8,2
138,10,3
279,1,4
382,7,5
630,11,6
795,4,7
862,9,8
1173,7,9
1544,11,10


## Buscando valores nulos

Ahora queremos filtrar todas las filas del DataFrame que contengan algún valor nulo, para analizar en detalle por qué existe ese valor faltante y si vamos a querer completarlo o descartarlo.

El método df.isnull() devuelve un DataFrame del mismo tamaño que el original, pero en lugar de los valores devuelve True si había un NaN y False si no lo había.

In [11]:
df.isnull().head(3)

Unnamed: 0,OBJECTID,Codigo,Texto,Cod_Prov,Cod_CCAA,TotalParoRegistrado,PAD_1C02,PAD_1_COD_PROV,PAD_1_COD_CCAA,Shape__Area,Shape__Length,Codigop
0,False,False,False,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False,False,False,False,False,False


#### Entendiendo el parámetro axis
A continuación vamos a reducir el DataFrame de más arriba a una serie, compuesta por Booleans que indican True si hay algún valor nulo en la fila y False si no hay ninguno. La forma de reducir una serie de Booleanos es any() y el parámetro axis = 1 indica que queremos reducir el DataFrame aplicando la función de manera horizontal, probando todos los valores del eje y.



In [12]:
df[df.isnull().any(axis=1)]


Unnamed: 0,OBJECTID,Codigo,Texto,Cod_Prov,Cod_CCAA,TotalParoRegistrado,PAD_1C02,PAD_1_COD_PROV,PAD_1_COD_CCAA,Shape__Area,Shape__Length,Codigop
1766,1767,10905,Pueblonuevo de Miramontes,10,11,,830.0,Cáceres,11.0,39790550.0,34532.621933,10.0


Otro posible método para reucir es all así que una forma equivalente de lograr lo mismo es:

In [13]:
df[~(df.notnull().all(axis=1))]  ## operador negacion no sea cierto ningun valor nulo


Unnamed: 0,OBJECTID,Codigo,Texto,Cod_Prov,Cod_CCAA,TotalParoRegistrado,PAD_1C02,PAD_1_COD_PROV,PAD_1_COD_CCAA,Shape__Area,Shape__Length,Codigop
1766,1767,10905,Pueblonuevo de Miramontes,10,11,,830.0,Cáceres,11.0,39790550.0,34532.621933,10.0


¿Qué significará un TotalParoRegistrado nulo? :thinking: ¿Será equivalente a un paro de 0, algo que es posible que se de?

In [14]:
df[df['TotalParoRegistrado'] == 0].sample(3)

Unnamed: 0,OBJECTID,Codigo,Texto,Cod_Prov,Cod_CCAA,TotalParoRegistrado,PAD_1C02,PAD_1_COD_PROV,PAD_1_COD_CCAA,Shape__Area,Shape__Length,Codigop
3048,3049,19238,Riofrío del Llano,19,8,0.0,46.0,Guadalajara,8.0,75735160.0,41310.720915,19.0
3113,3114,19309,Valhermoso,19,8,0.0,30.0,Guadalajara,8.0,50782800.0,34517.082063,19.0
4806,4807,31196,Orbara,31,15,0.0,40.0,Navarra,15.0,17095420.0,19580.146675,31.0


Podríamos concluir que no, porque los municipios con paro igual a 0, informan 0. Entonces deberíamos descartar el dato.

#### Entendiendo el parámetro inplace

Noten que la mayor parte de los métodos que trabajan sobre DataFrames devuelven objetos nuevos que si no los almacenamos en una variable se pierden. Cuando queremos que el DataFrame cambie a partir de una determinada acción usamos el parámetro inplace=True.

In [15]:
df.dropna(inplace=True)  ## descarta todas las filas que tengan valor nulo

In [16]:
df[~(df.notnull().all(axis=1))]

Unnamed: 0,OBJECTID,Codigo,Texto,Cod_Prov,Cod_CCAA,TotalParoRegistrado,PAD_1C02,PAD_1_COD_PROV,PAD_1_COD_CCAA,Shape__Area,Shape__Length,Codigop


### Crear columnas

Contamos con los cambios de población de cada municipio ('PAD_1C02') y también con el área ('Shape__Area'). Con estas columnas podemos formar la densidad.

In [17]:
# ¡Operación vectorizada!
df['Densidad'] = df['PAD_1C02'] / df['Shape__Area']

In [18]:
df.Densidad

Unnamed: 0,Densidad
0,7.699629e-05
1,5.702806e-05
2,1.090725e-05
3,3.586690e-05
4,9.830741e-06
...,...
8165,5.967305e-07
8166,2.933494e-06
8167,1.691438e-05
8168,2.870696e-03


También sabemos la cantidad de personas desempleadas y con eso podemos formar la proporción de paro.

In [19]:
df['Proporcion_Paro'] =  df['TotalParoRegistrado'] / df['PAD_1C02']

In [20]:
df.Proporcion_Paro

Unnamed: 0,Proporcion_Paro
0,0.064426
1,0.074659
2,0.011984
3,0.059783
4,0.051282
...,...
8165,0.020979
8166,0.021978
8167,0.034145
8168,0.147624


## Funciones de Agregación simple


| Nombre             | Versión que descarta NaN | Descripción                            |
|--------------------|--------------------------|----------------------------------------|
| serie.sum()        | serie.sum(skipna=True)   | Suma todos los elementos               |
| serie.prod()       | serie.prod(skipna=True)  | Multiplica                             |
| serie.mean()       | serie.mean(skipna=True)  | Promedia                               |
| serie.std()        | serie.std(skipna=True)   | Calcula el desvío estándar             |
| serie.var()        | serie.var(skipna=True)   | Calcula la varianza                    |
| serie.min()        | serie.min(skipna=True)   | Calcula el valor mínimo                |
| serie.max()        | serie.max(skipna=True)   | Calcula el valor máximo                |
| serie.argmin()     | serie.argmin(skipna=True)| Calcula el índice del valor mínimo     |
| serie.argmax()     | serie.argmax(skipna=True)| Calcula el índice del valor máximo     |
| serie.median()     | serie.median(skipna=True)| Calcula la mediana                     |
| X                  | serie.quantile()         | Calcula los percentiles                |
| serie.any()        | X                        | Evalúa si algún elemento es TRUE       |
| serie.all()        | X                        | Evalúa si todos los elementos son TRUE |

Vamos a comprobar que la población total coincida (aproxiamadamente) con la <a href='https://www.google.com/search?client=firefox-b-e&q=poblacion+espana'>población de España.  <a/>

In [21]:
df['PAD_1C02'].sum()

46556178.0

¿Cuál es el promedio de proporción de paro en las autonomías de España?

In [22]:
df['Proporcion_Paro'].mean()

0.06017574475360859

Ejercicio: ¿Cuántas autonomías están por encima de la media y cuántas están por debajo?

In [23]:
### Ejercicio: ¿Cuántas autonomías están por encima de la media y cuántas están por debajo?
df[df['Proporcion_Paro'] > df['Proporcion_Paro'].mean()].shape[0]

3688

In [24]:
df[df['Proporcion_Paro'] < df['Proporcion_Paro'].mean()].shape[0]

4436

¿Cuál es la mediana?

In [25]:
df['Proporcion_Paro'].mean()

0.06017574475360859

In [26]:
## ¿Cuál es la mediana?
df['Proporcion_Paro'].median()

0.05660377358490566

Que la mediana sea menor a la media, significa que hay algunos valores llamativamente altos. Veamos un gráfico para ver la distribución de esta variable.

In [27]:
fig = px.imshow (df[["Proporcion_Paro"]])
fig.show()

In [28]:
fig = px.box (df, x="Proporcion_Paro")
fig.show()

In [29]:
fig = px.histogram(df, x="Proporcion_Paro")
fig.show()

Y en cuanto al tamaño, ¿cuál es la mediana de tamaño en las autonomías?

In [30]:
mediana_area = df['Shape__Area'].median()

In [31]:
mediana_area

61403802.64746095

In [32]:
mediana_densidad = df['Densidad'].median()
mediana_densidad

7.903238601327104e-06

Si dividimos a las autonomías entre "grandes" (con un área mayor que la mediana) y "chicas" (con un área menor), ¿cuál grupo tiene mayor proporción de paro?

In [33]:
df.query('Shape__Area > @mediana_area')['Proporcion_Paro'].mean()

0.06585139836223702

In [34]:
df.query('Shape__Area < @mediana_area')['Proporcion_Paro'].mean()

0.05450009114498015

Entonces, mientras que en autonomías más grandes la proporción de paro es 6.5%, en las más chicas es de 5.4%.

Ejercicio: calculen cómo es esta relación con respecto a la densidad.

In [35]:
## Entonces, mientras que en autonomías más grandes la proporción de paro es 6.5%, en las más chicas es de 5.4%.

###Ejercicio: calculen cómo es esta relación con respecto a la densidad.
df.query('Shape__Area > @mediana_area')['Densidad'].mean()

4.974848681145465e-05

In [36]:
###Ejercicio: calculen cómo es esta relación con respecto a la densidad.
df.query('Densidad <= @mediana_densidad')['Proporcion_Paro'].mean()

0.04953096691700587

## GroupBy: Trabajando sobre grupos

Muchas veces necesitamos analizar métricas, pero sobre agrupamientos de los datos. Por ejemplo, las autonomías se agrupan en provincias y podemos querer ver el desempeño de cada provinicia. O en lugar de analizar la densidad separando únicamente por la mediana, podemos querer ver qué pasa en cada percentil.

En Pandas las operaciones sobre grupos se pueden ver como una combinación de las operaciones Split Apply Combine.

<img src='https://storage.googleapis.com/humai-datasets/aws_s3/analisis_de_datos/3_Agrupacion_y_Agregacion/splitapplycombine.png'></img>

En algunos casos la operación que aplicamos sobre el dataframe original reduce el tamaño del mismo, por ejemplo cuando devolvemos la media de cada grupo y otras veces no, por ejemplo cuando comparamos cada elemento del grupo contra un benchmark del mismo, por ejemplo si quisiéramos hacer un ranking por juego para grupos de jugadores.

## Clases que se encargan de la Agregación en Pandas

## DataSetGroupBy

Veamos qué devuelve pandas cuando agrupamos un dataset por una columna:

In [65]:
df.groupby('PAD_1_COD_PROV')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x785a9dbb0550>

In [66]:
print(df.groupby('PAD_1_COD_PROV'))

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x785a9dd5d0d0>


In [67]:
df1 = df.groupby('PAD_1_COD_PROV')

In [68]:
df1

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x785a9dd5e950>

In [64]:
df.groupby('PAD_1_COD_PROV')['Shape__Area']  ## series de groupby

<pandas.core.groupby.generic.SeriesGroupBy object at 0x785a9dd8f010>

En lugar de recibir una lista o numpy array de grupos, recibimos un objeto del tipo DataFrameGroupBy. Ahora veamos cuánto tarda en ejecutarse este método.

### Lazy Evaluation

In [39]:
df

Unnamed: 0,OBJECTID,Codigo,Texto,Cod_Prov,Cod_CCAA,TotalParoRegistrado,PAD_1C02,PAD_1_COD_PROV,PAD_1_COD_CCAA,Shape__Area,Shape__Length,Codigop,Densidad,Proporcion_Paro
0,1,1001,Alegría-Dulantzi,1,16,184.0,2856.0,Araba/Álava,16.0,3.709269e+07,48191.568537,1.0,7.699629e-05,0.064426
1,2,1002,Amurrio,1,16,766.0,10260.0,Araba/Álava,16.0,1.799114e+08,90623.621986,1.0,5.702806e-05,0.074659
2,3,1003,Aramaio,1,16,18.0,1502.0,Araba/Álava,16.0,1.377066e+08,58592.914048,1.0,1.090725e-05,0.011984
3,4,1004,Artziniega,1,16,110.0,1840.0,Araba/Álava,16.0,5.130078e+07,31498.524044,1.0,3.586690e-05,0.059783
4,5,1006,Armiñón,1,16,12.0,234.0,Araba/Álava,16.0,2.380288e+07,33293.805036,1.0,9.830741e-06,0.051282
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8165,8166,50901,Biel,50,2,3.0,143.0,Zaragoza,2.0,2.396392e+08,71731.607076,50.0,5.967305e-07,0.020979
8166,8167,50902,Marracos,50,2,2.0,91.0,Zaragoza,2.0,3.102103e+07,27441.268570,50.0,2.933494e-06,0.021978
8167,8168,50903,Villamayor de Gállego,50,2,94.0,2753.0,Zaragoza,2.0,1.627609e+08,63010.590427,50.0,1.691438e-05,0.034145
8168,8169,51001,Ceuta,51,18,12477.0,84519.0,Ceuta,18.0,2.944199e+07,50690.389444,51.0,2.870696e-03,0.147624


In [40]:
%%timeit
df.groupby('PAD_1_COD_PROV')

78.5 µs ± 14.4 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [41]:
%%timeit
a = list(df.groupby('PAD_1_COD_PROV'))

6.34 ms ± 2.32 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


Hacer únicamente la agrupación por código de provincia lleva 50 microsegundos pero si convertimos el resultado a una lista, forzamos a que efectivamente se separen los grupos y eso tarda 10.9 ms.  

Este comportamiento se llama "lazy evaluation" y es muy importante en todos los motores de procesamiento de datos. Ejecutar las operaciones computacionalmente pesadas, sólo cuando se necesita permite hacer los procesos más eficientes.

In [71]:
a = list(df.groupby('PAD_1_COD_PROV'))
type(a[0])

tuple

In [73]:
a[0][1]

Unnamed: 0,OBJECTID,Codigo,Texto,Cod_Prov,Cod_CCAA,TotalParoRegistrado,PAD_1C02,PAD_1_COD_PROV,PAD_1_COD_CCAA,Shape__Area,Shape__Length,Codigop,Densidad,Proporcion_Paro,Decil_Paro
51,52,2001,Abengibre,2,8,54.0,761.0,Albacete,8.0,5.132677e+07,32589.190350,2.0,0.000015,0.070959,7
52,53,2002,Alatoz,2,8,68.0,582.0,Albacete,8.0,1.061114e+08,48006.643705,2.0,0.000005,0.116838,10
53,54,2003,Albacete,2,8,16352.0,172426.0,Albacete,8.0,1.890078e+09,316172.515745,2.0,0.000091,0.094835,9
54,55,2004,Albatana,2,8,74.0,714.0,Albacete,8.0,5.001554e+07,28900.163978,2.0,0.000014,0.103641,9
55,56,2005,Alborea,2,8,93.0,710.0,Albacete,8.0,1.204546e+08,46911.754532,2.0,0.000006,0.130986,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
133,134,2083,Villavaliente,2,8,18.0,234.0,Albacete,8.0,5.796096e+07,39334.638806,2.0,0.000004,0.076923,8
134,135,2084,Villaverde de Guadalimar,2,8,54.0,359.0,Albacete,8.0,1.263427e+08,61166.513461,2.0,0.000003,0.150418,10
135,136,2085,Viveros,2,8,30.0,337.0,Albacete,8.0,1.077795e+08,58399.444351,2.0,0.000003,0.089021,9
136,137,2086,Yeste,2,8,369.0,2818.0,Albacete,8.0,8.322489e+08,153920.326022,2.0,0.000003,0.130944,10


In [76]:
a[1]

('Alicante/Alacant',
      OBJECTID  Codigo                 Texto  Cod_Prov  Cod_CCAA  \
 138       139    3001               Adsubia         3        10   
 139       140    3002                 Agost         3        10   
 140       141    3003                 Agres         3        10   
 141       142    3004                Aigües         3        10   
 142       143    3005              Albatera         3        10   
 ..        ...     ...                   ...       ...       ...   
 274       275    3140               Villena         3        10   
 275       276    3901          Poblets, els         3        10   
 276       277    3902  Pilar de la Horadada         3        10   
 277       278    3903       Montesinos, Los         3        10   
 278       279    3904            San Isidro         3        10   
 
      TotalParoRegistrado  PAD_1C02    PAD_1_COD_PROV  PAD_1_COD_CCAA  \
 138                 19.0     689.0  Alicante/Alacant            10.0   
 139           

In [44]:
type(a[0][0])

str

In [45]:
type(a[0][1])

### Iterar sobre los grupos

Podemos recorrer los grupos en un loop for, desempaquetando la tupla que contine el nombre del grupo y el DataFrame correspondiente.

Veamos a ver cuántas autonomías tiene cada provincia.

In [74]:
for (cod_prov, group) in df.groupby('PAD_1_COD_PROV'):
    print("provincia={0}, tamaño={1}".format(cod_prov, group.shape[0]))

provincia=Albacete, tamaño=87
provincia=Alicante/Alacant, tamaño=141
provincia=Almería, tamaño=103
provincia=Araba/Álava, tamaño=51
provincia=Asturias, tamaño=78
provincia=Badajoz, tamaño=165
provincia=Balears, Illes, tamaño=67
provincia=Barcelona, tamaño=311
provincia=Bizkaia, tamaño=112
provincia=Burgos, tamaño=371
provincia=Cantabria, tamaño=102
provincia=Castellón/Castelló, tamaño=135
provincia=Ceuta, tamaño=1
provincia=Ciudad Real, tamaño=102
provincia=Coruña, A, tamaño=93
provincia=Cuenca, tamaño=238
provincia=Cáceres, tamaño=222
provincia=Cádiz, tamaño=44
provincia=Córdoba, tamaño=75
provincia=Gipuzkoa, tamaño=88
provincia=Girona, tamaño=221
provincia=Granada, tamaño=172
provincia=Guadalajara, tamaño=288
provincia=Huelva, tamaño=79
provincia=Huesca, tamaño=202
provincia=Jaén, tamaño=97
provincia=León, tamaño=211
provincia=Lleida, tamaño=231
provincia=Lugo, tamaño=67
provincia=Madrid, tamaño=179
provincia=Melilla, tamaño=1
provincia=Murcia, tamaño=45
provincia=Málaga, tamaño=103


Ejercicio: Calculen la media para cada provincia de la proporción de paro. Midan el tiempo que tarda en ejecutarse esa consulta.

In [83]:
# Convert the relevant columns to numeric type before applying mean()
# Specify the columns you want the mean of, excluding columns with object data types
numeric_columns = ['TotalParoRegistrado', 'PAD_1C02', 'Shape__Area', 'Densidad', 'Proporcion_Paro']  # Replace with your actual numeric columns

df[numeric_columns] = df[numeric_columns].apply(pd.to_numeric, errors='coerce')

df.groupby('PAD_1_COD_PROV')[numeric_columns].mean()

Unnamed: 0_level_0,TotalParoRegistrado,PAD_1C02,Shape__Area,Densidad,Proporcion_Paro
PAD_1_COD_PROV,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Albacete,461.551724,4507.103448,283090500.0,9e-06,0.107139
Alicante/Alacant,1209.056738,13024.531915,67427260.0,0.000185,0.073767
Almería,610.223301,6837.834951,134517400.0,5.6e-05,0.071866
Araba/Álava,444.882353,6355.411765,108991200.0,3.1e-05,0.046019
Asturias,1105.871795,13366.769231,256721400.0,7.7e-05,0.067554
Badajoz,484.545455,4146.139394,216998300.0,2.4e-05,0.110964
"Balears, Illes",972.716418,16525.671642,125338200.0,0.000142,0.047009
Barcelona,1059.122186,17822.122186,44672440.0,0.000609,0.050981
Bizkaia,702.035714,10246.214286,37143190.0,0.000457,0.051276
Burgos,63.463612,973.032345,70630100.0,9e-06,0.04238


In [79]:

df.groupby('PAD_1_COD_PROV')['Proporcion_Paro'].mean()

Unnamed: 0_level_0,Proporcion_Paro
PAD_1_COD_PROV,Unnamed: 1_level_1
Albacete,0.107139
Alicante/Alacant,0.073767
Almería,0.071866
Araba/Álava,0.046019
Asturias,0.067554
Badajoz,0.110964
"Balears, Illes",0.047009
Barcelona,0.050981
Bizkaia,0.051276
Burgos,0.04238


In [63]:
#### Ejercicio: Calculen la media para cada provincia de la proporción de paro. Midan el tiempo que tarda en ejecutarse esa consulta.
for (cod_prov, group) in df.groupby('PAD_1_COD_PROV'):
    print("provincia={0}, tamaño={1}".format(cod_prov, group['Proporcion_Paro'].mean()))

provincia=Albacete, tamaño=0.10713858566560387
provincia=Alicante/Alacant, tamaño=0.07376662378228857
provincia=Almería, tamaño=0.07186639744064328
provincia=Araba/Álava, tamaño=0.04601913608875631
provincia=Asturias, tamaño=0.06755422473449564
provincia=Badajoz, tamaño=0.11096359049335525
provincia=Balears, Illes, tamaño=0.04700907407618089
provincia=Barcelona, tamaño=0.05098081879962116
provincia=Bizkaia, tamaño=0.051276205419190306
provincia=Burgos, tamaño=0.04237983801091064
provincia=Cantabria, tamaño=0.07480799327869814
provincia=Castellón/Castelló, tamaño=0.054756219005669675
provincia=Ceuta, tamaño=0.14762361125900686
provincia=Ciudad Real, tamaño=0.11188105881588194
provincia=Coruña, A, tamaño=0.06494319003298168
provincia=Cuenca, tamaño=0.06108539521547999
provincia=Cáceres, tamaño=0.1004069095090072
provincia=Cádiz, tamaño=0.1313158338754046
provincia=Córdoba, tamaño=0.08694518562478057
provincia=Gipuzkoa, tamaño=0.04320205523608764
provincia=Girona, tamaño=0.041608394342017

## SeriesGroupBy

Veamos el tipo de objeto que se forma cuando tomamos una serie del DataFrame.

In [84]:
type(df.groupby('PAD_1_COD_PROV')['Proporcion_Paro'])  ## es una serie groupby es una subclase series

Es un objeto de tipo SeriesGroupBy. A estos objetos, podemos aplicarles cualquier función de agregación.

In [48]:
%%time
df.groupby('PAD_1_COD_PROV')['Proporcion_Paro'].mean()

CPU times: user 2.97 ms, sys: 7 µs, total: 2.97 ms
Wall time: 6.68 ms


Unnamed: 0_level_0,Proporcion_Paro
PAD_1_COD_PROV,Unnamed: 1_level_1
Albacete,0.107139
Alicante/Alacant,0.073767
Almería,0.071866
Araba/Álava,0.046019
Asturias,0.067554
Badajoz,0.110964
"Balears, Illes",0.047009
Barcelona,0.050981
Bizkaia,0.051276
Burgos,0.04238


Noten que en este caso, la operación sobre el objeto SeriesGroupBy tarda (en este caso, va a depender del hardware) casi 15 veces que el loop for sobre el GroupBy. Esto es gracias a la vectorización que vimos en la clase 1.

In [49]:
a = df.groupby('PAD_1_COD_PROV')['Proporcion_Paro'].mean()

In [50]:
# El resultado de una función de agregación sobre una SeriesGroupBy, es otra serie
type(a)

In [86]:
a[0][1]

Unnamed: 0,OBJECTID,Codigo,Texto,Cod_Prov,Cod_CCAA,TotalParoRegistrado,PAD_1C02,PAD_1_COD_PROV,PAD_1_COD_CCAA,Shape__Area,Shape__Length,Codigop,Densidad,Proporcion_Paro,Decil_Paro
51,52,2001,Abengibre,2,8,54.0,761.0,Albacete,8.0,5.132677e+07,32589.190350,2.0,0.000015,0.070959,7
52,53,2002,Alatoz,2,8,68.0,582.0,Albacete,8.0,1.061114e+08,48006.643705,2.0,0.000005,0.116838,10
53,54,2003,Albacete,2,8,16352.0,172426.0,Albacete,8.0,1.890078e+09,316172.515745,2.0,0.000091,0.094835,9
54,55,2004,Albatana,2,8,74.0,714.0,Albacete,8.0,5.001554e+07,28900.163978,2.0,0.000014,0.103641,9
55,56,2005,Alborea,2,8,93.0,710.0,Albacete,8.0,1.204546e+08,46911.754532,2.0,0.000006,0.130986,10
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
133,134,2083,Villavaliente,2,8,18.0,234.0,Albacete,8.0,5.796096e+07,39334.638806,2.0,0.000004,0.076923,8
134,135,2084,Villaverde de Guadalimar,2,8,54.0,359.0,Albacete,8.0,1.263427e+08,61166.513461,2.0,0.000003,0.150418,10
135,136,2085,Viveros,2,8,30.0,337.0,Albacete,8.0,1.077795e+08,58399.444351,2.0,0.000003,0.089021,9
136,137,2086,Yeste,2,8,369.0,2818.0,Albacete,8.0,8.322489e+08,153920.326022,2.0,0.000003,0.130944,10


In [51]:
# El índice de la serie son todas las provincias.
a.index

Index(['Albacete', 'Alicante/Alacant', 'Almería', 'Araba/Álava', 'Asturias',
       'Badajoz', 'Balears, Illes', 'Barcelona', 'Bizkaia', 'Burgos',
       'Cantabria', 'Castellón/Castelló', 'Ceuta', 'Ciudad Real', 'Coruña, A',
       'Cuenca', 'Cáceres', 'Cádiz', 'Córdoba', 'Gipuzkoa', 'Girona',
       'Granada', 'Guadalajara', 'Huelva', 'Huesca', 'Jaén', 'León', 'Lleida',
       'Lugo', 'Madrid', 'Melilla', 'Murcia', 'Málaga', 'Navarra', 'Ourense',
       'Palencia', 'Palmas, Las', 'Pontevedra', 'Rioja, La', 'Salamanca',
       'Santa Cruz de Tenerife', 'Segovia', 'Sevilla', 'Soria', 'Tarragona',
       'Teruel', 'Toledo', 'Valencia/València', 'Valladolid', 'Zamora',
       'Zaragoza', 'Ávila'],
      dtype='object', name='PAD_1_COD_PROV')

Ahora podemos probar otras funciones de agregación, por ejemplo calculemos el área por provincia:

In [52]:
df.groupby('PAD_1_COD_PROV')['Shape__Area'].sum()

Unnamed: 0_level_0,Shape__Area
PAD_1_COD_PROV,Unnamed: 1_level_1
Albacete,24628870000.0
Alicante/Alacant,9507244000.0
Almería,13855290000.0
Araba/Álava,5558551000.0
Asturias,20024270000.0
Badajoz,35804720000.0
"Balears, Illes",8397659000.0
Barcelona,13893130000.0
Bizkaia,4160037000.0
Burgos,26203770000.0


## Agregaciones múltiples

Veamos ahora quiero combinar para cada provincia, cuál es el área, cuál es la población, cuál es la media y la mediana de paro y cuántas autonomías la componen. Para esto existe la función aggregate. Aplicada sobre un DataFrameGroupBy recibe como parámetro un diccionario con las nombres de columnas como claves y el tipo de agregación a realizar como valores. Pueden ser valores únicos o listas con varios valores.


In [53]:
df.groupby('PAD_1_COD_PROV').aggregate({'Shape__Area':'sum',
                                        'PAD_1C02':'sum',
                                        'Proporcion_Paro':['mean','median','size']}).head()

Unnamed: 0_level_0,Shape__Area,PAD_1C02,Proporcion_Paro,Proporcion_Paro,Proporcion_Paro
Unnamed: 0_level_1,sum,sum,mean,median,size
PAD_1_COD_PROV,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Albacete,24628870000.0,392118.0,0.107139,0.104993,87
Alicante/Alacant,9507244000.0,1836459.0,0.073767,0.072584,141
Almería,13855290000.0,704297.0,0.071866,0.069767,103
Araba/Álava,5558551000.0,324126.0,0.046019,0.04335,51
Asturias,20024270000.0,1042608.0,0.067554,0.067519,78


## MultiIndex

Cuando agregamos por varias columnas distintas, nos queda un MultiIndex en las columnas


In [54]:
df_agregado = df.groupby('PAD_1_COD_PROV').aggregate({'Shape__Area':'sum',
                                        'PAD_1C02':'sum',
                                        'Proporcion_Paro':['mean','median','size']})

In [55]:
df_agregado.columns

MultiIndex([(    'Shape__Area',    'sum'),
            (       'PAD_1C02',    'sum'),
            ('Proporcion_Paro',   'mean'),
            ('Proporcion_Paro', 'median'),
            ('Proporcion_Paro',   'size')],
           )

#### Entendiendo la función pd.qcut

También podemos agrupar por más de una columna, usando una lista en lugar de un único valor como parámetro del groupby.

Calculemos los deciles de paro regitrado en los distintos municipios.
Para eso vamos a construir una columna que contenga el decil que ocupa el municipio en el ranking de proporción de paro. El decil 1 va a representar las autonomías que mejor se desempeñan y el decil 10 las que peor lo hacen.

In [87]:
df['Decil_Paro'] = pd.qcut(df['Proporcion_Paro'], 10, labels=range(1,11))  ## QCUT CORTAR POR CANTIDADES , Y LABEL DE 1 A 10


In [88]:
df['Decil_Paro']

Unnamed: 0,Decil_Paro
0,6
1,8
2,1
3,6
4,5
...,...
8165,2
8166,2
8167,3
8168,10


Ahora podemos agrupar por provincia y decil para ver cuántos municipios de cada decil hay en cada provincia.

In [57]:
serie_prov_decil = df.groupby(['PAD_1_COD_PROV','Decil_Paro']).size()





In [90]:
serie_prov_decil  ## UBICAR EN PAQUETS IGUALES A LOS MUNICIPIOS

Unnamed: 0_level_0,Unnamed: 1_level_0,0
PAD_1_COD_PROV,Decil_Paro,Unnamed: 2_level_1
Albacete,1,0
Albacete,2,0
Albacete,3,2
Albacete,4,0
Albacete,5,1
...,...,...
Ávila,6,24
Ávila,7,28
Ávila,8,21
Ávila,9,21


In [58]:
type(serie_prov_decil)

In [59]:
serie_prov_decil.index

MultiIndex([('Albacete',  1),
            ('Albacete',  2),
            ('Albacete',  3),
            ('Albacete',  4),
            ('Albacete',  5),
            ('Albacete',  6),
            ('Albacete',  7),
            ('Albacete',  8),
            ('Albacete',  9),
            ('Albacete', 10),
            ...
            (   'Ávila',  1),
            (   'Ávila',  2),
            (   'Ávila',  3),
            (   'Ávila',  4),
            (   'Ávila',  5),
            (   'Ávila',  6),
            (   'Ávila',  7),
            (   'Ávila',  8),
            (   'Ávila',  9),
            (   'Ávila', 10)],
           names=['PAD_1_COD_PROV', 'Decil_Paro'], length=520)

In [60]:
serie_prov_decil.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,0
PAD_1_COD_PROV,Decil_Paro,Unnamed: 2_level_1
Albacete,1,0
Albacete,2,0
Albacete,3,2
Albacete,4,0
Albacete,5,1
Albacete,6,3
Albacete,7,4
Albacete,8,6
Albacete,9,29
Albacete,10,42


El objeto MultiIndex puede ser complicado para trabajar. Por eso conviene utilizar el método reset_index() para volver a un DataFrame común.

In [61]:
df_prov = serie_prov_decil.reset_index()

In [91]:
df_prov

Unnamed: 0,PAD_1_COD_PROV,Decil_Paro,0
0,Albacete,1,0
1,Albacete,2,0
2,Albacete,3,2
3,Albacete,4,0
4,Albacete,5,1
...,...,...,...
515,Ávila,6,24
516,Ávila,7,28
517,Ávila,8,21
518,Ávila,9,21


In [62]:
df_prov.head()

Unnamed: 0,PAD_1_COD_PROV,Decil_Paro,0
0,Albacete,1,0
1,Albacete,2,0
2,Albacete,3,2
3,Albacete,4,0
4,Albacete,5,1


## Ejercicios

Ahora vamos a querer trabajar a nivel de provincia. Calculen la densidad, la proporción de paro y la cantidad de municipios para cada provincia ¿Cuál es la provincia con mayor proporción de paro? ¿Cuál es la que tiene menos?

In [99]:
## Calculen la densidad, la proporción de paro y la cantidad de municipios para cada provincia ¿Cuál es la provincia con mayor proporción de paro? ¿Cuál es la que tiene menos?
df_prov1 = df.groupby('PAD_1_COD_PROV').aggregate({'Shape__Area':'sum',
                                        'Densidad': 'mean',
                                        'PAD_1C02':'sum',
                                        'Codigo':'count',
                                        'Proporcion_Paro':['mean','median','size']})

In [100]:
df_prov1

Unnamed: 0_level_0,Shape__Area,Densidad,PAD_1C02,Codigo,Proporcion_Paro,Proporcion_Paro,Proporcion_Paro
Unnamed: 0_level_1,sum,mean,sum,count,mean,median,size
PAD_1_COD_PROV,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Albacete,24628870000.0,9e-06,392118.0,87,0.107139,0.104993,87
Alicante/Alacant,9507244000.0,0.000185,1836459.0,141,0.073767,0.072584,141
Almería,13855290000.0,5.6e-05,704297.0,103,0.071866,0.069767,103
Araba/Álava,5558551000.0,3.1e-05,324126.0,51,0.046019,0.04335,51
Asturias,20024270000.0,7.7e-05,1042608.0,78,0.067554,0.067519,78
Badajoz,35804720000.0,2.4e-05,684113.0,165,0.110964,0.111384,165
"Balears, Illes",8397659000.0,0.000142,1107220.0,67,0.047009,0.046549,67
Barcelona,13893130000.0,0.000609,5542680.0,311,0.050981,0.050098,311
Bizkaia,4160037000.0,0.000457,1147576.0,112,0.051276,0.049558,112
Burgos,26203770000.0,9e-06,360995.0,371,0.04238,0.039216,371


In [98]:
## Calculen la densidad, la proporción de paro y la cantidad de municipios para cada provincia
df_prov1['Densidad'] = df_prov1['PAD_1C02'] / df_prov1['Shape__Area']

In [96]:
df_prov1['Densidad']

Unnamed: 0_level_0,Densidad
PAD_1_COD_PROV,Unnamed: 1_level_1
Albacete,1.6e-05
Alicante/Alacant,0.000193
Almería,5.1e-05
Araba/Álava,5.8e-05
Asturias,5.2e-05
Badajoz,1.9e-05
"Balears, Illes",0.000132
Barcelona,0.000399
Bizkaia,0.000276
Burgos,1.4e-05


In [94]:
df_prov1

Unnamed: 0_level_0,Shape__Area,PAD_1C02,Proporcion_Paro,Proporcion_Paro,Proporcion_Paro
Unnamed: 0_level_1,sum,sum,mean,median,size
PAD_1_COD_PROV,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Albacete,24628870000.0,392118.0,0.107139,0.104993,87
Alicante/Alacant,9507244000.0,1836459.0,0.073767,0.072584,141
Almería,13855290000.0,704297.0,0.071866,0.069767,103
Araba/Álava,5558551000.0,324126.0,0.046019,0.04335,51
Asturias,20024270000.0,1042608.0,0.067554,0.067519,78
Badajoz,35804720000.0,684113.0,0.110964,0.111384,165
"Balears, Illes",8397659000.0,1107220.0,0.047009,0.046549,67
Barcelona,13893130000.0,5542680.0,0.050981,0.050098,311
Bizkaia,4160037000.0,1147576.0,0.051276,0.049558,112
Burgos,26203770000.0,360995.0,0.04238,0.039216,371


In [101]:
df_resultado = df.groupby('PAD_1_COD_PROV').aggregate({'Shape__Area':'sum',
                                        'Densidad': 'mean',
                                        'Codigo': 'count',
                                        'PAD_1C02':'sum',
                                        'Proporcion_Paro':['mean','median','size']})

In [102]:
df_resultado

Unnamed: 0_level_0,Shape__Area,Densidad,Codigo,PAD_1C02,Proporcion_Paro,Proporcion_Paro,Proporcion_Paro
Unnamed: 0_level_1,sum,mean,count,sum,mean,median,size
PAD_1_COD_PROV,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
Albacete,24628870000.0,9e-06,87,392118.0,0.107139,0.104993,87
Alicante/Alacant,9507244000.0,0.000185,141,1836459.0,0.073767,0.072584,141
Almería,13855290000.0,5.6e-05,103,704297.0,0.071866,0.069767,103
Araba/Álava,5558551000.0,3.1e-05,51,324126.0,0.046019,0.04335,51
Asturias,20024270000.0,7.7e-05,78,1042608.0,0.067554,0.067519,78
Badajoz,35804720000.0,2.4e-05,165,684113.0,0.110964,0.111384,165
"Balears, Illes",8397659000.0,0.000142,67,1107220.0,0.047009,0.046549,67
Barcelona,13893130000.0,0.000609,311,5542680.0,0.050981,0.050098,311
Bizkaia,4160037000.0,0.000457,112,1147576.0,0.051276,0.049558,112
Burgos,26203770000.0,9e-06,371,360995.0,0.04238,0.039216,371


In [103]:
df_resultado.iloc[0,2]

87

In [104]:
df_resultado.iloc[-1,2]

248

In [105]:
df_resultado.index[0]

'Albacete'

In [106]:
df_resultado.index[-1]

'Ávila'