In [None]:
#MIT License

# Copyright (c) 2021 GDSC UNI

# Permission is hereby granted, free of charge, to any person obtaining a copy
# of this software and associated documentation files (the "Software"), to deal
# in the Software without restriction, including without limitation the rights
# to use, copy, modify, merge, publish, distribute, sublicense, and/or sell
# copies of the Software, and to permit persons to whom the Software is
# furnished to do so, subject to the following conditions:

# The above copyright notice and this permission notice shall be included in all
# copies or substantial portions of the Software.

# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL THE
# AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING FROM,
# OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER DEALINGS IN THE
# SOFTWARE.

<table align="center">
  <td align="center"><a target="_blank" href="https://gdsc.community.dev/universidad-nacional-de-ingenieria/">
        <img src="https://i.ibb.co/pX2w52P/GDSC.png" style="padding-bottom:5px;" />
      View GDSC UNI</a></td>

  <td align="center"><a target="_blank" href="https://colab.research.google.com/drive/1OgyQmyTaRhpA6nFkJL4I7adreLRuYkAU?usp=sharing">
        <img src="https://i.ibb.co/Bf0HK0q/Colaboratory.png"  style="padding-bottom:5px;" />Run in Google Colab </a></td>

  <td align="center"><a target="_blank" href="https://github.com/GDSC-UNI/Pandas-For-Data-Science/PFDS9_Groupby_y_Agregation.ipynb">
        <img src="https://i.ibb.co/VHHdRx2/Github.png"  height="110px" style="padding-bottom:5px;"/>View source on GitHub</a></td>
</table>

<h1></h1>

<h1 style="font-size:42px; text-align:center; margin-bottom:30px;"><span style="color:#000080">PFDS9:</span> Group by y Agregation</h1>
<hr>

En el notebook anterior, vimos que podíamos convertir los valores de una columna en índices para hacer diversas agrupaciones mediante el método *set_index* y casi al final hicimos el cálculo de la media de estos valores agrupados utilizando el método *mean*. una manera más sencilla de hacer estas agrupaciones es utilizando el método *groupby* de pandas.
 
<code>DataFrame.groupby(by=None, axis=0, level=None, as_index=True, sort=True, group_keys=True, squeeze=NoDefault.no_default, observed=False, dropna=True)</code>
 
En este notebook usaremos un nuevo dataset muy conocido en Data Science, iris, el cual contiene clases de la planta iris, con sus respectivas medidas de sus pétalos. No es necesario descargar este dataset, lo podemos obtener desde la librería de Seaborn.


In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

In [None]:
pd.options.display.float_format='{:,.3f}'.format

In [None]:
iris = sns.load_dataset('iris')
iris.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


De nuestro dataset cargado, queremos obtener el promedio de cada medida de cada especie de la planta, para ello usaremos groupby, especificando que queremos agrupar los datos por especies y a esta agrupación, le aplicaremos la media.

In [None]:
iris.groupby('species').median()

Unnamed: 0_level_0,sepal_length,sepal_width,petal_length,petal_width
species,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,5.0,3.4,1.5,0.2
versicolor,5.9,2.8,4.35,1.3
virginica,6.5,3.0,5.55,2.0


Del mismo modo, podemos calcular medidas estadísticas de determinadas columnas de nuestras agrupaciones.

In [None]:
iris.groupby('species')['sepal_length'].median()

species
setosa       5.000
versicolor   5.900
virginica    6.500
Name: sepal_length, dtype: float64

In [None]:
iris.groupby('species')['sepal_length'].count()

species
setosa        50
versicolor    50
virginica     50
Name: sepal_length, dtype: int64

In [None]:
iris.groupby('species')['sepal_length'].min()

species
setosa       4.300
versicolor   4.900
virginica    4.900
Name: sepal_length, dtype: float64

Es posible realizar un bucle for en el cual obtendremos como iteradores la llave de la agrupación que para nuestro caso son las clases de la planta iris y los valores que se agrupan bajo esta llave. 


In [None]:
for key_group, group in iris.groupby('species'):
    grouped_petal_width = group['petal_width'].mean()
    print('Specie: {}, Petal width: {}'.format(key_group, grouped_petal_width))

Specie: setosa, Petal width: 0.2459999999999999
Specie: versicolor, Petal width: 1.3259999999999998
Specie: virginica, Petal width: 2.026


Mediante el método *to_frame* podemos obtener los resultados agrupados de una manera  más vistosa.

In [None]:
iris.groupby('species')['sepal_length'].mean().to_frame()

Unnamed: 0_level_0,sepal_length
species,Unnamed: 1_level_1
setosa,5.006
versicolor,5.936
virginica,6.588


Se pueden hacer agrupaciones en más de un nivel, ingresando como parámetro una lista.

In [None]:
iris.groupby(['species', 'petal_width'])['sepal_length'].mean().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length
species,petal_width,Unnamed: 2_level_1
setosa,0.1,4.82
setosa,0.2,4.972
setosa,0.3,4.971
setosa,0.4,5.3
setosa,0.5,5.1
setosa,0.6,5.0
versicolor,1.0,5.414
versicolor,1.1,5.4
versicolor,1.2,5.78
versicolor,1.3,5.885


Dentro de los DataFrameGroupBy existe el método *aggregate* que agrega una o más operaciones especificando la operación sobre el eje.

<code>DataFrameGroupBy.aggregate(func=None, *args, engine=None, engine_kwargs=None, **kwargs)</code>

In [None]:
iris.groupby(['species', 'petal_width'])['sepal_length'].aggregate(['min',np.mean, max])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,mean,max
species,petal_width,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
setosa,0.1,4.3,4.82,5.2
setosa,0.2,4.4,4.972,5.8
setosa,0.3,4.5,4.971,5.7
setosa,0.4,5.0,5.3,5.7
setosa,0.5,5.1,5.1,5.1
setosa,0.6,5.0,5.0,5.0
versicolor,1.0,4.9,5.414,6.0
versicolor,1.1,5.1,5.4,5.6
versicolor,1.2,5.5,5.78,6.1
versicolor,1.3,5.5,5.885,6.6


In [None]:
def mean_meters(x: float) -> float:
    return np.mean(x)/100

In [None]:
iris.groupby(['species', 'petal_width'])['sepal_length'].aggregate(['min',np.mean, max, mean_meters])

Unnamed: 0_level_0,Unnamed: 1_level_0,min,mean,max,mean_meters
species,petal_width,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
setosa,0.1,4.3,4.82,5.2,0.048
setosa,0.2,4.4,4.972,5.8,0.05
setosa,0.3,4.5,4.971,5.7,0.05
setosa,0.4,5.0,5.3,5.7,0.053
setosa,0.5,5.1,5.1,5.1,0.051
setosa,0.6,5.0,5.0,5.0,0.05
versicolor,1.0,4.9,5.414,6.0,0.054
versicolor,1.1,5.1,5.4,5.6,0.054
versicolor,1.2,5.5,5.78,6.1,0.058
versicolor,1.3,5.5,5.885,6.6,0.059


El parámetro func de la función aggregate puede admitir como entrada un diccionario, el cual debe contener en las llaves la columna en la que se quieren hacer las funciones y en el valor del diccionario las funciones a aplicar.


In [None]:
dict_agg = {'sepal_length': [min, max], 'sepal_width': [np.mean, mean_meters]}
iris.groupby(['species', 'petal_width']).aggregate(dict_agg)

Unnamed: 0_level_0,Unnamed: 1_level_0,sepal_length,sepal_length,sepal_width,sepal_width
Unnamed: 0_level_1,Unnamed: 1_level_1,min,max,mean,mean_meters
species,petal_width,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
setosa,0.1,4.3,5.2,3.36,0.034
setosa,0.2,4.4,5.8,3.379,0.034
setosa,0.3,4.5,5.7,3.329,0.033
setosa,0.4,5.0,5.7,3.786,0.038
setosa,0.5,5.1,5.1,3.3,0.033
setosa,0.6,5.0,5.0,3.5,0.035
versicolor,1.0,4.9,6.0,2.371,0.024
versicolor,1.1,5.1,5.6,2.467,0.025
versicolor,1.2,5.5,6.1,2.74,0.027
versicolor,1.3,5.5,6.6,2.746,0.027


Otro método de los DataFrameGroupBy es *filter* el cual devuelve la copia de los DataFrame excluyendo los elementos filtrados.
 
<code>DataFrameGroupBy.filter(func, dropna=True, *args, **kwargs)</code>
 
Para aplicar este método, crearemos una función filtradora (f_filter) que seleccionaría todos aquellos valores de la columna "sepal_width" que sean mayores a 0.02. y aplicaremos esta función en el método filter.



In [None]:
def f_filter(x: float) -> bool:
    return mean_meters(x['sepal_width'])> 0.02

In [None]:
iris.groupby('species').filter(f_filter)

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,species
0,5.100,3.500,1.400,0.200,setosa
1,4.900,3.000,1.400,0.200,setosa
2,4.700,3.200,1.300,0.200,setosa
3,4.600,3.100,1.500,0.200,setosa
4,5.000,3.600,1.400,0.200,setosa
...,...,...,...,...,...
145,6.700,3.000,5.200,2.300,virginica
146,6.300,2.500,5.000,1.900,virginica
147,6.500,3.000,5.200,2.000,virginica
148,6.200,3.400,5.400,2.300,virginica


In [None]:
iris.groupby('petal_width').filter(f_filter)['species'].unique()

array(['setosa', 'versicolor', 'virginica'], dtype=object)