# Agrupaciones

La clase `DataFrame` contiene un método llamado `groupby` que permite agrupar filas mediante funciones de agregación:

In [53]:
import pandas as pd

# Creamos un diccionario con mucha información
ventas = {
    'Comercial': ['Juan', 'Maria', 'Manuel', 'Vanesa', 'Ana', 'Marcos', 'Mauricio'],
    'Empresa': ['Movistar', 'Jazztel', 'Movistar', 'Jazztel', 'Vodafone', 'Vodafone', 'Vodafone'],
    'Primas': [300, 220, 140, 70, 400, 175, 800]
} 

In [54]:
df = pd.DataFrame(ventas)

df

Unnamed: 0,Comercial,Empresa,Primas
0,Juan,Movistar,300
1,Maria,Jazztel,220
2,Manuel,Movistar,140
3,Vanesa,Jazztel,70
4,Ana,Vodafone,400
5,Marcos,Vodafone,175
6,Mauricio,Vodafone,800


Utilizando `groupby` podemos agrupar las filas en función del nombre de la columna, por ejemplo el nombre de la `Empresa`, al hacerlo se generará un nuevo objeto de tipo `DataFrameGroupBy`:

In [55]:
df.groupby('Empresa')["Primas"]

<pandas.core.groupby.generic.SeriesGroupBy object at 0x00000237250E4C90>

Este objeto se puede asignar a una variable para trabajar con él a fondo:

In [56]:
por_empresa = df.groupby('Empresa')["Primas"]
print(por_empresa)

<pandas.core.groupby.generic.SeriesGroupBy object at 0x00000237250E4790>


Con los métodos de agregación podemos analizar la información agrupada:

In [57]:
# Prima media por empresa
por_empresa.mean()

Empresa
Jazztel     145.000000
Movistar    220.000000
Vodafone    458.333333
Name: Primas, dtype: float64

In [58]:
# Lo mismo sin guardar el objeto en una variable
df.groupby('Empresa')["Primas"].mean()

Empresa
Jazztel     145.000000
Movistar    220.000000
Vodafone    458.333333
Name: Primas, dtype: float64

Otros métodos útiles:

In [59]:
# Desviación estándar (dispersion del conjunto)
por_empresa.std()

Empresa
Jazztel     106.066017
Movistar    113.137085
Vodafone    316.556999
Name: Primas, dtype: float64

In [60]:
# Primas mínimas(maximas)
por_empresa.min()

Empresa
Jazztel      70
Movistar    140
Vodafone    175
Name: Primas, dtype: int64

In [61]:
# ID de las primas mínimas
por_empresa.idxmin()

Empresa
Jazztel     3
Movistar    2
Vodafone    5
Name: Primas, dtype: int64

In [62]:
# Usamos las ID de las primas minimas(máximas) como fuente del df para mostrar todas las columnas
df.loc[por_empresa.idxmin()]

Unnamed: 0,Comercial,Empresa,Primas
3,Vanesa,Jazztel,70
2,Manuel,Movistar,140
5,Marcos,Vodafone,175


In [63]:
# Primas mínimas
df.loc[por_empresa.idxmax()]

Unnamed: 0,Comercial,Empresa,Primas
1,Maria,Jazztel,220
0,Juan,Movistar,300
6,Mauricio,Vodafone,800


In [64]:
# Contador de cada columna por empresa
por_empresa.count()

Empresa
Jazztel     2
Movistar    2
Vodafone    3
Name: Primas, dtype: int64

In [65]:
# Reporte de analíticas descriptivas por empresa
por_empresa.describe()

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Jazztel,2.0,145.0,106.066017,70.0,107.5,145.0,182.5,220.0
Movistar,2.0,220.0,113.137085,140.0,180.0,220.0,260.0,300.0
Vodafone,3.0,458.333333,316.556999,175.0,287.5,400.0,600.0,800.0


In [66]:
# Reporte transpuesto (filas por columnas)
por_empresa.describe().transpose()

Empresa,Jazztel,Movistar,Vodafone
count,2.0,2.0,3.0
mean,145.0,220.0,458.333333
std,106.066017,113.137085,316.556999
min,70.0,140.0,175.0
25%,107.5,180.0,287.5
50%,145.0,220.0,400.0
75%,182.5,260.0,600.0
max,220.0,300.0,800.0


In [67]:
# Reporte transpuesto de una sola empresa
por_empresa.describe().transpose()['Movistar']

count      2.000000
mean     220.000000
std      113.137085
min      140.000000
25%      180.000000
50%      220.000000
75%      260.000000
max      300.000000
Name: Movistar, dtype: float64

Como siempre más información sobre las agrupaciones en la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html).