# Agrupaciones

La clase `DataFrame` contiene un método llamado `groupby` que permite agrupar filas mediante funciones de agregación:

In [2]:
import pandas as pd

# Creamos un diccionario con mucha información
ventas = {
    'Comercial': ['Juan', 'María', 'Manuel', 'Vanesa', 'Ana', 'Marcos'],
    'Empresa': ['Movistar', 'Jazztel', 'Movistar', 'Jazztel', 'Vodafone', 'Vodafone'],
    'Primas': [300, 220, 140, 70, 400, 175]
} 

In [3]:
df = pd.DataFrame(ventas)

df

Unnamed: 0,Comercial,Empresa,Primas
0,Juan,Movistar,300
1,María,Jazztel,220
2,Manuel,Movistar,140
3,Vanesa,Jazztel,70
4,Ana,Vodafone,400
5,Marcos,Vodafone,175


Utilizando `groupby` podemos agrupar las filas en función del nombre de la columna, por ejemplo el nombre de la `Empresa`, al hacerlo se generará un nuevo objeto de tipo `DataFrameGroupBy`:

In [4]:
df.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fc8b25ebdc0>

Este objeto se puede asignar a una variable para trabajar con él a fondo:

In [5]:
por_empresa = df.groupby("Empresa")

Con los métodos de agregación podemos analizar la información agrupada:

In [6]:
# Prima media por empresa
por_empresa.mean()

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,145.0
Movistar,220.0
Vodafone,287.5


In [7]:
# Lo mismo sin guardar el objeto en una variable
df.groupby('Empresa').mean()

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,145.0
Movistar,220.0
Vodafone,287.5


Otros métodos útiles:

In [8]:
# Desviación estándar (dispersion del conjunto)
por_empresa.std()

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,106.066017
Movistar,113.137085
Vodafone,159.099026


In [9]:
# Primas mínimas (error)
por_empresa.min()

Unnamed: 0_level_0,Comercial,Primas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
Jazztel,María,70
Movistar,Juan,140
Vodafone,Ana,175


In [10]:
# ID de las primas mínimas
por_empresa['Primas'].idxmin()

Empresa
Jazztel     3
Movistar    2
Vodafone    5
Name: Primas, dtype: int64

In [11]:
# Usamos las ID de las primas máximas como fuente del df
df.loc[por_empresa['Primas'].idxmin()]

Unnamed: 0,Comercial,Empresa,Primas
3,Vanesa,Jazztel,70
2,Manuel,Movistar,140
5,Marcos,Vodafone,175


In [12]:
# Primas mínimas
df.loc[por_empresa['Primas'].idxmax()]

Unnamed: 0,Comercial,Empresa,Primas
1,María,Jazztel,220
0,Juan,Movistar,300
4,Ana,Vodafone,400


In [None]:
# Contador de primas por empresa
por_empresa.count()

In [None]:
# Reporte de analíticas descriptivas por empresa
por_empresa.describe()

In [None]:
# Reporte transpuesto (filas por columnas)
por_empresa.describe().transpose()

In [None]:
# Reporte transpuesto de una sola empresa
por_empresa.describe().transpose()['Movistar']

Como siempre más información sobre las agrupaciones en la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html).