# Agrupaciones

La clase `DataFrame` contiene un método llamado `groupby` que permite agrupar filas mediante funciones de agregación:

In [1]:
import pandas as pd

# Creamos un diccionario con mucha información
ventas = {
    'Comercial': ['Juan', 'María', 'Manuel', 'Vanesa', 'Ana', 'Marcos'],
    'Empresa': ['Movistar', 'Jazztel', 'Movistar', 'Jazztel', 'Vodafone', 'Vodafone'],
    'Primas': [300, 220, 140, 70, 400, 175]
} 

In [2]:
df = pd.DataFrame(ventas)

df

Unnamed: 0,Comercial,Empresa,Primas
0,Juan,Movistar,300
1,María,Jazztel,220
2,Manuel,Movistar,140
3,Vanesa,Jazztel,70
4,Ana,Vodafone,400
5,Marcos,Vodafone,175


Utilizando `groupby` podemos agrupar las filas en función del nombre de la columna, por ejemplo el nombre de la `Empresa`, al hacerlo se generará un nuevo objeto de tipo `DataFrameGroupBy`:

In [3]:
df.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001D32D1ABF10>

Este objeto se puede asignar a una variable para trabajar con él a fondo:

In [4]:
por_empresa = df.groupby("Empresa")

por_empresa

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001D32D1CF2D0>

Con los métodos de agregación podemos analizar la información agrupada:

In [5]:
# Prima media por empresa
por_empresa.mean(por_empresa)

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,145.0
Movistar,220.0
Vodafone,287.5


In [6]:
# Lo mismo sin guardar el objeto en una variable
df.groupby('Empresa').mean(por_empresa)

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,145.0
Movistar,220.0
Vodafone,287.5


Otros métodos útiles:

In [7]:
# Desviación estándar (dispersion del conjunto)
por_empresa.std() # Error por version de Pandas del video

ValueError: could not convert string to float: 'Juan'

In [8]:
# Primas mínimas (error)
por_empresa.min()

Unnamed: 0_level_0,Comercial,Primas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
Jazztel,María,70
Movistar,Juan,140
Vodafone,Ana,175


In [9]:
# ID de las primas mínimas
por_empresa['Primas'].idxmin()

Empresa
Jazztel     3
Movistar    2
Vodafone    5
Name: Primas, dtype: int64

In [10]:
# Usamos las ID de las primas máximas como fuente del df
df.loc[por_empresa['Primas'].idxmin()]

Unnamed: 0,Comercial,Empresa,Primas
3,Vanesa,Jazztel,70
2,Manuel,Movistar,140
5,Marcos,Vodafone,175


In [11]:
# Primas mínimas
df.loc[por_empresa['Primas'].idxmax()]

Unnamed: 0,Comercial,Empresa,Primas
1,María,Jazztel,220
0,Juan,Movistar,300
4,Ana,Vodafone,400


In [12]:
# Contador de primas por empresa
por_empresa.count()

Unnamed: 0_level_0,Comercial,Primas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
Jazztel,2,2
Movistar,2,2
Vodafone,2,2


In [13]:
# Reporte de analíticas descriptivas por empresa
por_empresa.describe()

Unnamed: 0_level_0,Primas,Primas,Primas,Primas,Primas,Primas,Primas,Primas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Jazztel,2.0,145.0,106.066017,70.0,107.5,145.0,182.5,220.0
Movistar,2.0,220.0,113.137085,140.0,180.0,220.0,260.0,300.0
Vodafone,2.0,287.5,159.099026,175.0,231.25,287.5,343.75,400.0


In [14]:
# Reporte transpuesto (filas por columnas)
por_empresa.describe().transpose()

Unnamed: 0,Empresa,Jazztel,Movistar,Vodafone
Primas,count,2.0,2.0,2.0
Primas,mean,145.0,220.0,287.5
Primas,std,106.066017,113.137085,159.099026
Primas,min,70.0,140.0,175.0
Primas,25%,107.5,180.0,231.25
Primas,50%,145.0,220.0,287.5
Primas,75%,182.5,260.0,343.75
Primas,max,220.0,300.0,400.0


In [15]:
# Reporte transpuesto de una sola empresa
por_empresa.describe().transpose()['Movistar']

Primas  count      2.000000
        mean     220.000000
        std      113.137085
        min      140.000000
        25%      180.000000
        50%      220.000000
        75%      260.000000
        max      300.000000
Name: Movistar, dtype: float64

Como siempre más información sobre las agrupaciones en la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html).