# Agrupaciones

La clase `DataFrame` contiene un método llamado `groupby` que permite agrupar filas mediante funciones de agregación:

In [1]:
import pandas as pd

# Creamos un diccionario con mucha información
ventas = {
    'Comercial': ['Juan', 'María', 'Manuel', 'Vanesa', 'Ana', 'Marcos'],
    'Empresa': ['Movistar', 'Jazztel', 'Movistar', 'Jazztel', 'Vodafone', 'Vodafone'],
    'Primas': [300, 220, 140, 70, 400, 175]
}

In [2]:
ventas

{'Comercial': ['Juan', 'María', 'Manuel', 'Vanesa', 'Ana', 'Marcos'],
 'Empresa': ['Movistar',
  'Jazztel',
  'Movistar',
  'Jazztel',
  'Vodafone',
  'Vodafone'],
 'Primas': [300, 220, 140, 70, 400, 175]}

In [3]:
df = pd.DataFrame(ventas)

df

Unnamed: 0,Comercial,Empresa,Primas
0,Juan,Movistar,300
1,María,Jazztel,220
2,Manuel,Movistar,140
3,Vanesa,Jazztel,70
4,Ana,Vodafone,400
5,Marcos,Vodafone,175


In [4]:
df2 = df[['Empresa', 'Primas']]
df2

Unnamed: 0,Empresa,Primas
0,Movistar,300
1,Jazztel,220
2,Movistar,140
3,Jazztel,70
4,Vodafone,400
5,Vodafone,175


Utilizando `groupby` podemos agrupar las filas en función del nombre de la columna, por ejemplo el nombre de la `Empresa`, al hacerlo se generará un nuevo objeto de tipo `DataFrameGroupBy`:

In [5]:
df.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002112C4DB580>

In [6]:
df

Unnamed: 0,Comercial,Empresa,Primas
0,Juan,Movistar,300
1,María,Jazztel,220
2,Manuel,Movistar,140
3,Vanesa,Jazztel,70
4,Ana,Vodafone,400
5,Marcos,Vodafone,175


Este objeto se puede asignar a una variable para trabajar con él a fondo:

In [7]:
por_empresa = df[['Empresa', 'Primas']].groupby("Empresa")

In [8]:
por_empresa

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000021114031730>

Con los métodos de agregación podemos analizar la información agrupada:

In [20]:
# Prima media por empresa
por_empresa.std()

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,106.066017
Movistar,113.137085
Vodafone,159.099026


In [21]:
# Lo mismo sin guardar el objeto en una variable
df[['Empresa', 'Primas']].groupby('Empresa').mean()

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,145.0
Movistar,220.0
Vodafone,287.5


Otros métodos útiles:

In [22]:
# Desviación estándar (dispersion del conjunto)
por_empresa.std()

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,106.066017
Movistar,113.137085
Vodafone,159.099026


In [23]:
# Primas mínimas (error)
por_empresa.min()

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,70
Movistar,140
Vodafone,175


In [24]:
df

Unnamed: 0,Comercial,Empresa,Primas
0,Juan,Movistar,300
1,María,Jazztel,220
2,Manuel,Movistar,140
3,Vanesa,Jazztel,70
4,Ana,Vodafone,400
5,Marcos,Vodafone,175


In [26]:
# ID de las primas mínimas
por_empresa['Primas'].idxmin()

Empresa
Jazztel     3
Movistar    2
Vodafone    5
Name: Primas, dtype: int64

In [27]:
# Usamos las ID de las primas máximas como fuente del df
df.loc[por_empresa['Primas'].idxmin()]

Unnamed: 0,Comercial,Empresa,Primas
3,Vanesa,Jazztel,70
2,Manuel,Movistar,140
5,Marcos,Vodafone,175


In [28]:
# Primas mínimas
df.loc[por_empresa['Primas'].idxmax()]

Unnamed: 0,Comercial,Empresa,Primas
1,María,Jazztel,220
0,Juan,Movistar,300
4,Ana,Vodafone,400


In [29]:
df

Unnamed: 0,Comercial,Empresa,Primas
0,Juan,Movistar,300
1,María,Jazztel,220
2,Manuel,Movistar,140
3,Vanesa,Jazztel,70
4,Ana,Vodafone,400
5,Marcos,Vodafone,175


In [30]:
# Contador de primas por empresa
por_empresa.count()

Unnamed: 0_level_0,Primas
Empresa,Unnamed: 1_level_1
Jazztel,2
Movistar,2
Vodafone,2


In [31]:
# Reporte de analíticas descriptivas por empresa
por_empresa.describe()

Unnamed: 0_level_0,Primas,Primas,Primas,Primas,Primas,Primas,Primas,Primas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Jazztel,2.0,145.0,106.066017,70.0,107.5,145.0,182.5,220.0
Movistar,2.0,220.0,113.137085,140.0,180.0,220.0,260.0,300.0
Vodafone,2.0,287.5,159.099026,175.0,231.25,287.5,343.75,400.0


In [33]:
df.describe()

Unnamed: 0,Primas
count,6.0
mean,217.5
std,118.05719
min,70.0
25%,148.75
50%,197.5
75%,280.0
max,400.0


In [34]:
# Reporte transpuesto (filas por columnas)
por_empresa.describe().transpose()

Unnamed: 0,Empresa,Jazztel,Movistar,Vodafone
Primas,count,2.0,2.0,2.0
Primas,mean,145.0,220.0,287.5
Primas,std,106.066017,113.137085,159.099026
Primas,min,70.0,140.0,175.0
Primas,25%,107.5,180.0,231.25
Primas,50%,145.0,220.0,287.5
Primas,75%,182.5,260.0,343.75
Primas,max,220.0,300.0,400.0


In [35]:
# Reporte transpuesto de una sola empresa
por_empresa.describe().transpose()['Movistar']

Primas  count      2.000000
        mean     220.000000
        std      113.137085
        min      140.000000
        25%      180.000000
        50%      220.000000
        75%      260.000000
        max      300.000000
Name: Movistar, dtype: float64

Como siempre más información sobre las agrupaciones en la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html).