# Agrupaciones

La clase `DataFrame` contiene un método llamado `groupby` que permite agrupar filas mediante funciones de agregación:

In [1]:
import pandas as pd

# Creamos un diccionario con mucha información
ventas = {
    'Comercial': ['Juan', 'María', 'Manuel', 'Vanesa', 'Ana', 'Marcos'],
    'Empresa': ['Liberty', 'Claro', 'Liberty', 'Kolbi', 'Liberty', 'Kolbi'],
    'Plan': [24000, 18000, 48000, 8000, 15000, 17000]
} 

In [2]:
df = pd.DataFrame(ventas)

df

Unnamed: 0,Comercial,Empresa,Plan
0,Juan,Liberty,24000
1,María,Claro,18000
2,Manuel,Liberty,48000
3,Vanesa,Kolbi,8000
4,Ana,Liberty,15000
5,Marcos,Kolbi,17000


Utilizando `groupby` podemos agrupar las filas en función del nombre de la columna, por ejemplo el nombre de la `Empresa`, al hacerlo se generará un nuevo objeto de tipo `DataFrameGroupBy`:

In [3]:
df.groupby('Empresa')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002585B1B5E80>

Este objeto se puede asignar a una variable para trabajar con él a fondo:

In [4]:
por_empresa = df.groupby("Empresa")

Con los métodos de agregación podemos analizar la información agrupada:

In [5]:
# Plan media por empresa
media_plan = por_empresa.mean('Plan')

# Mostramos el resultado
print(media_plan)

            Plan
Empresa         
Claro    18000.0
Kolbi    12500.0
Liberty  29000.0


In [6]:
# Lo mismo sin guardar el objeto en una variable
df.groupby('Empresa').mean('Plan')

Unnamed: 0_level_0,Plan
Empresa,Unnamed: 1_level_1
Claro,18000.0
Kolbi,12500.0
Liberty,29000.0


Otros métodos útiles:

In [7]:
# Desviación estándar (dispersion del conjunto)
resultado = por_empresa['Plan'].agg(['mean', 'std'])

resultado

Unnamed: 0_level_0,mean,std
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
Claro,18000.0,
Kolbi,12500.0,6363.961031
Liberty,29000.0,17058.722109


In [8]:
# Primas mínimas (error)
por_empresa.min('Plan')

Unnamed: 0_level_0,Plan
Empresa,Unnamed: 1_level_1
Claro,18000
Kolbi,8000
Liberty,15000


In [9]:
# ID de las primas mínimas
por_empresa['Plan'].idxmin()

Empresa
Claro      1
Kolbi      3
Liberty    4
Name: Plan, dtype: int64

In [10]:
# Usamos las ID de las primas máximas como fuente del df
df.loc[por_empresa['Plan'].idxmax()]

Unnamed: 0,Comercial,Empresa,Plan
1,María,Claro,18000
5,Marcos,Kolbi,17000
2,Manuel,Liberty,48000


In [11]:
# Primas mínimas
df.loc[por_empresa['Plan'].idxmin()]

Unnamed: 0,Comercial,Empresa,Plan
1,María,Claro,18000
3,Vanesa,Kolbi,8000
4,Ana,Liberty,15000


In [12]:
# Contador de primas por empresa
por_empresa['Plan'].count()

Empresa
Claro      1
Kolbi      2
Liberty    3
Name: Plan, dtype: int64

In [13]:
# Reporte de analíticas descriptivas por empresa
por_empresa.describe()

Unnamed: 0_level_0,Plan,Plan,Plan,Plan,Plan,Plan,Plan,Plan
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
Claro,1.0,18000.0,,18000.0,18000.0,18000.0,18000.0,18000.0
Kolbi,2.0,12500.0,6363.961031,8000.0,10250.0,12500.0,14750.0,17000.0
Liberty,3.0,29000.0,17058.722109,15000.0,19500.0,24000.0,36000.0,48000.0


In [14]:
# Reporte transpuesto (filas por columnas)
por_empresa.describe().transpose()

Unnamed: 0,Empresa,Claro,Kolbi,Liberty
Plan,count,1.0,2.0,3.0
Plan,mean,18000.0,12500.0,29000.0
Plan,std,,6363.961031,17058.722109
Plan,min,18000.0,8000.0,15000.0
Plan,25%,18000.0,10250.0,19500.0
Plan,50%,18000.0,12500.0,24000.0
Plan,75%,18000.0,14750.0,36000.0
Plan,max,18000.0,17000.0,48000.0


In [15]:
# Reporte transpuesto de una sola empresa
por_empresa.describe().transpose()['Movistar']

KeyError: 'Movistar'

Como siempre más información sobre las agrupaciones en la [documentación oficial](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.groupby.html).