# Agrupaciones y agregaciones: Groupby

El método groupby permite agrupar filas de datos basándose en el valor de una columna, y llamar a funciones de agregación sobre los datos: suma, conteo, promedio, ...

![alt groupby](groupby.PNG "Groupby")

In [1]:
import pandas as pd

# Datos para crear el dataframe
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Persona':['Ana','Carlos','Manuela','Vanessa','Camilo','Sara'],
       'Ventas':[200,120,340,124,243,350]}

In [2]:
df = pd.DataFrame(data)

In [3]:
df

Unnamed: 0,Empresa,Persona,Ventas
0,GOOG,Ana,200
1,GOOG,Carlos,120
2,MSFT,Manuela,340
3,MSFT,Vanessa,124
4,FB,Camilo,243
5,FB,Sara,350


** Ahora usaremos el método .groupby() para agrupar las filas basándose en los datos de una columna. Por ejemplo, el nombre de la compañía. Esto creará un objeto DataFrameGroupBy.**

In [4]:
df.groupby('Empresa')

<pandas.core.groupby.DataFrameGroupBy object at 0x0000003C3E5B0320>

Se puede guardar este objeto como una nueva variable:

In [13]:
by_comp = df.groupby("Empresa",sort=False)

Y luego llamar funciones de agregación sobre este objeto. 
Las funciones de agregación tendrán efecto sobre las columnas que sea posible, es decir, si son funciones numéricas sólo tendrán efecto sobre los datos numéricos: 

In [14]:
by_comp.mean()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
GOOG,160.0
MSFT,232.0
FB,296.5


In [10]:
df.groupby('Empresa').mean()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
FB,296.5
GOOG,160.0
MSFT,232.0


Más ejemplos de funciones de agregación:

In [15]:
by_comp.std()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
GOOG,56.568542
MSFT,152.735065
FB,75.660426


In [16]:
# En este caso la función min también tiene efecto sobre los datos textuales; se devuelve el menor valor de la cadena
# del nombre de las personas (ordenado lexicograficamente). Nótese que el valor de las ventas, no corresponde al de la persona, 
# sino al valor menor de ventas de la empresa. 

by_comp.min()

Unnamed: 0_level_0,Persona,Ventas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
GOOG,Ana,120
MSFT,Manuela,124
FB,Camilo,243


In [17]:
by_comp.max()

Unnamed: 0_level_0,Persona,Ventas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
GOOG,Carlos,200
MSFT,Vanessa,340
FB,Sara,350


In [18]:
by_comp.count()

Unnamed: 0_level_0,Persona,Ventas
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
GOOG,2,2
MSFT,2,2
FB,2,2


In [19]:
by_comp.sum()

Unnamed: 0_level_0,Ventas
Empresa,Unnamed: 1_level_1
GOOG,320
MSFT,464
FB,593


In [20]:
# Podemos acceder a un solo valor:

by_comp.sum().loc['FB']

Ventas    593
Name: FB, dtype: int64

In [21]:
# Muchas veces no se crea un objeto groupby de forma explícita, sino que se utiliza directamente:

df.groupby('Empresa').sum().loc['FB']

Ventas    593
Name: FB, dtype: int64

In [22]:
# El metodo describe es útil para presentar mucha información acerca del dataframe:

by_comp.describe()

Unnamed: 0_level_0,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas,Ventas
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
GOOG,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0
FB,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0


In [23]:
by_comp.describe().transpose()

Unnamed: 0,Empresa,GOOG,MSFT,FB
Ventas,count,2.0,2.0,2.0
Ventas,mean,160.0,232.0,296.5
Ventas,std,56.568542,152.735065,75.660426
Ventas,min,120.0,124.0,243.0
Ventas,25%,140.0,178.0,269.75
Ventas,50%,160.0,232.0,296.5
Ventas,75%,180.0,286.0,323.25
Ventas,max,200.0,340.0,350.0


In [26]:
by_comp.describe().transpose()['GOOG']

Ventas  count      2.000000
        mean     160.000000
        std       56.568542
        min      120.000000
        25%      140.000000
        50%      160.000000
        75%      180.000000
        max      200.000000
Name: GOOG, dtype: float64