# Agrupar Operaciones

Una vez que cargamos y preparamos un dataset, tal vez necesitemos computar estadísticas por grupo o pivot tables para reporte o visualización. La función "group by" nos permite trabajar esto.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df= pd.DataFrame({"key1": ["a", "a", "b", "b", "a"],
                  "key2": ["one", "two", "one", "two", "one"],
                  "data1": np.random.randn(5),
                  "data2": np.random.randn(5)})

print(df)

  key1 key2     data1     data2
0    a  one -0.614413  0.158104
1    a  two  0.978757 -0.903594
2    b  one  0.133972  0.432452
3    b  two  1.636817  1.639538
4    a  one -0.021969  0.152748


Hagamos de cuenta que queremos calcular el promedio de la columna data1, usando las variable de la columnas key1:

In [3]:
grouped= df["data1"].groupby(df["key1"])

print(grouped)

<pandas.core.groupby.generic.SeriesGroupBy object at 0x07650630>


El objeto grouped es ahora un objeto groupby. Todavía no se computó nada. La idea es que este objeto tiene toda la información necesaria para luego aplicar operaciones al grupo.

Por ejemplo, si lo que queremos es calcular el promedio, hacemos lo siguiente:

In [4]:
result= grouped.mean()

print(result)

key1
a    0.114125
b    0.885394
Name: data1, dtype: float64


Otro ejemplo:

In [6]:
grouped1= df["data1"].groupby([df["key1"], df["key2"]])

print(grouped1)

<pandas.core.groupby.generic.SeriesGroupBy object at 0x01038550>


In [7]:
result1= grouped1.mean()

print(result1)

key1  key2
a     one    -0.318191
      two     0.978757
b     one     0.133972
      two     1.636817
Name: data1, dtype: float64


Ahora podemos aplicar el unstack:

In [11]:
result2= result1.unstack()

print(result2)

key2       one       two
key1                    
a    -0.318191  0.978757
b     0.133972  1.636817


Otro ejemplo de una función muy usada es un count (suma, count y primedio son los más usados):

In [12]:
print(df)

  key1 key2     data1     data2
0    a  one -0.614413  0.158104
1    a  two  0.978757 -0.903594
2    b  one  0.133972  0.432452
3    b  two  1.636817  1.639538
4    a  one -0.021969  0.152748


In [14]:
result3= df.groupby(["key1", "key2"])

print(result3)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x01038F50>


In [15]:
result4= result3.size()

print(result4)

key1  key2
a     one     2
      two     1
b     one     1
      two     1
dtype: int64
