# Grupos y  operaciones de agregación

Después de realizar la importación de datos y procesarlos, una de las tareas más habituales es la agrupación de dichos datos en base a alguna característica, para posteriormente realizar operaciones sobre cada uno de los grupos obtenidos. Ésto se realiza habitualmente en un único paso gracias al método `groupby` de la clase `DataFrame`. Se trata de una operación con funcionalidad similar a la sentencia *group by* del lenguaje SQL.

## La operación Groupby

Por un lado, los  datos se dividen en grupos en base a una o más características. Por ejemplo, es posible hacer grupos de filas (`axis` = 0) o hacer grupos de columnas (`axis` = 1). 
Una vez creados los grupos, es posible realizar alguna operación con cada grupo. Por ejemplo, operaciones de agregación. Se aplica una función (predefinida o de usuario) a cada uno de los grupos. El resultado es un valor para cada uno de los grupos. También es posible realizar operaciones de transformación. Éstas se aplican a cada uno de los grupos y se obtiene como resultado una serie para cada grupo. 

Veamos algunos ejemplos. En primer lugar definimos un dataframe con datos numéricos y datos de tipo cadena.

In [26]:
import numpy as np
import pandas as pd

In [27]:
datos =[['Chile', 'South America', 'Dutch', 35],
        ['Burundi', 'Africa', 'French',2],
        ['China', 'Asia', 'Dutch', 62],
        ['Cuba', 'North America', 'Dutch', 40],
        ['Andorra', 'Europe', 'French', 6],
        ['China', 'Asia', 'Greek', 2],
        ['Burundi', 'Africa', 'French', 1],
        ['Belgium', 'Europe', 'Dutch', 50],
        ['Belgium', 'Europe', 'French', 32],
        ['Cuba', 'North America', 'Greek', 3]]


In [28]:
t = pd.DataFrame(datos, columns = ['País', 'Continente', 'Idioma', 'Población %'])
t

Unnamed: 0,País,Continente,Idioma,Población %
0,Chile,South America,Dutch,35
1,Burundi,Africa,French,2
2,China,Asia,Dutch,62
3,Cuba,North America,Dutch,40
4,Andorra,Europe,French,6
5,China,Asia,Greek,2
6,Burundi,Africa,French,1
7,Belgium,Europe,Dutch,50
8,Belgium,Europe,French,32
9,Cuba,North America,Greek,3


Supongamos que nos interesa conocer el número de idiomas que se habla en cada país. Una forma de resolverlo es hacer tantos grupos como países y posteriormente contar el número de tuplas de cada grupo. En primer lugar invocaremos al método `groupby` con la columna `País`.


In [29]:
g = t.groupby(['País'])
g

<pandas.core.groupby.groupby.DataFrameGroupBy object at 0x0000017AB53BF208>

El resultado de la operación `groupby`  es un objeto de tipo `Groupby`. Los objetos de tipo `Groupby` tiene una serie de propiedades, por ejemplo la propiedad `groups`.

In [30]:
g.groups

{'Andorra': Int64Index([4], dtype='int64'),
 'Belgium': Int64Index([7, 8], dtype='int64'),
 'Burundi': Int64Index([1, 6], dtype='int64'),
 'Chile': Int64Index([0], dtype='int64'),
 'China': Int64Index([2, 5], dtype='int64'),
 'Cuba': Int64Index([3, 9], dtype='int64')}

La propiedad `ngroups` indica el número de grupos en los que se ha dividido el dataframe original.

In [31]:
g.ngroups

6

El método `size` de la clase `GroupBy` devuelve como resultado una serie, donde el índice está formado por los nombres de cada grupo y los valores asociados se corresponden con el  tamaño del grupo. 

In [32]:
g.size()

País
Andorra    1
Belgium    2
Burundi    2
Chile      1
China      2
Cuba       2
dtype: int64

Lo más habitual es realizar la operación de división en grupos y posteriormente aplicar alguna operación de apregación. Por ejemplo, podemos aplicar la función de agregación `count`, que cuenta el número de filas del grupo.

In [33]:
t

Unnamed: 0,País,Continente,Idioma,Población %
0,Chile,South America,Dutch,35
1,Burundi,Africa,French,2
2,China,Asia,Dutch,62
3,Cuba,North America,Dutch,40
4,Andorra,Europe,French,6
5,China,Asia,Greek,2
6,Burundi,Africa,French,1
7,Belgium,Europe,Dutch,50
8,Belgium,Europe,French,32
9,Cuba,North America,Greek,3


In [34]:
t.groupby(['País']).Idioma.count()

País
Andorra    1
Belgium    2
Burundi    2
Chile      1
China      2
Cuba       2
Name: Idioma, dtype: int64

Para conocer el número de países en los que se habla un determinado idioma, será necesario agrupar los datos por idioma y posteriormente aplicar la función de agregación `count`, lo que nos dará como resultado el número de paises.

In [35]:
t.groupby(['Idioma']).País.count()

Idioma
Dutch     4
French    4
Greek     2
Name: País, dtype: int64

El resultado es una serie donde las etiquetas del índice son los valores del campo de agrupación.  

Para continuar con los ejemplos, supongamos que tenemos un fichero CSV con información de una colección de envíos. De cada uno de ellos conocemos la fecha de entrega, la categoría, el importe, el peso del paquete y un indicador de si es considerado urgente o no.

In [36]:
fact = pd.read_csv("./datos/envios.csv", index_col = [0], parse_dates = [0])
fact

Unnamed: 0,Categoria,Importe,Peso,Urgente
2006-06-20,P,0.9,0.99,Si
2006-10-17,P,4.4,0.2,Si
2006-06-23,M,0.1,2.7,Si
2006-06-24,M,2.7,1.5,Si
2006-06-27,M,2.8,0.34,Si
2006-06-25,G,0.7,1.32,Si
2006-06-21,P,0.4,0.21,No
2006-12-14,P,0.8,0.12,No
2006-06-22,G,4.2,0.4,No
2006-10-29,G,4.99,0.34,No


Supongamos que deseamos conocer la media de `Importe` para cada `Categoría`. En este caso, debemos agrupar por la columna `Categoria`, seleccionar la columna `Importe`, y posteriormente aplicar el método `mean` que calcula la media.

In [37]:
fact.groupby(['Categoria']).Importe.mean()

Categoria
G    3.220000
M    1.866667
P    1.625000
Name: Importe, dtype: float64

Si deseamos calcular la media del importe para cada categoría dependiendo de si es urgente o no,  escribimos lo siguiente: 

In [38]:
fact.groupby(['Categoria', 'Urgente']).Importe.mean()

Categoria  Urgente
G          No         4.060000
           Si         0.700000
M          Si         1.866667
P          No         0.600000
           Si         2.650000
Name: Importe, dtype: float64

En este caso, tenemos que agrupar por los valores de las columnas `Categoria` y `Urgente`. Como podemos observar, el resultado es una serie con índice jerárquico. La función `unstack` devuelve como resultado un dataframe con índice jarárquico para el índice de las columnas.

In [39]:
fact.groupby(['Categoria', 'Urgente']).Importe.mean().unstack()

Urgente,No,Si
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1
G,4.06,0.7
M,,1.866667
P,0.6,2.65


## Iterar sobre grupos

Los objetos de tipo `GroupBy` permiten iteración, generando una secuencia de tuplas del tipo (*nombre_grupo*, *contenido*).

In [40]:
g = fact.groupby(['Categoria', 'Urgente'])

In [41]:
for (nombre_grupo, contenido) in fact.groupby(['Categoria', 'Urgente']):
     print(nombre_grupo)

('G', 'No')
('G', 'Si')
('M', 'Si')
('P', 'No')
('P', 'Si')


Los resultados nos indican que se han creado 5 grupos. El siguiente fragmento de código muestra el contenido de cada uno de los grupos. 

In [42]:
for (nombre_grupo, contenido) in fact.groupby(['Categoria', 'Urgente']):
    print(contenido)

           Categoria  Importe  Peso Urgente
2006-06-22         G     4.20  0.40      No
2006-10-29         G     4.99  0.34      No
2006-06-26         G     2.99  1.10      No
           Categoria  Importe  Peso Urgente
2006-06-25         G      0.7  1.32      Si
           Categoria  Importe  Peso Urgente
2006-06-23         M      0.1  2.70      Si
2006-06-24         M      2.7  1.50      Si
2006-06-27         M      2.8  0.34      Si
           Categoria  Importe  Peso Urgente
2006-06-21         P      0.4  0.21      No
2006-12-14         P      0.8  0.12      No
           Categoria  Importe  Peso Urgente
2006-06-20         P      0.9  0.99      Si
2006-10-17         P      4.4  0.20      Si


El contenido de cada uno de los grupos es un objeto de la clase `DataFrame`.

In [43]:
type(contenido)

pandas.core.frame.DataFrame

## Agrupando con funciones

Para hacer cosas más creativas podemos usar funciones para agrupar datos. Por ejemplo, es posible aplicar una función a cada uno de los valores del índice y agrupar los datos en base al valor devuelto por la función.

In [44]:
fact

Unnamed: 0,Categoria,Importe,Peso,Urgente
2006-06-20,P,0.9,0.99,Si
2006-10-17,P,4.4,0.2,Si
2006-06-23,M,0.1,2.7,Si
2006-06-24,M,2.7,1.5,Si
2006-06-27,M,2.8,0.34,Si
2006-06-25,G,0.7,1.32,Si
2006-06-21,P,0.4,0.21,No
2006-12-14,P,0.8,0.12,No
2006-06-22,G,4.2,0.4,No
2006-10-29,G,4.99,0.34,No


Supongamos que nos interesa conocer el importe total facturado en cada día de la semana. Es decir, el importe facturado los lunes, los martes, etc. La función de usuario `calcular_dia` devuelve como resultado el día de la semana (valor numérico entre 0 y 6) de una fecha.
En primer lugar, importamos la librería `date `.

In [45]:
from datetime import date
def calcular_dia(f):
    return f.weekday()    

Por ejemplo, el día 26 de Junio del año 2006 fué lunes. La función `calcular_dia` devuelve el valor 0.

In [46]:
calcular_dia(date(2006,6,26))

0

El método `groupby` recibe como argumento la función de usuario `calcular_dia`. El resultado es un objeto de tipo `Groupby`  de tamaño 7.

In [47]:
r = fact.groupby(calcular_dia)
r.ngroups                             

7

In [48]:
for (dia, contenido) in r:
    print(dia)
    print(contenido)

0
           Categoria  Importe  Peso Urgente
2006-06-26         G     2.99   1.1      No
1
           Categoria  Importe  Peso Urgente
2006-06-20         P      0.9  0.99      Si
2006-10-17         P      4.4  0.20      Si
2006-06-27         M      2.8  0.34      Si
2
           Categoria  Importe  Peso Urgente
2006-06-21         P      0.4  0.21      No
3
           Categoria  Importe  Peso Urgente
2006-12-14         P      0.8  0.12      No
2006-06-22         G      4.2  0.40      No
4
           Categoria  Importe  Peso Urgente
2006-06-23         M      0.1   2.7      Si
5
           Categoria  Importe  Peso Urgente
2006-06-24         M      2.7   1.5      Si
6
           Categoria  Importe  Peso Urgente
2006-06-25         G     0.70  1.32      Si
2006-10-29         G     4.99  0.34      No


Para conocer el importe total de cada grupo, aplicamos la función de agregación `sum` a la columna `Importe` de cada uno de los grupos.

In [49]:
fact.groupby(calcular_dia).Importe.sum() 

0    2.99
1    8.10
2    0.40
3    5.00
4    0.10
5    2.70
6    5.69
Name: Importe, dtype: float64

## Agrupando por índice

Los valores por los que se desea agrupar, no siempre se correponden con valores en columnas del dataframe. El argumento `axis` del método `groupby` permite indicar si la agrupación se realizará por etiquetas en el índice (`axis` = 0), o por valores de columnas (`axis` = 1). Además, el argumento `level` permite indicar el nivel de índice por el que se quiere agrupar.

In [50]:
datos = {'Producto': ['p1', 'p2', 'p3', 'p3', 'p2', 'p4', 'p2'],
         'Cantidad': [2.0, 3.0, 4.0, 1.0, 2.0, 5.0, 1.0], 
         'Precio' : [1.0, 3.0, 2.0, 1.0, 4.0, 2.0, 3.0]}

In [51]:
pedidos = pd.DataFrame(datos,
                       columns = ['Producto', 'Cantidad', 'Precio'], 
                       index = ['101', '101', '102', '102', '103', '103', '103']
                        )
pedidos

Unnamed: 0,Producto,Cantidad,Precio
101,p1,2.0,1.0
101,p2,3.0,3.0
102,p3,4.0,2.0
102,p3,1.0,1.0
103,p2,2.0,4.0
103,p4,5.0,2.0
103,p2,1.0,3.0


El dataframe `pedidos` recoge información de codigo de pedido (etiquetas del índice de las filas), el código de producto, la cantidad de producto dentro de cada pedido y el precio. 

Si queremos calcular el precio medio de cada pedido, escribimos lo siguiente:

In [52]:
pedidos.groupby(axis = 0, level = 0).Precio.mean()

101    2.0
102    1.5
103    3.0
Name: Precio, dtype: float64

Agrupamos a nivel de índice de filas e indicamos el nivel. Posteriormente aplicamos la media (función  `mean`) a la columna `Precio`.

## Funciones de agregación

Una vez que tenemos los datos divididos en grupos, las operaciones  de agregación  (`mean`, `sum`, `count`, etc.) permiten realizar operaciones cuyo resultado es un único valor por grupo. También es posible definir funciones de usuario y utilizarlas una vez construidos los grupos. Para ello usamos la función `agg`.

Supongamos que queremos calcular el precio total de cada pedido menos el precio del producto más barato. 

In [53]:
pedidos

Unnamed: 0,Producto,Cantidad,Precio
101,p1,2.0,1.0
101,p2,3.0,3.0
102,p3,4.0,2.0
102,p3,1.0,1.0
103,p2,2.0,4.0
103,p4,5.0,2.0
103,p2,1.0,3.0


En primer lugar definimos la función que realiza el cálculo deseado. La función `total_desc` recibe como argumento una serie, calcula la suma de los valores (método `sum`), el mínimo valor (método `min`) y devuelve la diferencia de ambos valores.

In [54]:
def total_desc(datos): 
    minimo = datos.min()            
    total = datos.sum() - minimo
    return total

Posteriormente, aplicamos la función de usuario `total_desc` como argumento de `agg` a la columna `Precio` de cada uno de los grupos.

In [55]:
totales_descuento = pedidos.groupby(level = 0, axis = 0).Precio.agg(total_desc)
totales_descuento

101    3.0
102    2.0
103    7.0
Name: Precio, dtype: float64

La función `agg` admite una lista de funciones de agregación como argumento. Como resultado obtendremos un objeto de tipo `DataFrame`, con tantas columnas como funciones de agregación en la lista.

In [56]:
resumen = pedidos.groupby(level = 0, axis = 0).Precio.agg([sum, total_desc])
resumen

Unnamed: 0,sum,total_desc
101,4.0,3.0
102,3.0,2.0
103,9.0,7.0


## Otras formas de agregación 

A diferencia de las funciones de agregación vistas en la sección anterior, el método `transform` de la clase `Groupgy` permite aplicar una función a cada uno de los grupos, devolviendo como resultado una serie con tantos valores como el tamaño del grupo (no un valor único por grupo).

El dataframe `tiempos` recoge medicciones del tiempo (en segundos) que tardan en ejecutarse varios procesos en sus distintas versiones. 

In [57]:
datos = {'Proceso': ['A', 'B', 'A',  'A', 'B', 'A', 'B' ],
         'Version' : ['0.0', '0.1', '1.1', '2.3', '2.1', '3.0', '3.1'],
         'Segundos' : [20, 20, 30,  40, 50, 60, 70 ]}

tiempos = pd.DataFrame(datos)
tiempos

Unnamed: 0,Proceso,Version,Segundos
0,A,0.0,20
1,B,0.1,20
2,A,1.1,30
3,A,2.3,40
4,B,2.1,50
5,A,3.0,60
6,B,3.1,70


Supongamos que queremos calcular la diferencia de tiempos de cada proceso con respecto al mejor tiempo de dicho proceso. La función de usuario `diferencia` recibe una serie como argumento, calcula el mínimo valor (método `min`) y devuelve la diferencia entre cada valor de la serie y el mínimo calculado. El resultado es una serie.

In [58]:
def diferencia(x):
    minimo = x.min()        
    return x - minimo    

El método `transform` permite aplicar la función `diferencia` a cada uno de los grupos.

In [59]:
t = tiempos.groupby(['Proceso']).Segundos.transform(diferencia)
t

0     0
1     0
2    10
3    20
4    30
5    40
6    50
Name: Segundos, dtype: int64

In [60]:
tiempos.insert(3, 'Diferencia', t)
tiempos

Unnamed: 0,Proceso,Version,Segundos,Diferencia
0,A,0.0,20,0
1,B,0.1,20,0
2,A,1.1,30,10
3,A,2.3,40,20
4,B,2.1,50,30
5,A,3.0,60,40
6,B,3.1,70,50


Si queremos calcular la desviación de tiempos con respecto a la media de tiempos de cada proceso, definimos la función `desviacion`.

In [61]:
def desviacion(x):
    media = x.mean()        
    return x - media    

In [62]:
d = tiempos.groupby(['Proceso']).Segundos.transform( desviacion )
d

0   -17.500000
1   -26.666667
2    -7.500000
3     2.500000
4     3.333333
5    22.500000
6    23.333333
Name: Segundos, dtype: float64

In [63]:
tiempos.insert(4, 'Desv', d)
tiempos

Unnamed: 0,Proceso,Version,Segundos,Diferencia,Desv
0,A,0.0,20,0,-17.5
1,B,0.1,20,0,-26.666667
2,A,1.1,30,10,-7.5
3,A,2.3,40,20,2.5
4,B,2.1,50,30,3.333333
5,A,3.0,60,40,22.5
6,B,3.1,70,50,23.333333


El método `apply` es más general que cualquiera de los métodos `agg` o `transform`. Por ejemplo, podemos calcular la suma de los tiempos de cada proceso de distintas formas.

In [64]:
tiempos.groupby(['Proceso']).Segundos.sum()

Proceso
A    150
B    140
Name: Segundos, dtype: int64

In [65]:
tiempos.groupby(['Proceso']).Segundos.agg(np.sum)

Proceso
A    150
B    140
Name: Segundos, dtype: int64

In [66]:
tiempos.groupby(['Proceso']).Segundos.apply(np.sum)

Proceso
A    150
B    140
Name: Segundos, dtype: int64

En los ejemplos anteriores, el resultado es el mismo tanto si aplicamos la función `sum` directamente, como si aplicamos `np.sum` mediante `agg` o `apply`. En el siguiente ejemplo, mostramos que existen diferencias.  

Creamos un nuevo dataframe a partir de `tiempos` seleccionando las columnas `Proceso` y `Segundos`.

In [67]:
sub = tiempos.loc[:,['Proceso', 'Segundos']]
sub

Unnamed: 0,Proceso,Segundos
0,A,20
1,B,20
2,A,30
3,A,40
4,B,50
5,A,60
6,B,70


A continuación agrupamos por proceso y aplicamos la función `sum`.

In [68]:
sub.groupby(['Proceso']).sum()

Unnamed: 0_level_0,Segundos
Proceso,Unnamed: 1_level_1
A,150
B,140


In [69]:
sub.groupby(['Proceso']).apply(np.sum)

Unnamed: 0_level_0,Proceso,Segundos
Proceso,Unnamed: 1_level_1,Unnamed: 2_level_1
A,AAAA,150
B,BBB,140


El método `apply` aplica la función `np.sum` a todas las columnas. La suma de los valores de la columna `Proceso` es la concatenación de cadenas. 

El siguiente ejemplo utiliza el método `apply` para obtener los dos procesos que emplean menos tiempo en ejecutarse.  Las funciones de agregación (tanto las predefinidas como las definidas por el usuario) transforman un grupo en un valor escalar. Pero en este caso, necesitamos aplicar una función que transforme un grupo en un conjunto de filas (dos por cada grupo, los dos procesos más rápidos).

Definimos la función `mejores_tiempos`. 

In [70]:
def mejores_tiempos(datos):
    ordenado = datos.sort_values(by = 'Segundos')    
    return ordenado[:2]

Aplicamos la función de usuario `mejores_tiempos`  usando el método `apply`. El resultado es una serie con índice jerárquico. El primer nivel de índice es el código del proceso, el el segundo nivel se corresponde con el índice en el dataframe original.

In [71]:
sub.groupby('Proceso').apply(mejores_tiempos).Segundos

Proceso   
A        0    20
         2    30
B        1    20
         4    50
Name: Segundos, dtype: int64