
# Grupos y  operaciones de agregación

In [1]:
import numpy as np
import pandas as pd

Después de cargar los datos y procesarlos (limpiar y preparar) una de las tareas más habituales es agrupar los datos en base a alguna variable cualitativa, para posteriormente realizar alguna operación sobre cada uno de los grupos obtenidos.

Pandas proporciona la operación __groupby__ para este fin. La operación __groupgy__ se define como la unión de tres procesos (dividir-aplicar-combinar los resultados).

* __Dividir__: Los datos se dividen en grupos en base a una o más claves. Por ejemplo es posible hacer grupos de filas (axis = 0) o hacer grupos de columnas (axis = 1)

* __Aplicar__: Una vez creados los grupos, es posible realizar alguna tarea con cada grupo:
    * __Agregación__: Se aplica una función (predefinida o de usuario) a cada uno de los grupos (sum, mean, count, max, etc) de forma que se obtiene como resultado un valor para cada grupo. 
    * __Transformación__: Se aplica una función a cada grupo y se obtiene como resultado una Serie de datos. El resultado es el DataFrame original con una nueva columna(s) que es el resultado de la función.
    * __Filtro__: permite descartar alguno de los grupos en base a algún criterio (grupos con pocos miembros, etc)
    

* __Combinar los resultados__: Los resultados de la función de agregación se combinan en una única estructura

__Ejemplo:__

Dado el fichero [worldLanAll.csv](./datos/worldLanAll.csv), supongamos que nos interesa conocer el número de idiomas que se hablan en los distintos países: 

In [2]:
tabla_idiomas = pd.read_table('./datos/worldLanAll.csv', delimiter = ';',                              
                               names = ['Pais', 'Continente', 'Idioma', '% Poblacion']
                             )
tabla_idiomas.head()


Unnamed: 0,Pais,Continente,Idioma,% Poblacion
0,Aruba,North America,Dutch,5.3
1,Aruba,North America,English,9.5
2,Aruba,North America,Papiamento,76.7
3,Aruba,North America,Spanish,7.4
4,Afghanistan,Asia,Balochi,0.9


In [3]:
# Primera fase: Dividir
grupos = tabla_idiomas.groupby(['Pais'])

Como resultado de agrupar los datos, Python nos devuelve un objeto de tipo _Groupby_.

In [4]:
# Calculo el número de grupos (número de países)
len(tabla_idiomas.groupby(['Pais']))      
len(grupos)

31

In [5]:
# Dividir + aplicar (agregación)
t = tabla_idiomas.groupby(['Pais']).count()
t.Idioma


Pais
Afghanistan               5
Albania                   3
American Samoa            3
Andorra                   4
Angola                    9
Anguilla                  1
Antigua and Barbuda       2
Argentina                 3
Armenia                   2
Aruba                     4
Australia                 8
Austria                   8
Azerbaijan                4
Bahamas                   2
Bahrain                   2
Bangladesh                7
Barbados                  2
Belarus                   4
Belgium                   6
Belize                    4
Benin                     7
Bermuda                   1
Bolivia                   1
Bosnia and Herzegovina    1
Brazil                    5
Brunei                    3
Bulgaria                  4
Burkina Faso              6
Burundi                   3
Netherlands Antilles      3
United Arab Emirates      2
Name: Idioma, dtype: int64

La función __size__ calcula el tamaño de cada uno de los grupos.

__Ejemplo:__

Nos gustaría saber cual es el idioma  (o idiomas)  que se hablan en  más países.

In [6]:
# Dividir + aplicar (agregación)+ combinar
t = tabla_idiomas.groupby(['Idioma']).count()
t[t.Pais == t.Pais.max()]

Unnamed: 0_level_0,Pais,Continente,% Poblacion
Idioma,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
English,11,11,11


In [7]:
# Dividir + aplicar (agregación)+ combinar
t = tabla_idiomas.groupby(['Idioma']).count()
t = t[t.Pais == t.Pais.max()]
t

Unnamed: 0_level_0,Pais,Continente,% Poblacion
Idioma,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
English,11,11,11


__Ejemplo:__

El fichero [tips.csv](./datos/tips.csv) recoge los datos referentes a las reservas de un restaurante. Muestra los datos del precio de la factura, la propina, sexo de la persona que hizo la reserva, el día, el número de comensales, etc.

In [8]:
tips = pd.read_csv('./datos/tips.csv',
                   skiprows = 1,
                   names = ['Importe_Factura', 'Propina', 'Sexo', 'Fumador', 'Dia',
                              'Tipo', 'Comensales']
                          )
tips.head()

Unnamed: 0,Importe_Factura,Propina,Sexo,Fumador,Dia,Tipo,Comensales
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4


Deseamos conocer la media del importe de factura dependiendo del sexo y de si el cliente en fumador o no.

In [9]:
tips_g = tips.groupby(['Sexo','Fumador']).mean()
tips_g

Unnamed: 0_level_0,Unnamed: 1_level_0,Importe_Factura,Propina,Comensales
Sexo,Fumador,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,No,18.105185,2.773519,2.592593
Female,Yes,17.977879,2.931515,2.242424
Male,No,19.791237,3.113402,2.71134
Male,Yes,22.2845,3.051167,2.5


Como podemos ver, en los resultados solo aparecen las columnas numéricas.

La función __unstack__ permite mostrar los resultados donde el índice es de un único nivel:

In [10]:
tips_g.unstack()

Unnamed: 0_level_0,Importe_Factura,Importe_Factura,Propina,Propina,Comensales,Comensales
Fumador,No,Yes,No,Yes,No,Yes
Sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Female,18.105185,17.977879,2.773519,2.931515,2.592593,2.242424
Male,19.791237,22.2845,3.113402,3.051167,2.71134,2.5


Con esta información se puede hacer lo que se desee. 

## Dividir : Agrupando con funciones

Para hacer cosas más creativas podemos usar funciones para agrupar datos. La idea es aplicar una función a cada uno de los valores de los índices. La función devuelve un valor. La función de agrupación creará grupos basados en el valor devuelto por la función.

__Ejemplo:__

El dataset [facturacion.csv](./datos/facturacion.csv) recoge los datos de facturación de una empresa de transporte.


In [11]:
fact = pd.read_table('./datos/facturacion.csv', delimiter =';', 
                     index_col = [0], 
                     parse_dates=[0]     )
fact.head()

Unnamed: 0_level_0,Importe,Tipo_prod
last_update,Unnamed: 1_level_1,Unnamed: 2_level_1
2006-02-20 05:03:00,0.99,PG
2004-10-01 05:03:00,4.99,G
2005-02-22 05:03:00,2.99,NC-17
2006-02-02 05:03:00,2.99,G
2006-04-20 05:03:00,2.99,G


Nos interesaría conocer el importe total facturado en cada día de la semana. Es decir, el importe facturado los lunes, los martes, etc.

In [12]:
from datetime import datetime, date, time

def calcular_dia(f):
    return f.weekday()    # devuelve el día de la semana


In [13]:
# agrupar
r = fact.groupby(calcular_dia)
len(r)

7

In [14]:
# calculamos el importe facturado en cada día de la semana
# agrupar + aplicar + combinar
fact.groupby(calcular_dia).sum() 

Unnamed: 0,Importe
0,498.34
1,323.99
2,1019.43
3,87.7
4,916.98
5,122.61
6,10.95


## Agrupando por índice

__Ejemplo:__

Supongamos que el índice de la tabla es el número de pedido. En ese caso, si queremos agrupar por número de pedido, tendremos que agrupar por valor de los índices.

In [15]:
tabla_pedidos = pd.read_excel('./datos/pedidos.xls', index_col  = [0]  )
tabla_pedidos.iloc[-10:]                   # muestro solo las 10 primeras entradas

Unnamed: 0_level_0,linea_de_pedido,producto,cantidad,precio
Numero_pedido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10126,9,S18_4668,43,53.83
10126,1,S24_2300,27,126.51
10126,15,S24_4258,34,105.18
10126,3,S32_1268,43,96.31
10126,7,S32_3522,26,62.7
10126,6,S700_2824,45,102.16
10127,2,S12_1108,46,245.2
10127,3,S12_3148,46,160.14
10127,1,S12_3891,42,193.78
10127,11,S12_4473,24,106.65


Para agrupar por el índice del DataFrame necesitamos inicar el nivel del índice (o el nombre) y el axis = 0 en la función __groupby__.

In [16]:
t = tabla_pedidos.loc[:,['cantidad', 'precio']].groupby(level = 0, axis = 0).mean()
t[-6:]

Unnamed: 0_level_0,cantidad,precio
Numero_pedido,Unnamed: 1_level_1,Unnamed: 2_level_1
10122,32.058824,96.514706
10123,39.0,111.7775
10124,34.461538,77.202308
10125,33.0,146.2
10126,36.294118,100.862941
10127,39.5,176.4425


## Aplicar (Agregación):  Funciones de agrupación

Una vez que tenemos los datos divididos por grupos, las funciones de agregación permiten realizar operaciones sobre un array de datos cuyo resultado es un único valor.
Ya hemos visto unas cuantas de estas funciones de agrupación: __sum__, __mean__, __count__, __max__. Todas ellas son funciones predefinidas en Python.

Pero también es posible definir funciones de usuario y utilizarlas una vez construidos los grupos usando la función __agg__.

__Ejemplo:__

Volvemos al dataset de [pedidos](./datos/pedidos.xls). Supongamos que queremos regalar el producto de menor valor a nuestro clientes. Y queremos calcular el precio total de cada pedido (descontando el producto que se regala). 

In [17]:
tabla_pedidos = pd.read_excel('./datos/pedidos.xls')
tabla_pedidos.head()                  # muestro solo las 10 primeras entradas

Unnamed: 0,Numero_pedido,linea_de_pedido,producto,cantidad,precio
0,10105,3,S700_2610,31,65.77
1,10105,6,S700_3505,39,81.14
2,10105,7,S700_3962,22,116.19
3,10105,8,S72_3212,25,56.78
4,10106,12,S18_1662,36,146.65


In [18]:
tabla_pedidos[tabla_pedidos.Numero_pedido == 10124]

Unnamed: 0,Numero_pedido,linea_de_pedido,producto,cantidad,precio
164,10124,6,S18_1749,21,136.0
165,10124,5,S18_2248,42,53.88
166,10124,3,S18_2325,42,105.52
167,10124,7,S18_4409,36,85.59
168,10124,8,S18_4933,23,57.73
169,10124,12,S24_1046,22,77.9
170,10124,2,S24_1937,45,37.84
171,10124,1,S24_2022,22,45.25
172,10124,10,S24_2766,32,72.7
173,10124,9,S24_2887,25,93.95


In [19]:
def total_desc(datos):              # recibe un array de datos
    minimo = datos.min()
    total = datos.sum() - minimo
    return total

In [20]:
totales_descuento = tabla_pedidos.groupby(['Numero_pedido']).precio.agg(total_desc)
totales_descuento[-4:]

Numero_pedido
10124     970.40
10125     190.69
10126    1660.84
10127     599.12
Name: precio, dtype: float64

A la función __agg__ le podemos pasar una lista de funciones de agregación. Como resultado obtendremos una columna para cada función de agregación.

In [21]:
resumen = tabla_pedidos.groupby(['Numero_pedido']).precio.agg([sum, total_desc])
resumen[-4:]

Unnamed: 0_level_0,sum,total_desc
Numero_pedido,Unnamed: 1_level_1,Unnamed: 2_level_1
10124,1003.63,970.4
10125,292.4,190.69
10126,1714.67,1660.84
10127,705.77,599.12


## Aplicar (Transformación) : Función __transform__

Se aplica una función a cada grupo y se obtiene como resultado una Serie de datos ( no un valor único) del mismo tamaño del grupo. El resultado es el DataFrame original con una nueva columna(s) que es el resultado de la función.

In [22]:
tabla_pedidos = pd.read_excel('./datos/pedidos.xls'
                             )
tabla_pedidos.iloc[-5:]                   # muestro solo las 10 primeras entradas

Unnamed: 0,Numero_pedido,linea_de_pedido,producto,cantidad,precio
195,10126,6,S700_2824,45,102.16
196,10127,2,S12_1108,46,245.2
197,10127,3,S12_3148,46,160.14
198,10127,1,S12_3891,42,193.78
199,10127,11,S12_4473,24,106.65


In [23]:
tabla_pedidos.groupby(['Numero_pedido']).precio.mean()[10127]

176.4425

In [24]:
def des(x):
    media = x.mean()
    return x-media

t = tabla_pedidos.groupby(['Numero_pedido']).precio.transform(des)
t[-6:]

194   -38.162941
195     1.297059
196    68.757500
197   -16.302500
198    17.337500
199   -69.792500
Name: precio, dtype: float64

In [25]:
desviacion = pd.DataFrame(t)
desviacion = desviacion.rename( columns = {'precio' : 'Desviacion' })
desviacion[-6:]

Unnamed: 0,Desviacion
194,-38.162941
195,1.297059
196,68.7575
197,-16.3025
198,17.3375
199,-69.7925


In [26]:
t = tabla_pedidos.join(desviacion)
t.tail()

Unnamed: 0,Numero_pedido,linea_de_pedido,producto,cantidad,precio,Desviacion
195,10126,6,S700_2824,45,102.16,1.297059
196,10127,2,S12_1108,46,245.2,68.7575
197,10127,3,S12_3148,46,160.14,-16.3025
198,10127,1,S12_3891,42,193.78,17.3375
199,10127,11,S12_4473,24,106.65,-69.7925


### References

* [Python Data Analysis Library](http://pandas.pydata.org/)
* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)