
# Grupos y  operaciones de agregación

## Groupby

In [1]:
import pandas as pd

Después de cargar los datos y procesarlos (limpiar y preparar) una de las tareas más habituales es agrupar los datos en base a alguna variable cualitativa, para posteriormente realizar alguna operación sobre cada uno de los grupos obtenidos.

Pandas proporciona la operación `groupby` para este fin. La operación `groupby` se define como la unión de tres procesos (dividir-aplicar-combinar los resultados).

__Ejemplo:__

El fichero [tips.csv](./datos/tips.csv) recoge los datos referentes a las reservas de un restaurante. Muestra los datos del precio de la factura, la propina, sexo de la persona que hizo la reserva, el día, el número de comensales, etc.

In [5]:
tips = pd.read_csv('./datos/tips.csv',
                   skiprows = 3,
                   names = ['Importe', 'Propina', 'Sexo', 'Fumador', 'Dia',
                              'Tipo', 'Comensales']
                          )
tips

Unnamed: 0,Importe,Propina,Sexo,Fumador,Dia,Tipo,Comensales
0,16.99,1.01,Female,No,Sun,Dinner,2;;
1,10.34,1.66,Male,No,Sun,Dinner,3;;
2,21.01,3.50,Male,No,Sun,Dinner,3;;
3,23.68,3.31,Male,No,Sun,Dinner,2;;
4,24.59,3.61,Female,No,Sun,Dinner,4;;
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3;;
240,27.18,2.00,Female,Yes,Sat,Dinner,2;;
241,22.67,2.00,Male,Yes,Sat,Dinner,2;;
242,17.82,1.75,Male,No,Sat,Dinner,2;;


## Ejemplos

### Ejemplo 1:

Calcular el importe medio gastado por Sexo. 

In [6]:
# Agrupamos los datos por sexo

tips_g = tips.groupby(['Sexo']).Importe.mean()
tips_g

Sexo
Female    18.056897
Male      20.744076
Name: Importe, dtype: float64

In [7]:
# Agrupamos los datos por sexo y calculamos la media de todas las columnas numéricas

tips_g = tips.groupby(['Sexo']).mean()
tips_g

  tips_g = tips.groupby(['Sexo']).mean()


Unnamed: 0_level_0,Importe,Propina
Sexo,Unnamed: 1_level_1,Unnamed: 2_level_1
Female,18.056897,2.833448
Male,20.744076,3.089618


In [8]:
# Podemos poner el índice como una columna con la función reset_index

tips_g = tips.groupby(['Sexo']).mean()
tips_g = tips_g.reset_index()

tips_g

  tips_g = tips.groupby(['Sexo']).mean()


Unnamed: 0,Sexo,Importe,Propina
0,Female,18.056897,2.833448
1,Male,20.744076,3.089618


### Ejemplo 2:

Calcular el valor medio de importe y propina  diferenciando por Sexo y si es fumador o no. 

In [9]:
tips_g = tips.groupby(['Sexo','Fumador']).mean()
tips_g.unstack()

  tips_g = tips.groupby(['Sexo','Fumador']).mean()


Unnamed: 0_level_0,Importe,Importe,Propina,Propina
Fumador,No,Yes,No,Yes
Sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Female,18.105185,17.977879,2.773519,2.931515
Male,19.791237,22.2845,3.113402,3.051167


Como podemos ver, en los resultados solo aparecen las columnas numéricas.

La función `reset_index` permite añadir el índice como columnas:

In [10]:
tips_g.reset_index()

Unnamed: 0,Sexo,Fumador,Importe,Propina
0,Female,No,18.105185,2.773519
1,Female,Yes,17.977879,2.931515
2,Male,No,19.791237,3.113402
3,Male,Yes,22.2845,3.051167


También podemos crear un multiíndice para las columnas con la función `unstack`:

In [11]:
tips_g.unstack()

Unnamed: 0_level_0,Importe,Importe,Propina,Propina
Fumador,No,Yes,No,Yes
Sexo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Female,18.105185,17.977879,2.773519,2.931515
Male,19.791237,22.2845,3.113402,3.051167


### Ejemplo 3: 

Calcular el número de reservas realizadas por sexo.  Utiliza la función a agregación `count`.

In [12]:
tips_g = tips.groupby(['Sexo']).Importe.count()
tips_g

Sexo
Female     87
Male      157
Name: Importe, dtype: int64

### Ejemplo 4

Para continuar con los ejemplos, supongamos que tenemos un fichero CSV con información de una colección de envíos. De cada uno de ellos conocemos la fecha de entrega, la categoría, el importe, el peso del paquete y un indicador de si es considerado urgente o no.

In [13]:
fact = pd.read_csv("./datos/envios.csv", index_col = [0], parse_dates = [0])
fact

Unnamed: 0,Categoria,Importe,Peso,Urgente
2006-06-20,P,0.9,0.99,Si
2006-10-17,P,4.4,0.2,Si
2006-06-23,M,0.1,2.7,Si
2006-06-24,M,2.7,1.5,Si
2006-06-27,M,2.8,0.34,Si
2006-06-25,G,0.7,1.32,Si
2006-06-21,P,0.4,0.21,No
2006-12-14,P,0.8,0.12,No
2006-06-22,G,4.2,0.4,No
2006-10-29,G,4.99,0.34,No


Supongamos que deseamos conocer la media de `Importe` para cada `Categoría`. En este caso, debemos agrupar por la columna `Categoria`, seleccionar la columna `Importe`, y posteriormente aplicar el método `mean` que calcula la media.

In [14]:
fact.groupby(['Categoria']).Importe.mean()

Categoria
G    3.220000
M    1.866667
P    1.625000
Name: Importe, dtype: float64

Si deseamos calcular la media del importe para cada categoría dependiendo de si es urgente o no,  escribimos lo siguiente: 

In [15]:
fact.groupby(['Categoria', 'Urgente']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Importe,Peso
Categoria,Urgente,Unnamed: 2_level_1,Unnamed: 3_level_1
G,No,4.06,0.613333
G,Si,0.7,1.32
M,Si,1.866667,1.513333
P,No,0.6,0.165
P,Si,2.65,0.595


En este caso, tenemos que agrupar por los valores de las columnas `Categoria` y `Urgente`. Como podemos observar, el resultado es una serie con índice jerárquico. La función `unstack` devuelve como resultado un dataframe con índice jarárquico para el índice de las columnas.

In [16]:
fact.groupby(['Categoria', 'Urgente']).Importe.mean().unstack()

Urgente,No,Si
Categoria,Unnamed: 1_level_1,Unnamed: 2_level_1
G,4.06,0.7
M,,1.866667
P,0.6,2.65


## Funciones de agregación

Una vez que tenemos los datos divididos en grupos, las operaciones  de agregación  (`mean`, `sum`, `count`, etc.) permiten realizar operaciones cuyo resultado es un único valor por grupo. También es posible definir funciones de usuario y utilizarlas una vez construidos los grupos. Para ello usamos la función `agg`.

Supongamos que queremos calcular el precio total de cada pedido menos el precio del producto más barato. 

In [3]:
datos = {'Pedido': ['101', '101', '102', '102', '103', '103', '103'],
        'Producto': ['p1', 'p2', 'p3', 'p3', 'p2', 'p4', 'p2'],
         'Cantidad': [2.0, 3.0, 4.0, 1.0, 2.0, 5.0, 1.0], 
         'Precio' : [1.0, 3.0, 2.0, 1.0, 4.0, 2.0, 3.0]}

In [4]:
pedidos = pd.DataFrame(datos)
pedidos

Unnamed: 0,Pedido,Producto,Cantidad,Precio
0,101,p1,2.0,1.0
1,101,p2,3.0,3.0
2,102,p3,4.0,2.0
3,102,p3,1.0,1.0
4,103,p2,2.0,4.0
5,103,p4,5.0,2.0
6,103,p2,1.0,3.0


In [5]:
pedidos.groupby('Pedido').sum(numeric_only = True)

Unnamed: 0_level_0,Cantidad,Precio
Pedido,Unnamed: 1_level_1,Unnamed: 2_level_1
101,5.0,4.0
102,5.0,3.0
103,8.0,9.0


El dataframe `pedidos` recoge información de codigo de pedido (etiquetas del índice de las filas), el código de producto, la cantidad de producto dentro de cada pedido y el precio. 

Si queremos calcular el precio medio de cada pedido, escribimos lo siguiente:

En primer lugar definimos la función que realiza el cálculo deseado. La función `total_desc` recibe como argumento una serie, calcula la suma de los valores (método `sum`), el mínimo valor (método `min`) y devuelve la diferencia de ambos valores.

In [19]:
def total_con_descuento(precio):
    importe_total = precio.sum()
    barato = precio.min()
    return importe_total - barato

Posteriormente, aplicamos la función de usuario `total_desc` como argumento de `agg` a la columna `Precio` de cada uno de los grupos.

In [20]:
pedidos.groupby(axis = 0, level = 0).Precio.agg(total_con_descuento)

101    3.0
102    2.0
103    7.0
Name: Precio, dtype: float64

La función `agg` admite una lista de funciones de agregación como argumento. Como resultado obtendremos un objeto de tipo `DataFrame`, con tantas columnas como funciones de agregación en la lista.

In [21]:
resumen = pedidos.groupby(level = 0, axis = 0).Precio.agg([sum, min , max, total_con_descuento])
resumen

Unnamed: 0,sum,min,max,total_con_descuento
101,4.0,1.0,3.0,3.0
102,3.0,1.0,2.0,2.0
103,9.0,2.0,4.0,7.0


## References

* [Python Data Analysis Library](http://pandas.pydata.org/)
* [Python for Data Analysis](http://shop.oreilly.com/product/0636920023784.do)