## Agrupaciones
Las agrupaciones realizadas con el método de series y dataframes **groupby** son una herramienta extremadamente útil. 
### Agrupaciones en series
**by** se utiliza para determinar los grupos.Puede ser una función, un diccionario o una serie.

In [7]:
import pandas as pd
import numpy as np

In [8]:
ventas = pd.Series([2, 4, 1, 6, 2], index = ["A","B","C","A","C"])
ventas

A    2
B    4
C    1
A    6
C    2
dtype: int64

In [9]:
#Función que determine los grupos, definimos una que simplemente devuelva
# la concatenación del texto "Grupo"
def grupo(s):
    return ("Grupo" + s)

In [11]:
ventas.groupby(by = grupo).mean()

GrupoA    4.0
GrupoB    4.0
GrupoC    1.5
dtype: float64

In [12]:
#Ahora by recibirá un diccionario
d = {"A":"Producto A", "B":"Producto B","C":"Producto C"}

In [14]:
ventas.groupby(by = d).mean()

Producto A    4.0
Producto B    4.0
Producto C    1.5
dtype: float64

### Agrupaciones en dataframes
iene una funcionalidad semejante a la vista para series, con los condicionantes propios de los dataframes: es necesario indicar el eje que contiene el criterio por el que se va a realizar la agrupación. 

In [17]:
ventas = pd.DataFrame({
    "Categoría":[1,2,1,1,2,1],
    "Producto":["A","B","C","B","A","A"],
    "Ventas":[6,2,1,4,5,2]
})
ventas

Unnamed: 0,Categoría,Producto,Ventas
0,1,A,6
1,2,B,2
2,1,C,1
3,1,B,4
4,2,A,5
5,1,A,2


In [18]:
#Podemos pasar simplemente la etiqueta Producto,los agrupará y para ver
#el resultado tendremos que aplicar alguna funcion como la media.
ventas.groupby(by = "Producto").mean()

Unnamed: 0_level_0,Categoría,Ventas
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
A,1.333333,4.333333
B,1.5,3.0
C,1.0,1.0


In [20]:
#Para realizar la agrupación por más de una columna
ventas.groupby(by = ["Categoría","Producto"]).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Categoría,Producto,Unnamed: 2_level_1
1,A,4
1,B,4
1,C,1
2,A,5
2,B,2


### Tablas dinámicas
Es una tabla que muestra información resumida extraída de otra tabla. Esta última es un listado de muestras (registros o puntos) con un cierto número de campos o características, por ejemplo

In [21]:
df = pd.DataFrame({
    'foo': ['one', 'one', 'one', 'two', 'two', 'two'],
    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
    'baz': [1, 2, 3, 4, 5, 6],
    'zoo': ['x', 'y', 'z', 'q', 'w', 't']
})
df

Unnamed: 0,foo,bar,baz,zoo
0,one,A,1,x
1,one,B,2,y
2,one,C,3,z
3,two,A,4,q
4,two,B,5,w
5,two,C,6,t


El método pandas.DataFrame.pivot_table crea una tabla dinámica de esta forma a partir de un dataframe. Veamos varios ejemplos comenzando por los más simples:

* Podríamos mostrar la distribución de la variable baz respecto de foo y bar de la siguiente forma:

In [22]:
df.pivot_table(index = "foo", columns = "bar", values = "baz")
#INDEX: los valores se distribuyen en el eje vertical.
#COLUMNS: eje horizontal.
#VALUES: intersección de filas y columnas, aplicándoles una cierta función de agaración por ejemplo mean.

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


Por ejemplo, la intersección de foo = one y bar = A representa un conjunto de registros del dataframe que, en nuestro caso, se limita a un único registro (el registro con índice 0) en el que el valor de baz es 1, y su valor medio es 1.

In [23]:
df.pivot_table(index = "foo", columns = "bar", values = "baz", aggfunc = "count")

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,1,1
two,1,1,1


En este ejemplo hemos contado el número de registros representados en cada intersección.

Es posible aplicar más de una función de agregación a los datos. En el siguiente ejemplo aplicamos tanto la función de cálculo del valor medio como el recuento:



In [24]:
df.pivot_table(index = "foo", columns = "bar", values = "baz", aggfunc = [np.mean, "count"])

Unnamed: 0_level_0,mean,mean,mean,count,count,count
bar,A,B,C,A,B,C
foo,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
one,1,2,3,1,1,1
two,4,5,6,1,1,1
