In [1]:
import pandas as pd
import numpy as np
import seaborn
%pylab notebook

import hashlib
import humanhash

Populating the interactive namespace from numpy and matplotlib


# Tablas Pivote

Es muy común la agrupación de información en formato 'stack' donde tenemos filas de datos que demuestran una correlación entre dos sets de valores.

Las tablas pivote son una forma de re-ordenar los datos en una estructura tabular donde podemos agrupar los valores convirtiendo las tuplas entre valores numéricos.

En este caso de ejemplo, crearemos un dataset de prueba con la diversidad de restaurantes en varias ciudades centroamericanas. En esta vamos a comenzar a trabajar con dos columnas, una donde describe cada ciudad y la otra con la variedad de cocina disponible en cada una.

In [2]:
data_restaurantes = {
    'ciudades': ['Guatemala','Guatemala','Guatemala','Guatemala','Guatemala','Guatemala','San José','San José','San José','San José','San José','San Salvador','San Salvador','San Salvador'],
    'culinaria': ['Chapina','Chapina','China','Thai','Italiana','Chapina','Italiana','China','Tica','Chapina','Tica','Tica','Italiana','China']
}

restaurantes_dataframe_pares = pd.DataFrame(data_restaurantes)
restaurantes_dataframe_pares

Unnamed: 0,ciudades,culinaria
0,Guatemala,Chapina
1,Guatemala,Chapina
2,Guatemala,China
3,Guatemala,Thai
4,Guatemala,Italiana
5,Guatemala,Chapina
6,San José,Italiana
7,San José,China
8,San José,Tica
9,San José,Chapina


Podemos ver entonces este listado de valores, tupla por tupla. Que tal si queremos contar la presencia de cada tipo de cocina en cada región. Probemos utilizando entonces el comando [DataFrame.pivot_table](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pivot.html) de Pandas.

Este pide unos cuantos argumentos los que podemos ver en la documentación. Unos cuantos son obvios, como el definir las filas y columnas que esperamos de la tabla objetivo.
Sin embargo, lo más notable es que ya que los tipos de datos que estamos utilizando no son numéricos, es necesario que definamos una funcion de agrupación que nos permita contar la cantidad de instancias de cada combinación.

In [3]:
def funcion_agrupacion(elemento):
    return True

agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"],
    columns="culinaria",
    aggfunc=funcion_agrupacion,
    fill_value=False)
agrupacion_culinaria

culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Guatemala,True,True,True,True,False
San José,True,True,True,False,True
San Salvador,False,True,True,False,True


Hmm, esto ya se ve con la forma que queremos, sin embargo solo nos muestra la presencia o ausencia de algún tipo de cocina. Esto es fácil de explicar ya que definimos nuestra función de agrupación como retornar True si existe presencia a retornar False si No. ¿Qué tal si hacemos una mejor función de agrupación?

In [24]:
def funcion_agrupacion(elemento):
    '''Contemos cuantas instancias de cada tupla existen.'''
    ## El comando len(iterable) cuenta la cantidad de elementos que tiene el objeto iterable que le pasemos
    ## los elementos iterables pueden ser listas normales, Series de NumPy o Pandas, o diccionarios y otros tipos de datos.
    return len(elemento)
agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(index=["ciudades"], columns="culinaria", aggfunc=lambda x: funcion_agrupacion(x), fill_value=0)
agrupacion_culinaria

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas
culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Guatemala,3,1,1,1,0
San José,1,1,1,0,2
San Salvador,0,1,1,0,1


¡Genial! Ahora ya tenemos agrupadas estas de una forma coherente. Ahora ya podemos seguir manipulando y editando estos datos.
Pero, ¿qué tal si hacemos un poco más simple esta llamada? Al final nuestra función de agrupación lo unico que hace es contar la cantidad de tuplas sobre las cuales aplica el pivote. ¿Qué tal si lo hacemos un poco más simple?

In [5]:
agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"], 
    columns="culinaria", 
    aggfunc=len, ## Enviamos directamente la función de agrupación. Entre otras funcionas de agrupacíon útiles está np.sum (la función de suma de NumPy) y np.mean (media)
    fill_value=0)
agrupacion_culinaria

culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Guatemala,3,1,1,1,0
San José,1,1,1,0,2
San Salvador,0,1,1,0,1


Claro, la tabla resultante se comporta exactamente igual y tiene todas las propiedades nativas de los DataFrames. ¿Qué tal si limitamos la query a solo los lugares en ciudad de Guatemala?

In [6]:
agrupacion_culinaria.query('ciudades == ["Guatemala"]')

culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Guatemala,3,1,1,1,0


In [32]:
help(restaurantes_dataframe_pares.pivot_table)

Help on method pivot_table in module pandas.core.reshape.pivot:

pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All') method of pandas.core.frame.DataFrame instance
    Create a spreadsheet-style pivot table as a DataFrame. The levels in the
    pivot table will be stored in MultiIndex objects (hierarchical indexes) on
    the index and columns of the result DataFrame
    
    Parameters
    ----------
    data : DataFrame
    values : column to aggregate, optional
    index : column, Grouper, array, or list of the previous
        If an array is passed, it must be the same length as the data. The list
        can contain any of the other types (except list).
        Keys to group by on the pivot table index.  If an array is passed, it
        is being used as the same manner as column values.
    columns : column, Grouper, array, or list of the previous
        If an array is passed, it must be the same len

In [33]:
## Con el argumento Margins, Panda calcula los valores sumados de los totales por agrupación.
agrupacion_culinaria_m = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"],
    columns="culinaria",
    aggfunc=len,
    fill_value=0,
    margins=True,
    margins_name="Total")
agrupacion_culinaria_m

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas,estrellas
culinaria,Chapina,China,Italiana,Thai,Tica,Total
ciudades,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Guatemala,3.0,1.0,1.0,1.0,0.0,6.0
San José,1.0,1.0,1.0,0.0,2.0,5.0
San Salvador,0.0,1.0,1.0,0.0,1.0,3.0
Total,4.0,3.0,3.0,1.0,3.0,14.0


## Múltiples Valores y Múltiples Indices
¿Qué tal si tenemos datos que tienen una estructura Jerárquica inherente? Podemos utilizar la misma forma de multi indexación que vimos en el seminario pasado, lo importante es que a la hora de la definición del índice, Pandas es capaz de manipularlos e inteligentemente ordenar los niveles acorde.

In [8]:
restaurantes_dataframe_pares['estrellas'] = [5,3,3,5,3,1,2,2,4,3,4,3,2,3]
restaurantes_dataframe_estrellas = restaurantes_dataframe_pares
restaurantes_dataframe_estrellas

Unnamed: 0,ciudades,culinaria,estrellas
0,Guatemala,Chapina,5
1,Guatemala,Chapina,3
2,Guatemala,China,3
3,Guatemala,Thai,5
4,Guatemala,Italiana,3
5,Guatemala,Chapina,1
6,San José,Italiana,2
7,San José,China,2
8,San José,Tica,4
9,San José,Chapina,3


Pivotando sobre la especialidad culinaria y estrellas, podemos las ciudades con la mayor oferta culinaria, o cuales tienen el mejor promedio de estrellas.

In [34]:
agrupacion_culinaria_promedio_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["ciudades"], 
    values=["culinaria", "estrellas"], 
    aggfunc={"culinaria":len,"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_promedio_estrellas

Unnamed: 0_level_0,culinaria,estrellas
ciudades,Unnamed: 1_level_1,Unnamed: 2_level_1
Guatemala,6,3.333
San José,5,3.0
San Salvador,3,2.667


¿Qué tal si queremos ver cuantas estrellas en promedio tienen los restaurantes, por clase de comida, por ciudad?

In [38]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["culinaria"], 
    values=["estrellas"], 
    columns=["estrellas"],
    aggfunc={"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_por_estrellas

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas
estrellas,1,2,3,4,5
culinaria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Chapina,1,0,3,0,5
China,0,2,3,0,0
Italiana,0,2,3,0,0
Thai,0,0,0,0,5
Tica,0,0,3,4,0


In [37]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["culinaria"], 
    values=["estrellas"], 
    columns=["estrellas"],
    aggfunc={"estrellas":len},
    fill_value=0)
agrupacion_culinaria_por_estrellas

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas
estrellas,1,2,3,4,5
culinaria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Chapina,1,0,2,0,1
China,0,1,2,0,0
Italiana,0,2,1,0,0
Thai,0,0,0,0,1
Tica,0,0,1,2,0


Hmm... esto no es muy útil, solo nos dice tautológicamente, que los restaurantes de 'n' estrellas tienen 'n' estrellas. ¿Pueden ver porque el error?

In [11]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["ciudades"], 
    values=["estrellas"], 
    columns=["culinaria"], ## Aqui es obvio ver que lo que queremos es diferenciar por variedad culinaria.
    aggfunc={"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_por_estrellas

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas
culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Guatemala,3,3,3,5,0
San José,3,2,2,0,4
San Salvador,0,3,2,0,3


In [12]:
agrupacion_culinaria_por_estrellas.plot(kind="bar")

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x7f806f569898>

Entonces, recapitulando:

**¿De qué nos sirven las tablas pivote?**

**¿Que clase de operación representan?**

**¿En que casos podemos usarlas?**

# Agrupando, parte dos

Ya vimos algunos de los criterios básicos de agrupación en el primer webinar, ahora podemos avanzar un poco, combinando agrupación con pivote.

Tambien podemos usar [stack](https://pandas.pydata.org/pandas-docs/stable/reshaping.html), que es otra forma de agrupación basada en índices.

In [13]:
maga_fitosanitario = pd.read_csv("MAGA - CERTIFICADOS FITOSANITARIOS.csv")

In [14]:
pd.set_option('display.float_format', lambda x: '%.3f' % x)

## Vamos a limpiar un poco de información
def ofusca_nombre(nombre):
    return humanhash.humanize(hashlib.md5(nombre.encode("UTF-8")).hexdigest())

maga_fitosanitario["Solicitante"] = maga_fitosanitario["Solicitante"].map(ofusca_nombre)
maga_fitosanitario["Fecha Autorización"] = maga_fitosanitario["Fecha Autorización"].map(pd.Timestamp)

In [15]:
maga_fitosanitario.head()

Unnamed: 0,Incidente,Fecha Autorización,Solicitante,Permiso,Producto,Categoría,CIF $,Kg. Netos,Aduana,País procedencia,País origen,Otra fuente de origen
0,49,2014-04-04,sodium-pasta-glucose-mexico,142432,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,125.0,13607.79,MELCHOR DE MENCOS,Belice,Belice,
1,50,2014-04-04,sodium-pasta-glucose-mexico,142425,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,75.0,8164.67,MELCHOR DE MENCOS,Belice,Belice,
2,275,2014-07-04,robert-vermont-one-robert,142479,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,2584.1,34836.24,PEDRO DE ALVARADO,Nicaragua,Nicaragua,
3,276,2014-07-04,robert-vermont-one-robert,142480,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,2584.1,34836.24,PEDRO DE ALVARADO,Nicaragua,Nicaragua,
4,177,2014-07-04,zebra-missouri-arkansas-island,142478,HARINA DE TRIGO,HARINA DE TRIGO,81601.21,151800.0,TECUN UMAN,México,México,


In [16]:
maga_fitosanitario.groupby("Producto").sum().sort_values("CIF $", ascending=False).head(20)

Unnamed: 0_level_0,Permiso,CIF $
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1
MAIZ AMARILLO,53491946,183595249.36
HARINA DE SOYA,18899910,56391529.94
ARROZ EN GRANZA,3201212,24568825.5
HARINA DE TRIGO,76664602,24272107.26
AJONJOLI NATURAL,9215686,15985707.0
ARROZ GRANZA,15088878,13883822.8
ALGODON,9014988,12028250.89
ALGODON SIN CARDAR NI PEINAR,5222374,8151960.62
MADERA DE PINO (SECA),9285734,6498009.27
ARROZ,8758770,6111828.36


In [17]:
maga_productos_pivot = maga_fitosanitario.pivot_table(
    index=["Categoría", "Producto"], 
    values=["CIF $", "Permiso"], 
    aggfunc={"CIF $":np.sum,"Permiso":len},
    fill_value=0)

In [18]:
maga_productos_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,CIF $,Permiso
Categoría,Producto,Unnamed: 2_level_1,Unnamed: 3_level_1
AJONJOLI,AJONJOLI DESCORTEZADO,250093.750,1
AJONJOLI,AJONJOLI NATURAL,10702707.000,46
ALGODÓN,ALGODON,12028250.890,62
ALGODÓN,ALGODON (BLANQUEADO),52969.250,1
ALGODÓN,ALGODON (EN PACAS),35604.510,1
ALGODÓN,ALGODON (PACAS),48087.740,1
ALGODÓN,ALGODON (SIN CARDAR NI PEINAR),1934207.840,10
ALGODÓN,ALGODON (SIN PEINAR NI CARDAR),507479.390,2
ALGODÓN,ALGODON BLANQUEADO,52658.400,1
ALGODÓN,ALGODON SI CARDAR NI PEINAR,45158.090,1


In [19]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana"], 
    values=["CIF $", "País procedencia"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0)
maga_aduanas_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,CIF $
País origen,Aduana,Unnamed: 2_level_1
ALEMANIA,EXPRESS AEREO,102326.890
ALEMANIA,PUERTO QUETZAL,1727517.610
ALEMANIA,SANTO TOMAS DE CASTILLA,10050.220
ARGENTINA,PEDRO DE ALVARADO,3166.080
ARGENTINA,PUERTO BARRIOS,163440.650
ARGENTINA,PUERTO QUETZAL,187991.750
ARGENTINA,SANTO TOMAS DE CASTILLA,410929.480
AUSTRALIA,EXPRESS AEREO,94350.000
AUSTRALIA,PUERTO QUETZAL,26932.200
AUSTRALIA,SANTO TOMAS DE CASTILLA,113750.000


Que tal si indagamos mas en las categorias que se importan de cada país.

In [20]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0)
maga_aduanas_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,CIF $
País origen,Aduana,Categoría,Unnamed: 3_level_1
ALEMANIA,EXPRESS AEREO,ESQUEJES RIZOMAS BULBOS,72024.570
ALEMANIA,EXPRESS AEREO,MATERIA PRIMA PARA ALIMENTOS,19900.530
ALEMANIA,EXPRESS AEREO,SEMILLAS DE FLORES,475.790
ALEMANIA,EXPRESS AEREO,SEMILLAS DE HORTALIZA,9926.000
ALEMANIA,PUERTO QUETZAL,MALTA,1727517.610
ALEMANIA,SANTO TOMAS DE CASTILLA,MALTA,10050.220
ARGENTINA,PEDRO DE ALVARADO,MAIZ PARA CONSUMO HUMANO,3166.080
ARGENTINA,PUERTO BARRIOS,FRIJOL NEGRO,139899.690
ARGENTINA,PUERTO BARRIOS,FRIJOL PINTO,23540.960
ARGENTINA,PUERTO QUETZAL,FRUTAS,60811.850


In [21]:
maga_aduanas_pivot_top10 = maga_aduanas_pivot.sort_values("CIF $", ascending=False).head(10)

In [22]:
maga_aduanas_pivot_top10.plot(kind="barh")

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x7f806cc4eeb8>

Tambien es util mostrar la tabla, podemos ponerle un poco de estilo con la funcionalidad de [Seaborn + Pandas](https://pandas.pydata.org/pandas-docs/stable/style.html)

In [23]:
cm_paleta_verde = seaborn.light_palette("green", as_cmap=True)
s = maga_aduanas_pivot_top10.style.background_gradient(cmap=cm_paleta_verde)
s

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,CIF $
País origen,Aduana,Categoría,Unnamed: 3_level_1
ESTADOS UNIDOS,PUERTO QUETZAL,MAIZ PARA ELAB DE CONCENTRADOS,186755000.0
ESTADOS UNIDOS,PUERTO QUETZAL,HARINA DE SOYA,56194900.0
ESTADOS UNIDOS,PUERTO QUETZAL,ARROZ,32789900.0
ESTADOS UNIDOS,SANTO TOMAS DE CASTILLA,ALGODÓN,21490900.0
MEXICO,TECUN UMAN,HARINA DE TRIGO,18648100.0
VENEZUELA,PUERTO QUETZAL,AJONJOLI,8910240.0
ESTADOS UNIDOS,PUERTO QUETZAL,SOYA,8525710.0
ESTADOS UNIDOS,PUERTO QUETZAL,FRUTAS,6724750.0
CHILE,PUERTO QUETZAL,MADERA ASERRADA,5715280.0
VENEZUELA,PUERTO QUETZAL,HORTALIZAS,4971000.0
