In [1]:
import pandas as pd
import numpy as np
import seaborn
%pylab notebook

import hashlib
import humanhash

Populating the interactive namespace from numpy and matplotlib


# Tablas Pivote

Es muy común la agrupación de información en formato 'stack' donde tenemos filas de datos que demuestran una correlación entre dos sets de valores.

Las tablas pivote son una forma de re-ordenar los datos en una estructura tabular donde podemos agrupar los valores convirtiendo las tuplas entre valores numéricos.

En este caso de ejemplo, crearemos un dataset de prueba con la diversidad de restaurantes en varias ciudades centroamericanas. En esta vamos a comenzar a trabajar con dos columnas, una donde describe cada ciudad y la otra con la variedad de cocina disponible en cada una.

In [2]:
data_restaurantes = {
    'ciudades': ['Guatemala','Guatemala','Guatemala','Guatemala','Guatemala','Guatemala','San José','San José','San José','San José','San José','San Salvador','San Salvador','San Salvador'],
    'culinaria': ['Chapina','Chapina','China','Thai','Italiana','Chapina','Italiana','China','Tica','Chapina','Tica','Tica','Italiana','China']
}

restaurantes_dataframe_pares = pd.DataFrame(data_restaurantes)
restaurantes_dataframe_pares

Unnamed: 0,ciudades,culinaria
0,Guatemala,Chapina
1,Guatemala,Chapina
2,Guatemala,China
3,Guatemala,Thai
4,Guatemala,Italiana
5,Guatemala,Chapina
6,San José,Italiana
7,San José,China
8,San José,Tica
9,San José,Chapina


Podemos ver entonces este listado de valores, tupla por tupla. Que tal si queremos contar la presencia de cada tipo de cocina en cada región. Probemos utilizando entonces el comando [DataFrame.pivot_table](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.pivot.html) de Pandas.

Este pide unos cuantos argumentos los que podemos ver en la documentación. Unos cuantos son obvios, como el definir las filas y columnas que esperamos de la tabla objetivo.
Sin embargo, lo más notable es que ya que los tipos de datos que estamos utilizando no son numéricos, es necesario que definamos una funcion de agrupación que nos permita contar la cantidad de instancias de cada combinación.

In [3]:
def funcion_agrupacion(elemento):
    return True

agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"],
    columns="culinaria",
    aggfunc=funcion_agrupacion,
    fill_value=False)
agrupacion_culinaria

culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Guatemala,True,True,True,True,False
San José,True,True,True,False,True
San Salvador,False,True,True,False,True


Hmm, esto ya se ve con la forma que queremos, sin embargo solo nos muestra la presencia o ausencia de algún tipo de cocina. Esto es fácil de explicar ya que definimos nuestra función de agrupación como retornar True si existe presencia a retornar False si No. ¿Qué tal si hacemos una mejor función de agrupación?

In [24]:
def funcion_agrupacion(elemento):
    '''Contemos cuantas instancias de cada tupla existen.'''
    ## El comando len(iterable) cuenta la cantidad de elementos que tiene el objeto iterable que le pasemos
    ## los elementos iterables pueden ser listas normales, Series de NumPy o Pandas, o diccionarios y otros tipos de datos.
    return len(elemento)
agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(index=["ciudades"], columns="culinaria", aggfunc=lambda x: funcion_agrupacion(x), fill_value=0)
agrupacion_culinaria

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas
culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Guatemala,3,1,1,1,0
San José,1,1,1,0,2
San Salvador,0,1,1,0,1


¡Genial! Ahora ya tenemos agrupadas estas de una forma coherente. Ahora ya podemos seguir manipulando y editando estos datos.
Pero, ¿qué tal si hacemos un poco más simple esta llamada? Al final nuestra función de agrupación lo unico que hace es contar la cantidad de tuplas sobre las cuales aplica el pivote. ¿Qué tal si lo hacemos un poco más simple?

In [5]:
agrupacion_culinaria = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"], 
    columns="culinaria", 
    aggfunc=len, ## Enviamos directamente la función de agrupación. Entre otras funcionas de agrupacíon útiles está np.sum (la función de suma de NumPy) y np.mean (media)
    fill_value=0)
agrupacion_culinaria

culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Guatemala,3,1,1,1,0
San José,1,1,1,0,2
San Salvador,0,1,1,0,1


Claro, la tabla resultante se comporta exactamente igual y tiene todas las propiedades nativas de los DataFrames. ¿Qué tal si limitamos la query a solo los lugares en ciudad de Guatemala?

In [6]:
agrupacion_culinaria.query('ciudades == ["Guatemala"]')

culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Guatemala,3,1,1,1,0


In [32]:
help(restaurantes_dataframe_pares.pivot_table)

Help on method pivot_table in module pandas.core.reshape.pivot:

pivot_table(values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All') method of pandas.core.frame.DataFrame instance
    Create a spreadsheet-style pivot table as a DataFrame. The levels in the
    pivot table will be stored in MultiIndex objects (hierarchical indexes) on
    the index and columns of the result DataFrame
    
    Parameters
    ----------
    data : DataFrame
    values : column to aggregate, optional
    index : column, Grouper, array, or list of the previous
        If an array is passed, it must be the same length as the data. The list
        can contain any of the other types (except list).
        Keys to group by on the pivot table index.  If an array is passed, it
        is being used as the same manner as column values.
    columns : column, Grouper, array, or list of the previous
        If an array is passed, it must be the same len

In [33]:
## Con el argumento Margins, Panda calcula los valores sumados de los totales por agrupación.
agrupacion_culinaria_m = restaurantes_dataframe_pares.pivot_table(
    index=["ciudades"],
    columns="culinaria",
    aggfunc=len,
    fill_value=0,
    margins=True,
    margins_name="Total")
agrupacion_culinaria_m

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas,estrellas
culinaria,Chapina,China,Italiana,Thai,Tica,Total
ciudades,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Guatemala,3.0,1.0,1.0,1.0,0.0,6.0
San José,1.0,1.0,1.0,0.0,2.0,5.0
San Salvador,0.0,1.0,1.0,0.0,1.0,3.0
Total,4.0,3.0,3.0,1.0,3.0,14.0


## Múltiples Valores y Múltiples Indices
¿Qué tal si tenemos datos que tienen una estructura Jerárquica inherente? Podemos utilizar la misma forma de multi indexación que vimos en el seminario pasado, lo importante es que a la hora de la definición del índice, Pandas es capaz de manipularlos e inteligentemente ordenar los niveles acorde.

In [8]:
restaurantes_dataframe_pares['estrellas'] = [5,3,3,5,3,1,2,2,4,3,4,3,2,3]
restaurantes_dataframe_estrellas = restaurantes_dataframe_pares
restaurantes_dataframe_estrellas

Unnamed: 0,ciudades,culinaria,estrellas
0,Guatemala,Chapina,5
1,Guatemala,Chapina,3
2,Guatemala,China,3
3,Guatemala,Thai,5
4,Guatemala,Italiana,3
5,Guatemala,Chapina,1
6,San José,Italiana,2
7,San José,China,2
8,San José,Tica,4
9,San José,Chapina,3


Pivotando sobre la especialidad culinaria y estrellas, podemos las ciudades con la mayor oferta culinaria, o cuales tienen el mejor promedio de estrellas.

In [34]:
agrupacion_culinaria_promedio_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["ciudades"], 
    values=["culinaria", "estrellas"], 
    aggfunc={"culinaria":len,"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_promedio_estrellas

Unnamed: 0_level_0,culinaria,estrellas
ciudades,Unnamed: 1_level_1,Unnamed: 2_level_1
Guatemala,6,3.333
San José,5,3.0
San Salvador,3,2.667


¿Qué tal si queremos ver cuantas estrellas en promedio tienen los restaurantes, por clase de comida, por ciudad?

In [38]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["culinaria"], 
    values=["estrellas"], 
    columns=["estrellas"],
    aggfunc={"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_por_estrellas

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas
estrellas,1,2,3,4,5
culinaria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Chapina,1,0,3,0,5
China,0,2,3,0,0
Italiana,0,2,3,0,0
Thai,0,0,0,0,5
Tica,0,0,3,4,0


In [37]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["culinaria"], 
    values=["estrellas"], 
    columns=["estrellas"],
    aggfunc={"estrellas":len},
    fill_value=0)
agrupacion_culinaria_por_estrellas

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas
estrellas,1,2,3,4,5
culinaria,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Chapina,1,0,2,0,1
China,0,1,2,0,0
Italiana,0,2,1,0,0
Thai,0,0,0,0,1
Tica,0,0,1,2,0


Hmm... esto no es muy útil, solo nos dice tautológicamente, que los restaurantes de 'n' estrellas tienen 'n' estrellas. ¿Pueden ver porque el error?

In [39]:
agrupacion_culinaria_por_estrellas = restaurantes_dataframe_estrellas.pivot_table(
    index=["ciudades"], 
    values=["estrellas"], 
    columns=["culinaria"], ## Aqui es obvio ver que lo que queremos es diferenciar por variedad culinaria.
    aggfunc={"estrellas":np.mean},
    fill_value=0)
agrupacion_culinaria_por_estrellas

Unnamed: 0_level_0,estrellas,estrellas,estrellas,estrellas,estrellas
culinaria,Chapina,China,Italiana,Thai,Tica
ciudades,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Guatemala,3,3,3,5,0
San José,3,2,2,0,4
San Salvador,0,3,2,0,3


In [40]:
agrupacion_culinaria_por_estrellas.plot(kind="bar")

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x7f806cb27be0>

Entonces, recapitulando:

**¿De qué nos sirven las tablas pivote?**

**¿Que clase de operación representan?**

**¿En que casos podemos usarlas?**

# Agrupando, parte dos

Ya vimos algunos de los criterios básicos de agrupación en el primer webinar, ahora podemos avanzar un poco, combinando agrupación con pivote.

Tambien podemos usar [stack](https://pandas.pydata.org/pandas-docs/stable/reshaping.html), que es otra forma de agrupación basada en índices.

In [41]:
maga_fitosanitario = pd.read_csv("MAGA - CERTIFICADOS FITOSANITARIOS.csv")

In [43]:
hashlib.md5("Hola".encode("UTF-8")).hexdigest()

'f688ae26e9cfa3ba6235477831d5122e'

In [66]:
pd.set_option('display.float_format', lambda x: '%.1f' % x)

## Vamos a limpiar un poco de información
def ofusca_nombre(nombre):
    return humanhash.humanize(hashlib.md5(nombre.encode("UTF-8")).hexdigest())

maga_fitosanitario["Solicitante"] = maga_fitosanitario["Solicitante"].map(ofusca_nombre)
maga_fitosanitario["Fecha Autorización"] = maga_fitosanitario["Fecha Autorización"].map(pd.Timestamp)


In [45]:
def clean_q(input_object):
    from re import sub  ## importamos la función sub, que substituye utilizando patrones
    ## https://es.wikipedia.org/wiki/Expresión_regular
    
    ## NaN es un objeto especial que representa un valor numérico invalido, Not A Number.
    if input_object == NaN:
        return 0
    inp = unicode(input_object) # De objeto a un texto
    cleansed_00 = sub(r'\.000', '000', inp) 
    cleansed_nonchar = sub(r'[^0-9]+', '', cleansed_00)
    if cleansed_nonchar == '':
        return 0
    return cleansed_nonchar

maga_fitosanitario["Kg. Netos"] = maga_fitosanitario["Kg. Netos"].map(clean_q).astype(float)

In [46]:
maga_fitosanitario["Kg. Netos"]

0      1360779.000
1       816467.000
2      3483624.000
3      3483624.000
4       151800.000
5        20866.000
6        20866.000
7        20866.000
8        20866.000
9      3483624.000
10     3483624.000
11       16000.000
12       68182.000
13       68182.000
14       59875.000
15     3952402.000
16      290316.000
17      151800.000
18        2268.000
19        2268.000
20       13081.000
21       13081.000
22       71470.000
23     1093000.000
24     1363636.000
25     1363636.000
26       13081.000
27      100240.000
28       31703.000
29       31703.000
           ...    
7646        63.000
7647      3878.000
7648     26000.000
7649     52000.000
7650     23040.000
7651     24000.000
7652     19278.000
7653     19278.000
7654     12000.000
7655     24000.000
7656      1000.000
7657     21602.000
7658     22405.000
7659    113635.000
7660    113635.000
7661    136362.000
7662    113635.000
7663    113635.000
7664    113635.000
7665     20900.000
7666        12.000
7667    2412

In [48]:
maga_fitosanitario.head()

Unnamed: 0,Incidente,Fecha Autorización,Solicitante,Permiso,Producto,Categoría,CIF $,Kg. Netos,Aduana,País procedencia,País origen,Otra fuente de origen
0,49,04/04/14,IRIS YAMILETH SOLIS MORATAYA,142432,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,125.0,1360779.0,MELCHOR DE MENCOS,Belice,Belice,
1,50,04/04/14,IRIS YAMILETH SOLIS MORATAYA,142425,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,75.0,816467.0,MELCHOR DE MENCOS,Belice,Belice,
2,275,07/04/14,DISTRIBUIDORA EL MANANTIAL,142479,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,2584.1,3483624.0,PEDRO DE ALVARADO,Nicaragua,Nicaragua,
3,276,07/04/14,DISTRIBUIDORA EL MANANTIAL,142480,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,2584.1,3483624.0,PEDRO DE ALVARADO,Nicaragua,Nicaragua,
4,177,07/04/14,"VIREO FOODS GUATEMALA, S.A.",142478,HARINA DE TRIGO,HARINA DE TRIGO,81601.21,151800.0,TECUN UMAN,México,México,


In [49]:
maga_fitosanitario.groupby("Producto").sum().sort_values("CIF $", ascending=False).head(20)

Unnamed: 0_level_0,Permiso,CIF $,Kg. Netos
Producto,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
MAIZ AMARILLO,53491946,183595249.36,2753711966.0
HARINA DE SOYA,18899910,56391529.94,177684115.0
ARROZ EN GRANZA,3201212,24568825.5,59041504.0
HARINA DE TRIGO,76664602,24272107.26,54953080.0
AJONJOLI NATURAL,9215686,15985707.0,20396870.0
ARROZ GRANZA,15088878,13883822.8,57978262.0
ALGODON,9014988,12028250.89,200973442.0
ALGODON SIN CARDAR NI PEINAR,5222374,8151960.62,19619672.0
MADERA DE PINO (SECA),9285734,6498009.27,11404341.0
ARROZ,8758770,6111828.36,9988554.0


In [52]:
maga_productos_pivot = maga_fitosanitario.pivot_table(
    index=["Categoría", "Producto"], 
    values=["CIF $", "Permiso","Kg. Netos"], 
    aggfunc={"CIF $":np.sum,"Permiso":len, "Kg. Netos": np.sum},
    fill_value=0)

In [53]:
maga_productos_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,CIF $,Kg. Netos,Permiso
Categoría,Producto,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
AJONJOLI,AJONJOLI DESCORTEZADO,250093.750,94375,1
AJONJOLI,AJONJOLI NATURAL,10702707.000,15867870,46
ALGODÓN,ALGODON,12028250.890,200973442,62
ALGODÓN,ALGODON (BLANQUEADO),52969.250,185857,1
ALGODÓN,ALGODON (EN PACAS),35604.510,21805,1
ALGODÓN,ALGODON (PACAS),48087.740,21830,1
ALGODÓN,ALGODON (SIN CARDAR NI PEINAR),1934207.840,858309,10
ALGODÓN,ALGODON (SIN PEINAR NI CARDAR),507479.390,238664,2
ALGODÓN,ALGODON BLANQUEADO,52658.400,175528,1
ALGODÓN,ALGODON SI CARDAR NI PEINAR,45158.090,19791,1


In [61]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana"], 
    values=["CIF $", "Kg. Netos"],
    aggfunc={"CIF $":np.sum,"Kg. Netos":np.mean},
    fill_value=0)
maga_aduanas_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,CIF $,Kg. Netos
País origen,Aduana,Unnamed: 2_level_1,Unnamed: 3_level_1
ALEMANIA,EXPRESS AEREO,102326.890,408.683
ALEMANIA,PUERTO QUETZAL,1727517.610,3000000.000
ALEMANIA,SANTO TOMAS DE CASTILLA,10050.220,16000.000
ARGENTINA,PEDRO DE ALVARADO,3166.080,306817.000
ARGENTINA,PUERTO BARRIOS,163440.650,72900.000
ARGENTINA,PUERTO QUETZAL,187991.750,45965.143
ARGENTINA,SANTO TOMAS DE CASTILLA,410929.480,42113.591
AUSTRALIA,EXPRESS AEREO,94350.000,2775.000
AUSTRALIA,PUERTO QUETZAL,26932.200,21375.000
AUSTRALIA,SANTO TOMAS DE CASTILLA,113750.000,3464.000


Que tal si indagamos mas en las categorias que se importan de cada país.

In [62]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0)
maga_aduanas_pivot

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,CIF $
País origen,Aduana,Categoría,Unnamed: 3_level_1
ALEMANIA,EXPRESS AEREO,ESQUEJES RIZOMAS BULBOS,72024.570
ALEMANIA,EXPRESS AEREO,MATERIA PRIMA PARA ALIMENTOS,19900.530
ALEMANIA,EXPRESS AEREO,SEMILLAS DE FLORES,475.790
ALEMANIA,EXPRESS AEREO,SEMILLAS DE HORTALIZA,9926.000
ALEMANIA,PUERTO QUETZAL,MALTA,1727517.610
ALEMANIA,SANTO TOMAS DE CASTILLA,MALTA,10050.220
ARGENTINA,PEDRO DE ALVARADO,MAIZ PARA CONSUMO HUMANO,3166.080
ARGENTINA,PUERTO BARRIOS,FRIJOL NEGRO,139899.690
ARGENTINA,PUERTO BARRIOS,FRIJOL PINTO,23540.960
ARGENTINA,PUERTO QUETZAL,FRUTAS,60811.850


In [63]:
maga_aduanas_pivot_top10 = maga_aduanas_pivot.sort_values("CIF $", ascending=False).head(10)

In [64]:
maga_aduanas_pivot_top10.plot(kind="barh")

<IPython.core.display.Javascript object>

<matplotlib.axes._subplots.AxesSubplot at 0x7f806c7a9780>

Tambien es util mostrar la tabla, podemos ponerle un poco de estilo con la funcionalidad de [Seaborn + Pandas](https://pandas.pydata.org/pandas-docs/stable/style.html)

In [23]:
cm_paleta_verde = seaborn.light_palette("green", as_cmap=True)
s = maga_aduanas_pivot_top10.style.background_gradient(cmap=cm_paleta_verde)
s

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,CIF $
País origen,Aduana,Categoría,Unnamed: 3_level_1
ESTADOS UNIDOS,PUERTO QUETZAL,MAIZ PARA ELAB DE CONCENTRADOS,186755000.0
ESTADOS UNIDOS,PUERTO QUETZAL,HARINA DE SOYA,56194900.0
ESTADOS UNIDOS,PUERTO QUETZAL,ARROZ,32789900.0
ESTADOS UNIDOS,SANTO TOMAS DE CASTILLA,ALGODÓN,21490900.0
MEXICO,TECUN UMAN,HARINA DE TRIGO,18648100.0
VENEZUELA,PUERTO QUETZAL,AJONJOLI,8910240.0
ESTADOS UNIDOS,PUERTO QUETZAL,SOYA,8525710.0
ESTADOS UNIDOS,PUERTO QUETZAL,FRUTAS,6724750.0
CHILE,PUERTO QUETZAL,MADERA ASERRADA,5715280.0
VENEZUELA,PUERTO QUETZAL,HORTALIZAS,4971000.0


In [None]:
maga_aduanas_pivot = maga_fitosanitario.pivot_table(
    index=["País origen", "Aduana", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0)
maga_aduanas_pivot
cm_paleta_verde = seaborn.light_palette("green", as_cmap=True)
s = maga_aduanas_pivot_top10.style.background_gradient(cmap=cm_paleta_verde)
s

In [67]:
maga_fitosanitario

Unnamed: 0,Incidente,Fecha Autorización,Solicitante,Permiso,Producto,Categoría,CIF $,Kg. Netos,Aduana,País procedencia,País origen,Otra fuente de origen
0,49,2014-04-04,sodium-pasta-glucose-mexico,142432,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,125.0,1360779.0,MELCHOR DE MENCOS,Belice,Belice,
1,50,2014-04-04,sodium-pasta-glucose-mexico,142425,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,75.0,816467.0,MELCHOR DE MENCOS,Belice,Belice,
2,275,2014-07-04,robert-vermont-one-robert,142479,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,2584.1,3483624.0,PEDRO DE ALVARADO,Nicaragua,Nicaragua,
3,276,2014-07-04,robert-vermont-one-robert,142480,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,2584.1,3483624.0,PEDRO DE ALVARADO,Nicaragua,Nicaragua,
4,177,2014-07-04,zebra-missouri-arkansas-island,142478,HARINA DE TRIGO,HARINA DE TRIGO,81601.2,151800.0,TECUN UMAN,México,México,
5,152,2014-07-04,beryllium-aspen-colorado-fish,142468,HARINA DE TRIGO,HARINA DE TRIGO,11726.3,20866.0,SAN CRISTOBAL,El Salvador,El Salvador,
6,153,2014-07-04,beryllium-aspen-colorado-fish,142467,HARINA DE TRIGO,HARINA DE TRIGO,11726.3,20866.0,SAN CRISTOBAL,El Salvador,El Salvador,
7,155,2014-07-04,beryllium-aspen-colorado-fish,142469,HARINA DE TRIGO,HARINA DE TRIGO,11726.3,20866.0,SAN CRISTOBAL,El Salvador,El Salvador,
8,156,2014-07-04,beryllium-aspen-colorado-fish,142470,HARINA DE TRIGO,HARINA DE TRIGO,11726.3,20866.0,SAN CRISTOBAL,El Salvador,El Salvador,
9,162,2014-07-04,robert-vermont-one-robert,142474,CASCARILLA DE ARROZ,MATERIA PRIMA PARA CONCENTRADOS,2584.1,3483624.0,PEDRO DE ALVARADO,Nicaragua,Nicaragua,


In [71]:
maga_fitosanitario.groupby("Solicitante").sum().sort_values("CIF $", ascending=False).head(10)

Unnamed: 0_level_0,Permiso,CIF $,Kg. Netos
Solicitante,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
papa-cola-cat-utah,2613794,51617483.5,2142316240.0
crazy-december-charlie-leopard,5407306,42385422.8,129173159.0
blue-alanine-aspen-ink,3914255,36726112.8,115987664.0
glucose-network-cardinal-december,1734642,19912544.7,47940184.0
butter-ceiling-uncle-salami,1448580,18986878.8,1276069585.0
nineteen-earth-stairway-nebraska,1738702,16256532.0,66034754.0
fanta-crazy-rugby-salami,8771752,15806525.0,19943562.0
september-red-hamper-ten,3044223,13971536.0,61956905.0
east-cup-summer-mango,2611047,12101661.5,39276980.0
oklahoma-sodium-nevada-four,12670668,9444222.0,100425831.0


In [73]:
maga_fitosanitario.pivot_table(
    index=["Solicitante", "País origen", "Categoría"], 
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0).sort_values("CIF $", ascending=False).head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,CIF $
Solicitante,País origen,Categoría,Unnamed: 3_level_1
papa-cola-cat-utah,ESTADOS UNIDOS,MAIZ PARA ELAB DE CONCENTRADOS,34161962.8
crazy-december-charlie-leopard,ESTADOS UNIDOS,MAIZ PARA ELAB DE CONCENTRADOS,28967653.8
blue-alanine-aspen-ink,ESTADOS UNIDOS,MAIZ PARA ELAB DE CONCENTRADOS,20603138.9
papa-cola-cat-utah,ESTADOS UNIDOS,HARINA DE SOYA,17455520.7
glucose-network-cardinal-december,ESTADOS UNIDOS,ARROZ,17135432.4
nineteen-earth-stairway-nebraska,ESTADOS UNIDOS,MAIZ PARA ELAB DE CONCENTRADOS,16256532.0
butter-ceiling-uncle-salami,ESTADOS UNIDOS,MAIZ PARA ELAB DE CONCENTRADOS,14778445.5
crazy-december-charlie-leopard,ESTADOS UNIDOS,HARINA DE SOYA,12628533.6
september-red-hamper-ten,ESTADOS UNIDOS,MAIZ PARA ELAB DE CONCENTRADOS,10279335.3
fanta-crazy-rugby-salami,VENEZUELA,AJONJOLI,9783840.0


In [83]:
maga_fitosanitario.pivot_table(
    index=["País procedencia"],
    columns=["Aduana"],
    values=["CIF $"], 
    aggfunc={"CIF $":np.sum},
    fill_value=0).style.background_gradient(cmap=cm_paleta_verde)

Unnamed: 0_level_0,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $,CIF $
Aduana,AGUA CALIENTE,EL CEIBO,EL FLORIDO,ENTRE RIOS,EXPRESS AEREO,FARDOS POSTALES,LA ERMITA,LA MESILLA,MELCHOR DE MENCOS,PEDRO DE ALVARADO,PUERTO BARRIOS,PUERTO QUETZAL,SAN CRISTOBAL,SANTO TOMAS DE CASTILLA,TECUN UMAN,VALLE NUEVO,ZONA FRANCA DE GUATEMALA
País procedencia,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2
ALEMANIA,0.0,0.0,0.0,0.0,102327.0,0.0,0,0,0,0.0,0.0,1727520.0,0.0,1606880.0,0.0,0.0,0
ARGENTINA,0.0,0.0,0.0,0.0,0.0,0.0,0,0,0,0.0,163441.0,187992.0,0.0,410929.0,0.0,0.0,0
AUSTRALIA,0.0,0.0,0.0,0.0,94350.0,0.0,0,0,0,0.0,0.0,26932.2,0.0,113750.0,0.0,0.0,0
Alemania,0.0,0.0,0.0,0.0,29503.2,0.0,0,0,0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
Argentina,0.0,0.0,0.0,0.0,0.0,0.0,0,0,0,0.0,0.0,0.0,0.0,15510.0,0.0,0.0,0
BANGLADESH,0.0,0.0,0.0,0.0,0.0,0.0,0,0,0,0.0,0.0,48274.4,0.0,72000.0,0.0,0.0,0
BELGICA,0.0,0.0,0.0,0.0,0.0,0.0,0,0,0,0.0,0.0,1855830.0,0.0,0.0,192550.0,0.0,0
BELICE,0.0,0.0,0.0,0.0,0.0,0.0,0,0,547047,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
BOLIVIA,0.0,0.0,0.0,0.0,0.0,0.0,0,0,0,0.0,0.0,91800.0,0.0,0.0,0.0,0.0,0
BRASIL,0.0,0.0,0.0,0.0,121048.0,0.0,0,0,0,0.0,245408.0,0.0,0.0,3581790.0,0.0,0.0,0


Que tal si queremos obtener el precio por kilogramo de cada producto y en base a eso obtener los productos mas 'preciosos'.