# MultiIndexes

Los multiindexes nos permiten añadir más de un indice a nuestros DataFrames, lo que al final permite categorizar los DataFrames de mejor forma, ya sea, a través de mas índices o a traves de mas capas o layers. Esto nos permite hacer operaciones como pivotar los datos, despivotar, que nos permiten hacer cosas muy interesantes. Es más fácil explicarlo con ejemplos que con teorías si que vamos a ello.



## Índice

- [Introducción](#Introducci%C3%B3n)
- [Crear un MultiIndex con el método set_index](#Crear-un-MultiIndex-con-el-m%C3%A9todo-.set_index)
- [El método get_level_values](#El-m%C3%A9todo-.get_level_values)
- [El método set_names](#El-m%C3%A9todo-.set_names-en-MultiIndex)
- [Extraer filas de un DataFrame MultiIndex](#Extraer-filas-de-un-MultiIndex-DataFrame)
- [El método transpose](#El-m%C3%A9todo-.transpose)
- [El método swaplevel](#El-m%C3%A9todo-.swaplevel)
- [El método sort_index en un DataFrame MultiIndex](#El-m%C3%A9todo-.sort_index-en-un-MultiIndex-DataFrame)
- [El método pivot](#El-m%C3%A9todo-pivot)
- [El método stack](#El-m%C3%A9todo-.stack)
- [El método unstack Parte 1](#El-m%C3%A9todo-.unstack--Parte-1)
- [El método unstack Parte 2](#El-m%C3%A9todo-.unstack--Parte-2)
- [El método unstack Parte 3](#El-m%C3%A9todo-.unstack--Parte-3)
- [El método pivot_table](#El-m%C3%A9todo-pivot_table)
- [El método melt](#El-m%C3%A9todo-pd.melt)


## Introducción

In [161]:
import pandas as pd

Vamos a abrir un fichero que contiene el precio de la deliciosa BigMac en varios países

In [162]:
bigmac = pd.read_csv("pandas/bigmac.csv")
bigmac.sort_values('Price in US Dollars').head(3)

Unnamed: 0,Date,Country,Price in US Dollars
42,1/2016,Venezuela,0.66
98,7/2015,Venezuela,0.67
151,1/2015,Ukraine,1.2


In [163]:
bigmac.dtypes
bigmac.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 652 entries, 0 to 651
Data columns (total 3 columns):
Date                   652 non-null object
Country                652 non-null object
Price in US Dollars    652 non-null float64
dtypes: float64(1), object(2)
memory usage: 15.4+ KB


Parseamos la columna Date para que tenga mejor pinta y los convertimos a datetime objetos

In [165]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"])
bigmac.head(3)

Unnamed: 0,Date,Country,Price in US Dollars
0,2016-01-01,Argentina,2.39
1,2016-01-01,Australia,3.74
2,2016-01-01,Brazil,3.35


## Crear un MultiIndex con el método `.set_index`

Vamos a crear nuestro primer multiIndex sobre el dataframe de BigMacs, veámos como, importamos el csv como antes.

In [166]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"])
bigmac.head(3)

Unnamed: 0,Date,Country,Price in US Dollars
0,2016-01-01,Argentina,2.39
1,2016-01-01,Australia,3.74
2,2016-01-01,Brazil,3.35


Ya hemos utilizando `set_index()` antes para crear un nuevo índice sobre un DataFrame, en este caso lo vamos hacer para crear uno múltiple, pero primero veamos como funcionaba con un único parámetro:

In [167]:
dates = bigmac.set_index(keys = ["Date"])
dates.head(3)

Unnamed: 0_level_0,Country,Price in US Dollars
Date,Unnamed: 1_level_1,Unnamed: 2_level_1
2016-01-01,Argentina,2.39
2016-01-01,Australia,3.74
2016-01-01,Brazil,3.35


Podemos ver que la columna Date se convierte en indice porque se mueve a la izquierda y está en negrita. Vamos a crear un multiIndex para Date y Country

In [172]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"])
bigmac.set_index(keys = ["Date", "Country"], inplace = True)
bigmac

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2016-01-01,Argentina,2.39
2016-01-01,Australia,3.74
2016-01-01,Brazil,3.35
2016-01-01,Britain,4.22
2016-01-01,Canada,4.14
2016-01-01,Chile,2.94
2016-01-01,China,2.68
2016-01-01,Colombia,2.43
2016-01-01,Costa Rica,4.02
2016-01-01,Czech Republic,2.98


In [173]:
bigmac.sort_index(inplace = True)

In [174]:
bigmac.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76


Vamos a ver que pasa si intentamos ordenar los indices. Vamos a usar la función `sort_index()`

In [175]:
bigmac.sort_index()

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76
2010-01-01,Britain,3.67
2010-01-01,Canada,3.97
2010-01-01,Chile,3.18
2010-01-01,China,1.83
2010-01-01,Colombia,3.91
2010-01-01,Costa Rica,3.52
2010-01-01,Czech Republic,3.71


Como vemos se ordenan de orden ascendente los dos valores, Date y Country. Veamos como obtener información de los indices.

In [176]:
bigmac.index

MultiIndex(levels=[[2010-01-01 00:00:00, 2010-07-01 00:00:00, 2011-07-01 00:00:00, 2012-01-01 00:00:00, 2012-07-01 00:00:00, 2013-01-01 00:00:00, 2013-07-01 00:00:00, 2014-01-01 00:00:00, 2014-07-01 00:00:00, 2015-01-01 00:00:00, 2015-07-01 00:00:00, 2016-01-01 00:00:00], ['Argentina', 'Australia', 'Austria', 'Belgium', 'Brazil', 'Britain', 'Canada', 'Chile', 'China', 'Colombia', 'Costa Rica', 'Czech Republic', 'Denmark', 'Egypt', 'Estonia', 'Euro area', 'Finland', 'France', 'Germany', 'Greece', 'Hong Kong', 'Hungary', 'India', 'Indonesia', 'Ireland', 'Israel', 'Italy', 'Japan', 'Latvia', 'Lithuania', 'Malaysia', 'Mexico', 'Netherlands', 'New Zealand', 'Norway', 'Pakistan', 'Peru', 'Philippines', 'Poland', 'Portugal', 'Russia', 'Saudi Arabia', 'Singapore', 'South Africa', 'South Korea', 'Spain', 'Sri Lanka', 'Sweden', 'Switzerland', 'Taiwan', 'Thailand', 'Turkey', 'UAE', 'Ukraine', 'United States', 'Uruguay', 'Venezuela', 'Vietnam']],
           labels=[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0

In [177]:
bigmac.index.names

FrozenList(['Date', 'Country'])

In [178]:
type(bigmac.index)

pandas.core.indexes.multi.MultiIndex

In [179]:
bigmac.index[0]

(Timestamp('2010-01-01 00:00:00'), 'Argentina')

## El método `.get_level_values`

Este método nos permite obtener los valores para un indice o layer en concreto. Veámos como se usa. Vamos a obtener un multiIndex pero usando una nueva forma, al leer el fichero csv le pasamos directamente los indices que queremos usar.

In [180]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True) # Siempre es recomendable que indexemos para tener una secuencia de elementos ordenada
bigmac.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76


Veamos como podemos obtener el valor del primer indice con la función `get_level_values()`, al que le podemos pasar un valor númerico para especificar el indice o un valor string para especificarlo en función del nombre

In [182]:
#bigmac.index.get_level_values(0)
bigmac.index.get_level_values("Date")

DatetimeIndex(['2010-01-01', '2010-01-01', '2010-01-01', '2010-01-01',
               '2010-01-01', '2010-01-01', '2010-01-01', '2010-01-01',
               '2010-01-01', '2010-01-01',
               ...
               '2016-01-01', '2016-01-01', '2016-01-01', '2016-01-01',
               '2016-01-01', '2016-01-01', '2016-01-01', '2016-01-01',
               '2016-01-01', '2016-01-01'],
              dtype='datetime64[ns]', name='Date', length=652, freq=None)

In [183]:
#bigmac.index.get_level_values(1)
bigmac.index.get_level_values("Country")

Index(['Argentina', 'Australia', 'Brazil', 'Britain', 'Canada', 'Chile',
       'China', 'Colombia', 'Costa Rica', 'Czech Republic',
       ...
       'Switzerland', 'Taiwan', 'Thailand', 'Turkey', 'UAE', 'Ukraine',
       'United States', 'Uruguay', 'Venezuela', 'Vietnam'],
      dtype='object', name='Country', length=652)

En general queremos usar un índice cuando no conocemos el nombre del índice y un string cuando sí lo sabemos.

## El método `.set_names` en MultiIndex

Vamos a ver para que sirve este método que se ejecuta directamente sobre el objeto MultiIndex. Creamos un DataFrame como en el caso anterior:

In [184]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76


In [189]:
bigmac.index.set_names(["Luis"], inplace = True)

ValueError: Length of names must match number of levels in MultiIndex.

In [188]:
bigmac.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Pepe,Juan,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76


Como podemos ver, este método nos permite cambiar el nombre de un índice ya creado en el DataFrame. Si proveemos el mismo nombre que ya teníamos en un índice, basta con dejar el mismo nombre.

## Extraer filas de un `MultiIndex DataFrame`

Vamos a ver como podemos obtener filas de un DataFrame construido con un MultiIndex. Como siempre procedemos a leer nuestro csv y cargar el DataFrame.




In [190]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76


Vamos a utilizar el metodo loc para acceder a una fila del DataFrame. El método loc acepta etiquetas como índices, pero en nuestro caso, como tenemos dos índices, debemos usar una tupla para especificar las etiquetas para los índices que vamos a usar, y como último parámetro, especificamos el valor que queremos extraer (la serie o columna), de no ser así nos devolvería todas las diposnibles para las etiquetas suministradas.

In [191]:
bigmac.loc[("2010-01-01", "Brazil"), "Price in US Dollars"]

Date        Country
2010-01-01  Brazil     4.76
Name: Price in US Dollars, dtype: float64

Veamos algunos ejemplos mas:

In [192]:
bigmac.loc[("2015-07-01", "Chile"), "Price in US Dollars"]

Date        Country
2015-07-01  Chile      3.27
Name: Price in US Dollars, dtype: float64

Veamos como con el método ix, que elimina los indices de los resultados obtenidos, pero el método de busqueda es muy parecido

In [193]:
bigmac.ix[("2016-01-01", "China")]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


Price in US Dollars    2.68
Name: (2016-01-01 00:00:00, China), dtype: float64

Recordemos que ix nos permite acceder a la serie con string o índice

In [None]:
bigmac.ix[("2016-01-01", "China"), "Price in US Dollars"]

In [None]:
bigmac.ix[("2016-01-01", "China"), 0]

## El método `.transpose`

Este método permite cambiar los ejes básicamente, veámos como funciona con un DataFrame con MultiIndex . Como siempre empezamos cargando el DataFrame. 

In [196]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76
2010-01-01,Britain,3.67
2010-01-01,Canada,3.97
2010-01-01,Chile,3.18
2010-01-01,China,1.83
2010-01-01,Colombia,3.91
2010-01-01,Costa Rica,3.52
2010-01-01,Czech Republic,3.71


In [198]:
bigmac = bigmac.transpose()
bigmac.head(1)

Date,2010-01-01,2010-01-01,2010-01-01,2010-01-01,2010-01-01,2010-01-01,2010-01-01,2010-01-01,2010-01-01,2010-01-01,...,2016-01-01,2016-01-01,2016-01-01,2016-01-01,2016-01-01,2016-01-01,2016-01-01,2016-01-01,2016-01-01,2016-01-01
Country,Argentina,Australia,Brazil,Britain,Canada,Chile,China,Colombia,Costa Rica,Czech Republic,...,Switzerland,Taiwan,Thailand,Turkey,UAE,Ukraine,United States,Uruguay,Venezuela,Vietnam
Price in US Dollars,1.84,3.98,4.76,3.67,3.97,3.18,1.83,3.91,3.52,3.71,...,6.44,2.08,3.09,3.41,3.54,1.54,4.93,3.74,0.66,2.67


Hemos pasado de tener una columna con 652 filas, a 652 columnas y una única fila. Para poder acceder a una serie en particular podemos utilizar el método ix como antes, pero esta vez cambiando el orden de los parámetros, ya que ahora el primer elemento es un índice normal y no require una tupla.

In [199]:
bigmac.ix["Price in US Dollars", ("2016-01-01", "Denmark")]

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


4.32

## El método `.swaplevel`

Este método permitir cambiar un level por otro. Veámos como funciona.

In [200]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76


In [201]:
bigmac = bigmac.swaplevel()
bigmac.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Country,Date,Unnamed: 2_level_1
Argentina,2010-01-01,1.84
Australia,2010-01-01,3.98
Brazil,2010-01-01,4.76


Como podemos ver se cambia un level por otro (un índice por otro), cuando tenemos dos, no hay que proveer ningún argumento a este método, pero si hay más de dos, es conveniente mirar la [documentación](https://pandas.pydata.org/pandas-docs/stable/advanced.html#swapping-levels-with-swaplevel). Hay formás mas sencillas de hacer esto, reseteando los índices o cambiando el orden al cargar el csv.

## El método `.sort_index` en un MultiIndex `DataFrame`

Vamos a ver de nuevo el método `sort_index()` para ver como funciona en más detalle. Empezamos recreando de nuevo nuestro DataFrame de siempre.

In [202]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76


Este método tiene un parámetro llamado ascending que si le damos un valor `True` ordenará todos los índices de forma ascendente

In [203]:
bigmac.sort_index(ascending=True, inplace=True)
bigmac

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2010-01-01,Argentina,1.84
2010-01-01,Australia,3.98
2010-01-01,Brazil,4.76
2010-01-01,Britain,3.67
2010-01-01,Canada,3.97
2010-01-01,Chile,3.18
2010-01-01,China,1.83
2010-01-01,Colombia,3.91
2010-01-01,Costa Rica,3.52
2010-01-01,Czech Republic,3.71


Podemos ordenar cada índice de forma separada, simplemente pasado una lista de booleanos al parámetro ascending, los irá mapeando de forma sucesiva a nuestros índices, es decir, el primer elemento de la lista será Date y la segunda Country en nuestro caso. 

In [204]:
bigmac.sort_index(ascending = [True, False], inplace = True)

In [206]:
bigmac.head(3)
bigmac.tail(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Price in US Dollars
Date,Country,Unnamed: 2_level_1
2016-01-01,Colombia,2.43
2016-01-01,China,2.68
2016-01-01,Chile,2.94
2016-01-01,Canada,4.14
2016-01-01,Britain,4.22
2016-01-01,Brazil,3.35
2016-01-01,Belgium,4.25
2016-01-01,Austria,3.76
2016-01-01,Australia,3.74
2016-01-01,Argentina,2.39


Podemos ver como fácilmente podemos aplicar criterios distintos de ordenación por índice.

## El método `pivot`

El método `pivot` se suele utilizar para convertir valores de columnas a cabeceras de columnas. Veámos como. Vamos a utilizar un nuevo dataset llamado salesmen.csv que contiene el nombre, fecha e ingresos obtenidos por cada comerciante de ventas.

In [207]:
sales = pd.read_csv("pandas/salesmen.csv", parse_dates = ["Date"])

sales['Salesman'].value_counts()

# Como solo hay 5 valores unicos en la columna salesman, vamos a convertirlo a cateogria
sales["Salesman"] = sales["Salesman"].astype("category")
sales.head(3)


Unnamed: 0,Date,Salesman,Revenue
0,2016-01-01,Bob,7172
1,2016-01-02,Bob,6362
2,2016-01-03,Bob,5982


Como la columna Salesman se repite mucho, nos puede interesar pivotar la información para mostrarla de otra forma que sea mejor.

In [144]:
sales.pivot(index='Date', columns='Salesman', values='Revenue').head(3)

Salesman,Bob,Dave,Jeb,Oscar,Ronald
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
2016-01-01,7172,1864,4430,5250,2639
2016-01-02,6362,8278,8026,8661,4951
2016-01-03,5982,4226,5188,7075,2703


## El método `.stack`

Este método permite mover el indíce de columna al índice horizontal, el que está más a la izquierda del todo. Esto es más fácil de entender si lo vemos en práctica que de forma escrita. 

Vamos a abrir un fichero llamado worldstats.csv que contiene paises, población, años y GPD (el PIB) y veamos como usar el método `stack()`

In [208]:
world = pd.read_csv("pandas/worldstats.csv", index_col = ["country", "year"])
world.head(3)

Unnamed: 0_level_0,Unnamed: 1_level_0,Population,GDP
country,year,Unnamed: 2_level_1,Unnamed: 3_level_1
Arab World,2015,392022276.0,2530102000000.0
Arab World,2014,384222592.0,2873600000000.0
Arab World,2013,376504253.0,2846994000000.0


In [209]:
world.stack().to_frame()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,0
country,year,Unnamed: 2_level_1,Unnamed: 3_level_1
Arab World,2015,Population,3.920223e+08
Arab World,2015,GDP,2.530102e+12
Arab World,2014,Population,3.842226e+08
Arab World,2014,GDP,2.873600e+12
Arab World,2013,Population,3.765043e+08
Arab World,2013,GDP,2.846994e+12
Arab World,2012,Population,3.688026e+08
Arab World,2012,GDP,2.773270e+12
Arab World,2011,Population,3.610318e+08
Arab World,2011,GDP,2.497945e+12


Básicamente, stack acopla las columnas en los índices que hemos creado al cargar el csv, en este caso Country y Year. El resultado de stack es un objecto Series, así que podemos usar el metodo `to_frame()` para convertirlo a DataFrame.

## El método `.unstack`  Parte 1

El método `unstack()` permite deshacer una operación stack, evidentemente. Veámos como funciona.

In [None]:
world = pd.read_csv("pandas/worldstats.csv", index_col = ["country", "year"])
world.head(3)

In [None]:
# Hacemos stack
s = world.stack()
s.head(3)

Vamos a llamar al método `unstack()` para ver si podemos volver a nuestro DataFrame 

In [None]:
s.unstack()

In [None]:
s.unstack().unstack()

In [None]:
s.unstack().unstack().unstack()

## El método `.unstack`  Parte 2


In [None]:
world = pd.read_csv("pandas/worldstats.csv", index_col = ["country", "year"])
world.head(3)

In [None]:
s = world.stack()
s.head(3)

El método unstack acepta un índice, el que queremos "desapilar". Dicho esto, en nuestro caso Country es en índice 0 y year el índice 1, por lo que si queremos desapilar el índice country y que pase a formar parte de las columnas, podemos hacer

In [None]:
s.unstack(0)

Como curiosidad, podemos acceder también al índice por nombre, siempre que tenga, en nuestro caso solo year y country tienen nombre.

In [None]:
s.unstack('country')

## El método `.unstack`  Parte 3

Veamos cómo podemos hacer unstack en varios niveles o índices.

In [None]:
world = pd.read_csv("pandas/worldstats.csv", index_col = ["country", "year"])
s = world.stack()
world.head(3)
s.head(3)

In [None]:
s.unstack(level=["year", "country"])

Como podemos ver, podemos desapilar usando indíces basados en nombre, pero tambíen basados en números, incluso negativos. Si llamamos a unstack solamanete con un índice, por ejemplo:

In [None]:
s.unstack('year')

Y queremos eliminar los valores NaN cuando desapilamos, podemos usar el parámetro fill_value.

In [None]:
s = s.unstack('year', fill_value=0)
s.head()

## El método `pivot_table`

Este método funciona de forma muy parecida al pivot_table de Excel, nos permite hacer operaciones en conjunto sobre un DataFrame. Veámos como funciona. Supongamos que tenemos un nuevo fichero de datos llamado foods.csv que nos indica el nombre, sexo, ciudad, frecuencia, comida y cantidad gastada de varias personas y ciudades. Así que vamos a cargar nuestro nuevo DataFrame

In [142]:
foods =pd.read_csv("pandas/foods.csv")
foods.head(3)

Unnamed: 0,First Name,Gender,City,Frequency,Item,Spend
0,Wanda,Female,Stamford,Weekly,Burger,15.66
1,Eric,Male,Stamford,Daily,Chalupa,10.56
2,Charles,Male,New York,Never,Sushi,42.14


Supongamos que queremos obtener la media de gasto por genero:

In [148]:
foods.pivot_table(values= "Spend", index="Gender", aggfunc= "mean")

Unnamed: 0_level_0,Spend
Gender,Unnamed: 1_level_1
Female,50.709629
Male,49.397623


 El primer argumento values especifica sobre que valor queremos pivotar, el segundo que índice vamos a utilizar para mostrar la información y aggfunc especifica la funcióń de agrupación que queramos hacer. Podemos crear un MultiIndex si suministramos una lista al parámetro index. Veamos como, supongamos que queremos obtener la suma de las comidas compradas indexadas por sexo y además queremos ver en qué ciudad. 

In [150]:
foods.pivot_table(values = "Spend", index = ["Gender", "Item"], columns = "City", aggfunc = "sum")

Unnamed: 0_level_0,City,New York,Philadelphia,Stamford
Gender,Item,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,Burger,1239.04,1639.24,1216.02
Female,Burrito,978.95,1458.76,1820.11
Female,Chalupa,876.58,1673.33,1602.35
Female,Donut,1446.78,1639.26,1656.96
Female,Ice Cream,1521.62,1479.22,1032.03
Female,Sushi,1480.29,1742.88,1459.91
Male,Burger,1294.09,938.18,1439.16
Male,Burrito,1399.4,1312.93,1300.29
Male,Chalupa,1227.77,1114.23,1150.26
Male,Donut,1345.27,1249.36,1421.13


Es interesante porque hemos obtenido un DataFrame MuliIndex con indices Gender y Item pero además con los valores sumados por Ciudad tambien. También podemos obtener MultiIndex de columnas si añadimos una lista de valores, veamos que ocurre a continuación.

In [154]:
foods.pivot_table(values = "Spend", index = ["Gender", "Item"], columns = ["Frequency", "City"], aggfunc = "max")

Unnamed: 0_level_0,Frequency,Daily,Daily,Daily,Monthly,Monthly,Monthly,Never,Never,Never,Often,...,Once,Seldom,Seldom,Seldom,Weekly,Weekly,Weekly,Yearly,Yearly,Yearly
Unnamed: 0_level_1,City,New York,Philadelphia,Stamford,New York,Philadelphia,Stamford,New York,Philadelphia,Stamford,New York,...,Stamford,New York,Philadelphia,Stamford,New York,Philadelphia,Stamford,New York,Philadelphia,Stamford
Gender,Item,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2,Unnamed: 22_level_2
Female,Burger,87.3,91.12,75.51,97.77,89.52,84.7,97.89,84.04,57.3,82.0,...,72.69,44.51,97.79,74.88,93.25,25.41,57.29,98.96,64.62,85.06
Female,Burrito,83.29,91.58,80.49,73.89,33.24,67.94,91.77,96.79,98.61,62.7,...,67.36,92.25,83.33,94.99,25.3,61.56,81.18,70.24,50.39,76.32
Female,Chalupa,43.19,23.49,95.7,87.86,90.69,93.08,35.15,53.31,98.78,39.73,...,40.59,92.98,96.11,81.63,73.77,38.66,98.69,98.43,85.36,92.16
Female,Donut,95.63,92.25,77.71,82.05,50.25,82.25,56.07,96.52,59.04,69.32,...,88.14,71.18,81.56,73.84,85.93,95.32,91.75,62.95,85.51,69.4
Female,Ice Cream,97.83,79.18,78.24,51.51,40.64,59.76,95.6,71.49,77.66,91.5,...,79.12,95.58,79.52,78.62,77.7,88.14,47.96,70.45,63.62,15.24
Female,Sushi,74.72,99.02,86.94,83.53,78.71,55.78,69.33,75.12,19.56,95.07,...,95.43,87.7,85.37,27.82,99.51,84.27,91.33,74.85,61.22,83.28
Male,Burger,84.74,65.89,69.33,80.64,96.25,18.21,90.32,15.6,,33.68,...,88.05,83.84,99.68,89.99,69.69,75.59,97.2,44.18,98.83,78.79
Male,Burrito,98.04,67.2,81.2,73.58,35.95,71.85,35.78,93.27,95.07,73.64,...,24.87,84.74,27.71,9.84,91.48,78.95,72.27,65.45,63.76,74.79
Male,Chalupa,28.36,92.25,99.87,95.49,73.05,93.25,53.69,86.82,69.59,96.44,...,,11.69,98.4,51.63,81.43,79.97,44.37,77.3,37.66,96.9
Male,Donut,84.85,91.19,75.04,79.7,77.5,57.29,78.71,31.02,94.14,86.7,...,44.59,16.25,63.14,79.58,58.96,77.15,95.44,82.76,30.31,16.52


Podemos llamar tambien a `pivot_table()` directamente desde el objeto pandas, siempre que le pasamos un DataFrame desde el parámetro data.

In [156]:
pd.pivot_table(data = foods, values = "Spend", index = ["Gender", "Item"], columns = ['City'], aggfunc = "min").head(3)

Unnamed: 0_level_0,City,New York,Philadelphia,Stamford
Gender,Item,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Female,Burger,2.25,1.97,6.24
Female,Burrito,1.02,1.04,1.18
Female,Chalupa,1.96,9.35,9.09


## El método `melt`


Básicamente es la operación inversa del `pivot_table()`, fusiona columnas en una o varias. Vamos a usar un fichero de datos llamado quarters.csv que contiene las ventas por trimestre y comercial.

In [157]:
sales = pd.read_csv("pandas/quarters.csv")
sales

Unnamed: 0,Salesman,Q1,Q2,Q3,Q4
0,Boris,602908,233879,354479,32704
1,Bob,43790,514863,297151,544493
2,Tommy,392668,113579,430882,247231
3,Travis,834663,266785,749238,570524
4,Donald,580935,411379,110390,651572
5,Ted,656644,70803,375948,321388
6,Jeb,486141,600753,742716,404995
7,Stacy,479662,742806,770712,2501
8,Morgan,992673,879183,37945,293710


In [159]:
pd.melt(sales, id_vars = "Salesman")

Unnamed: 0,Salesman,variable,value
0,Boris,Q1,602908
1,Bob,Q1,43790
2,Tommy,Q1,392668
3,Travis,Q1,834663
4,Donald,Q1,580935
5,Ted,Q1,656644
6,Jeb,Q1,486141
7,Stacy,Q1,479662
8,Morgan,Q1,992673
9,Boris,Q2,233879


Aqui vemos que las 4 columnas anteriores se han fusionado en una y ha permanecido inalterada Salesman, lo cual espeficamos con el argumento id_vars. Poremos especificar el nombre de las columnas que se fusionan.

In [160]:
pd.melt(sales, id_vars = "Salesman", value_name="Revenue", var_name="Quarter" )

Unnamed: 0,Salesman,Quarter,Revenue
0,Boris,Q1,602908
1,Bob,Q1,43790
2,Tommy,Q1,392668
3,Travis,Q1,834663
4,Donald,Q1,580935
5,Ted,Q1,656644
6,Jeb,Q1,486141
7,Stacy,Q1,479662
8,Morgan,Q1,992673
9,Boris,Q2,233879
