# MultiIndexes

Los multiindexes nos permiten añadir más de un indice a nuestros DataFrames, lo que al final permite categorizar los DataFrames de mejor forma, ya sea, a través de mas índices o a traves de mas capas o layers. Esto nos permite hacer operaciones como pivotar los datos, despivotar, que nos permiten hacer cosas muy interesantes. Es más fácil explicarlo con ejemplos que con teorías si que vamos a ello.



## Índice

- [Introducción](#Introducci%C3%B3n)
- [Crear un MultiIndex con el método set_index](#Crear-un-MultiIndex-con-el-m%C3%A9todo-.set_index)
- [El método get_level_values](#El-m%C3%A9todo-.get_level_values)
- [El método set_names](#El-m%C3%A9todo-.set_names-en-MultiIndex)
- [Extraer filas de un DataFrame MultiIndex](#Extraer-filas-de-un-MultiIndex-DataFrame)
- [El método transpose](#El-m%C3%A9todo-.transpose)
- [El método swaplevel](#El-m%C3%A9todo-.swaplevel)
- [El método sort_index en un DataFrame MultiIndex](#El-m%C3%A9todo-.sort_index-en-un-MultiIndex-DataFrame)
- [El método pivot](#El-m%C3%A9todo-pivot)
- [El método stack](#El-m%C3%A9todo-.stack)
- [El método unstack Parte 1](#El-m%C3%A9todo-.unstack--Parte-1)
- [El método unstack Parte 2](#El-m%C3%A9todo-.unstack--Parte-2)
- [El método unstack Parte 3](#El-m%C3%A9todo-.unstack--Parte-3)
- [El método pivot_table](#El-m%C3%A9todo-pivot_table)
- [El método melt](#El-m%C3%A9todo-pd.melt)


## Introducción

In [None]:
import pandas as pd

Vamos a abrir un fichero que contiene el precio de la deliciosa BigMac en varios países

In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv")
bigmac.sort_values('Price in US Dollars').head(3)

In [None]:
bigmac.dtypes
bigmac.info()

Parseamos la columna Date para que tenga mejor pinta y los convertimos a datetime objetos

In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"])
bigmac.head(3)

## Crear un MultiIndex con el método `.set_index`

Vamos a crear nuestro primer multiIndex sobre el dataframe de BigMacs, veámos como, importamos el csv como antes.

In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"])
bigmac.head(3)

Ya hemos utilizando `set_index()` antes para crear un nuevo índice sobre un DataFrame, en este caso lo vamos hacer para crear uno múltiple, pero primero veamos como funcionaba con un único parámetro:

In [None]:
dates = bigmac.set_index(keys = ["Date"])
dates.head(3)

Podemos ver que la columna Date se convierte en indice porque se mueve a la izquierda y está en negrita. Vamos a crear un multiIndex para Date y Country

In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"])
bigmac.set_index(keys = ["Date", "Country"], inplace = True)
bigmac

In [None]:
bigmac.sort_index(inplace = True)

In [None]:
bigmac.head(3)

Vamos a ver que pasa si intentamos ordenar los indices. Vamos a usar la función `sort_index()`

In [None]:
bigmac.sort_index()

Como vemos se ordenan de orden ascendente los dos valores, Date y Country. Veamos como obtener información de los indices.

In [None]:
bigmac.index

In [None]:
bigmac.index.names

In [None]:
type(bigmac.index)

In [None]:
bigmac.index[0]

## El método `.get_level_values`

Este método nos permite obtener los valores para un indice o layer en concreto. Veámos como se usa. Vamos a obtener un multiIndex pero usando una nueva forma, al leer el fichero csv le pasamos directamente los indices que queremos usar.

In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True) # Siempre es recomendable que indexemos para tener una secuencia de elementos ordenada
bigmac.head(3)

Veamos como podemos obtener el valor del primer indice con la función `get_level_values()`, al que le podemos pasar un valor númerico para especificar el indice o un valor string para especificarlo en función del nombre

In [None]:
#bigmac.index.get_level_values(0)
bigmac.index.get_level_values("Date")

In [None]:
#bigmac.index.get_level_values(1)
bigmac.index.get_level_values("Country")

En general queremos usar un índice cuando no conocemos el nombre del índice y un string cuando sí lo sabemos.

## El método `.set_names` en MultiIndex

Vamos a ver para que sirve este método que se ejecuta directamente sobre el objeto MultiIndex. Creamos un DataFrame como en el caso anterior:

In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac.head(3)

In [None]:
bigmac.index.set_names(["Luis"], inplace = True)

In [None]:
bigmac.head(3)

Como podemos ver, este método nos permite cambiar el nombre de un índice ya creado en el DataFrame. Si proveemos el mismo nombre que ya teníamos en un índice, basta con dejar el mismo nombre.

## Extraer filas de un `MultiIndex DataFrame`

Vamos a ver como podemos obtener filas de un DataFrame construido con un MultiIndex. Como siempre procedemos a leer nuestro csv y cargar el DataFrame.




In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac.head(3)

Vamos a utilizar el metodo loc para acceder a una fila del DataFrame. El método loc acepta etiquetas como índices, pero en nuestro caso, como tenemos dos índices, debemos usar una tupla para especificar las etiquetas para los índices que vamos a usar, y como último parámetro, especificamos el valor que queremos extraer (la serie o columna), de no ser así nos devolvería todas las diposnibles para las etiquetas suministradas.

In [None]:
bigmac.loc[("2010-01-01", "Brazil"), "Price in US Dollars"]

Veamos algunos ejemplos mas:

In [None]:
bigmac.loc[("2015-07-01", "Chile"), "Price in US Dollars"]

Veamos como con el método ix, que elimina los indices de los resultados obtenidos, pero el método de busqueda es muy parecido

In [None]:
bigmac.ix[("2016-01-01", "China")]

Recordemos que ix nos permite acceder a la serie con string o índice

In [None]:
bigmac.ix[("2016-01-01", "China"), "Price in US Dollars"]

In [None]:
bigmac.ix[("2016-01-01", "China"), 0]

## El método `.transpose`

Este método permite cambiar los ejes básicamente, veámos como funciona con un DataFrame con MultiIndex . Como siempre empezamos cargando el DataFrame. 

In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac

In [None]:
bigmac = bigmac.transpose()
bigmac.head(1)

Hemos pasado de tener una columna con 652 filas, a 652 columnas y una única fila. Para poder acceder a una serie en particular podemos utilizar el método ix como antes, pero esta vez cambiando el orden de los parámetros, ya que ahora el primer elemento es un índice normal y no require una tupla.

In [None]:
bigmac.ix["Price in US Dollars", ("2016-01-01", "Denmark")]

## El método `.swaplevel`

Este método permitir cambiar un level por otro. Veámos como funciona.

In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac.head(3)

In [None]:
bigmac = bigmac.swaplevel()
bigmac.head(3)

Como podemos ver se cambia un level por otro (un índice por otro), cuando tenemos dos, no hay que proveer ningún argumento a este método, pero si hay más de dos, es conveniente mirar la [documentación](https://pandas.pydata.org/pandas-docs/stable/advanced.html#swapping-levels-with-swaplevel). Hay formás mas sencillas de hacer esto, reseteando los índices o cambiando el orden al cargar el csv.

## El método `.sort_index` en un MultiIndex `DataFrame`

Vamos a ver de nuevo el método `sort_index()` para ver como funciona en más detalle. Empezamos recreando de nuevo nuestro DataFrame de siempre.

In [None]:
bigmac = pd.read_csv("pandas/bigmac.csv", parse_dates = ["Date"], index_col = ["Date", "Country"])
bigmac.sort_index(inplace = True)
bigmac.head(3)

Este método tiene un parámetro llamado ascending que si le damos un valor `True` ordenará todos los índices de forma ascendente

In [None]:
bigmac.sort_index(ascending=True, inplace=True)
bigmac

Podemos ordenar cada índice de forma separada, simplemente pasado una lista de booleanos al parámetro ascending, los irá mapeando de forma sucesiva a nuestros índices, es decir, el primer elemento de la lista será Date y la segunda Country en nuestro caso. 

In [None]:
bigmac.sort_index(ascending = [True, False], inplace = True)

In [None]:
bigmac.head(3)
bigmac.tail(10)

Podemos ver como fácilmente podemos aplicar criterios distintos de ordenación por índice.

## El método `pivot`

El método `pivot` se suele utilizar para convertir valores de columnas a cabeceras de columnas. Veámos como. Vamos a utilizar un nuevo dataset llamado salesmen.csv que contiene el nombre, fecha e ingresos obtenidos por cada comerciante de ventas.

In [None]:
sales = pd.read_csv("pandas/salesmen.csv", parse_dates = ["Date"])

sales['Salesman'].value_counts()

# Como solo hay 5 valores unicos en la columna salesman, vamos a convertirlo a cateogria
sales["Salesman"] = sales["Salesman"].astype("category")
sales.head(3)


Como la columna Salesman se repite mucho, nos puede interesar pivotar la información para mostrarla de otra forma que sea mejor.

In [None]:
sales.pivot(index='Date', columns='Salesman', values='Revenue').head(3)

## El método `.stack`

Este método permite mover el indíce de columna al índice horizontal, el que está más a la izquierda del todo. Esto es más fácil de entender si lo vemos en práctica que de forma escrita. 

Vamos a abrir un fichero llamado worldstats.csv que contiene paises, población, años y GPD (el PIB) y veamos como usar el método `stack()`

In [None]:
world = pd.read_csv("pandas/worldstats.csv", index_col = ["country", "year"])
world.head(3)

In [None]:
world.stack().to_frame()

Básicamente, stack acopla las columnas en los índices que hemos creado al cargar el csv, en este caso Country y Year. El resultado de stack es un objecto Series, así que podemos usar el metodo `to_frame()` para convertirlo a DataFrame.

## El método `.unstack`  Parte 1

El método `unstack()` permite deshacer una operación stack, evidentemente. Veámos como funciona.

In [None]:
world = pd.read_csv("pandas/worldstats.csv", index_col = ["country", "year"])
world.head(3)

In [None]:
# Hacemos stack
s = world.stack()
s.head(3)

Vamos a llamar al método `unstack()` para ver si podemos volver a nuestro DataFrame 

In [None]:
s.unstack()

In [None]:
s.unstack().unstack()

In [None]:
s.unstack().unstack().unstack()

## El método `.unstack`  Parte 2


In [None]:
world = pd.read_csv("pandas/worldstats.csv", index_col = ["country", "year"])
world.head(3)

In [None]:
s = world.stack()
s.head(3)

El método unstack acepta un índice, el que queremos "desapilar". Dicho esto, en nuestro caso Country es en índice 0 y year el índice 1, por lo que si queremos desapilar el índice country y que pase a formar parte de las columnas, podemos hacer

In [None]:
s.unstack(0)

Como curiosidad, podemos acceder también al índice por nombre, siempre que tenga, en nuestro caso solo year y country tienen nombre.

In [None]:
s.unstack('country')

## El método `.unstack`  Parte 3

Veamos cómo podemos hacer unstack en varios niveles o índices.

In [None]:
world = pd.read_csv("pandas/worldstats.csv", index_col = ["country", "year"])
s = world.stack()
world.head(3)
s.head(3)

In [None]:
s.unstack(level=["year", "country"])

Como podemos ver, podemos desapilar usando indíces basados en nombre, pero tambíen basados en números, incluso negativos. Si llamamos a unstack solamanete con un índice, por ejemplo:

In [None]:
s.unstack('year')

Y queremos eliminar los valores NaN cuando desapilamos, podemos usar el parámetro fill_value.

In [None]:
s = s.unstack('year', fill_value=0)
s.head()

## El método `pivot_table`

Este método funciona de forma muy parecida al pivot_table de Excel, nos permite hacer operaciones en conjunto sobre un DataFrame. Veámos como funciona. Supongamos que tenemos un nuevo fichero de datos llamado foods.csv que nos indica el nombre, sexo, ciudad, frecuencia, comida y cantidad gastada de varias personas y ciudades. Así que vamos a cargar nuestro nuevo DataFrame

In [None]:
foods =pd.read_csv("pandas/foods.csv")
foods.head(3)

Supongamos que queremos obtener la media de gasto por genero:

In [None]:
foods.pivot_table(values= "Spend", index="Gender", aggfunc= "mean")

 El primer argumento values especifica sobre que valor queremos pivotar, el segundo que índice vamos a utilizar para mostrar la información y aggfunc especifica la funcióń de agrupación que queramos hacer. Podemos crear un MultiIndex si suministramos una lista al parámetro index. Veamos como, supongamos que queremos obtener la suma de las comidas compradas indexadas por sexo y además queremos ver en qué ciudad. 

In [None]:
foods.pivot_table(values = "Spend", index = ["Gender", "Item"], columns = "City", aggfunc = "sum")

Es interesante porque hemos obtenido un DataFrame MuliIndex con indices Gender y Item pero además con los valores sumados por Ciudad tambien. También podemos obtener MultiIndex de columnas si añadimos una lista de valores, veamos que ocurre a continuación.

In [None]:
foods.pivot_table(values = "Spend", index = ["Gender", "Item"], columns = ["Frequency", "City"], aggfunc = "max")

Podemos llamar tambien a `pivot_table()` directamente desde el objeto pandas, siempre que le pasamos un DataFrame desde el parámetro data.

In [None]:
pd.pivot_table(data = foods, values = "Spend", index = ["Gender", "Item"], columns = ['City'], aggfunc = "min").head(3)

## El método `melt`


Básicamente es la operación inversa del `pivot_table()`, fusiona columnas en una o varias. Vamos a usar un fichero de datos llamado quarters.csv que contiene las ventas por trimestre y comercial.

In [None]:
sales = pd.read_csv("pandas/quarters.csv")
sales

In [None]:
pd.melt(sales, id_vars = "Salesman")

Aqui vemos que las 4 columnas anteriores se han fusionado en una y ha permanecido inalterada Salesman, lo cual espeficamos con el argumento id_vars. Poremos especificar el nombre de las columnas que se fusionan.

In [None]:
pd.melt(sales, id_vars = "Salesman", value_name="Revenue", var_name="Quarter" )