### Índices jerárquicos

Hasta ahora hemos trabajado con datos _longitudinales_ (Series) con un índice, y con datos _tabulares_ (DataFrames), con dos índices, uno por dimensión o eje (filas y columnas). Estos son los casos más comunes, y podremos acomodar la mayoría de los datos con los que tengamos que trabajar a estas estructuras.

Sin embargo, en algunas ocasiones nos vamos a encontrar con datos que encajarían mejor en una estructura con más dimensiones, o en los que una de sus dimensiones esté compuesta por varios niveles o jerarquías. Pandas ofrece la posibilidad de definir índices multinivel o jerárquicos en cualquiera de las dimensiones de sus objetos.

Para mostrarte cómo funcionan estos índices vamos a cargar uno de los ficheros de datos incluidos con el material de la unidad.

In [None]:
import numpy as np
import pandas as pd
from pandas import Series, DataFrame

# Recuerda ajustar la ruta de directorios para que apunte 
# adonde hayas descargado los ficheros
meteo_mes = pd.read_csv("../U09_datasets/meteo_mes_agg.csv", sep = ";")

meteo_mes.head(8)

Unnamed: 0,año,mes,ciudad,temp_c,viento_vel_kmh
0,2015,1,Barcelona,9.1,17.7
1,2015,1,Bilbao,9.1,8.7
2,2015,1,La Coruña,9.6,10.8
3,2015,1,Madrid,4.4,9.0
4,2015,1,Malaga,11.4,13.6
5,2015,1,Sevilla,9.6,8.9
6,2015,1,Valencia,10.1,11.3
7,2015,1,Zaragoza,6.0,18.8


Este _dataset_ incluye valores promedio mensuales de temperatura y velocidad del viento para varias ciudades españolas. Como ves, tenemos una columna con el año y otra con el mes. Las filas del DataFrame llevan la indexación secuencial por defecto. En este caso, podría ser más natural que el año y el mes sirvieran de índice. Vamos a hacerlo, utilizando el método `set_index()`.

In [None]:
# Ajustamos el índice del DataFrame
# para que use las columnas 'año' y 'mes'
meteo_mes.set_index(["año","mes"], inplace=True)

meteo_mes.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,ciudad,temp_c,viento_vel_kmh
año,mes,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2015,1,Barcelona,9.1,17.7
2015,1,Bilbao,9.1,8.7
2015,1,La Coruña,9.6,10.8
2015,1,Madrid,4.4,9.0
2015,1,Malaga,11.4,13.6
2015,1,Sevilla,9.6,8.9
2015,1,Valencia,10.1,11.3
2015,1,Zaragoza,6.0,18.8
2015,2,Barcelona,9.0,15.4
2015,2,Bilbao,8.0,11.5


Con `set_index()` le pedimos que utilice una o más columnas como nuevo índice para las filas. En este ejemplo puedes comprobar como los valores de año y mes han reemplazado al índice secuencial de las filas, a la izquierda de la tabla, dejando las columnas restantes del DataFrame como estaban.

Este nuevo índice decimos que es _jerárquico_ porque está organizado en varios niveles. Cada columna indicada al definir el índice pasa a ser un nuevo nivel, organizados en el mismo orden en el que se hayan especificado. Aquí el primer nivel del índice lo forman los valores del año, y un segundo nivel lo forman los valores del mes.

> **Atención** Fíjate que en `set_index()` hemos incluido el argumento `inplace=True`. Con esta opción le indicamos que queremos que modifique el contenido o estructura de la propia variable. Sin esta opción, el comportamiento por defecto es devolver una copia del DataFrame (o Series) con la modificación aplicada, dejando la variable original intacta. Pandas ofrece esta opción en muchas de las operaciones con Series y DataFrames. Dependiendo de la situación te convendrá un modo u otro, pero tenlo en cuenta para no encontrarte con resultados inesperados.

Examinemos la definición del índice.

In [None]:
meteo_mes.index

MultiIndex(levels=[[2015, 2016], [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]],
           labels=[[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1], [0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 6, 6, 6, 7, 7, 7, 7, 7, 7, 7, 7, 8, 8, 8, 8, 8, 8, 8, 8, 9, 9, 9, 9, 9, 9, 9, 9, 10, 10, 10, 10, 10, 10, 10, 10, 11, 11, 11, 11, 11, 11, 11, 11, 0, 0, 0, 0, 0, 0, 0, 0,

Los índices jerárquicos son objetos de clase `MultiIndex`. Podemos ver que está formado por dos niveles (`levels`), el primer nivel con los valores de los años (`[2015, 2016]`) y el segundo nivel con los valores de los meses (`[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]`).

En realidad, en este ejemplo las columnas con las variables de observaciones o medidas son la temperatura y la velocidad del viento. Podemos considerar a la columna `'ciudad'` como otro nivel para indexar. Pero antes de incluirla, tenemos que _limpiar_ la actual definición del índice.

In [None]:
# Para poder redefinir el índice, primero tenemos que hacer `reset`
meteo_mes.reset_index(inplace=True)
# Volvemos a tener el DataFrame como al principio
meteo_mes.head()

Unnamed: 0,año,mes,ciudad,temp_c,viento_vel_kmh
0,2015,1,Barcelona,9.1,17.7
1,2015,1,Bilbao,9.1,8.7
2,2015,1,La Coruña,9.6,10.8
3,2015,1,Madrid,4.4,9.0
4,2015,1,Malaga,11.4,13.6


Y ahora definimos de nuevo el índice.

In [None]:
meteo_mes.set_index(["ciudad","año","mes"], inplace=True)
meteo_mes.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,temp_c,viento_vel_kmh
ciudad,año,mes,Unnamed: 3_level_1,Unnamed: 4_level_1
Barcelona,2015,1,9.1,17.7
Bilbao,2015,1,9.1,8.7
La Coruña,2015,1,9.6,10.8
Madrid,2015,1,4.4,9.0
Malaga,2015,1,11.4,13.6
Sevilla,2015,1,9.6,8.9
Valencia,2015,1,10.1,11.3
Zaragoza,2015,1,6.0,18.8
Barcelona,2015,2,9.0,15.4
Bilbao,2015,2,8.0,11.5


#### Seleccionando elementos

¿Cómo accedemos a los elementos cuando tenemos un índice jerárquico? Es fácil si piensas en cada elemento de este índice como en una tupla ordenada de sus valores. En nuestro ejemplo, una tupla de la forma `(ciudad, año, mes)`.

In [None]:
# Para seleccionar un elemento mediante etiquetas
# debemos usar `loc`
meteo_mes.loc[("Bilbao", 2015, 1), :]

temp_c            9.1
viento_vel_kmh    8.7
Name: (Bilbao, 2015, 1), dtype: float64

¿Y si queremos todas las filas para Bilbao? Fácil, omitimos el valor para los restantes niveles del índice.

In [None]:
# ahora restringimos solo el primer nivel del índice
meteo_mes.loc[("Bilbao", ), :].head()

  return self._getitem_tuple(key)


Unnamed: 0_level_0,Unnamed: 1_level_0,temp_c,viento_vel_kmh
año,mes,Unnamed: 2_level_1,Unnamed: 3_level_1
2015,1,9.1,8.7
2015,2,8.0,11.5
2015,3,10.9,8.7
2015,4,15.8,9.9
2015,5,16.9,10.6


Antes de continuar, ¿te ha salido un mensaje de aviso? Algo como

> `PerformanceWarning: indexing past lexsort depth may impact performance.`

Con este mensaje Pandas viene a decirnos que estamos filtrando por un índice que no tiene sus valores correctamente ordenados. La operación va a funcionar igual, pero puede ser mucho más lenta que se tuviéramos el índice ordenado nivel a nivel.

Podemos reordenar el índice del DataFrame usando `sort_index()`.

In [None]:
# Reordenamos el índice de filas (axis=0)
# empezando por el primer nivel (level=0)
meteo_mes.sort_index(level=0, axis=0, inplace=True)
meteo_mes.loc[("Bilbao", ), :].head()

Unnamed: 0_level_0,Unnamed: 1_level_0,temp_c,viento_vel_kmh
año,mes,Unnamed: 2_level_1,Unnamed: 3_level_1
2015,1,9.1,8.7
2015,2,8.0,11.5
2015,3,10.9,8.7
2015,4,15.8,9.9
2015,5,16.9,10.6


El mismo resultado, pero más eficiente y sin avisos molestos.

Esta forma abreviada de seleccionar elementos especificando parcialmente los niveles del índice tiene un límite. No podemos restringir un nivel intermedio sin especificar un valor para todos los niveles superiores.

Es decir, lo siguiente no funciona.

In [None]:
# Así no podemos seleccionar todos los valores para el año 2015
meteo_mes.loc[(,2015,), :]

SyntaxError: invalid syntax (<ipython-input-202-14733724cdc5>, line 2)

Ni esto tampoco.

In [None]:
# Poniendo `:` en el primer nivel tampoco funciona.
meteo_mes.loc[(:,2015,), :]

SyntaxError: invalid syntax (<ipython-input-203-931f07f5a0bc>, line 2)