
#### Índices jerárquicos sobre columnas

Las columnas de un DataFrame no dejan de ser un índice, como ocurre con las filas. Así que sí, podemos tener índices multinivel también sobre las columnas de un DataFrame. Veamos un ejemplo.

In [None]:
# Vamos a extraer DataFrames parciales con los datos de algunos municipios
# Datos completos de Bilbao, Valencia y Zaragoza
bilbao = meteo_mes.loc[("Bilbao",) , :]
valencia = meteo_mes.loc[("Valencia",) , :]
zgz = meteo_mes.loc[("Zaragoza",) , :]

# Y los combinamos en un solo DataFrame
meteo_bvz = pd.concat([bilbao, valencia, zgz], axis=1)
meteo_bvz.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,temp_c,viento_vel_kmh,temp_c,viento_vel_kmh,temp_c,viento_vel_kmh
año,mes,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2015,1,9.1,8.7,10.1,11.3,6.0,18.8
2015,2,8.0,11.5,10.9,15.6,6.2,22.8
2015,3,10.9,8.7,13.8,11.6,11.0,19.8
2015,4,15.8,9.9,16.0,9.9,14.5,15.4
2015,5,16.9,10.6,21.3,10.1,19.1,21.4


La función `pd.concat()` de Pandas permite concatenar varios DataFrame, añadiendo las filas de cada uno al final del anterior (esta es la opción por defecto, `'axis = 0'`), o bien añadiendo las columnas de cada uno a continuación del anterior (con la opción `'axis = 1'`).

Como ves, al concatenar por columnas, los nombres están repetidos. Vamos a definir un índice multinivel para las columnas de este DataFrame. El primer nivel indicará la ciudad y el segundo nivel indicará la variable meteorológica.

In [None]:
# Podemos crear un índice multinivel
# usando los métodos de `pd.MultiIndex` de Pandas
idx = pd.MultiIndex.from_product([["Bilbao","Valencia","Zaragoza"], ["temp_c","viento_vel_kmh"]], 
                                 names = ["ciudad","variable"])

# Reemplazamos el índice con los nombres de columnas actuales
# por el nuevo índice multinivel
meteo_bvz.columns = idx

meteo_bvz.head()

Unnamed: 0_level_0,ciudad,Bilbao,Bilbao,Valencia,Valencia,Zaragoza,Zaragoza
Unnamed: 0_level_1,variable,temp_c,viento_vel_kmh,temp_c,viento_vel_kmh,temp_c,viento_vel_kmh
año,mes,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2015,1,9.1,8.7,10.1,11.3,6.0,18.8
2015,2,8.0,11.5,10.9,15.6,6.2,22.8
2015,3,10.9,8.7,13.8,11.6,11.0,19.8
2015,4,15.8,9.9,16.0,9.9,14.5,15.4
2015,5,16.9,10.6,21.3,10.1,19.1,21.4


En el método `from_product()` de la clase `MultiIndex` primero pasamos una lista que a su vez contiene una lista de etiquetas por cada nivel del índice. En nuestro ejemplo, la primera sublista tiene los nombres de las ciudades, y la segunda el nombre de las variables. El índice se creara con tantas columnas como combinaciones entre elementos de cada nivel (su producto cartesiano). En el argumento `names` indicamos el nombre de cada nivel del índice jerárquico.

Ahora podemos seleccionar también usando los distintos niveles de las columnas.

In [None]:
# Indicando solo el primer nivel
meteo_bvz["Valencia"].head()

Unnamed: 0_level_0,variable,temp_c,viento_vel_kmh
año,mes,Unnamed: 2_level_1,Unnamed: 3_level_1
2015,1,10.1,11.3
2015,2,10.9,15.6
2015,3,13.8,11.6
2015,4,16.0,9.9
2015,5,21.3,10.1


In [None]:
# O especificando todos los niveles
meteo_bvz[("Valencia","temp_c")].head()

año   mes
2015  1      10.1
      2      10.9
      3      13.8
      4      16.0
      5      21.3
Name: (Valencia, temp_c), dtype: float64

In [None]:
# También podemos seleccionar simultáneamente
# por filas y columnas multinivel
meteo_bvz.loc[(2016, [1,3]), "Bilbao"]

Unnamed: 0_level_0,variable,temp_c,viento_vel_kmh
año,mes,Unnamed: 2_level_1,Unnamed: 3_level_1
2016,1,11.8,10.6
2016,3,10.4,11.0


Si necesitamos hacer selecciones más complejas, como hacer rebanadas de los distintos niveles, la forma más sencilla es utilizar un objeto `IndexSlice`. Se trata de una herramienta auxiliar que se encarga de facilitarnos la manera de escribir expresiones de selección multinivel complicadas.

In [None]:
# Creamos un objeto IndexSlice
ixs = pd.IndexSlice
# y lo utilizamos directamente para seleccionar rebanadas
# en índices multinivel
meteo_bvz.loc[ixs[2016, 2:5], ixs["Bilbao",:]]

Unnamed: 0_level_0,ciudad,Bilbao,Bilbao
Unnamed: 0_level_1,variable,temp_c,viento_vel_kmh
año,mes,Unnamed: 2_level_2,Unnamed: 3_level_2
2016,2,10.3,12.0
2016,3,10.4,11.0
2016,4,13.0,10.2
2016,5,16.5,11.0
