# **Obtención y preparación de datos**

# OD16. Multi-Indexación de Estructuras en Pandas

Hasta ahora hemos visto series y dataframes pandas con índices sencillos, pero pueden tener también índices jerárquicos o multi-índices, lo que abre la puerta a sofisticados procesos de manipulación y análisis de datos.

Podemos imaginarnos un multi-índice como un índice en el que cada valor es una tupla única de elementos. Es posible crear estos multi-índices y extraerlos posteriormente de varias formas.

In [1]:
import numpy as np
import pandas as pd

## <font color='blue'>**Creación de multi-índices**</font>

Podemos crear un multi-índice de cuatro formas distintas:

* A partir de una lista de arrays, usando el método **pd.MultiIndex.from_arrays()**
* A partir de un array de tuplas, usando el método **pd.MultiIndex.from_tuples()**
* A partir del producto cartesiano de los valores de dos iterables, usando el método **pd.MultiIndex.from_product()**
* A partir de un DataFrame, usando el método **pd.MultiIndex.from_frame()**

## <font color='blue'>**Multi-índices a partir de una lista de arrays**</font>

El primer método es aquel en el que creamos el multi-índice indicando cada una de las columnas que lo van a formar.

In [2]:
index = pd.MultiIndex.from_arrays(
    [
        [2018, 2018, 2018, 2019, 2019, 2019],
        ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
index #la combinación de los arrays y sus nombres

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

El parámetro **names** permite especificar los nombres de los niveles del índice jerárquico.

Al llevar este multi-índice a un dataframe se obtiene el siguiente resultado:

In [3]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"]) #misma dimensión
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Multi-índices a partir de un array de tuplas**</font>

En este segundo método indicamos los valores del multi-índice valor por valor, siendo éstos tuplas.


In [4]:
index = pd.MultiIndex.from_tuples(
    [
    (2018, "España"),
    (2018, "Portugal"),
    (2018, "Francia"),
    (2019, "España"),
    (2019, "Portugal"),
    (2019, "Francia")
    ],
    names = ["Año", "País"])
index #se usan las tuplas, aunque también se definen sus nombres

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

Seguimos teniendo a nuestra disposición el parámetro names para especificar los nombres de los niveles.

Si creamos nuestro DataFrame vemos que el resultado es el mismo que el que habíamos obtenido:

In [5]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Multi-índices por producto cartesiano de arrays**</font>

El tercer método nos permite especificar los valores (únicos) de los diferentes niveles, creándose el índice jerárquico como resultado del producto escalar de los valores. Por ejemplo:


In [6]:
index = pd.MultiIndex.from_product(
    [
        [2018, 2019],
        ["España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
index #usa crossjoin que muestra el resultado del producto cruzado entre las dos listas y define los nombres 

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

Nuevamente, el parámetro names nos permite dar nombre a los niveles.

El resultado de llevar este índice a nuestro DataFrame es el ya conocido:

In [7]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Multi-índices a partir de un DataFrame**</font>

Por último, podemos crear el multi-índice a partir de un DataFrame en el que cada columna coincide con una columna del multi-índice.

In [8]:
df = pd.DataFrame({
    "Año":[2018, 2018, 2018, 2019, 2019, 2019],
    "País": ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
})
df #DataFrame

Unnamed: 0,Año,País
0,2018,España
1,2018,Portugal
2,2018,Francia
3,2019,España
4,2019,Portugal
5,2019,Francia


Ahora podemos crear el índice:



In [9]:
index = pd.MultiIndex.from_frame(df)
index #usar .from_frame

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

DataFrame con índice jerárquico:

In [10]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Extracción de un nivel del índice**</font>

Trabajando con un DataFrame o una Serie pandas con multi-índice, es posible extraer los valores de un nivel del índice con el método **.get_level_values()**. El parámetro que deberemos pasar a este método será o el número del nivel o su nombre -si es que el índice ha recibido nombres-.

In [11]:
index = pd.MultiIndex.from_product( #pd.MultiIndex.from_product
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


La columna de etiquetas del multi-índice situada en el extremo izquierdo es la que recibe el número (el índice) 0. Por lo tanto:

In [12]:
data.index.get_level_values(0) #get_level_values para el 1er index (año)

Int64Index([2018, 2018, 2018, 2019, 2019, 2019], dtype='int64', name='Año')

De forma semejante:

In [13]:
data.index.get_level_values(1) #get_level_values para el 2do index (País)

Index(['España', 'Portugal', 'Francia', 'España', 'Portugal', 'Francia'], dtype='object', name='País')

Si pasamos como argumento el nombre de la columna del índice obtenemos resultados semejantes:

In [14]:
data.index.get_level_values("Año") #puede ser tanto su posición como su nombre

Int64Index([2018, 2018, 2018, 2019, 2019, 2019], dtype='int64', name='Año')

In [15]:
data.index.get_level_values("País")

Index(['España', 'Portugal', 'Francia', 'España', 'Portugal', 'Francia'], dtype='object', name='País')

## <font color='blue'>**Selección con multi-índices**</font>

El trabajar con estructuras pandas con multi-índices nos ofrece nuevos métodos de selección de datos.

In [16]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


Podemos extraer las filas correspondientes al año 2018 con la siguiente expresión:

In [17]:
data.loc[2018] #.loc filtra uno de los index (en este caso 2018)

Unnamed: 0_level_0,Ventas
País,Unnamed: 1_level_1
España,18
Portugal,20
Francia,10


O extraer el valor del campo "Ventas" correspondiente al año 2018 y el país "España" con la siguiente expresión:

In [18]:
data.loc[(2018, "España")] #como tuple, se filta para cada Index

Ventas    18
Name: (2018, España), dtype: int64

## <font color='blue'>**Aplicación de funciones estadísticas**</font>

Usando multi-índices, también es posible aplicar funciones estadísticas al DataFrame o a la Serie especificando el nivel de la jerarquía al que aplicarlas.

In [19]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


Podemos calcular el valor medio de las ventas, como ya sabemos con el método .mean():

In [20]:
data.mean() #overall mean

Ventas    15.5
dtype: float64

Pero si especificamos el nivel al que queremos aplicarlo, el DataFrame se agrega según los valores de dicho nivel antes de realizar la operación.

In [21]:
data.mean(level = "Año") #mean by year (en level debe haber un index)

Unnamed: 0_level_0,Ventas
Año,Unnamed: 1_level_1
2018,16
2019,15


O el valor medio por país:

In [22]:
data.mean(level = "País") #mean by country 

Unnamed: 0_level_0,Ventas
País,Unnamed: 1_level_1
España,16.5
Portugal,16.0
Francia,14.0


## <font color="red">Experimentos Multi-indexación:</font>

### <font color="red">Utilizar ***Reindex*** con ***MultiIndex***:

Al cambiar de lugar se desordena al estructura del ```MultiIndex```texto en negrita.</font>

In [23]:
index = pd.MultiIndex.from_arrays(
    [
        [2018, 2018, 2018, 2019, 2019, 2019],
        ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data = data.reindex(
    [
        (2018, 'España'),
        (2018, 'Portugal'),
        #(2018,  'Francia'), # cambiamos de lugar
        (2019,   'España'),
        (2019, 'Portugal'),
        (2019,  'Francia'),
        (2019,  'Chile'), # agregar Chile 2019
        (2020, 'Chile'), # agregar Chile 2020
        (2018,  'Francia')
    ]
)
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18.0
2018,Portugal,20.0
2019,España,15.0
2019,Portugal,12.0
2019,Francia,18.0
2019,Chile,
2020,Chile,
2018,Francia,10.0


<font color="red">Para resolverlo podemos utilizar un ```sort_index```.</font>

In [24]:
data.sort_index(level="Año") #ordenar el index

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18.0
2018,Francia,10.0
2018,Portugal,20.0
2019,Chile,
2019,España,15.0
2019,Francia,18.0
2019,Portugal,12.0
2020,Chile,


### <font color="red">Utilizar ***index*** de distintos tipos:</font>

In [25]:
index = pd.MultiIndex.from_arrays(
    [
        [2018, 2018.1, '2018.2', 2019.0, 2019, '2019'],
        ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018.0,España,18
2018.1,Portugal,20
2018.2,Francia,10
2019.0,España,15
2019.0,Portugal,12
2019.0,Francia,18


<font color="red">El dataframe conserva el tipo asignado en el ***index***.</font>

In [26]:
[(type(i[0]), type(i[1])) for i in data.index] #el tipo de la tupla de cada index

[(int, str), (float, str), (str, str), (float, str), (float, str), (str, str)]