# **Obtención y preparación de datos**

# OD16. Multi-Indexación de Estructuras en Pandas - SOLUCION

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="100" align="left" title="Runa-perth">
<br clear="left">


##<font color='red'>**Contenido opcional**</font>

Hasta ahora hemos visto series y dataframes pandas con índices sencillos, pero pueden tener también índices jerárquicos o multi-índices, lo que abre la puerta a sofisticados procesos de manipulación y análisis de datos.

Podemos imaginarnos un multi-índice como un índice en el que cada valor es una tupla única de elementos. Es posible crear estos multi-índices y extraerlos posteriormente de varias formas.

In [1]:
import numpy as np
import pandas as pd

## <font color='blue'>**Creación de multi-índices**</font>

Podemos crear un multi-índice de cuatro formas distintas:

* A partir de una lista de arrays, usando el método `pd.MultiIndex.from_arrays()`
* A partir de un array de tuplas, usando el método `pd.MultiIndex.from_tuples()`
* A partir del producto cartesiano de los valores de dos iterables, usando el método `pd.MultiIndex.from_product()`
* A partir de un DataFrame, usando el método `pd.MultiIndex.from_frame()`

## <font color='blue'>**Multi-índices a partir de una lista de arrays**</font>

El primer método es aquel en el que creamos el multi-índice indicando cada una de las columnas que lo van a formar.

In [2]:
index = pd.MultiIndex.from_arrays(
    [
        [2018, 2018, 2018, 2019, 2019, 2019],
        ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
index

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

El parámetro `names` permite especificar los nombres de los niveles del índice jerárquico.

Al llevar este multi-índice a un dataframe se obtiene el siguiente resultado:

In [3]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Multi-índices a partir de un array de tuplas**</font>

En este segundo método indicamos los valores del multi-índice valor por valor, siendo éstos tuplas.


In [4]:
index = pd.MultiIndex.from_tuples(
    [
    (2018, "España"),
    (2018, "Portugal"),
    (2018, "Francia"),
    (2019, "España"),
    (2019, "Portugal"),
    (2019, "Francia")
    ],
    names = ["Año", "País"])
index

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

Seguimos teniendo a nuestra disposición el parámetro names para especificar los nombres de los niveles.

Si creamos nuestro DataFrame vemos que el resultado es el mismo que el que habíamos obtenido:

In [5]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Multi-índices por producto cartesiano de arrays**</font>

El tercer método nos permite especificar los valores (únicos) de los diferentes niveles, creándose el índice jerárquico como resultado del producto escalar de los valores. Por ejemplo:


In [6]:
index = pd.MultiIndex.from_product(
    [
        [2018, 2019],
        ["España", "Portugal", "Francia"]
    ],
    names = ["Año", "País"]
)
index

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

Nuevamente, el parámetro names nos permite dar nombre a los niveles.

El resultado de llevar este índice a nuestro DataFrame es el ya conocido:

In [7]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Multi-índices a partir de un DataFrame**</font>

Por último, podemos crear el multi-índice a partir de un DataFrame en el que cada columna coincide con una columna del multi-índice.

In [8]:
df = pd.DataFrame({
    "Año":[2018, 2018, 2018, 2019, 2019, 2019],
    "País": ["España", "Portugal", "Francia", "España", "Portugal", "Francia"]
})
df

Unnamed: 0,Año,País
0,2018,España
1,2018,Portugal
2,2018,Francia
3,2019,España
4,2019,Portugal
5,2019,Francia


Ahora podemos crear el índice:



In [9]:
index = pd.MultiIndex.from_frame(df)
index

MultiIndex([(2018,   'España'),
            (2018, 'Portugal'),
            (2018,  'Francia'),
            (2019,   'España'),
            (2019, 'Portugal'),
            (2019,  'Francia')],
           names=['Año', 'País'])

DataFrame con índice jerárquico:

In [10]:
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


## <font color='blue'>**Extracción de un nivel del índice**</font>

Trabajando con un DataFrame o una Serie pandas con multi-índice, es posible extraer los valores de un nivel del índice con el método `get_level_values()`. El parámetro que deberemos pasar a este método será o el número del nivel o su nombre -si es que el índice ha recibido nombres-.

In [11]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


La columna de etiquetas del multi-índice situada en el extremo izquierdo es la que recibe el número (el índice) 0. Por lo tanto:

In [12]:
data.index.get_level_values(0)

Int64Index([2018, 2018, 2018, 2019, 2019, 2019], dtype='int64', name='Año')

De forma semejante:

In [13]:
data.index.get_level_values(1)

Index(['España', 'Portugal', 'Francia', 'España', 'Portugal', 'Francia'], dtype='object', name='País')

Si pasamos como argumento el nombre de la columna del índice obtenemos resultados semejantes:

In [14]:
data.index.get_level_values("Año")

Int64Index([2018, 2018, 2018, 2019, 2019, 2019], dtype='int64', name='Año')

In [15]:
data.index.get_level_values("País")

Index(['España', 'Portugal', 'Francia', 'España', 'Portugal', 'Francia'], dtype='object', name='País')

## <font color='blue'>**Selección con multi-índices**</font>

El trabajar con estructuras pandas con multi-índices nos ofrece nuevos métodos de selección de datos.

In [16]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


Podemos extraer las filas correspondientes al año 2018 con la siguiente expresión:

In [17]:
data.loc[2018]

Unnamed: 0_level_0,Ventas
País,Unnamed: 1_level_1
España,18
Portugal,20
Francia,10


O extraer el valor del campo "Ventas" correspondiente al año 2018 y el país "España" con la siguiente expresión:

In [18]:
data.loc[(2018, "España")]

Ventas    18
Name: (2018, España), dtype: int64

## <font color='blue'>**Aplicación de funciones estadísticas**</font>

Usando multi-índices, también es posible aplicar funciones estadísticas al DataFrame o a la Serie especificando el nivel de la jerarquía al que aplicarlas.

In [19]:
index = pd.MultiIndex.from_product(
    [[2018, 2019],["España", "Portugal", "Francia"]],
    names = ["Año", "País"]
)
data = pd.DataFrame(data = [18, 20, 10, 15, 12, 18], index = index, columns = ["Ventas"])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Ventas
Año,País,Unnamed: 2_level_1
2018,España,18
2018,Portugal,20
2018,Francia,10
2019,España,15
2019,Portugal,12
2019,Francia,18


Podemos calcular el valor medio de las ventas, como ya sabemos con el método .mean():

In [20]:
data.mean()

Ventas    15.5
dtype: float64

Pero si especificamos el nivel al que queremos aplicarlo, el DataFrame se agrega según los valores de dicho nivel antes de realizar la operación.

In [21]:
data.mean(level = "Año")

  data.mean(level = "Año")


Unnamed: 0_level_0,Ventas
Año,Unnamed: 1_level_1
2018,16.0
2019,15.0


O el valor medio por país:

In [22]:
data.mean(level = "País")

  data.mean(level = "País")


Unnamed: 0_level_0,Ventas
País,Unnamed: 1_level_1
España,16.5
Portugal,16.0
Francia,14.0


### <font color='green'>Actividad 1</font>

En una universidad internacional, se han registrado las calificaciones de los estudiantes en distintas materias y semestres. Estas calificaciones están almacenadas en un DataFrame con multiíndices, donde el primer nivel es el país de origen del estudiante y el segundo nivel es su número de identificación. Quieres analizar las calificaciones según diferentes criterios.

```
# Creando un índice multinivel
countries = ['USA', 'UK', 'Chile', 'Germany']
student_ids = [101, 102, 103, 104, 105, 106, 107, 108]
multi_index = pd.MultiIndex.from_product([countries, student_ids[:2]], names=['Country', 'Student ID'])

# Data
data = {
    'Math': np.random.randint(60, 100, len(multi_index)),
    'Physics': np.random.randint(60, 100, len(multi_index)),
    'History': np.random.randint(60, 100, len(multi_index))
}

df = pd.DataFrame(data, index=multi_index)
```

1. Selecciona las calificaciones de todos los estudiantes de Chile.
2. Obtener el promedio de calificaciones en Matemáticas para cada país.
3. Filtra los estudiantes que obtuvieron más de 90 en Historia.
4. Encuentra el estudiante con la calificación más alta en Física de cada país.
5. Cambia el nivel de los índices, haciendo que 'Student ID' sea el nivel principal y 'Country' el segundo nivel.

In [26]:
# Tu código aquí ...

import pandas as pd

# Creando un índice multinivel
countries = ['USA', 'UK', 'Chile', 'Germany']
student_ids = [101, 102, 103, 104, 105, 106, 107, 108]
multi_index = pd.MultiIndex.from_product([countries, student_ids[:2]], names=['Country', 'Student ID'])

# Data
data = {
    'Math': np.random.randint(60, 100, len(multi_index)),
    'Physics': np.random.randint(60, 100, len(multi_index)),
    'History': np.random.randint(60, 100, len(multi_index))
}

df = pd.DataFrame(data, index=multi_index)

# 1. Seleccionar calificaciones de estudiantes de Chile
chile_scores = df.loc['Chile']
print(chile_scores)
print('')

# 2. Promedio de calificaciones en Matemáticas por país
math_avg_by_country = {}
for country in countries:
    math_avg_by_country[country] = df.loc[country]['Math'].mean()
print(math_avg_by_country)
print('')

# 3. Estudiantes con más de 90 en Historia
students_above_90_history = df[df['History'] > 90]
print(students_above_90_history)
print('')

# 4. Estudiante con la calificación más alta en Física por país
max_physics_by_country = {}
for country in countries:
    country_data = df.loc[country]
    max_student_id = country_data['Physics'].idxmax()
    max_physics_by_country[country] = country_data.loc[max_student_id]
print(max_physics_by_country)
print('')

# 5. Cambiar nivel de índices
new_index = [(student_id, country) for country, student_id in df.index]
df_reindexed = pd.DataFrame(df.values, index=pd.MultiIndex.from_tuples(new_index, names=['Student ID', 'Country']), columns=df.columns)
print(df_reindexed)

            Math  Physics  History
Student ID                        
101           97       67       84
102           81       86       64

{'USA': 81.0, 'UK': 76.0, 'Chile': 89.0, 'Germany': 65.0}

                    Math  Physics  History
Country Student ID                        
Germany 102           67       89       94

{'USA': Math       65
Physics    80
History    62
Name: 102, dtype: int64, 'UK': Math       77
Physics    91
History    86
Name: 102, dtype: int64, 'Chile': Math       81
Physics    86
History    64
Name: 102, dtype: int64, 'Germany': Math       67
Physics    89
History    94
Name: 102, dtype: int64}

                    Math  Physics  History
Student ID Country                        
101        USA        97       75       77
102        USA        65       80       62
101        UK         75       84       61
102        UK         77       91       86
101        Chile      97       67       84
102        Chile      81       86       64
101        Germany    6

<font color='green'>Fin actividad 1</font>

<img src="https://drive.google.com/uc?export=view&id=1Igtn9UXg6NGeRWsqh4hefQUjV0hmzlBv" width="50" align="left" title="Runa-perth">
<br clear="left">