# Multiindices en Pandas

In [2]:
import pandas as pd
import numpy as np
from pathlib import Path
data_path = Path('Datos_Pruebas/prueba.csv')
dataframe = pd.read_csv(data_path, sep=',')

In [3]:
#En esta lección vamos a ver los indices compuestos.
array_indices = [['a','a','a','a','b','b','b','b','c','c','c','c'],
                 ['a','b','c','d','a','b','c','d','a','b','c','d']]
#Luego de crear el array vamos a unirlo mediante una lista y el método zip
t = list(zip(array_indices[0], array_indices[1]))
#Y creamos con Pandas el multiindice:
mi = pd.MultiIndex.from_tuples(t, names = ['primero', 'segundo'])
print(mi)

MultiIndex([('a', 'a'),
            ('a', 'b'),
            ('a', 'c'),
            ('a', 'd'),
            ('b', 'a'),
            ('b', 'b'),
            ('b', 'c'),
            ('b', 'd'),
            ('c', 'a'),
            ('c', 'b'),
            ('c', 'c'),
            ('c', 'd')],
           names=['primero', 'segundo'])


In [4]:
#Le aplicamos el multiindice a una serie:
serie = pd.Series(np.arange(12), index = mi)
serie

primero  segundo
a        a           0
         b           1
         c           2
         d           3
b        a           4
         b           5
         c           6
         d           7
c        a           8
         b           9
         c          10
         d          11
dtype: int64

In [5]:
#Para consultarlo debemos hacerlo de la siguiente manera:
serie.loc[('a', 'c')]
#También podemos consultarlo a través del primer indice:
print(serie.loc['c'], "\n")
#Otra manera es consultar del sgundo nivel letras/indices concretos:
print(serie.loc[:, 'b'])#Todos los valores b del sgundo nivel(ab, bb, bc)

segundo
a     8
b     9
c    10
d    11
dtype: int64 

primero
a    1
b    5
c    9
dtype: int64


In [7]:
dataframe.head()
#Para llevar el multiindex a un dataframe:
#Primero creamos tuplas
tuples = [('Columna_Importantes', 'age'),
          ('Columna_Importantes', 'gender'),
          ('Columna_Importantes', 'genre'),
          ('Columna_No_Importantes', 'food'),
          ('Columna_No_Importantes', 'animals')]
#En base a las tuplas, como hicimos antes, generamos un multiindex
multiindex = pd.MultiIndex.from_tuples(tuples)
dataframe.columns = multiindex
dataframe.head()


Unnamed: 0_level_0,Columna_Importantes,Columna_Importantes,Columna_Importantes,Columna_No_Importantes,Columna_No_Importantes
Unnamed: 0_level_1,age,gender,genre,food,animals
0,20,1,HipHop,1,1
1,23,1,HipHop,1,2
2,25,1,HipHop,1,3
3,26,1,Jazz,2,2
4,29,1,Jazz,2,1


In [17]:
#Al realizar el multiindex podemos consultar gracias al multiindex:
print(dataframe['Columna_Importantes'], "\n", "\n")
#También podemos mostrar la jerarquía de las columnas:
print(dataframe.columns.levels, "\n")
#Podemos ser más concretos y preguntar por los níveles del indice:
print(dataframe.columns.get_level_values(0),  "\n")
print(dataframe.columns.get_level_values(1))


    age  gender      genre
0    20       1     HipHop
1    23       1     HipHop
2    25       1     HipHop
3    26       1       Jazz
4    29       1       Jazz
5    30       1       Jazz
6    31       1  Classical
7    33       1  Classical
8    37       1  Classical
9    20       0      Dance
10   21       0      Dance
11   25       0      Dance
12   26       0   Acoustic
13   27       0   Acoustic
14   30       0   Acoustic
15   31       0  Classical
16   34       0  Classical
17   35       0  Classical 
 

[['Columna_Importantes', 'Columna_No_Importantes'], ['age', 'animals', 'food', 'gender', 'genre']] 

Index(['Columna_Importantes', 'Columna_Importantes', 'Columna_Importantes',
       'Columna_No_Importantes', 'Columna_No_Importantes'],
      dtype='object') 

Index(['age', 'gender', 'genre', 'food', 'animals'], dtype='object')


In [31]:
#Podemos consultar las columnas a través del método .loc
dataframe.loc[:,[('Columna_Importantes', 'age')]]


Unnamed: 0_level_0,Columna_Importantes
Unnamed: 0_level_1,age
0,20
1,23
2,25
3,26
4,29
5,30
6,31
7,33
8,37
9,20
