In [51]:
import pandas as pd
import numpy as np
from numpy import nan as NA
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

## Indexação hierárquica
<br>
A indexação hierárquica nos permite ter dois ou mais níveis de indíces em um eixo. Facilitando o trabalho com dados de dimensões mais altas em um formato de dimensões menores.

In [52]:
data = pd.Series(np.random.randn(9), index=[['a','a','a','b','b','c','c','d','d'],
                                            [1,2,3,1,3,1,2,2,3]])
data
print('-----------')
data.index # obtendo as divisões MultiIndex de uma Series


a  1   -0.403153
   2   -0.457383
   3   -0.765016
b  1    0.768289
   3   -0.186784
c  1    0.367056
   2   -0.564430
d  2    0.862720
   3    0.064920
dtype: float64

-----------


MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

In [53]:
# fatiando uma indexação hierárquica
data['b']
print('-----------')
data['b':'c']
print('-----------')
data.loc[['b','d']]

1    0.768289
3   -0.186784
dtype: float64

-----------


b  1    0.768289
   3   -0.186784
c  1    0.367056
   2   -0.564430
dtype: float64

-----------


b  1    0.768289
   3   -0.186784
d  2    0.862720
   3    0.064920
dtype: float64

In [54]:
# fatiando e selecionando o índice
data.loc[:,2] # todos os indíces que tiverem nível =  2

a   -0.457383
c   -0.564430
d    0.862720
dtype: float64

In [55]:
# reorganizando os dados em um DataFrame com método unstack
data.unstack()
print('-----------')
data.unstack().stack()

Unnamed: 0,1,2,3
a,-0.403153,-0.457383,-0.765016
b,0.768289,,-0.186784
c,0.367056,-0.56443,
d,,0.86272,0.06492


-----------


a  1   -0.403153
   2   -0.457383
   3   -0.765016
b  1    0.768289
   3   -0.186784
c  1    0.367056
   2   -0.564430
d  2    0.862720
   3    0.064920
dtype: float64

In [56]:
# DataFrames podem ter hieráquia em qualquer eixo
frame = pd.DataFrame(np.arange(12).reshape((4,3)), index=[['a','a','b','b'],[1,2,1,2]],
                    columns=[['Ohio','Ohio','Colorado'], ['Green','Red','Green']])
frame
print('----------')
# podemos dar nomes aos níveis hieráquicos de um DataFrame
frame.index.names=['key1','key2']
frame.columns.names=['state','color']
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


----------


Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key1,key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [57]:
# indexação de um DataFrame hierárquico
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key1,key2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


In [62]:
# podemos criar um MultiIndex de maneira independente
pd.MultiIndex.from_arrays([['Ohio','Ohio','Colorad'],['Green','Red','Green']], names=['state','color'])

MultiIndex([(   'Ohio', 'Green'),
            (   'Ohio',   'Red'),
            ('Colorad', 'Green')],
           names=['state', 'color'])

### Reorganizando e ordenando níveis

In [None]:
# trocando eixos de níveis
frame.swaplevel('key1','key2')
print('-------------------')
# ordenando dados usando os valores de um só indíce
frame.sort_index(level = 1)


In [None]:
# trocando eixos de níveis e ordenando-os
frame.swaplevel(0,1).sort_index(level=1)

### Estatísticas de reusmo por nível

In [None]:
# Somando os valores de um nível
frame.sum(level='key2')
# Somando os valores de um nível em um eixo específico
print('--------------')
frame.sum(level='color',axis=1)

### Indexando colunas de um DataFrame

In [None]:
frame = pd.DataFrame({'a':range(7),'b':range(7,0,-1), 
                      'c':['one','one','one','two','two','two','two'],
                      'd':[0,1,2,0,1,2,3]})
frame

print('------------------------------')
# usaremos colunas como index
frame2 = frame.set_index(['c','d'])
frame2

# passando valores que são iguais aos das colunas sem tirá-los das colunas
print('------------------------------')
frame.set_index(['c','d'],drop=False)

print('------------------------------')
# passando níveis hierárquicos para colunas
frame2.reset_index()

## Combinando e mesclando conjuntos de dados