In [14]:
#Importando as bibiliotecas que serão utilizadas
import pandas as pd
import numpy as np
import random 

## Estudo sobre Indexação hierárquica  
### Capítulo 8 PAG 284
>#### Estudo realizado com base no livro 'Python para análise de dados' 


>  Contato

> * [Linkedin](www.linkedin.com/in/isweluiz)

In [3]:
data = pd.Series(np.random.randn(9), 
                index=[['a', 'a', 'a','b','b', 'c','c','d','d'],
                      [1,2,3,1,3,1,2,2,3]])

In [4]:
data

a  1   -0.596138
   2    0.857441
   3    0.487340
b  1   -1.535779
   3   -1.348233
c  1   -1.171858
   2   -0.919709
d  2    0.762023
   3   -0.778544
dtype: float64

In [5]:
data.index

MultiIndex(levels=[['a', 'b', 'c', 'd'], [1, 2, 3]],
           labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3], [0, 1, 2, 0, 2, 0, 1, 1, 2]])

 #### Como um objeto hierarquicamente indexado, a chamada indexação parcial é possivel, permitindo selecionar subconjuntos dos dados de forma concisa; 

In [6]:
data['b']

1   -1.535779
3   -1.348233
dtype: float64

In [8]:
data['a']

1   -0.596138
2    0.857441
3    0.487340
dtype: float64

In [10]:
data['a':'b']

a  1   -0.596138
   2    0.857441
   3    0.487340
b  1   -1.535779
   3   -1.348233
dtype: float64

In [12]:
data.loc['b':'d']

b  1   -1.535779
   3   -1.348233
c  1   -1.171858
   2   -0.919709
d  2    0.762023
   3   -0.778544
dtype: float64

#### A seleção é até mesmo possível a partir de um nível "mais interno":

In [13]:
data.loc[:, 2]

a    0.857441
c   -0.919709
d    0.762023
dtype: float64

#### Podemos reorganizar o dataframe usando o método unstack 

In [16]:
data.unstack()

Unnamed: 0,1,2,3
a,-0.596138,0.857441,0.48734
b,-1.535779,,-1.348233
c,-1.171858,-0.919709,
d,,0.762023,-0.778544


#### A operação inversa é stack()

In [19]:
data.unstack().stack()

a  1   -0.596138
   2    0.857441
   3    0.487340
b  1   -1.535779
   3   -1.348233
c  1   -1.171858
   2   -0.919709
d  2    0.762023
   3   -0.778544
dtype: float64

#### Em um dataframe, qualquer eixo pode ter um índece hierarquico 

In [22]:
frame = pd.DataFrame(np.arange(12).reshape((4,3)),
                    index=[['a','a','b', 'b'], [1,2,1,2]],
                    columns=[['DF01', 'DF02', 'DF03'],
                            ['Taguatinga', 'Ceilândia' , 'Santa Maria']])

In [23]:
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,DF01,DF02,DF03
Unnamed: 0_level_1,Unnamed: 1_level_1,Taguatinga,Ceilândia,Santa Maria
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


#### Os níveis hierárquicos podem ter nomes(como strings ou qualquer objeto Python)

In [24]:
frame.index

MultiIndex(levels=[['a', 'b'], [1, 2]],
           labels=[[0, 0, 1, 1], [0, 1, 0, 1]])

In [27]:
frame.index.names = ['Key1', 'Key2']
frame.columns.names = ['Distrito', 'Cidade']
frame

Unnamed: 0_level_0,Distrito,DF01,DF02,DF03
Unnamed: 0_level_1,Cidade,Taguatinga,Ceilândia,Santa Maria
Key1,Key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


### Com a indexação parcial de colunas agora podemos, de modo semelhante selecionar grupos de colunas

In [30]:
frame['DF01']

Unnamed: 0_level_0,Cidade,Taguatinga
Key1,Key2,Unnamed: 2_level_1
a,1,0
a,2,3
b,1,6
b,2,9


### Reorganizando e ordenando os níveis

In [31]:
frame

Unnamed: 0_level_0,Distrito,DF01,DF02,DF03
Unnamed: 0_level_1,Cidade,Taguatinga,Ceilândia,Santa Maria
Key1,Key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [32]:
frame.swaplevel('Key1', 'Key2')

Unnamed: 0_level_0,Distrito,DF01,DF02,DF03
Unnamed: 0_level_1,Cidade,Taguatinga,Ceilândia,Santa Maria
Key2,Key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


 #### .sort_index, por outro lado, ordena os dados usando os valores de um só nível. 

In [36]:
frame.sort_index(level=1)

Unnamed: 0_level_0,Distrito,DF01,DF02,DF03
Unnamed: 0_level_1,Cidade,Taguatinga,Ceilândia,Santa Maria
Key1,Key2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


In [37]:
frame.swaplevel(0,1).sort_index(level=0)

Unnamed: 0_level_0,Distrito,DF01,DF02,DF03
Unnamed: 0_level_1,Cidade,Taguatinga,Ceilândia,Santa Maria
Key2,Key1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
1,b,6,7,8
2,a,3,4,5
2,b,9,10,11


## Estatística de resumo por nível

#### Podemos fazer uma agregação por nível,  seja nas linhas ou nas colunas, da seguinte maneira ; 

In [39]:
frame.sum(level='Key2')

Distrito,DF01,DF02,DF03
Cidade,Taguatinga,Ceilândia,Santa Maria
Key2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [40]:
frame.sum(level='Cidade', axis=1)

Unnamed: 0_level_0,Cidade,Taguatinga,Ceilândia,Santa Maria
Key1,Key2,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11
