# Tratamento de dados: junção, combinação e reformatação

In [12]:
import pandas as pd
import numpy as np

## Indexação hierárquica

In [23]:
data = pd.Series(np.random.randn(9),
                 index=[['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],[1, 2, 3, 1, 3, 1, 2, 2, 3]]
                )
data

a  1    1.388545
   2    0.431077
   3    0.596428
b  1   -0.466777
   3    2.171545
c  1    0.038691
   2    2.754968
d  2    1.157167
   3   -1.707391
dtype: float64

In [24]:
data.to_frame() # este método retorna um uma Series/DataFrame mais bonito

Unnamed: 0,Unnamed: 1,0
a,1,1.388545
a,2,0.431077
a,3,0.596428
b,1,-0.466777
b,3,2.171545
c,1,0.038691
c,2,2.754968
d,2,1.157167
d,3,-1.707391


In [25]:
data.index

MultiIndex([('a', 1),
            ('a', 2),
            ('a', 3),
            ('b', 1),
            ('b', 3),
            ('c', 1),
            ('c', 2),
            ('d', 2),
            ('d', 3)],
           )

* Acessando os valores do multiindex

In [26]:
data['a']

1    1.388545
2    0.431077
3    0.596428
dtype: float64

In [27]:
data['a'][1]

1.3885450952477425

In [32]:
data['b':'c']

b  1   -0.466777
   3    2.171545
c  1    0.038691
   2    2.754968
dtype: float64

In [33]:
data.loc[['b','d']]

b  1   -0.466777
   3    2.171545
d  2    1.157167
   3   -1.707391
dtype: float64

In [34]:
data.loc[:]

a  1    1.388545
   2    0.431077
   3    0.596428
b  1   -0.466777
   3    2.171545
c  1    0.038691
   2    2.754968
d  2    1.157167
   3   -1.707391
dtype: float64

In [36]:
data.loc[:,2]

a    0.431077
c    2.754968
d    1.157167
dtype: float64

In [28]:
data

a  1    1.388545
   2    0.431077
   3    0.596428
b  1   -0.466777
   3    2.171545
c  1    0.038691
   2    2.754968
d  2    1.157167
   3   -1.707391
dtype: float64

A indexação hierárquica desempenha um papel importante na
reformatação dos dados e nas operações baseadas em grupos,
como compor uma tabela pivô. Por exemplo, poderíamos
reorganizar os dados em um DataFrame usando o seu método
[unstack](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html):

In [29]:
data.unstack()

Unnamed: 0,1,2,3
a,1.388545,0.431077,0.596428
b,-0.466777,,2.171545
c,0.038691,2.754968,
d,,1.157167,-1.707391


In [38]:
data.unstack().stack() # strack é a operação inversa do unstack()

a  1    1.388545
   2    0.431077
   3    0.596428
b  1   -0.466777
   3    2.171545
c  1    0.038691
   2    2.754968
d  2    1.157167
   3   -1.707391
dtype: float64

Em um DataFrame, qualquer eixo pode ter um índice hierárquico:

In [40]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
... index=[['a', 'a', 'b', 'b'], [1, 2, 1, 2]],
... columns=[['Ohio', 'Ohio', 'Colorado'],
... ['Green', 'Red', 'Green']])
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,Ohio,Ohio,Colorado
Unnamed: 0_level_1,Unnamed: 1_level_1,Green,Red,Green
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [44]:
frame.index

MultiIndex([('a', 1),
            ('a', 2),
            ('b', 1),
            ('b', 2)],
           )

In [42]:
frame.columns

MultiIndex([(    'Ohio', 'Green'),
            (    'Ohio',   'Red'),
            ('Colorado', 'Green')],
           )

In [45]:
frame.index.names = ['key 1', 'key 2']

In [47]:
frame.columns.names = ['state','color']

In [48]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key 1,key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [49]:
frame['Ohio']

Unnamed: 0_level_0,color,Green,Red
key 1,key 2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,0,1
a,2,3,4
b,1,6,7
b,2,9,10


## Reorganizando e ordenando níveis

In [52]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key 1,key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [51]:
frame.swaplevel('key 1','key 2')

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key 2,key 1,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,a,0,1,2
2,a,3,4,5
1,b,6,7,8
2,b,9,10,11


In [54]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key 1,key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [55]:
frame.sort_index(level=1)

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key 1,key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
b,1,6,7,8
a,2,3,4,5
b,2,9,10,11


## Estatísticas de resumo por nível

In [56]:
frame

Unnamed: 0_level_0,state,Ohio,Ohio,Colorado
Unnamed: 0_level_1,color,Green,Red,Green
key 1,key 2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
a,1,0,1,2
a,2,3,4,5
b,1,6,7,8
b,2,9,10,11


In [58]:
frame.sum(level='key 2') # axis = 0 -> aplica-se a estatística nas colunas, axis = 1 -> aplica-se a estatística nas linhas

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key 2,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
1,6,8,10
2,12,14,16


In [61]:
frame.sum(level='key 1')

state,Ohio,Ohio,Colorado
color,Green,Red,Green
key 1,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
a,3,5,7
b,15,17,19


In [63]:
frame.sum(level='color', axis=1)

Unnamed: 0_level_0,color,Green,Red
key 1,key 2,Unnamed: 2_level_1,Unnamed: 3_level_1
a,1,2,1
a,2,8,4
b,1,14,7
b,2,20,10


## Indexando com as colunas de um DataFrame

##  Combinando e mesclando conjunto de dados

* [pandas.merge](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html) conecta linhas em DataFrames com base em uma
ou mais chaves. Essa operação será conhecida dos usuários de
SQL ou de outros bancos de dados relacionais, pois ela
implementa as operações de junção (join) dos bancos de dados;

* [pandas.concat](https://pandas.pydata.org/docs/reference/api/pandas.concat.html) concatena ou “empilha” objetos ao longo de um
eixo;

* O método de instância [combine_first](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.combine_first.html) permite combinar dados que
se sobrepõem a fim de preencher valores ausentes em um objeto
com valores de outro objeto.



### Junções no DataFrame no estilo de bancos de dados

> merge

Operações de merge (mescla) ou de junção (join) combinam conjuntos
de dados associando linhas por meio de uma ou mais chaves. Essas
operações são essenciais em bancos de dados relacionais (por
exemplo, naqueles baseados em SQL). A função merge do pandas é
o ponto de entrada principal para usar esses algoritmos em seus
dados.

In [65]:
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
....: 'data1': range(7)})
df1

Unnamed: 0,key,data1
0,b,0
1,b,1
2,a,2
3,c,3
4,a,4
5,a,5
6,b,6


In [67]:
df2 = pd.DataFrame({'key': ['a', 'b', 'd'],
....: 'data2': range(3)})
df2

Unnamed: 0,key,data2
0,a,0
1,b,1
2,d,2


O exemplo a seguir é de uma junção de muitos-para-um (many-toone);
os dados em df1 têm várias linhas de rótulos a e b, enquanto
df2 tem apenas uma linha para cada valor na coluna key. Se merge for
chamado nesses objetos, teremos o seguinte:

In [68]:
pd.merge(df1, df2)

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0


Observe que eu não especifiquei a coluna para fazer a junção. Se
essa informação não for especificada, merge utilizará como chaves
os nomes das colunas que se sobrepõem. No entanto, especificá-la
explicitamente é uma boa prática:

In [69]:
pd.merge(df1, df2, on='key')

Unnamed: 0,key,data1,data2
0,b,0,1
1,b,1,1
2,b,6,1
3,a,2,0
4,a,4,0
5,a,5,0
