<div class="alert alert-block alert-info">
    
<h1 style="color:Blue;"> <center> <ins> <b> 
ESTATÍSTICA APLICADA 
</b> </ins> </center> </h1>
    
<h3 style="color:Blue;"> <center> <b> 
Combinando Dataframes
</b></center> </h3>
    
</div>

Nessa aula trataremos de operações com objetos Pandas - Series e Dataframes, considerando basicamente duas fontes:

1. o livro Python para Análise de Dados, do Wes McKinney
2. o [guia](https://pandas.pydata.org/docs/user_guide/index.html) disponível na documentação do Pandas (para mim o melhor material sobre o tema)

In [None]:
import numpy as np
import pandas as pd

<div class="alert alert-block alert-info" style="color:Blue;">
Indexação Hierarquica - MultiIndex
</div>



Antes de começarmos a trabalhar alguns métodos para combinações entre os objetos Pandas, nós teremos contato com um recurso da biblioteca bastante importante: a Indexação Hierarquica, realizada pelo objeto Multiindex.

**Para que serve indexação hierarquica?**

Basicamente para nos ajudar a representar conjuntos de dados de dimensões maiores em dimensões menores. A dimensão de um conjunto de dados é o número de linhas e colunas e quanto maior essa dimensão, mais complicada a análise pode ser.

O Pandas ofere diversas opções de criação de multiindex, sendo a mais básica dela simplesmente fazer uma lista de listas para o parâmetro `index` do métodos Series ou dataframe. 

Vejamos o exemplo com uma series

In [None]:
data = pd.Series(np.random.randn(9),
                 index=[
                        ['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'],
                        [1, 2, 3, 1, 3, 1, 2, 2, 3]
                       ])
data

In [None]:
data[1]

In [None]:
data['a']

In [None]:
data['a',1]

In [None]:
data['b',1]

Notemos que, nos índices das linhas, temos um nível a mais de índices! Tanto que se formos verificar a lista de índices, agora, obtemos

In [None]:
data.index

De fato, temos 3 entradas referentes ao `a`, 2 ao `b`, ao `c` e ao `d`. 

Para dataframes, podemos ter multiplas indexações hierarquicas, tanto nas linhas quanto nas colunas.

In [None]:
frame = pd.DataFrame(np.arange(12).reshape((4, 3)),
                     index=[['a', 'a', 'b', 'b'], 
                            [1, 2, 1, 2]],
                     columns=[['Ohio', 'Ohio', 'Colorado'],
                              ['Green', 'Red', 'Green']])
frame

que, comparando com a experiência que muitas vezes temos no excel, por exemplo, equivale a

![](excel.png)

***



***
Além dessa criação direta, podemos utilizar o objeto `MultiIndex` diretamente. Para isso, a biblioteca Pandas traz vários métodos, que podem ser vistos em detalhes no [User guide](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html).

Para exemplificar, consideremos dois casos:

1. a criação a partir de listas/arrays, usando `MultiIndex.from_arrays()`:

In [None]:
lista = [['a', 'a', 'a', 'b', 'b', 'c', 'c', 'd', 'd'], [1, 2, 3, 1, 3, 1, 2, 2, 3]]
lista

In [None]:
indice = pd.MultiIndex.from_arrays(lista)
indice

In [None]:
A = pd.Series(np.random.randn(9),index=indice)
A

Podemos, inclusive, dar nomes a esse índices, caso desejemos, bastando, para isso, editar os nomes dos índices usando `index.names`.

In [None]:
A.index.names = ['Primeira', 'Segunda']

In [None]:
A.index.names

In [None]:
A

In [None]:
A.index

2. a criação a partir de um dataframe sem indexação hierarquica, usando `MultiIndex.to_frame()`:

In [None]:
df = pd.DataFrame([["bar", "one"], ["bar", "two"], ["foo", "one"], ["foo", "two"]],
                  columns=["first", "second"])
df

In [None]:
indice = pd.MultiIndex.from_frame(df)
indice

In [None]:
df_ = pd.DataFrame([["bar", "one"], ["bar", "two"], ["foo", "one"], ["foo", "two"]],
                  columns=["1o.", "2o."],
                  index=indice)
df_

3. Transformando colunas de um dataframe para que se transformem nos índices com hierarquia

In [None]:
df = pd.DataFrame({'key1': ['Nevada', 'Ohio', 'Ohio',
                               'Nevada', 'Ohio'],
                      'key2': [2000, 2001, 2002, 2001, 2003],
                      'data': np.arange(5.)})
df

In [None]:
print('colunas: ', df.columns)
print('índices: ', df.index)

In [None]:
df2 = df.set_index(['key1'])
df2

In [None]:
print('colunas: ', df2.columns)
print('índices: ', df2.index)

In [None]:
df2.reset_index()

In [None]:
df3 = df.set_index(['key1','key2'])
df3

In [None]:
df3 = df.set_index(['key1','key2']).sort_index()
df3

In [None]:
df

In [None]:
df.set_index(['key1','key2'], inplace=True)

In [None]:
df

In [None]:
df.sort_values(by='key1', inplace=True)
df

In [None]:
df

<div class="alert alert-block alert-info" style="color:Blue;">
Acessando os dados com indexação hierarquica
</div>

Como acessar os dados nesse arranjo de indexação hierarquica?

Se estivermos trabalhando com Series, a indexação irá separar sempre da maior para menor hierarquia. Por exemplo, para a primeira Series que trabalhamos,

In [None]:
data

In [None]:
data['a']

In [None]:
data['a',3]

In [None]:
data['b':'c']

In [None]:
data.loc[['b', 'd']]

In [None]:
data.loc[:, 2]

Quando temos dataframes com indexação hierarquica, a ideia é similar, considerando, obviamente, as formas de acesso as colunas e as linhas. Assim, do nosso primeiro exemplo, temos

In [None]:
frame

In [None]:
frame['Ohio']

In [None]:
frame['Ohio','Green']

In [None]:
frame['Ohio','Green']['a']

In [None]:
frame['Ohio']['a']

In [None]:
frame['Ohio','Green']['a',1]

In [None]:
frame.loc['a']

In [None]:
frame.loc['a',1]

In [None]:
frame.iloc[0]

In [None]:
frame.iloc[0:3]

<div class="alert alert-block alert-info" style="color:Blue;">
Reorganizando Níveis em Indexação Hierarquica
</div>

Em algumas situações, é necessário que reorganizemos os níveis de indexação, trocando, por exemplo, a ordem dos níveis. Considere, por exemplo, 

In [None]:
frame

In [None]:
frame.swaplevel(i=0, j=1, axis=0)

In [None]:
frame.swaplevel(i=0, j=1, axis=0).sort_index()

In [None]:
frame.index.names = ['Let', 'Num']
frame

In [None]:
frame = frame.swaplevel(i='Let', j='Num').sort_index()
frame

In [None]:
frame.index

In [None]:
frame.swaplevel(axis=1).sort_index()

O método basicamente realiza a troca entre os níveis que estão referenciados por i e j, que podem receber valores das posições (seguindo a lógica de posições de listas) ou por nomes. no exemplo acima nós trabalhamos por posição, uma vez que os níveis não possuem nome atribuído.

Caso tenhamos somente dois níveis, como nosso caso, os valores _default_ dos parâmetros já fariam o trabalho (veja a [documentação](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.swaplevel.html))

In [None]:
frame.swaplevel()

*OBS: lembre-se que essa alteração é feita em uma cópia e não no dataframe original* 

Porém, o resultado que obtemos não ficou muito funcional. Notemos que o primeiro nível não está organizado de forma a mesclar os elementos sob sua hierarquia.  

Quando casos assim ocorrem, é necessário reordenar os índices, usando para isso o método `sort_index`, cuja documentação está disponível [aqui](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.sort_index.html).

Para corrigirmos o problema, precisamos especificar em que nível nós queremos reorganizar, por meio do parâmetro `level`. 

No nosso caso em questão, queremos reordenar no nível 1, mais "interno", para depois poder reorganizar. dessa forma, fazendo

In [None]:
frame.sort_index(level=1)

e reorganizando os níveis,

In [None]:
frame.swaplevel().sort_index()

<div class="alert alert-block alert-info" style="color:Blue;">
Combinando e mesclando conjuntos de dados
</div>





Em muitas situações, nós precisamos juntar, de alguma forma, dois ou mais dataframes para realizar determinadas análises.

Esse, inclusive, é um dos focos do projeto de vocês...

Há duas abordagens básicas quando tentamos juntar dois ou mais dataframes:

1. realizar a concatenação desses dataframes (ou series...) no sentido de um dos eixos (0 se for no sentido de linha, 1 se for de coluna), usando, para isso, o método `concat()`;

2. realizar a mescla (ou fusão, como queira chamar) de dois ou mais dataframes (ou series...) considerando chaves para isso, usando o método `merge()` (essa, abordagem é derivada da abordagem convencional em bancos de dados estruturados).

Vamos explorar cada um desses métodos e suas possibilidades!

**Concatenação de objetos Pandas**

Existem duas ações básicas a serem feitas:

![](https://files.realpython.com/media/concat_axis0.2ec65b5f72bc.png)

`pd.concat([df1, df2])`

Vamos considerar os seguintes dataframes

In [None]:
df1 = pd.DataFrame({
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
        "C": ["C0", "C1", "C2", "C3"],
        "D": ["D0", "D1", "D2", "D3"]},
         index=[0, 1, 2, 3])
df1

In [None]:
df2 = pd.DataFrame({
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        "C": ["C4", "C5", "C6", "C7"],
        "D": ["D4", "D5", "D6", "D7"]},
         index=[0, 2, 18, 7])
df2



Assim,

In [None]:
pd.concat([df1,df2])

*Como organizar os índices?*

In [None]:
pd.concat([df1,df2], ignore_index=True)

In [None]:
pd.concat([df1,df2],keys=['df1', 'df2'])

Note que estamos concatenando no sentido de linha, isto é, ao longo do eixo zero. Isso equivale a "empilhar" os dataframes.

E se quisermos concatenar no sentido do eixo 1, isto é, no sentido de coluna? Basta usarmos o parâmetro _axis=1_, como no exemplo abaixo

![](https://files.realpython.com/media/concat_col.a8eec2b4e84f.png)

`pd.concat([df1, df2], axis=1)`

In [None]:
df3 = pd.DataFrame({
        "A": ["A4", "A5", "A6", "A7"],
        "B": ["B4", "B5", "B6", "B7"],
        "G": ["C4", "C5", "C6", "C7"]},
         index=[0,1,2,3])
df3

In [None]:
pd.concat([df3,df1], axis=1)

Agora, e se fizermos

In [None]:
pd.concat([df1,df2], axis=1)

In [None]:
pd.concat([df1,df3], axis=0)

Por que esse monte de _nan_?

Note a presená de um número significativo de _nan_. Lembre-se que _nan_ em Pandas significa dado faltoso. E por que faltoso? Por que nenhuma das coluna tem valores em todos os índices, e eles são mantidos!!

Nós podemos criar também indexação hierarquica na criação a partir do concat.

In [None]:
pd.concat([df1,df2], keys=["Um", "Dois"])

In [None]:
pd.concat([df1,df3], axis=1, keys=["Um", "Dois"])

**Combinando dataframes no estilo de banco de dados**

`merge()` é um método que traz para os dataframes Pandas a possibilidade de se combinar do mesmo modo que bancos de dados relacionais fazem: por meio de uma ou mais chaves.



In [None]:
df1 = pd.DataFrame({'k': ['b', 'b', 'a', 'c', 'a', 'a', 'b'],
                    'data1': range(7)})
df1

In [None]:
df1['k'].unique()

In [None]:
df2 = pd.DataFrame({'k': ['a', 'b', 'd', 'b'],
                    'data2': range(4)})
df2

In [None]:
df2['k'].unique()

Junção do tipo _muitos-para-um_:

In [None]:
pd.merge(df1, df2)

In [None]:
pd.merge(df2, df1)

*OBS:* A saída dos valores __sempre__ será um produto cartesiano entre os valores associados a cada chave nos dois conjuntos de dados!

Boa prática: especificar a coluna para fazer a junção (caso não o faça, como no exemplo anterior, o pandas considera a coluna que se sobrepõe)

In [None]:
pd.merge(df1, df2, on='k')

Questões surgidas...

1. na coluna `k`, não se consideraram os valores _c_ de df1 e _d_ de df2. Por quê?
    * padrão `inner` - intersecção
    * para mudar, basta usar o parametro `how`, com três opções:
        - `outer`: usa a união de todas as chaves das tabelas combinadas
        - `left`: usa as combinações de chaves da tabela à esquerda
        - `right`: usa as combinações de chaves da tabela à direita

In [None]:
pd.merge(df1, df2, how='outer')

In [None]:
pd.merge(df1, df2, how='left')

In [None]:
pd.merge(df1, df2, how='right')

### Merge no index

In [None]:
left1 = pd.DataFrame({'key': ['a', 'b', 'a', 'a', 'b', 'c'],
                      'value': ['0', '1', '2', '3', '4', '5']})
left1

In [None]:
left1['key'].unique()

In [None]:
right1 = pd.DataFrame({'group_val': [3.5, 7]}, index=['a', 'b'])
right1

In [None]:
right1.index

In [None]:
pd.merge(left1, right1, on='key')

O índice da linha da tabela direita (determinada por `right_index` ) é usada como chave para a junção com a coluna da esquerda (determinada por `left_on`. Novamente, `inner` é o padrão.

Para sair desse padrão e fazer a união,

In [None]:
pd.merge(left1, right1, left_on='key', right_index=True)

Se os dados forem hierarquicamente indexados,

In [None]:
lefth = pd.DataFrame({'key1': ['Ohio', 'Ohio', 'Ohio',
                               'Nevada', 'Nevada'],
                      'key2': [2000, 2001, 2002, 2001, 2002],
                      'data': np.arange(5.)})
lefth

In [None]:
righth = pd.DataFrame(np.arange(12).reshape((6, 2)),
                      index=[['Nevada', 'Nevada', 'Ohio', 'Ohio',
                              'Ohio', 'Ohio'],
                             [2001, 2000, 2000, 2000, 2001, 2002]],
                      columns=['event1', 'event2'])
righth

In [None]:
pd.merge(lefth, righth, left_on=['key1', 'key2'], right_index=True)

In [None]:
A = pd.merge(lefth, righth, left_on=['key1', 'key2'],
         right_index=True, how='outer')
A

In [None]:
dfh = A.set_index(['key1','key2'])
dfh

Para uma junção mais fácil pelo índice, pode-se usar, alternativamente, o método `join`.

In [None]:
left2 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]],
                     index=['a', 'c', 'e'],
                     columns=['Ohio', 'Nevada'])
left2

In [None]:
right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],
                      index=['b', 'c', 'd', 'e'],
                      columns=['Missouri', 'Alabama'])
right2

In [None]:
left2.join(right2, how='left')