## Aula 7 - Pandas Parte III (Merge e Join)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
import seaborn as sns
import re

### merge (fundir/juntar)
#### A chave de junção (identificador único) foi inferida a partir do contexto (procurando nas colunas)
#### Também pode ser especificada com o argumento on (Ex.: on='key')

In [None]:
# Considere os seguintes DataFrames
df1 = pd.DataFrame({'key': ['b', 'b', 'a', 'c', 'a', 'a', 'b'], 'data1': range(7)})
df2 = pd.DataFrame({'key': ['a', 'b', 'd'], 'data2': range(3)})

In [None]:
# Mostre o dataframe df1
df1

In [None]:
# Mostre o dataframe df2
df2

In [None]:
# Faça o merge dos dois dataframes usando como chave de junção a coluna 'key'
# O parametro on neste caso é redundante. Funcionaria sem ele.
pd.merge(df1, df2, on='key')

# Por que chamamos esse tipo de merge/join de inner ? R.: Porque ele considera apenas a 
#     intersecção dos dois conjuntos de chaves.
# O argumento how='inner' é o padrão.

In [None]:
# Faça também o merge com o argumento how='outer'
pd.merge(df1, df2, how='outer')

In [None]:
left = pd.DataFrame({"A": [1, 2], "B": [1, 2]})
right = pd.DataFrame({"A": [4, 5, 6], "B": [2, 2, 2]})
print(right)
print(left)
pd.merge(left, right, on="B", how="outer", validate="one_to_one")

### join (fundir/juntar)
#### Semelhante ao merge, mas a chave de junção é o índice do DataFrame

In [None]:
# Considere os seguintes DataFrames
left2 = pd.DataFrame([[1., 2.], [3., 4.], [5., 6.]], index=['a', 'c', 'e'], 
                     columns=['Ohio', 'Nevada'])
right2 = pd.DataFrame([[7., 8.], [9., 10.], [11., 12.], [13, 14]],index=['b', 'c', 'd', 'e'],
                     columns=['Missouri', 'Alabama'])


In [None]:
# Mostre o dataframe left2
left2

In [None]:
# Mostre o dataframe right2
right2

In [None]:
# Faça o join entre os dois DataFrames sem descartar registros que não estejam 
#      nos dois DataFrames
left2.join(right2, how='outer')

In [None]:
# Considerando os dataframes left2 e right2 definidos acima
# Faça o join entre os dois DataFrames sem descartar registros que estejam 
# apenas no dataframe left2, e descartando registros que estejam apenas no right2
left2.join(right2, how='left')

### Reshaping / Pivoting (Pivotar)

In [None]:
# Considere o seguinte DataFrame
table = {
    'Aluno': ['AlunoA', 'AlunoA', 'AlunoA', 'AlunoA', 'AlunoB', 'AlunoB', 'AlunoB', 'AlunoB'],
    'Disciplina': ['Portugues', 'Matematica', 'Geografia', 'História', 'Portugues', 'Matematica', 'Geografia', 'História'],
    'Objetiva': [8.5, 7.5, 9, 10, 8.5, 7.5, 9, 10],
    'Discursiva': [6, 6.5, 7.5, 7, 8.5, 7.5, 9, 10]}
df_provas = pd.DataFrame(table)
df_provas

In [None]:
# Pivote o dataframe df_provas colocando a coluna Aluno como índice, 
# os valores da coluna Disciplina como colunas, e os valores da coluna Objetiva
# como conteúdo do novo dataframe
df_pivoted = df_provas.pivot(index='Aluno', columns='Disciplina', values=['Objetiva', 'Discursiva'])
df_pivoted

In [None]:
df_pivoted['Objetiva'].loc['AlunoA',['Geografia', 'História']]

### E quando houver valores repetidos ?
#### Pivotar com o mesmo método pivot() gera exceção. Neste caso, use o método pivot_table 
#### mean é a métrica padrão de cálculo sobre a de agregação

In [None]:
# Considere o seguinte DataFrame
table2 = {
    'Aluno': ['AlunoA', 'AlunoA', 'AlunoA', 'AlunoA', 'AlunoA', 'AlunoB', 'AlunoB', 'AlunoB', 'AlunoB'],
    'Disciplina': ['Portugues', 'Matematica', 'Geografia', 'Geografia', 'História', 'Portugues', 'Matematica', 'Geografia', 'História'],
    'Objetiva': [8.5, 7.5, 9, 10, 9, 8.5, 7.5, 9, 10],
    'Discursiva': [6, 6.5, 7.5, 7, 8, 8.5, 7.5, 9, 10]}
df_provas2 = pd.DataFrame(table2)
df_provas2

In [None]:
# Pivotar com o mesmo comando gera uma exceção
# df_pivoted2 = df_provas2.pivot(index='Aluno', columns='Disciplina', values='Objetiva')
# Use a funcao pivot_table. O valor padrão do argumento aggfunc é 'mean'
df_pivoted2 = df_provas2.pivot_table(index='Aluno', columns='Disciplina', values='Objetiva',
                                    aggfunc='max')
df_pivoted2


### Reshaping / Pivoting com Índice Hierárquico
#### Método stack/unstack (Pivotar com índice hierárquico)

In [2]:
# Considere o seguinte dataframe
data = pd.DataFrame(np.arange(6).reshape((2, 3)),
                    index=pd.Index(['Ohio', 'Colorado'], name='state'),
                    columns=pd.Index(['one', 'two', 'three'],
                    name='number'))
data

number,one,two,three
state,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Ohio,0,1,2
Colorado,3,4,5


In [9]:
data.T

state,Ohio,Colorado
number,Unnamed: 1_level_1,Unnamed: 2_level_1
one,0,3
two,1,4
three,2,5


In [None]:
# Faça uma operação de unpivoting (stack) com o dataframe data e guarde na variavel result
result = data.stack()
result

In [None]:
# Faça uma operação de pivoting (unstack) com o dataframe result
result.unstack()