## Merge

A função ``pd.merge()`` implementa vários tipos de junções: as junções um-para-um, muitos-para-um e muitos-para-muitos. Todos os três tipos de junções são acessados por meio de uma chamada idêntica à interface ``pd.merge()``; o tipo de junção executada depende da forma dos dados de entrada.

In [1]:
import pandas as pd

**Junção um-para-um**  
A função ``pd.merge()`` reconhece que cada DataFrame tem uma coluna "employee" e se associa automaticamente usando essa coluna como uma chave. O resultado da mesclagem é um novo DataFrame que combina as informações das duas entradas. Observe que a ordem das entradas em cada coluna não é necessariamente mantida: nesse caso, a ordem da coluna "employee" difere entre df1 e df2, e a função ``pd.merge()`` é responsável por isso. Além disso, tenha em mente que a mesclagem em geral descarta o índice, exceto no caso especial de mesclagens por índice.

In [2]:
# Exemplo um-pra-um
df1 = pd.DataFrame({'employee': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'group': ['Accounting', 'Engineering', 'Engineering', 'HR']})

df2 = pd.DataFrame({'employee': ['Lisa', 'Bob', 'Jake', 'Sue'],
                    'hire_date': [2004, 2008, 2012, 2014]})

df3 = pd.merge(df1, df2)
print(df1, chr(10)); print(df2, chr(10)); print(df3)

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR 

  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014 

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


**Junção muitos-para-um**  
Junções muitos-para-um são junções nas quais uma das duas colunas-chave contém entradas duplicadas. Para o caso muitos-para-um, o DataFrame resultante preservará essas entradas duplicadas.

In [3]:
df4 = pd.DataFrame({'group': ['Accounting', 'Engineering', 'HR'],
                    'supervisor': ['Carly', 'Guido', 'Steve']})

print(df3, chr(10)); print(df4, chr(10)); print(pd.merge(df3, df4))

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014 

         group supervisor
0   Accounting      Carly
1  Engineering      Guido
2           HR      Steve 

  employee        group  hire_date supervisor
0      Bob   Accounting       2008      Carly
1     Jake  Engineering       2012      Guido
2     Lisa  Engineering       2004      Guido
3      Sue           HR       2014      Steve


**Junção muitos-pra-muitos**  
Junções muitos-para-muitos são um pouco confusas conceitualmente, mas são, no entanto, bem definidas. Se a coluna-chave na matriz esquerda e direita contiver duplicatas, o resultado será uma mesclagem de muitos para muitos.

In [4]:
df5 = pd.DataFrame({'group': ['Accounting', 'Accounting', 'Engineering', 'Engineering', 'HR', 'HR'],
                    'skills': ['math', 'spreadsheets', 'coding', 'linux', 'spreadsheets', 'organization']})

print(df1, chr(10)); print(df5, chr(10)); print(pd.merge(df1, df5))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR 

         group        skills
0   Accounting          math
1   Accounting  spreadsheets
2  Engineering        coding
3  Engineering         linux
4           HR  spreadsheets
5           HR  organization 

  employee        group        skills
0      Bob   Accounting          math
1      Bob   Accounting  spreadsheets
2     Jake  Engineering        coding
3     Jake  Engineering         linux
4     Lisa  Engineering        coding
5     Lisa  Engineering         linux
6      Sue           HR  spreadsheets
7      Sue           HR  organization


**Especificação da chave de mesclagem**  
Podemos especificar explicitamente o nome da coluna-chave usando a palavra-chave, que leva um nome de coluna ou uma lista de nomes de colunas. Essa opção funciona somente se os DataFrames esquerdo e direito tiverem o nome da coluna especificado.

In [5]:
print(df1, chr(10)); print(df2, chr(10)); print(pd.merge(df1, df2, on='employee'))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR 

  employee  hire_date
0     Lisa       2004
1      Bob       2008
2     Jake       2012
3      Sue       2014 

  employee        group  hire_date
0      Bob   Accounting       2008
1     Jake  Engineering       2012
2     Lisa  Engineering       2004
3      Sue           HR       2014


**left_on e right_on**  
Às vezes você pode querer mesclar dois conjuntos de dados com diferentes nomes de coluna; Por exemplo, podemos ter um conjunto de dados no qual o nome do funcionário seja rotulado como "name" em vez de employee”. Nesse caso, podemos usar as palavras-chave left_on e right_on para especificar os dois nomes de colunas.

In [6]:
df3 = pd.DataFrame({'name': ['Bob', 'Jake', 'Lisa', 'Sue'],
                    'salary': [70000, 80000, 120000, 90000]})

print(df1, chr(10)); print(df3, chr(10)); print(pd.merge(df1, df3, left_on="employee", right_on="name"))

  employee        group
0      Bob   Accounting
1     Jake  Engineering
2     Lisa  Engineering
3      Sue           HR 

   name  salary
0   Bob   70000
1  Jake   80000
2  Lisa  120000
3   Sue   90000 

  employee        group  name  salary
0      Bob   Accounting   Bob   70000
1     Jake  Engineering  Jake   80000
2     Lisa  Engineering  Lisa  120000
3      Sue           HR   Sue   90000


### Join  
A função merge permite inserirmos parâmetros de tipo de agregação (join), similiares ao SQL.

Sintaxe:  

    pd.merge(dados1, dados2, how='parâmetro')
        parâmetro: inner, outer, left, right

![Tipos de Join](Join.png)

In [7]:
# Criando DataFrames
df6 = pd.DataFrame({'name': ['Peter', 'Paul', 'Mary'],
                    'food': ['fish', 'beans', 'bread']},
                   columns=['name', 'food'])

df7 = pd.DataFrame({'name': ['Mary', 'Joseph'],
                    'drink': ['wine', 'beer']},
                   columns=['name', 'drink'])

print(df6, chr(10)); print(df7)

    name   food
0  Peter   fish
1   Paul  beans
2   Mary  bread 

     name drink
0    Mary  wine
1  Joseph  beer


**Inner**  
Por padrão a função ``merge()`` está configurada como inner join, que retorna os valores comuns de entrada entre o dataframes.

In [8]:
pd.merge(df6, df7, how='inner')

Unnamed: 0,name,food,drink
0,Mary,bread,wine


**Outer**  
Outer join retorna a únião entre os dataframes e preenche os campos vazios com NaN.

In [9]:
pd.merge(df6, df7, how='outer')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine
3,Joseph,,beer


**Left**  
Retorna o primeiro dataframe inteiro, mais os dados em comum com o segundo dataframe

In [10]:
pd.merge(df6, df7, how='left')

Unnamed: 0,name,food,drink
0,Peter,fish,
1,Paul,beans,
2,Mary,bread,wine


**Right**
Retorna o segundo dataframe inteiro, mais os dados em comum com o primeiro dataframe

In [11]:
pd.merge(df6, df7, how='right')

Unnamed: 0,name,food,drink
0,Mary,bread,wine
1,Joseph,,beer
