<a href="https://colab.research.google.com/github/Emanuel-nx/Estudo_pratico_com_Colab/blob/main/Merge.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Estruturação dos Dados - Merge
O merge ou junção de tabelas é uma operação muito importante e utilizada durante o processo de preparação e limpeza de dados (data wrangling).

Os principais tipos de merge no Pandas são:


*   Inner: Retorna apenas as linhas que possuem chaves correspondentes nas tabelas de entrada. É equivalente ao inner join no SQL.

*   Left: Retorna todas as linhas da tabela da esquerda (primeiro DataFrame), substituindo os valores ausentes na tabela da direita por NaN. Equivale ao left outer join.

*   Right: O oposto do left. Retorna todas as linhas da tabela da direita (segundo DataFrame), substituindo os valores ausentes no primeiro DataFrame por NaN.

*   Outer: Retorna as linhas de ambas as tabelas de entrada, substituindo os valores ausentes por NaN quando não há correspondência. Equivale ao full outer join.


In [None]:
import numpy as np
import matplotlib.pyplot as plt

import pandas as pd
import seaborn as sns
import plotly.express as px

from sklearn import datasets
from sklearn.preprocessing import scale,minmax_scale, power_transform

from IPython.core.display import HTML
from ipywidgets import interact, widget

In [None]:
# Configurar um layout padrão das imagens
sns.set_theme(
    context='talk',
    style='ticks',
    font_scale=8,
    rc={
        'figure.figsize': (12,8)
    }
)


In [14]:
# Função para plotar as tabeklas lado a lado (para auxiliar)
def display_side_by_side(dataframes:list,titles:list):
    html_str=''
    for df,title in zip(dataframes,titles):
        html_str += f'<span>{title}:</span>'
        html_str += df.to_html() .replace('table','table style="display:inline"')
        html_str += "&nbsp"*10
    display(HTML(html_str))

# Estruturação dos dados
Exemplo de Merge

Vamos ver um exemplo prático de merge entre duas tabelas:



```
import pandas as pd
import numpy as np

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
'A': [1, 2, 3, 4]})
```


```
df2 = pd.DataFrame({'key': ['K1', 'K2', 'K3', 'K4'],
'B': [4, 3, 2, 1]})
```

As tabelas df1 e df2 possuem uma coluna key em comum, com valores overlapping em K1, K2 e K3.

Vamos realizar merges dos tipos inner, left e right:


```
inner_join = df1.merge(df2, on='key')
left_join = df1.merge(df2, on='key', how='left')
right_join = df1.merge(df2, on='key', how='right')
```






O resultado é:

Inner join

|key| A| B|
|-|-|-|
|K1| 2| 4|
|K2| 3| 3|
|K3| 4| 2|

Retorna apenas as linhas com chaves correspondentes nas duas tabelas.

Left join

|key| A| B|
|-|-|-|
|K0| 1| NaN|
|K1| 2| 4|
|K2| 3| 3|
|K3| 4| 2|

Retorna todas as linhas de df1, substituindo os valores ausentes em df2 por NaN.

Right join

|key| A| B|
|-|-|-|
|K1| 2.0| 4|
|K2| 3.0| 3|
|K3| 4.0| 2|

|K4| NaN| 1|

Retorna todas as linhas de df2, substituindo os valores ausentes em df1 por NaN.

 Segue [documentação oficial](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html) para mais detalhes.

### Merge

Este método do pandas é o mais similar aos JOINs do SQL.  
Tabela de exemplo comparativo:


| Merge method   | SQL Join Name    | Description                                         |
|:---------------|:-----------------|:----------------------------------------------------|
| left           | LEFT OUTER JOIN  | Use keys from left frame only                       |
| right          | RIGHT OUTER JOIN | Use keys from right frame only                      |
| outer          | FULL OUTER JOIN  | Use union of keys from both frames                  |
| inner          | INNER JOIN       | Use intersection of keys from both frames           |
| cross          | CROSS JOIN       | Create the cartesian product of rows of both frames |

In [16]:
df1 = pd.DataFrame(
    {
        "key": ["K0", "K1", "K2", "K3"],
        "A": ["A0", "A1", "A2", "A3"],
        "B": ["B0", "B1", "B2", "B3"],
    }, index=range(4)
)

df2 = pd.DataFrame(
    {
        "key": ["K1", "K2", "K3", "K4"],
        "C": ["C1", "C2", "C3", "C4"],
        "D": ["D1", "D2", "D3", "D4"],
    }, index=range(1,5)
)

df3 = pd.DataFrame(
    {
        "key": ["K1", "K2", "K3", "K4"],
        "E": ["E1", "E2", "E3", "E4"],
        "F": ["F1", "F2", "F3", "F4"],
    }, index=range(1,5)
)

In [17]:
display_side_by_side([df1,df2, df3], ['df1','df2', 'df3'])

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3

Unnamed: 0,key,C,D
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3
4,K4,C4,D4

Unnamed: 0,key,E,F
1,K1,E1,F1
2,K2,E2,F2
3,K3,E3,F3
4,K4,E4,F4


In [18]:
# Mostrar merge dos dois jeitos esse exemplo assim:
#exemplo 1:
df1.merge(df2)

# Por padrão, ele traz um inner join das tabelas, trazendo somente os resultados que convergem


Unnamed: 0,key,A,B,C,D
0,K1,A1,B1,C1,D1
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3


In [19]:
# Exemplo 2:
df1.merge(df3, on='key', how='inner')

# Também é possível setar como queremos a convergencia

Unnamed: 0,key,A,B,E,F
0,K1,A1,B1,E1,F1
1,K2,A2,B2,E2,F2
2,K3,A3,B3,E3,F3


In [20]:
# Mostrar todos
df_inner = df1.merge(df2, on='key', how='inner') #mantém todas as categorias em comum nos dois df
df_left = df1.merge(df2, on='key', how='left') #mantém todas as categorias existentes na coluna da esquerda
df_right = df1.merge(df2, on='key', how='right') #mantém todas as categorias existentes na coluna da direita


#Função de mostrar tabela -> display_side_by_side([lista = formato string])

display_side_by_side(
    dataframes=[df1, df2, df_inner, df_left, df_right],
    titles=['df1', 'df2', 'inner_merge', 'left_merge', 'right_merge']
)

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3

Unnamed: 0,key,C,D
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3
4,K4,C4,D4

Unnamed: 0,key,A,B,C,D
0,K1,A1,B1,C1,D1
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,,
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3

Unnamed: 0,key,A,B,C,D
0,K1,A1,B1,C1,D1
1,K2,A2,B2,C2,D2
2,K3,A3,B3,C3,D3
3,K4,,,C4,D4


In [21]:
#função merge para verificar os joins
@interact(method=['inner','left', 'right','outer'])
def merge(method):
  df_merge=df1.merge(df2, how=method)
  display_side_by_side(
      [df1,df2,df_merge],
      ['df1','df2',f'{method}_join']
  )

interactive(children=(Dropdown(description='method', options=('inner', 'left', 'right', 'outer'), value='inner…