### Neste capítulo veremos outras tipos de joins:
1. Semi-join
2. Anti-join
3. Concatenação vertical
4. Garantir os tipos de relacionamentos entre duas tabelas

In [5]:
import pandas as pd
import numpy as np

### Semi-join é um tipo de join onde as observações da tabela da esquerda são retornadas somente quando há um match entre as tabelas

![image.png](attachment:image.png)

In [6]:
produtos=pd.DataFrame({"ID":np.arange(1,11), "tipo": ["A", "A", "A", "A", "A", "B", "B", "B", "B", "B"]})
produtos

Unnamed: 0,ID,tipo
0,1,A
1,2,A
2,3,A
3,4,A
4,5,A
5,6,B
6,7,B
7,8,B
8,9,B
9,10,B


In [7]:
clientes=pd.DataFrame({"cliente": np.arange(1,8), "ID": [2, 2, 2, 3, 4, 7, 1]})
clientes

Unnamed: 0,cliente,ID
0,1,2
1,2,2
2,3,2
3,4,3
4,5,4
5,6,7
6,7,1


### Vamos usar um semi-join para descobrir quais produtos foram comprados por pelo menos um cliente

In [8]:
produtos_clientes = pd.merge(produtos, clientes, how="inner", on="ID")
produtos_clientes

Unnamed: 0,ID,tipo,cliente
0,1,A,7
1,2,A,1
2,2,A,2
3,2,A,3
4,3,A,4
5,4,A,5
6,7,B,6


In [10]:
produtos[produtos["ID"].isin(produtos_clientes["ID"])]

Unnamed: 0,ID,tipo
0,1,A
1,2,A
2,3,A
3,4,A
6,7,B


### Anti-join é um tipo de join onde as observações da tabela da esquerda são retornadas somente quando NÃO há um match entre as tabelas, o inverno do semi-join

![image.png](attachment:image.png)

### Vamos usar um anti-join para descobrir quais produtos não foram comprados por pelo nenhum cliente

In [11]:
produtos_clientes = pd.merge(produtos, clientes, how="inner", on="ID")
produtos_clientes

Unnamed: 0,ID,tipo,cliente
0,1,A,7
1,2,A,1
2,2,A,2
3,2,A,3
4,3,A,4
5,4,A,5
6,7,B,6


In [12]:
produtos[~produtos["ID"].isin(produtos_clientes["ID"])]

Unnamed: 0,ID,tipo
4,5,A
5,6,B
7,8,B
8,9,B
9,10,B


## Existe outro tipo de join onde podemos juntar as tabelas verticalmente usando a função pd.concat()

![image.png](attachment:image.png)

In [20]:
produtos1=pd.DataFrame({"ID":np.arange(1,6), "tipo": ["A", "A", "A", "A", "A"]})
produtos1

Unnamed: 0,ID,tipo
0,1,A
1,2,A
2,3,A
3,4,A
4,5,A


In [21]:
produtos2=pd.DataFrame({"ID":np.arange(5,9), "tipo": ["A", "A", "A", "A"]})
produtos2

Unnamed: 0,ID,tipo
0,5,A
1,6,A
2,7,A
3,8,A


In [22]:
produtos3=pd.DataFrame({"ID":np.arange(8,11), "tipo": [ "A", "B", "B"]})
produtos3

Unnamed: 0,ID,tipo
0,8,A
1,9,B
2,10,B


In [23]:
pd.concat([produtos1, produtos2, produtos3])

Unnamed: 0,ID,tipo
0,1,A
1,2,A
2,3,A
3,4,A
4,5,A
0,5,A
1,6,A
2,7,A
3,8,A
0,8,A


In [24]:
# Ignorando os indices das tabelas de origem
pd.concat([produtos1, produtos2, produtos3], ignore_index=True)

Unnamed: 0,ID,tipo
0,1,A
1,2,A
2,3,A
3,4,A
4,5,A
5,5,A
6,6,A
7,7,A
8,8,A
9,8,A


In [26]:
# Indicando de qual loja veio cada observação
pd.concat([produtos1, produtos2, produtos3], ignore_index=False, keys=["Loja 1", "Loja 2", "Loja 3"])

Unnamed: 0,Unnamed: 1,ID,tipo
Loja 1,0,1,A
Loja 1,1,2,A
Loja 1,2,3,A
Loja 1,3,4,A
Loja 1,4,5,A
Loja 2,0,5,A
Loja 2,1,6,A
Loja 2,2,7,A
Loja 2,3,8,A
Loja 3,0,8,A


### Também podemos juntar tabelas com diferentes nomes de colunas. As observações que não está em todas as colunas aparecerá como np.nan

In [27]:
produtos3=pd.DataFrame({"ID":np.arange(8,11), "tipo": [ "A", "B", "B"], "tech": ["Sim", "Sim", "Não"]})
produtos3

Unnamed: 0,ID,tipo,tech
0,8,A,Sim
1,9,B,Sim
2,10,B,Não


In [28]:
# Observações com np.nan que não a variável tech
pd.concat([produtos1, produtos2, produtos3], ignore_index=True)

Unnamed: 0,ID,tipo,tech
0,1,A,
1,2,A,
2,3,A,
3,4,A,
4,5,A,
5,5,A,
6,6,A,
7,7,A,
8,8,A,
9,8,A,Sim


In [30]:
# Concatenando observações que tem as mesmas variáveis
pd.concat([produtos1, produtos2, produtos3], ignore_index=True, join="inner")

Unnamed: 0,ID,tipo
0,1,A
1,2,A
2,3,A
3,4,A
4,5,A
5,5,A
6,6,A
7,7,A
8,8,A
9,8,A


### Existe um argumento da função pd.merge() e pd.concat() que permite que façamos uma verificação do relacionamento entre as tabelas. Se o relacionamento não for o esperado, então o join dará um erro. Isso permite que os resultados sejam os mais certos possíveis com relação ao merge

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [34]:
# Vai dar o seguinte erro: MergeError: Merge keys are not unique in left dataset; not a one-to-one merge
#clientes_produtos=pd.merge(produtos, clientes, on="ID", validate="one_to_one")
#clientes_produtos

### O relacionamento esperado é one_to_many porque um mesmo produto pode ter sido comprado por vários clientes diferentes 

In [36]:
clientes_produtos=pd.merge(produtos, clientes, on="ID", validate="one_to_many")
clientes_produtos

Unnamed: 0,ID,tipo,cliente
0,1,A,7
1,2,A,1
2,2,A,2
3,2,A,3
4,3,A,4
5,4,A,5
6,7,B,6


![image.png](attachment:image.png)

In [37]:
produtos1=pd.DataFrame({"ID":np.arange(1,6), "tipo": ["A", "A", "A", "A", "A"]})
produtos1

Unnamed: 0,ID,tipo
0,1,A
1,2,A
2,3,A
3,4,A
4,5,A


In [38]:
produtos2=pd.DataFrame({"ID":np.arange(5,8), "tipo": ["A", "A", "B"]})
produtos2

Unnamed: 0,ID,tipo
0,5,A
1,6,A
2,7,B


In [39]:
pd.concat([produtos1, produtos2])

Unnamed: 0,ID,tipo
0,1,A
1,2,A
2,3,A
3,4,A
4,5,A
0,5,A
1,6,A
2,7,B


In [41]:
# Vai dar erro porque tem duplicado. Erro: ValueError: Indexes have overlapping values: Int64Index([0, 1, 2], dtype='int64')
#pd.concat([produtos1, produtos2], verify_integrity=True)