## Estudo sobre Junções no DataFrame no estilo de banco de dados  
### Capítulo 8 PAG 292
>#### Estudo realizado com base no livro 'Python para análise de dados' 


>  Contato

> * [Linkedin](www.linkedin.com/in/isweluiz)

#### Iremos utilizar operações merge e join, ambas combinam conjunto de dados associando linhas por meio de uma ou mais chaves. Essas operação são constantemente utilizadas banco de dados relacionais 


In [23]:
#importando as bibiliotecas que serão utilizadas abs
import pandas as pd
import numpy as np
import random

In [6]:
#Exemplo simples
#ciando o 1º data frame 

df1 = pd.DataFrame({'key': ['b','b','a','c','a','a','b'],
                   'data2': range(7)}) #Mesma quantidade de objetos na coluna key 
df1

Unnamed: 0,data2,key
0,0,b
1,1,b
2,2,a
3,3,c
4,4,a
5,5,a
6,6,b


In [8]:
#ciando o 2º data frame 

df2 = pd.DataFrame({'key': ['a','b','d'],
                   'data2': range(3)})
df2

Unnamed: 0,data2,key
0,0,a
1,1,b
2,2,d


In [24]:
'''Vamos fazer aqui uma junção de many-to-one; os dados de df1 contêm várias linhas de rótulo a e b, enquanto no df2 temos apenas uma 
linha para cada valor na coluna key''' 
##Vamos chamar o argumento merge 
pd.merge(df1,df2)

Unnamed: 0,data2,key
0,1,b


In [17]:
pd.merge(df1,df2, on='key')

Unnamed: 0,data2_x,key,data2_y
0,0,b,1
1,1,b,1
2,6,b,1
3,2,a,0
4,4,a,0
5,5,a,0


In [21]:
'''Se os nomes das colunas forem diferentes, nós podemos especificá-las separadamente'''

df3 = pd.DataFrame({'lkey': ['b','b','a','c','a','a','b'],
                   'data2': range(7)}) #Mesma quantidade de objetos na coluna key 

df4 = pd.DataFrame({'rkey': ['a','b','d'],
                   'data2': range(3)})

In [22]:
pd.merge(df3,df4, left_on='lkey', right_on='rkey')

Unnamed: 0,data2_x,lkey,data2_y,rkey
0,0,b,1,b
1,1,b,1,b
2,6,b,1,b
3,2,a,0,a
4,4,a,0,a
5,5,a,0,a


In [37]:
'''
Os valores (c) e (d) e os dados associados estão ausentes no resultado. Por padrão o merge executa uma junção do tipo  inner (interna) 
as chaves nos valores são intersecção ou conjunto comum que se encontra nas duas tabelas.
'''

# Outras opções são 'left' , 'right' e 'outer', que faz a juntação externa (outer join), efetua união das chaves, combinando
# o efeito da aplicação das junções tanto à esquerda quanto a direita


pd .merge(df3,df4 , how='outer')

Unnamed: 0,data2,lkey,rkey
0,0,b,a
1,1,b,b
2,2,a,d
3,3,c,
4,4,a,
5,5,a,
6,6,b,


In [120]:
#Criando um dataframe mais exemplicado com dados 
#Nome, idades e contato
dados1 = pd.DataFrame({'Nomes':['Luiz' , 'Eduardo', 'Pereira'],
                     'Idades': ['15', '21', '33'],
                      'Contato': ['isweluiz@hotmail.com', 'linkedin.com/in/isweluiz', '61 9999999']})

dados2 = pd.DataFrame({'Nomes':['Gabrielle' , 'Cândido', 'Alves'],
                     'Idades': ['19', '12', '13'],
                      'Contato': ['gabi@hotmail.com', 'linkedin.com/in/gabi', '61 666666']})

In [121]:
dados1

Unnamed: 0,Contato,Idades,Nomes
0,isweluiz@hotmail.com,15,Luiz
1,linkedin.com/in/isweluiz,21,Eduardo
2,61 9999999,33,Pereira


In [122]:
dados2

Unnamed: 0,Contato,Idades,Nomes
0,gabi@hotmail.com,19,Gabrielle
1,linkedin.com/in/gabi,12,Cândido
2,61 666666,13,Alves


In [123]:
#Mesclando os dataframes e atribuindo ao novo data frame dados3
dados3 = pd.merge(dados1,dados2, how='outer')
dados3

Unnamed: 0,Contato,Idades,Nomes
0,isweluiz@hotmail.com,15,Luiz
1,linkedin.com/in/isweluiz,21,Eduardo
2,61 9999999,33,Pereira
3,gabi@hotmail.com,19,Gabrielle
4,linkedin.com/in/gabi,12,Cândido
5,61 666666,13,Alves


In [124]:
dados3.dtypes

Contato    object
Idades     object
Nomes      object
dtype: object

In [127]:
dados4 = dados3

In [129]:
#Transformando a coluna idade em inteiro
dados4['Idades'] = dados4['Idades'].astype(int)
dados4.dtypes

Contato    object
Idades      int32
Nomes      object
dtype: object

In [135]:
contatos = pd.merge(dados1, dados2 , on=['Contato', 'Contato'], how='outer')
contatos

Unnamed: 0,Contato,Idades_x,Nomes_x,Idades_y,Nomes_y
0,isweluiz@hotmail.com,15.0,Luiz,,
1,linkedin.com/in/isweluiz,21.0,Eduardo,,
2,61 9999999,33.0,Pereira,,
3,gabi@hotmail.com,,,19.0,Gabrielle
4,linkedin.com/in/gabi,,,12.0,Cândido
5,61 666666,,,13.0,Alves


In [138]:
contatos['Contato']

0        isweluiz@hotmail.com
1    linkedin.com/in/isweluiz
2                  61 9999999
3            gabi@hotmail.com
4        linkedin.com/in/gabi
5                   61 666666
Name: Contato, dtype: object