# Merge & Groupby

In [1]:
import pandas as pd

In [2]:
# cadastro da loja a

cadastro_a = {'ID': ['AA2930', 'BB4563', 'CC2139', 'DE2521', 'GT3462', 'HH1158'],
             'Nome': ['Victor', 'Amanda', 'Bruna', 'Carlos', 'Ricardo', 'Maria'],
             'Idade': [20, 35, 40, 54, 30, 27],
             'CEP': ['00092-029', '11111-111', '22222-888', '00000-999', '88888-111', '77777-666'] }

cadastro_a = pd.DataFrame(cadastro_a, columns = ['ID', 'Nome', 'Idade', 'CEP'])

cadastro_a

Unnamed: 0,ID,Nome,Idade,CEP
0,AA2930,Victor,20,00092-029
1,BB4563,Amanda,35,11111-111
2,CC2139,Bruna,40,22222-888
3,DE2521,Carlos,54,00000-999
4,GT3462,Ricardo,30,88888-111
5,HH1158,Maria,27,77777-666


In [3]:
# cadastro da loja b

cadastro_b = {'ID': ['CC9999', 'EF4488', 'DD9999', 'GT3462', 'HH1158'],
             'Nome': ['Marcos', 'Patricia', 'Ericka', 'Ricardo', 'Maria'],
             'Idade': [19, 30, 22, 30, 27],
             'CEP': ['00092-029', '11111-111', '11111-888', '88888-111', '77777-666'] }

cadastro_b = pd.DataFrame(cadastro_b, columns = ['ID', 'Nome', 'Idade', 'CEP'])

cadastro_b

Unnamed: 0,ID,Nome,Idade,CEP
0,CC9999,Marcos,19,00092-029
1,EF4488,Patricia,30,11111-111
2,DD9999,Ericka,22,11111-888
3,GT3462,Ricardo,30,88888-111
4,HH1158,Maria,27,77777-666


In [4]:
# registro de compras de todas as unidades

compras = {'ID': ['AA2930', 'EF4488', 'CC2139', 'EF4488', 'CC9999', 'AA2930', 'HH1158', 'HH1158'],
          'Data': ['2019-01-01', '2019-01-30', '2019-01-30', '2019-02-01', '2019-02-20', '2019-03-15','2019-04-01', '2019-04-10'],
          'Valor': [200, 100, 40, 150, 300, 25, 50, 500]}

compras = pd.DataFrame(compras, columns = ['ID', 'Data', 'Valor'])

compras

Unnamed: 0,ID,Data,Valor
0,AA2930,2019-01-01,200
1,EF4488,2019-01-30,100
2,CC2139,2019-01-30,40
3,EF4488,2019-02-01,150
4,CC9999,2019-02-20,300
5,AA2930,2019-03-15,25
6,HH1158,2019-04-01,50
7,HH1158,2019-04-10,500


## Sintaxe da Função Merge

In [5]:
# pd.merge(tabela da esquerda, tabela da direita, on = 'coluna coincidente', how ='left/right/inner/outer')

In [6]:
pd.merge(cadastro_a, cadastro_b, on=['ID'], how='inner')

Unnamed: 0,ID,Nome_x,Idade_x,CEP_x,Nome_y,Idade_y,CEP_y
0,GT3462,Ricardo,30,88888-111,Ricardo,30,88888-111
1,HH1158,Maria,27,77777-666,Maria,27,77777-666


In [7]:
# fazendo o merge com colunas selecionadas

pd.merge(cadastro_a, cadastro_b[['ID', 'Idade', 'CEP']], on=['ID'], how='inner')

Unnamed: 0,ID,Nome,Idade_x,CEP_x,Idade_y,CEP_y
0,GT3462,Ricardo,30,88888-111,30,88888-111
1,HH1158,Maria,27,77777-666,27,77777-666


In [8]:
# alterando os sufixos 

pd.merge(cadastro_a, cadastro_b[['ID', 'Idade', 'CEP']], on=['ID'], how='inner', suffixes=('_A', '_B'))

Unnamed: 0,ID,Nome,Idade_A,CEP_A,Idade_B,CEP_B
0,GT3462,Ricardo,30,88888-111,30,88888-111
1,HH1158,Maria,27,77777-666,27,77777-666


## Full Join

In [9]:
pd.concat([cadastro_a, cadastro_b], ignore_index=True)

Unnamed: 0,ID,Nome,Idade,CEP
0,AA2930,Victor,20,00092-029
1,BB4563,Amanda,35,11111-111
2,CC2139,Bruna,40,22222-888
3,DE2521,Carlos,54,00000-999
4,GT3462,Ricardo,30,88888-111
5,HH1158,Maria,27,77777-666
6,CC9999,Marcos,19,00092-029
7,EF4488,Patricia,30,11111-111
8,DD9999,Ericka,22,11111-888
9,GT3462,Ricardo,30,88888-111


In [10]:
# retirando as duplicadas após a concatenação

lojas = pd.concat([cadastro_a, cadastro_b], ignore_index=True)

In [11]:
clientes_unicos = lojas.drop_duplicates(subset='ID')

clientes_unicos

Unnamed: 0,ID,Nome,Idade,CEP
0,AA2930,Victor,20,00092-029
1,BB4563,Amanda,35,11111-111
2,CC2139,Bruna,40,22222-888
3,DE2521,Carlos,54,00000-999
4,GT3462,Ricardo,30,88888-111
5,HH1158,Maria,27,77777-666
6,CC9999,Marcos,19,00092-029
7,EF4488,Patricia,30,11111-111
8,DD9999,Ericka,22,11111-888


## Left Join

In [12]:
pd.merge(cadastro_a, compras, how='left', on=['ID'])

Unnamed: 0,ID,Nome,Idade,CEP,Data,Valor
0,AA2930,Victor,20,00092-029,2019-01-01,200.0
1,AA2930,Victor,20,00092-029,2019-03-15,25.0
2,BB4563,Amanda,35,11111-111,,
3,CC2139,Bruna,40,22222-888,2019-01-30,40.0
4,DE2521,Carlos,54,00000-999,,
5,GT3462,Ricardo,30,88888-111,,
6,HH1158,Maria,27,77777-666,2019-04-01,50.0
7,HH1158,Maria,27,77777-666,2019-04-10,500.0


In [13]:
# fazendo um filtro - primeiro fizemos um join e inserimos esses dados em uma variável, depois agrupamos e somamos os valores

esquerda = pd.merge(cadastro_a, compras, how='left', on=['ID'])

esquerda.groupby(['ID', 'Nome'])['Valor'].sum()

ID      Nome   
AA2930  Victor     225.0
BB4563  Amanda       0.0
CC2139  Bruna       40.0
DE2521  Carlos       0.0
GT3462  Ricardo      0.0
HH1158  Maria      550.0
Name: Valor, dtype: float64

##  Outer

In [14]:
# faz a junção dos dois DataFrames

pd.merge(cadastro_a, cadastro_b, how='outer', on=['ID'], indicator=True)

Unnamed: 0,ID,Nome_x,Idade_x,CEP_x,Nome_y,Idade_y,CEP_y,_merge
0,AA2930,Victor,20.0,00092-029,,,,left_only
1,BB4563,Amanda,35.0,11111-111,,,,left_only
2,CC2139,Bruna,40.0,22222-888,,,,left_only
3,DE2521,Carlos,54.0,00000-999,,,,left_only
4,GT3462,Ricardo,30.0,88888-111,Ricardo,30.0,88888-111,both
5,HH1158,Maria,27.0,77777-666,Maria,27.0,77777-666,both
6,CC9999,,,,Marcos,19.0,00092-029,right_only
7,EF4488,,,,Patricia,30.0,11111-111,right_only
8,DD9999,,,,Ericka,22.0,11111-888,right_only


## Groupby

In [15]:
import numpy as np

In [16]:
df = pd.DataFrame({'A': ['VERDADEIRO', 'FALSO', 'VERDADEIRO', 'FALSO', 'VERDADEIRO', 'FALSO', 'VERDADEIRO', 'FALSO'],
                  'B': ['UM', 'UM', 'DOIS', 'TRES', 'DOIS', 'DOIS', 'UM', 'TRES'],
                  'C': np.random.randn(8),
                  'D': np.random.randn(8)})

In [17]:
df

Unnamed: 0,A,B,C,D
0,VERDADEIRO,UM,-0.79477,-1.63934
1,FALSO,UM,-0.203914,0.270624
2,VERDADEIRO,DOIS,-0.098672,-0.28729
3,FALSO,TRES,-0.487811,-1.139265
4,VERDADEIRO,DOIS,0.126543,-2.058703
5,FALSO,DOIS,0.465321,1.0652
6,VERDADEIRO,UM,0.21531,1.964381
7,FALSO,TRES,-0.793303,-0.174157


In [18]:
# agrupamento da coluna A e fazendo soma/média

df.groupby(['A']).sum()

Unnamed: 0_level_0,C,D
A,Unnamed: 1_level_1,Unnamed: 2_level_1
FALSO,-1.019707,0.022403
VERDADEIRO,-0.551589,-2.020952


In [19]:
df.groupby(['B']).sum()

Unnamed: 0_level_0,C,D
B,Unnamed: 1_level_1,Unnamed: 2_level_1
DOIS,0.493192,-1.280793
TRES,-1.281114,-1.313422
UM,-0.783374,0.595666


In [20]:
# podemos agrupar mais de dois valores

df.groupby(['A', 'B']).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,C,D
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
FALSO,DOIS,0.465321,1.0652
FALSO,TRES,-1.281114,-1.313422
FALSO,UM,-0.203914,0.270624
VERDADEIRO,DOIS,0.027871,-2.345993
VERDADEIRO,UM,-0.57946,0.325041
