# Mesclando Tabelas

## Importando as tabelas

In [25]:
import pandas as pd

df_vendas = pd.read_csv('datasets/vendas.csv', sep=';', decimal=',')
df_produtos = pd.read_csv('datasets/produtos.csv', sep=';', decimal=',', index_col=0)
df_vendas.set_index('data', inplace=True)

In [26]:
df_vendas.head()

Unnamed: 0_level_0,id_venda,filial,vendedor,produto,cliente_nome,cliente_genero,forma_pagamento
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
2023-01-20 08:00:56.384224,0,Canoas,Luis Fernando,Tenis Nike,Sabrina Rieke,feminino,credito
2023-01-20 08:50:58.755843,1,Florianópolis,Mario Sérgio,Tenis Adidas,Patsy Lovell,feminino,credito
2023-01-20 11:44:56.776745,2,Canoas,Carlos Henrique,Tenis Adidas,John Crandall,masculino,credito
2023-01-20 12:07:58.025749,3,Caxias do Sul,Rodrigo Vanzeloti,Tenis Adidas,Mildred Mcleod,feminino,credito
2023-01-20 12:49:56.606703,4,São Paulo,Cassia Moraes,Tenis NB,Robert Mccormick,masculino,credito


In [27]:
df_produtos.head()

Unnamed: 0,nome,id,preco
0,Tenis Nike,0,300
1,Tenis Adidas,1,450
2,Tenis NB,2,500
3,Tenis Fila,3,250


## Utilizando o método .merge

precisamos que o nome das colunas seja o mesmo para utilizarmos o .merge

In [28]:
df_produtos = df_produtos.rename(columns={'nome':'produto'})
df_produtos.head()

Unnamed: 0,produto,id,preco
0,Tenis Nike,0,300
1,Tenis Adidas,1,450
2,Tenis NB,2,500
3,Tenis Fila,3,250


In [29]:
df_produtos = df_produtos[['produto', 'preco']]
df_produtos

Unnamed: 0,produto,preco
0,Tenis Nike,300
1,Tenis Adidas,450
2,Tenis NB,500
3,Tenis Fila,250


In [30]:
df_vendas_mesclado = pd.merge(
  left=df_vendas,
  right=df_produtos,
  on='produto',
  how='left')

df_vendas_mesclado

Unnamed: 0,id_venda,filial,vendedor,produto,cliente_nome,cliente_genero,forma_pagamento,preco
0,0,Canoas,Luis Fernando,Tenis Nike,Sabrina Rieke,feminino,credito,300
1,1,Florianópolis,Mario Sérgio,Tenis Adidas,Patsy Lovell,feminino,credito,450
2,2,Canoas,Carlos Henrique,Tenis Adidas,John Crandall,masculino,credito,450
3,3,Caxias do Sul,Rodrigo Vanzeloti,Tenis Adidas,Mildred Mcleod,feminino,credito,450
4,4,São Paulo,Cassia Moraes,Tenis NB,Robert Mccormick,masculino,credito,500
...,...,...,...,...,...,...,...,...
1995,1995,Porto Alegre,Luiza Cherobini,Tenis Nike,Glenn Johnson,masculino,credito,300
1996,1996,Lajeado,Juliano Faccioni,Tenis Adidas,Robert Roop,masculino,boleto,450
1997,1997,Canoas,Luis Fernando,Tenis Adidas,Mary Berg,feminino,credito,450
1998,1998,Lajeado,Adriano Soares,Tenis NB,Dianna Alcorn,feminino,credito,500


## Utilizando o método .map

se não tiver o valor no dict, ele substitui por NaN

In [34]:
dict_produtos = df_produtos.set_index('produto').to_dict()['preco']
dict_produtos

{'Tenis Nike': 300, 'Tenis Adidas': 450, 'Tenis NB': 500, 'Tenis Fila': 250}

In [35]:
df_vendas['preco dict'] = df_vendas['produto'].map(dict_produtos)
df_vendas

Unnamed: 0_level_0,id_venda,filial,vendedor,produto,cliente_nome,cliente_genero,forma_pagamento,preco dict
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2023-01-20 08:00:56.384224,0,Canoas,Luis Fernando,Tenis Nike,Sabrina Rieke,feminino,credito,300
2023-01-20 08:50:58.755843,1,Florianópolis,Mario Sérgio,Tenis Adidas,Patsy Lovell,feminino,credito,450
2023-01-20 11:44:56.776745,2,Canoas,Carlos Henrique,Tenis Adidas,John Crandall,masculino,credito,450
2023-01-20 12:07:58.025749,3,Caxias do Sul,Rodrigo Vanzeloti,Tenis Adidas,Mildred Mcleod,feminino,credito,450
2023-01-20 12:49:56.606703,4,São Paulo,Cassia Moraes,Tenis NB,Robert Mccormick,masculino,credito,500
...,...,...,...,...,...,...,...,...
2023-09-26 08:39:58.718787,1995,Porto Alegre,Luiza Cherobini,Tenis Nike,Glenn Johnson,masculino,credito,300
2023-09-26 09:45:56.916568,1996,Lajeado,Juliano Faccioni,Tenis Adidas,Robert Roop,masculino,boleto,450
2023-09-26 12:22:56.382995,1997,Canoas,Luis Fernando,Tenis Adidas,Mary Berg,feminino,credito,450
2023-09-26 13:01:57.747415,1998,Lajeado,Adriano Soares,Tenis NB,Dianna Alcorn,feminino,credito,500


## Utilizando o método .replace

se não tiver o valor no dict, ele substitui pelo valor (e.g. não acha tênis nike, preenche o valor por "tênis nike" ao invés de NaN)

In [36]:
df_vendas['preco replace'] = df_vendas['produto'].replace(dict_produtos)
df_vendas

  df_vendas['preco replace'] = df_vendas['produto'].replace(dict_produtos)


Unnamed: 0_level_0,id_venda,filial,vendedor,produto,cliente_nome,cliente_genero,forma_pagamento,preco dict,preco replace
data,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
2023-01-20 08:00:56.384224,0,Canoas,Luis Fernando,Tenis Nike,Sabrina Rieke,feminino,credito,300,300
2023-01-20 08:50:58.755843,1,Florianópolis,Mario Sérgio,Tenis Adidas,Patsy Lovell,feminino,credito,450,450
2023-01-20 11:44:56.776745,2,Canoas,Carlos Henrique,Tenis Adidas,John Crandall,masculino,credito,450,450
2023-01-20 12:07:58.025749,3,Caxias do Sul,Rodrigo Vanzeloti,Tenis Adidas,Mildred Mcleod,feminino,credito,450,450
2023-01-20 12:49:56.606703,4,São Paulo,Cassia Moraes,Tenis NB,Robert Mccormick,masculino,credito,500,500
...,...,...,...,...,...,...,...,...,...
2023-09-26 08:39:58.718787,1995,Porto Alegre,Luiza Cherobini,Tenis Nike,Glenn Johnson,masculino,credito,300,300
2023-09-26 09:45:56.916568,1996,Lajeado,Juliano Faccioni,Tenis Adidas,Robert Roop,masculino,boleto,450,450
2023-09-26 12:22:56.382995,1997,Canoas,Luis Fernando,Tenis Adidas,Mary Berg,feminino,credito,450,450
2023-09-26 13:01:57.747415,1998,Lajeado,Adriano Soares,Tenis NB,Dianna Alcorn,feminino,credito,500,500
