## **União de várias bases de dados para um estudo simplificado**
### Um caso em que utilizamos uma **base de dados**: Cada tabela representa uma informação e todas estão integradas

Primeiro passo antes de realizar o tratamento de dados é verificar **importar** cada base de dados, **visualizá-las** e fazer as **formatações** necessárias no DataFrame. 

### Caso de ***encoding***

Na leitura de uma base de dados, muitas vezes o python pode associar algum caractere como especial integrado à linguagem. Essa confusão pode impossibilitar a leitura do nome do arquivo, logo usaremos como argumento os encoding listados a seguir:

        encoding='latin1', encoding='ISO-8859-1', encoding='utf-8' ou então encoding='cp1252'
        
----------

### Desafio 

Nem sempre uma base de dados vai trazer todas as informações que precisamos. Dessa forma, vamos precisar integrá-las a informações contidas em colunas de outras bases. 

Dado um conjunto de vendas de diversos produtos, a base tráz informações sobre os códigos de identificação dos clientes, do produto, de promoção e da canal. No entanto, esses códigos são números tampouco irão dar insights nas análises. 

Para isso, precisamos pegar de outras bases informações mais completas relacionadas a cada código. 

-----------

        Importação das bases de dados --> Visualização de todas --> Tratamento das colunas mais importantes --> Merge entre todas. 
        
        

In [5]:
# Importação das bases de dados 

import pandas as pd 

sell = pd.read_csv(r'Data/Vendas.csv')
display(sell)


Unnamed: 0,Numero da Venda;Data da Venda;Data do Envio;ID Canal;ID Loja;ID Produto;ID Promocao;ID Cliente;Quantidade Vendida;Quantidade Devolvida
0,1;01/01/2017;02/01/2017;1;86;981;2;6825;9;1
1,2;01/01/2017;06/01/2017;5;308;1586;2;18469;9;1
2,3;01/01/2017;01/01/2017;0;294;1444;5;19730;13;1
3,4;01/01/2017;01/01/2017;0;251;1468;5;29326;6;1
4,5;01/01/2017;07/01/2017;6;94;1106;2;22617;4;1
...,...
980637,980638;31/12/2017;31/12/2017;0;194;2490;4;1035...
980638,980639;31/12/2017;06/01/2018;6;32;2488;4;31750...
980639,980640;31/12/2017;03/01/2018;3;210;2511;10;120...
980640,980641;31/12/2017;31/12/2017;0;53;436;4;25550;...


**Observação:** A separação das colunas de um .csv é marcada pela vígula. Se há outro separador, devemos colocar esse caractere como argumento da função de importação: 

        read_csv('nome_arquivo.csv', sep='caractere de separação')

In [6]:
sell = pd.read_csv(r'Data/Vendas.csv', sep=';')
display(sell)

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida
0,1,01/01/2017,02/01/2017,1,86,981,2,6825,9,1
1,2,01/01/2017,06/01/2017,5,308,1586,2,18469,9,1
2,3,01/01/2017,01/01/2017,0,294,1444,5,19730,13,1
3,4,01/01/2017,01/01/2017,0,251,1468,5,29326,6,1
4,5,01/01/2017,07/01/2017,6,94,1106,2,22617,4,1
...,...,...,...,...,...,...,...,...,...,...
980637,980638,31/12/2017,31/12/2017,0,194,2490,4,10353,120,0
980638,980639,31/12/2017,06/01/2018,6,32,2488,4,31750,120,0
980639,980640,31/12/2017,03/01/2018,3,210,2511,10,12003,80,0
980640,980641,31/12/2017,31/12/2017,0,53,436,4,25550,39,0


In [7]:
sell.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 980642 entries, 0 to 980641
Data columns (total 10 columns):
 #   Column                Non-Null Count   Dtype 
---  ------                --------------   ----- 
 0   Numero da Venda       980642 non-null  int64 
 1   Data da Venda         980642 non-null  object
 2   Data do Envio         980642 non-null  object
 3   ID Canal              980642 non-null  int64 
 4   ID Loja               980642 non-null  int64 
 5   ID Produto            980642 non-null  int64 
 6   ID Promocao           980642 non-null  int64 
 7   ID Cliente            980642 non-null  int64 
 8   Quantidade Vendida    980642 non-null  int64 
 9   Quantidade Devolvida  980642 non-null  int64 
dtypes: int64(8), object(2)
memory usage: 74.8+ MB


In [8]:
products = pd.read_csv(r'Data/Cadastro Produtos.csv', sep=';')
stores = pd.read_csv(r'Data/Lojas.csv', sep=';')
client = pd.read_csv(r'Data/Clientes.csv', sep=';')
promotions = pd.read_csv(r'Data/Promocoes.csv', sep=';')

display(products)
display(stores)
display(client)
display(promotions)

Unnamed: 0,Nome do Produto,Descricao do Produto,Fabricante,Nome da Marca,Tipo,Custo Unitario,Preco Unitario,ID Produto,ID Subcategoria
0,Contoso Wireless Laser Mouse E50 Grey,Advanced 2.4 GHz cordless technology makes fre...,"Contoso, Ltd",Contoso,Econômico,1069,2096,873,22
1,Contoso Optical Wheel OEM PS/2 Mouse E60 Grey,"PS/2 mouse, 6 feet mouse cable","Contoso, Ltd",Contoso,Econômico,663,13,879,22
2,Contoso Optical Wheel OEM PS/2 Mouse E60 Black,"PS/2 mouse, 6 feet mouse cable","Contoso, Ltd",Contoso,Econômico,663,13,880,22
3,Contoso Optical Wheel OEM PS/2 Mouse E60 White,"PS/2 mouse, 6 feet mouse cable","Contoso, Ltd",Contoso,Econômico,663,13,881,22
4,Contoso Optical Wheel OEM PS/2 Mouse E60 Silver,"PS/2 mouse, 6 feet mouse cable","Contoso, Ltd",Contoso,Econômico,663,13,882,22
...,...,...,...,...,...,...,...,...,...
1685,SV DVD 12-Inch Player Portable M400 Black,"6-hour rechargeable battery, 180-degree swivel...",Southridge Video,Southridge Video,Regular,8277,17999,1602,35
1686,SV DVD 9-Inch Player Portable M300 Silver,"6-hour rechargeable battery, 180-degree swivel...",Southridge Video,Southridge Video,Regular,7357,15999,1606,35
1687,SV DVD 12-Inch Player Portable M400 Silver,"6-hour rechargeable battery, 180-degree swivel...",Southridge Video,Southridge Video,Regular,8277,17999,1607,35
1688,SV DVD 9-Inch Player Portable M300 White,"6-hour rechargeable battery, 180-degree swivel...",Southridge Video,Southridge Video,Regular,7357,15999,1611,35


Unnamed: 0,ID Loja,Nome da Loja,Quantidade Colaboradores,País
0,1,Loja Contoso Seattle No.1,17.0,Estados Unidos
1,2,Loja Contoso Seattle No.2,25.0,Estados Unidos
2,3,Loja Contoso Kennewick,26.0,Estados Unidos
3,4,Loja Contoso Bellevue,19.0,Estados Unidos
4,5,Loja Contoso Redmond,33.0,Estados Unidos
...,...,...,...,...
301,306,Loja Contoso Europe Online,7.0,Alemanha
302,307,Loja Contoso Asia Online,8.0,China
303,308,Loja Contoso North America Reseller,15.0,Estados Unidos
304,309,Loja Contoso Europe Reseller,12.0,França


Unnamed: 0,ID Cliente,Primeiro Nome,Sobrenome,E-mail,Genero,Numero de Filhos,Data de Nascimento,Unnamed: 7,Unnamed: 8,Unnamed: 9,Unnamed: 10
0,1,Garnet,Lanfranchi,glanfranchi0@mayoclinic.com,Feminino,2,12/05/1995,,,,
1,2,Lurette,Roseblade,lroseblade1@bigcartel.com,Feminino,2,30/06/1943,,,,
2,3,Glenden,Ishchenko,gishchenko2@moonfruit.com,Masculino,5,09/04/1989,,,,
3,4,Baron,Jedrzejewsky,bjedrzejewsky3@e-recht24.de,Masculino,4,17/11/1998,,,,
4,5,Sheree,Bredbury,sbredbury4@sitemeter.com,Feminino,5,08/09/1975,,,,
...,...,...,...,...,...,...,...,...,...,...,...
39499,39500,Brandy,Malhotra,brandy0@adventure-works.com,Masculino,3,27/07/1980,,,,
39500,39501,Alicia,Raje,alicia12@adventure-works.com,Feminino,5,10/05/2001,,,,
39501,39502,Connie,Rai,connie4@adventure-works.com,Feminino,0,13/02/1997,,,,
39502,39503,Shawn,Raji,shawn23@adventure-works.com,Masculino,1,29/03/2001,,,,


Unnamed: 0,ID Promocao,Nome Promocao,Percentual Desconto,Data Inicio,Data Termino,Unnamed: 5,Unnamed: 6
0,1,Sem desconto,0,01/01/2017,31/12/2020,,
1,2,Promoção de Primavera Americana,5,01/01/2017,31/03/2017,,
2,3,Promoção Volta às Aulas Americanas,1,01/07/2017,30/09/2017,,
3,4,Promoção Férias Escolares Americanas,2,01/11/2017,31/12/2017,,
4,5,Promoção Férias Asiáticas,15,01/11/2017,31/01/2018,,
5,6,Promoção de Primavera Asiática,2,01/02/2017,30/04/2017,,
6,7,Promoção de Verão Asiático,1,01/05/2017,30/06/2017,,
7,8,Promoção de Primavera Europeia,7,01/02/2017,30/04/2017,,
8,9,Promoção Volta às Aulas Europeias,1,01/08/2017,30/09/2017,,
9,10,Promoção de Férias Europeias,2,01/10/2017,31/01/2018,,


### Selecionando apenas as informações importantes para as análises 

Nesse caso, quero saber apenas:

    Nome do Produto, Descricao do Produto;
    Nome da Loja; 
    Primeiro Nome, Sobrenome, E-mail; 
    Nome Promocao.

In [9]:
products.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1690 entries, 0 to 1689
Data columns (total 9 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   Nome do Produto       1690 non-null   object
 1   Descricao do Produto  1690 non-null   object
 2   Fabricante            1690 non-null   object
 3   Nome da Marca         1690 non-null   object
 4   Tipo                  1690 non-null   object
 5   Custo Unitario        1690 non-null   object
 6   Preco Unitario        1690 non-null   object
 7   ID Produto            1690 non-null   int64 
 8   ID Subcategoria       1690 non-null   int64 
dtypes: int64(2), object(7)
memory usage: 119.0+ KB


In [10]:
products = products[['ID Produto', 'Nome do Produto']]

In [11]:
stores.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 306 entries, 0 to 305
Data columns (total 4 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   ID Loja                   306 non-null    int64  
 1   Nome da Loja              306 non-null    object 
 2   Quantidade Colaboradores  305 non-null    float64
 3   País                      306 non-null    object 
dtypes: float64(1), int64(1), object(2)
memory usage: 9.7+ KB


In [12]:
stores = stores[['ID Loja', 'Nome da Loja']]

In [13]:
client.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39504 entries, 0 to 39503
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   ID Cliente          39504 non-null  int64  
 1   Primeiro Nome       39504 non-null  object 
 2   Sobrenome           39504 non-null  object 
 3   E-mail              39504 non-null  object 
 4   Genero              39504 non-null  object 
 5   Numero de Filhos    39504 non-null  int64  
 6   Data de Nascimento  39504 non-null  object 
 7   Unnamed: 7          0 non-null      float64
 8   Unnamed: 8          0 non-null      float64
 9   Unnamed: 9          0 non-null      float64
 10  Unnamed: 10         0 non-null      float64
dtypes: float64(4), int64(2), object(5)
memory usage: 3.3+ MB


In [14]:
client = client[['ID Cliente','E-mail']]

In [15]:
promotions.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 28 entries, 0 to 27
Data columns (total 7 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   ID Promocao          28 non-null     int64  
 1   Nome Promocao        28 non-null     object 
 2   Percentual Desconto  28 non-null     object 
 3   Data Inicio          28 non-null     object 
 4   Data Termino         28 non-null     object 
 5   Unnamed: 5           0 non-null      float64
 6   Unnamed: 6           0 non-null      float64
dtypes: float64(2), int64(1), object(4)
memory usage: 1.7+ KB


In [16]:
promotions = promotions[['ID Promocao', 'Percentual Desconto']]

### Aspecto importante na recontrução de um DataFrame

Quando vamos realizar a união de base de dados, é necessário realizar a operação através de uma **coluna em comum**. 


**Observação:** Não desejo criar um novo DataFrame que representa a união de duas tabelas. Na verdade, quero reaproveitar uma tabela antiga, logo vou utilizar outra sintáxe da função merge. 

        <base_dados_reaproveitar> = <base_dados_reaproveitar>.merge(<outra_base_integração>, on = 'coluna_referência')

In [17]:
sell = sell.merge(products, on = 'ID Produto')
sell = sell.merge(stores, on = 'ID Loja')
sell = sell.merge(client, on = 'ID Cliente')
sell = sell.merge(promotions, on = 'ID Promocao')

In [18]:
display(sell)

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,Nome do Produto,Nome da Loja,E-mail,Percentual Desconto
0,1,01/01/2017,02/01/2017,1,86,981,2,6825,9,1,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Austin,rbrumfieldmy@ameblo.jp,005
1,191019,20/03/2017,21/03/2017,1,172,376,2,6825,9,0,Adventure Works Laptop12 M1201 Silver,Loja Contoso Hartford,rbrumfieldmy@ameblo.jp,005
2,18610,08/01/2017,10/01/2017,2,200,448,2,6825,48,0,WWI Desktop PC1.80 E1801 Black,Loja Contoso Catalog,rbrumfieldmy@ameblo.jp,005
3,26350,12/01/2017,18/01/2017,6,21,568,2,6825,9,0,Proseware Projector 480p DLP12 Silver,Loja Contoso Wheat Ridge,rbrumfieldmy@ameblo.jp,005
4,169169,11/03/2017,14/03/2017,3,22,437,2,21344,27,0,Adventure Works Desktop PC1.80 ED182 White,Loja Contoso Westminster,makayla3@adventure-works.com,005
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
980637,160497,07/03/2017,07/03/2017,0,231,1553,8,39031,12,0,The Phone Company PDA GPS Phone 3.5 inch M910 ...,Loja Contoso Hofheim,xavier39@adventure-works.com,007
980638,259187,14/04/2017,16/04/2017,2,236,128,8,37934,6,0,"Adventure Works 19"" Color Digital TV E35 Brown",Loja Contoso Baumholder,kathryn13@adventure-works.com,007
980639,129797,23/02/2017,23/02/2017,0,248,722,8,835,12,0,Proseware Professional Quality Plain-Paper Fax...,Loja Contoso Valletta,nlodgen6@paginegialle.it,007
980640,133440,24/02/2017,24/02/2017,0,218,1381,8,38801,12,0,Contoso Waterproof Accessory Handset and Charg...,Loja Contoso Toulouse,megan17@adventure-works.com,007


### Modificando nome das colunas 

Os nomes devem ser o mais intuitivos possíveis. 

In [19]:
sell = sell.rename(columns = {'E-mail': 'E-mail dos clientes'})

display(sell)

Unnamed: 0,Numero da Venda,Data da Venda,Data do Envio,ID Canal,ID Loja,ID Produto,ID Promocao,ID Cliente,Quantidade Vendida,Quantidade Devolvida,Nome do Produto,Nome da Loja,E-mail dos clientes,Percentual Desconto
0,1,01/01/2017,02/01/2017,1,86,981,2,6825,9,1,A. Datum Advanced Digital Camera M300 Pink,Loja Contoso Austin,rbrumfieldmy@ameblo.jp,005
1,191019,20/03/2017,21/03/2017,1,172,376,2,6825,9,0,Adventure Works Laptop12 M1201 Silver,Loja Contoso Hartford,rbrumfieldmy@ameblo.jp,005
2,18610,08/01/2017,10/01/2017,2,200,448,2,6825,48,0,WWI Desktop PC1.80 E1801 Black,Loja Contoso Catalog,rbrumfieldmy@ameblo.jp,005
3,26350,12/01/2017,18/01/2017,6,21,568,2,6825,9,0,Proseware Projector 480p DLP12 Silver,Loja Contoso Wheat Ridge,rbrumfieldmy@ameblo.jp,005
4,169169,11/03/2017,14/03/2017,3,22,437,2,21344,27,0,Adventure Works Desktop PC1.80 ED182 White,Loja Contoso Westminster,makayla3@adventure-works.com,005
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
980637,160497,07/03/2017,07/03/2017,0,231,1553,8,39031,12,0,The Phone Company PDA GPS Phone 3.5 inch M910 ...,Loja Contoso Hofheim,xavier39@adventure-works.com,007
980638,259187,14/04/2017,16/04/2017,2,236,128,8,37934,6,0,"Adventure Works 19"" Color Digital TV E35 Brown",Loja Contoso Baumholder,kathryn13@adventure-works.com,007
980639,129797,23/02/2017,23/02/2017,0,248,722,8,835,12,0,Proseware Professional Quality Plain-Paper Fax...,Loja Contoso Valletta,nlodgen6@paginegialle.it,007
980640,133440,24/02/2017,24/02/2017,0,218,1381,8,38801,12,0,Contoso Waterproof Accessory Handset and Charg...,Loja Contoso Toulouse,megan17@adventure-works.com,007
