In [15]:
# Importando as bibliotecas
from sqlalchemy import create_engine
from sqlalchemy.engine import URL
import pandas as pd
import os
import sys
# Bibliotecas de manipulação psycopg2
import psycopg2
from psycopg2 import OperationalError, errorcodes, errors, IntegrityError
import psycopg2.extras as extras
# Bibliotecas para manipulação no BigQuery
from google.cloud import bigquery
from google.api_core.exceptions import ClientError
# Bibliotecas para manipulação no BigQuery
from google.cloud import bigquery
from google.api_core.exceptions import ClientError


#### Extração dos Dados

* A fonte dos dados esta em um arquivo .XLSX, que será carregado para nosso Dataframe

In [2]:
# Faz a leitura da planilha para o dataframe
df = pd.read_excel('Dados_Comerciais.xlsx')
df.head()

Unnamed: 0,ID-Produto,Produto,Categoria,Segmento,Fabricante,Loja,Cidade,Estado,Vendedor,ID-Vendedor,Comissão (Percentual),Data Venda,ValorVenda,Custo
0,SKU-0000001,LG K10 TV Power,Celulares,Corporativo,LG,SP8821,São Paulo,São Paulo,Ana Teixeira,1009,2,2012-10-04,679.0,345
1,SKU-0000002,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp,SP8821,São Paulo,São Paulo,Josias Silva,1006,3,2012-01-01,832.0,712
2,SKU-0000003,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp,SP8821,São Paulo,São Paulo,Josias Silva,1006,2,2012-02-02,790.0,390
3,SKU-0000004,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp,SP8821,São Paulo,São Paulo,Mateus Gonçalves,1003,3,2012-03-03,765.32,200
4,SKU-0000005,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Electrolux,SP8821,São Paulo,São Paulo,Artur Moreira,1004,5,2012-04-04,459.89,234


#### Transformação

* Nesta etapa realizaremos todos os tratamentos e ajustes necessários para que os dados no final, estejam na estrutura de dados relacional definida.

In [5]:
df.shape

(457, 14)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 457 entries, 0 to 456
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype         
---  ------                 --------------  -----         
 0   ID-Produto             457 non-null    object        
 1   Produto                457 non-null    object        
 2   Categoria              457 non-null    object        
 3   Segmento               457 non-null    object        
 4   Fabricante             457 non-null    object        
 5   Loja                   457 non-null    object        
 6   Cidade                 457 non-null    object        
 7   Estado                 457 non-null    object        
 8   Vendedor               457 non-null    object        
 9   ID-Vendedor            457 non-null    int64         
 10  Comissão (Percentual)  457 non-null    int64         
 11  Data Venda             457 non-null    datetime64[ns]
 12  ValorVenda             457 non-null    float64       
 13  Custo

* *Verificando valores ausentes*

In [443]:
# Verifica a existencia de dados nulos
def valores_ausentes(df):
    return df.isna().agg(['sum', lambda x : (x.sum() / df.shape[0]) * 100]).T.rename(columns={'sum':'valores ausentes','<lambda>':'porcentagem'})[df.isna().sum() > 0]

In [None]:
# Verificando valores ausentes no dataframe
valores_ausentes(df)

* *Verificando valores duplicados*

In [446]:
# Verifica registros com valores duplicados
df.duplicated().sum()

0

##### Tranformação dos dados na estrutura do modelo físico

 * *Tabela Categoria*

In [3]:
# Dataframe Categoria
df_categoria = pd.DataFrame(columns=['categoriaid','categoria'])
df_categoria['categoria'] = df['Categoria'].value_counts().index
df_categoria['categoriaid'] = range(1,df_categoria.shape[0]+1)
df_categoria

Unnamed: 0,categoriaid,categoria
0,1,Eletrodomésticos
1,2,Eletroportáteis
2,3,Eletrônicos
3,4,Celulares


* *Tabela Segmento*

In [40]:
# Dataframe Segmento
df_segmento = pd.DataFrame(columns=['segmentoid','segmento'])
df_segmento['segmento'] = df['Segmento'].value_counts().index
df_segmento['segmentoid'] = range(1,df_segmento.shape[0]+1)
df_segmento

Unnamed: 0,segmentoid,segmento
0,1,Doméstico
1,2,Corporativo
2,3,Industrial


* *Tabela Fabricante*

In [41]:
# Dataframe Fabricante
df_fabricante = pd.DataFrame(columns=['fabricanteid','fabricante'])
df_fabricante['fabricante'] = df['Fabricante'].value_counts().index
df_fabricante['fabricanteid'] = range(1,df_fabricante.shape[0]+1)
df_fabricante

Unnamed: 0,fabricanteid,fabricante
0,1,Brastemp
1,2,Consul
2,3,Samsung
3,4,Britânia
4,5,HP
5,6,Motorola
6,7,LG
7,8,Panasonic
8,9,Epson
9,10,Dell


* *Tabela UF (Estado)*

In [42]:
# Dicionario contendo todos os estados do Brasil
uf_dict = {"AC": "Acre","AL": "Alagoas","AP": "Amapá","AM": "Amazonas","BA": "Bahia","CE": "Ceará","DF": "Distrito Federal"
           ,"ES": "Espírito Santo","GO": "Goiás","MA": "Maranhão","MS": "Mato Grosso do Sul","MT": "Mato Grosso",
           "MG": "Minas Gerais","PA": "Pará","PB": "Paraíba","PR": "Paraná","PE": "Pernambuco","PI": "Piauí","RJ": "Rio de Janeiro",
           "RS": "Rio Grande do Sul","RO": "Rondônia","RR": "Roraima","SC": "Santa Catarina","SP": "São Paulo","SE": "Sergipe","TO": "Tocantins"}
# Dataframe UF
df_uf = pd.DataFrame({'uf' : uf_dict.keys(), 'estado' : uf_dict.values()})
df_uf

Unnamed: 0,uf,estado
0,AC,Acre
1,AL,Alagoas
2,AP,Amapá
3,AM,Amazonas
4,BA,Bahia
5,CE,Ceará
6,DF,Distrito Federal
7,ES,Espírito Santo
8,GO,Goiás
9,MA,Maranhão


* *Tabela Cidade*

In [43]:
# Dataframe Cidade
df_cidade = pd.DataFrame(columns=['cidadeid','cidade', 'estado','uf'])
df_cidade['cidade'] = df.groupby(by='Cidade')['Estado'].value_counts().index.get_level_values(0)
df_cidade['cidadeid'] = range(1,df_cidade.shape[0]+1)
df_cidade["estado"] = df.groupby(by='Cidade')['Estado'].value_counts().index.get_level_values(1)
df_cidade = df_cidade.set_index('estado').combine_first(df_uf[df_uf['estado'].isin(df_cidade['estado'])].set_index('estado')) # UF
df_cidade.reset_index(inplace=True)
df_cidade[['cidadeid','cidade', 'estado','uf']]

Unnamed: 0,cidadeid,cidade,estado,uf
0,8,Salvador,Bahia,BA
1,10,Vitória,Espírito Santo,ES
2,1,Belo Horizonte,Minas Gerais,MG
3,4,Cascavel,Paraná,PR
4,3,Campos,Rio de Janeiro,RJ
5,6,Petrópolis,Rio de Janeiro,RJ
6,7,Rio de Janeiro,Rio de Janeiro,RJ
7,2,Campinas,São Paulo,SP
8,5,Osasco,São Paulo,SP
9,9,São Paulo,São Paulo,SP


* *Dataframe temporário para estruturar os dados*

In [44]:
# Dataframe temporario para buscar as informações das tabelas de cadastros
df_temp = pd.DataFrame(columns=['produtoid','produto','categoriaid','categoria','segmentoid','segmento','fabricanteid','fabricante','loja','cidadeid','cidade','estado','uf','vendedor','vendedorid','datavenda','valorvenda','comissao','custo'])
df_temp['produtoid'] = df['ID-Produto']
df_temp['produto'] = df['Produto']
df_temp['categoria'] = df['Categoria']
df_temp['segmento'] = df['Segmento']
df_temp['fabricante'] = df['Fabricante']
df_temp['loja'] = df['Loja']
df_temp['cidade'] = df['Cidade']
df_temp['estado'] = df['Estado']
df_temp['vendedor'] = df['Vendedor']
df_temp['vendedorid'] = df['ID-Vendedor']
df_temp['datavenda'] = df['Data Venda']
df_temp['valorvenda'] = df['ValorVenda']
df_temp['comissao'] = df['Comissão (Percentual)']
df_temp['custo'] = df['Custo']
df_temp = df_temp.set_index('categoria').combine_first(df_categoria.set_index('categoria')) # CategoriaID
df_temp.reset_index(inplace=True)
df_temp = df_temp.set_index('segmento').combine_first(df_segmento.set_index('segmento')) # SegmentoID
df_temp.reset_index(inplace=True)
df_temp = df_temp.set_index('fabricante').combine_first(df_fabricante.set_index('fabricante')) # FabricanteID
df_temp.reset_index(inplace=True)
df_temp.reset_index(inplace=True)
df_temp = df_temp.set_index('cidade').combine_first(df_cidade.set_index('cidade')) # CidadeID, UF
df_temp.reset_index(inplace=True)

In [14]:
df_temp[['produtoid','produto','categoriaid','categoria','segmentoid','segmento','fabricanteid','fabricante','loja','cidadeid','cidade','estado','uf','vendedor','vendedorid','datavenda','valorvenda','comissao','custo']]

Unnamed: 0,produtoid,produto,categoriaid,categoria,segmentoid,segmento,fabricanteid,fabricante,loja,cidadeid,cidade,estado,uf,vendedor,vendedorid,datavenda,valorvenda,comissao,custo
0,SKU-0000012,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990,1,Belo Horizonte,Minas Gerais,MG,Josias Silva,1006,2012-11-04,1651.0,5,790
1,SKU-0000136,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990,1,Belo Horizonte,Minas Gerais,MG,André Pereira,1002,2013-01-09,1233.0,2,120
2,SKU-0000137,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990,1,Belo Horizonte,Minas Gerais,MG,Ana Teixeira,1009,2013-01-10,1233.0,2,120
3,SKU-0000138,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990,1,Belo Horizonte,Minas Gerais,MG,Josias Silva,1006,2013-02-11,721.0,2,120
4,SKU-0000141,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990,1,Belo Horizonte,Minas Gerais,MG,Artur Moreira,1004,2013-03-14,346.0,2,120
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
452,SKU-0000151,Samsung Galaxy 8,4,Celulares,2,Corporativo,3,Samsung,V7654,10,Vitória,Espírito Santo,ES,Artur Moreira,1004,2013-10-24,3999.0,2,120
453,SKU-0000202,Fritadeira,2,Eletroportáteis,1,Doméstico,3,Samsung,V7654,10,Vitória,Espírito Santo,ES,Josias Silva,1006,2014-10-01,128.0,2,120
454,SKU-0000210,Fritadeira,2,Eletroportáteis,1,Doméstico,3,Samsung,V7654,10,Vitória,Espírito Santo,ES,Fernando Zambrini,1007,2015-06-02,121.0,2,120
455,SKU-0000245,Ar Condicionado,1,Eletrodomésticos,3,Industrial,3,Samsung,V7654,10,Vitória,Espírito Santo,ES,Maria Fernandes,1001,2015-05-02,1290.0,2,120


* *Tabela Loja*

In [45]:
# Dataframe Loja
df_loja = pd.DataFrame(columns=['lojaid','cidadeid'])
df_loja['lojaid'] = df_temp.groupby(by='loja')['cidade'].value_counts().index.get_level_values(0)
df_loja['cidadeid'] = df_temp.groupby(by='loja')['cidadeid'].value_counts().index.get_level_values(1)
df_loja

Unnamed: 0,lojaid,cidadeid
0,A9990,1
1,A9991,1
2,B7659,2
3,P0761,4
4,R1295,7
5,R1296,7
6,R1297,6
7,R1298,3
8,S6543,5
9,SA7761,8


* *Tabela Vendedor*

In [46]:
# Dataframe Vendedor
df_vendedor = pd.DataFrame(columns=['vendedorid','nome'])
df_vendedor['nome'] = df.groupby(by=['ID-Vendedor'])['Vendedor'].value_counts().index.get_level_values(1)
df_vendedor['vendedorid'] = df.groupby(by=['ID-Vendedor'])['Vendedor'].value_counts().index.get_level_values(0)
df_vendedor

Unnamed: 0,vendedorid,nome
0,1001,Maria Fernandes
1,1002,André Pereira
2,1003,Mateus Gonçalves
3,1004,Artur Moreira
4,1005,Rodrigo Fagundes
5,1006,Josias Silva
6,1007,Fernando Zambrini
7,1008,Aline Sutter
8,1009,Ana Teixeira


* *Tabela Produto*

In [47]:
# Dataframe Produto
df_produto = pd.DataFrame(columns=['produtoid','produto','categoriaid','categoria','segmentoid','segmento','fabricanteid','fabricante','lojaid'])
df_produto['produtoid'] = df_temp['produtoid']
df_produto['produto'] = df_temp['produto']
df_produto['categoria'] = df_temp['categoria']
df_produto['categoriaid'] = df_temp['categoriaid']
df_produto['segmento'] = df_temp['segmento']
df_produto['segmentoid'] = df_temp['segmentoid']
df_produto['fabricante'] = df_temp['fabricante']
df_produto['fabricanteid'] = df_temp['fabricanteid']
df_produto['lojaid'] = df_temp['loja']
df_produto

Unnamed: 0,produtoid,produto,categoriaid,categoria,segmentoid,segmento,fabricanteid,fabricante,lojaid
0,SKU-0000012,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
1,SKU-0000136,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
2,SKU-0000137,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
3,SKU-0000138,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
4,SKU-0000141,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
...,...,...,...,...,...,...,...,...,...
452,SKU-0000151,Samsung Galaxy 8,4,Celulares,2,Corporativo,3,Samsung,V7654
453,SKU-0000202,Fritadeira,2,Eletroportáteis,1,Doméstico,3,Samsung,V7654
454,SKU-0000210,Fritadeira,2,Eletroportáteis,1,Doméstico,3,Samsung,V7654
455,SKU-0000245,Ar Condicionado,1,Eletrodomésticos,3,Industrial,3,Samsung,V7654


* *Tabela Venda*

In [48]:
# Dataframe Venda
df_venda = pd.DataFrame(columns=['produtoid','produto','vendedorid','vendedor','datavenda','valorvenda','comissao','custo'])
df_venda['produtoid'] = df_temp['produtoid']
df_venda['produto'] = df_temp['produto']
df_venda['vendedorid'] = df_temp['vendedorid']
df_venda['vendedor'] = df_temp['vendedor']
df_venda['datavenda'] = df_temp['datavenda']
df_venda['valorvenda'] = df_temp['valorvenda']
df_venda['perc_comissao'] = df_temp['comissao']
df_venda['custo'] = df_temp['custo']
df_venda

Unnamed: 0,produtoid,produto,vendedorid,vendedor,datavenda,valorvenda,comissao,custo,perc_comissao
0,SKU-0000012,Geladeira Duplex,1006,Josias Silva,2012-11-04,1651.0,,790,5
1,SKU-0000136,Geladeira Duplex,1002,André Pereira,2013-01-09,1233.0,,120,2
2,SKU-0000137,Geladeira Duplex,1009,Ana Teixeira,2013-01-10,1233.0,,120,2
3,SKU-0000138,Geladeira Duplex,1006,Josias Silva,2013-02-11,721.0,,120,2
4,SKU-0000141,Geladeira Duplex,1004,Artur Moreira,2013-03-14,346.0,,120,2
...,...,...,...,...,...,...,...,...,...
452,SKU-0000151,Samsung Galaxy 8,1004,Artur Moreira,2013-10-24,3999.0,,120,2
453,SKU-0000202,Fritadeira,1006,Josias Silva,2014-10-01,128.0,,120,2
454,SKU-0000210,Fritadeira,1007,Fernando Zambrini,2015-06-02,121.0,,120,2
455,SKU-0000245,Ar Condicionado,1001,Maria Fernandes,2015-05-02,1290.0,,120,2


#### Carregamento
* Nesta etapa faremos as inserções dos dados no PostgreSQL e BigQuery

* *PostgreSQL*

In [15]:
print(os.environ['PATH'])

c:\Users\Alexandre\anaconda3;C:\Users\Alexandre\anaconda3;C:\Users\Alexandre\anaconda3\Library\mingw-w64\bin;C:\Users\Alexandre\anaconda3\Library\usr\bin;C:\Users\Alexandre\anaconda3\Library\bin;C:\Users\Alexandre\anaconda3\Scripts;C:\Users\Alexandre\anaconda3\bin;C:\Users\Alexandre\anaconda3\condabin;C:\Users\Alexandre\anaconda3;C:\Users\Alexandre\anaconda3\Library\mingw-w64\bin;C:\Users\Alexandre\anaconda3\Library\usr\bin;C:\Users\Alexandre\anaconda3\Library\bin;C:\Users\Alexandre\anaconda3\Scripts;C:\Program Files (x86)\Common Files\Oracle\Java\javapath;C:\ProgramData\Oracle\Java\javapath;C:\Windows\system32;C:\Windows;C:\Windows\System32\Wbem;C:\Windows\System32\WindowsPowerShell\v1.0;C:\Program Files (x86)\NVIDIA Corporation\PhysX\Common;C:\WINDOWS\system32;C:\WINDOWS;C:\WINDOWS\System32\Wbem;C:\WINDOWS\System32\WindowsPowerShell\v1.0;C:\WINDOWS\System32\OpenSSH;C:\Program Files\NVIDIA Corporation\NVIDIA NvDLISR;C:\Program Files (x86)\Intel\Intel(R) Management Engine Components\DA

In [11]:
for key, value in os.environ.items():
    print(f'{key}: {value}')

ALLUSERSPROFILE: C:\ProgramData
APPDATA: C:\Users\Alexandre\AppData\Roaming
APPLICATION_INSIGHTS_NO_DIAGNOSTIC_CHANNEL: 1
CHROME_CRASHPAD_PIPE_NAME: \\.\pipe\crashpad_20428_LKMWIKCGLPQFBEDB
COMMONPROGRAMFILES: C:\Program Files\Common Files
COMMONPROGRAMFILES(X86): C:\Program Files (x86)\Common Files
COMMONPROGRAMW6432: C:\Program Files\Common Files
COMPUTERNAME: DESKTOP-NBUNF1Q
COMSPEC: C:\WINDOWS\system32\cmd.exe
CONDA_DEFAULT_ENV: base
CONDA_EXE: C:\Users\Alexandre\anaconda3\condabin\..\Scripts\conda.exe
CONDA_EXES: "C:\Users\Alexandre\anaconda3\condabin\..\Scripts\conda.exe"  
CONDA_PREFIX: C:\Users\Alexandre\anaconda3
CONDA_PROMPT_MODIFIER: (base) 
CONDA_PYTHON_EXE: C:\Users\Alexandre\anaconda3\python.exe
CONDA_ROOT: C:\Users\Alexandre\anaconda3
CONDA_SHLVL: 1
DRIVERDATA: C:\Windows\System32\Drivers\DriverData
ELECTRON_NO_ATTACH_CONSOLE: 1
ELECTRON_RUN_AS_NODE: 1
FPS_BROWSER_APP_PROFILE_STRING: Internet Explorer
FPS_BROWSER_USER_PROFILE_STRING: Default
HOME: C:\Users\Alexandre
HOME

In [172]:
# Parametros para conexão no PostgreSQL
url = {"username" : "postgres", "password" : "1m@B0ss", "host" : "localhost", "port" : 5433, "database" : "comercial"}

In [211]:
# função para lidar e  analisar psycopg2 exceptions
def show_psycopg2_exception(err):
    # coleta detalhes sore a exception
    err_type, err_obj, traceback = sys.exc_info()    
    # pega a linha quando a exception ocorrer
    line_n = traceback.tb_lineno    
    # print the connect() error
    print ("\npsycopg2 ERROR:", err, "on line number:", line_n)
    print ("psycopg2 traceback:", traceback, "-- type:", err_type) 
    # psycopg2 extensions.Diagnostics object attribute
    print ("\nextensions.Diagnostics:", err.diag)    
    # print the pgcode and pgerror exceptions
    print ("pgerror:", err.pgerror)
    print ("pgcode:", err.pgcode, "\n")

In [235]:
def conn_pg(url):
    try:
        print('Conectando-se ao PostgreSQL...........')
        conn_pg = URL.create("postgresql+psycopg2", **url)
        engine_pg = create_engine(conn_pg)
        print("Conexão bem-sucedida..................")
    except OperationalError as err:
        # passando exception para função
        show_psycopg2_exception(err)        
        # setando conn_pg  = 'None' em caso de erro
        conn_pg = None
    return engine_pg       

In [236]:
engine_pg = conn_pg(url)

Conectando-se ao PostgreSQL...........
Conexão bem-sucedida..................


In [237]:
engine_pg

Engine(postgresql+psycopg2://postgres:***@localhost:5433/comercial)

In [238]:
def select_pg(engine, table):
    try:
        with engine.begin() as conn:
            df = pd.read_sql_query(f'select * from {table}', conn)
            return df
    except OperationalError as err:
        df = None
        # passando exception para função
        show_psycopg2_exception(err) 

In [277]:
select_pg(engine_pg, 'categoria')

Unnamed: 0,categoriaid,categoria
0,1,Eletrodomésticos
1,2,Eletroportáteis
2,3,Eletrônicos
3,4,Celulares


In [242]:
def insert_pg(engine, df, table):
    try:
        with engine.begin() as conn:
            df.to_sql(f'{table}', con=engine, index=False, if_exists='append',chunksize = 1000)
            print(f"Dados inseridos na tabela {table} com sucesso...")
    except (OperationalError, IntegrityError) as err:
        # passando exception para função
        show_psycopg2_exception(err) 

In [266]:
# Realizando as inserções de dados no database
print('-'*10 + ' Iniciando ' + '-'*10)
print('-'*31)
insert_pg(engine_pg, df_categoria, 'categoria')
print('-'*31)
insert_pg(engine_pg, df_segmento, 'segmento')
print('-'*31)
insert_pg(engine_pg, df_fabricante, 'fabricante')
print('-'*31)
insert_pg(engine_pg, df_uf, 'estado')
print('-'*31)
insert_pg(engine_pg, df_cidade[['cidadeid','cidade','uf']], 'cidade')
print('-'*31)
insert_pg(engine_pg, df_loja, 'loja')
print('-'*31)
insert_pg(engine_pg, df_vendedor, 'vendedor')
print('-'*31)
insert_pg(engine_pg, df_produto[['produtoid','produto','categoriaid','segmentoid','fabricanteid','lojaid']], 'produto')
print('-'*31)
insert_pg(engine_pg, df_venda[['produtoid','vendedorid','valorvenda','datavenda','perc_comissao','custo']], 'venda')

---------- Iniciando ----------
-------------------------------
Dados inseridos na tabela categoria com sucesso...
-------------------------------
Dados inseridos na tabela segmento com sucesso...
-------------------------------
Dados inseridos na tabela fabricante com sucesso...
-------------------------------
Dados inseridos na tabela estado com sucesso...
-------------------------------
Dados inseridos na tabela cidade com sucesso...
-------------------------------
Dados inseridos na tabela loja com sucesso...
-------------------------------
Dados inseridos na tabela vendedor com sucesso...
-------------------------------
Dados inseridos na tabela produto com sucesso...
-------------------------------
Dados inseridos na tabela venda com sucesso...


In [267]:
select_pg(engine_pg, 'categoria')

Unnamed: 0,categoriaid,categoria
0,1,Eletrodomésticos
1,2,Eletroportáteis
2,3,Eletrônicos
3,4,Celulares


In [268]:
select_pg(engine_pg, 'segmento')

Unnamed: 0,segmentoid,segmento
0,1,Doméstico
1,2,Corporativo
2,3,Industrial


In [269]:
select_pg(engine_pg, 'fabricante')

Unnamed: 0,fabricanteid,fabricante
0,1,Brastemp
1,2,Consul
2,3,Samsung
3,4,Britânia
4,5,HP
5,6,Motorola
6,7,LG
7,8,Panasonic
8,9,Epson
9,10,Dell


In [270]:
select_pg(engine_pg, 'estado')

Unnamed: 0,uf,estado
0,AC,Acre
1,AL,Alagoas
2,AP,Amapá
3,AM,Amazonas
4,BA,Bahia
5,CE,Ceará
6,DF,Distrito Federal
7,ES,Espírito Santo
8,GO,Goiás
9,MA,Maranhão


In [271]:
select_pg(engine_pg, 'cidade') 

Unnamed: 0,cidadeid,cidade,uf
0,8,Salvador,BA
1,10,Vitória,ES
2,1,Belo Horizonte,MG
3,4,Cascavel,PR
4,3,Campos,RJ
5,6,Petrópolis,RJ
6,7,Rio de Janeiro,RJ
7,2,Campinas,SP
8,5,Osasco,SP
9,9,São Paulo,SP


In [273]:
select_pg(engine_pg, 'loja') 

Unnamed: 0,lojaid,cidadeid
0,A9990,1
1,A9991,1
2,B7659,2
3,P0761,4
4,R1295,7
5,R1296,7
6,R1297,6
7,R1298,3
8,S6543,5
9,SA7761,8


In [274]:
select_pg(engine_pg, 'vendedor') 

Unnamed: 0,vendedorid,nome
0,1001,Maria Fernandes
1,1002,André Pereira
2,1003,Mateus Gonçalves
3,1004,Artur Moreira
4,1005,Rodrigo Fagundes
5,1006,Josias Silva
6,1007,Fernando Zambrini
7,1008,Aline Sutter
8,1009,Ana Teixeira


In [275]:
select_pg(engine_pg, 'produto') 

Unnamed: 0,produtoid,produto,categoriaid,segmentoid,fabricanteid,lojaid
0,SKU-0000012,Geladeira Duplex,1,1,1,A9990
1,SKU-0000136,Geladeira Duplex,1,1,1,A9990
2,SKU-0000137,Geladeira Duplex,1,1,1,A9990
3,SKU-0000138,Geladeira Duplex,1,1,1,A9990
4,SKU-0000141,Geladeira Duplex,1,1,1,A9990
...,...,...,...,...,...,...
452,SKU-0000151,Samsung Galaxy 8,4,2,3,V7654
453,SKU-0000202,Fritadeira,2,1,3,V7654
454,SKU-0000210,Fritadeira,2,1,3,V7654
455,SKU-0000245,Ar Condicionado,1,3,3,V7654


In [276]:
select_pg(engine_pg, 'venda') 

Unnamed: 0,produtoid,vendedorid,valorvenda,datavenda,perc_comissao,custo
0,SKU-0000012,1006,1651.0,2012-11-04,5.0,790.0
1,SKU-0000136,1002,1233.0,2013-01-09,2.0,120.0
2,SKU-0000137,1009,1233.0,2013-01-10,2.0,120.0
3,SKU-0000138,1006,721.0,2013-02-11,2.0,120.0
4,SKU-0000141,1004,346.0,2013-03-14,2.0,120.0
...,...,...,...,...,...,...
452,SKU-0000151,1004,3999.0,2013-10-24,2.0,120.0
453,SKU-0000202,1006,128.0,2014-10-01,2.0,120.0
454,SKU-0000210,1007,121.0,2015-06-02,2.0,120.0
455,SKU-0000245,1001,1290.0,2015-05-02,2.0,120.0


* *BigQuery*

In [8]:
path = 'C:\\Users\\Alexandre\\AppData\Roaming\\gcloud\\'
os.environ['GOOGLE_APPLICATION_CREDENTIALS'] = path + 'application_default_credentials.json'

In [9]:
# Define o nome do projeto e Dataset
projeto = 'bigquery-learning-417816'
dataset = 'bigquery-learning-417816.bq_dataset'

In [55]:
# Define o projeto dentro do BigQuery e cria a conexão
client = bigquery.Client(project=projeto)

In [70]:
client

<google.cloud.bigquery.client.Client at 0x1e3ab11c100>

In [11]:
# Define o nome do Dataset e Cria no BigQuery
dataset_id = bigquery.Dataset(dataset)
dataset_id.location = 'US'
dataset_id = client.create_dataset(dataset_id)

In [12]:
dataset_id

Dataset(DatasetReference('bigquery-learning-417816', 'bq_dataset'))

In [68]:
# Cria a tabela no BigQuery
def create_table_bq(table, schema):
    try:
        table_id = bigquery.Table(f'{dataset}.{table}', schema=schema)
        table_id = client.create_table(table_id)
        print(f'Tabela {table_id} criada com sucesso.')
    except ClientError as e:
        print(f'Tabela {table_id} não foi criada. \n' + e)

In [62]:
# Realiza a inserção dos dados na tabela
def insert_bg(schema, df, table):
    try:
        job_config = bigquery.LoadJobConfig(
        schema=schema,
        autodetect = False)

        job = client.load_table_from_dataframe(df, table, job_config=job_config)
        job.result()
        print(f'Dados inseridos com sucesso na tabela {table}')
    except ClientError as e:
        print(f'Problema(s) ao inserir dados na tabela {table}. \n' + e)

In [63]:
# Recupera o Table ID no dataset do BigQuery
def get_tableID(table):
    try:
        return client.get_table(f'{dataset}.{table}')
    except ClientError as e:
        return None


#### Criação das Tabelas e Carregamento dos dados no BigQuery

* *Tabela Categoria*

In [33]:
df_categoria

Unnamed: 0,categoriaid,categoria
0,1,Eletrodomésticos
1,2,Eletroportáteis
2,3,Eletrônicos
3,4,Celulares


In [72]:
# Define a estrutura de dados no BigQuery
schema_categoria=[
    bigquery.SchemaField("categoriaid", "INTEGER", mode='REQUIRED'), 
    bigquery.SchemaField("categoria", "STRING")]

In [73]:
# Cria a tabela no BigQuery
create_table_bq('categoria', schema_categoria)

Tabela bigquery-learning-417816.bq_dataset.categoria criada com sucesso.


In [74]:
# Insere os dados na tabela no BigQuery
insert_bg(schema_categoria, df_categoria, get_tableID('categoria'))

Dados inseridos com sucesso na tabela bigquery-learning-417816.bq_dataset.categoria


* *Tabela Segmento*

In [71]:
df_segmento

Unnamed: 0,segmentoid,segmento
0,1,Doméstico
1,2,Corporativo
2,3,Industrial


In [75]:
# Define a estrutura de dados no BigQuery
schema_segmento=[
    bigquery.SchemaField("segmentoid", "INTEGER", mode='REQUIRED'), 
    bigquery.SchemaField("segmento", "STRING")
]

In [76]:
# Cria a tabela no BigQuery
create_table_bq('segmento', schema_segmento)

Tabela bigquery-learning-417816.bq_dataset.segmento criada com sucesso.


In [77]:
# Insere os dados na tabela no BigQuery
insert_bg(schema_segmento, df_segmento, get_tableID('segmento'))

Dados inseridos com sucesso na tabela bigquery-learning-417816.bq_dataset.segmento


* *Tabela Fabricante*

In [78]:
df_fabricante

Unnamed: 0,fabricanteid,fabricante
0,1,Brastemp
1,2,Consul
2,3,Samsung
3,4,Britânia
4,5,HP
5,6,Motorola
6,7,LG
7,8,Panasonic
8,9,Epson
9,10,Dell


In [79]:
# Define a estrutura de dados no BigQuery
schema_fabricante=[
    bigquery.SchemaField("fabricanteid", "INTEGER", mode='REQUIRED'), 
    bigquery.SchemaField("fabricante", "STRING")
]

In [80]:
# Cria a tabela no BigQuery
create_table_bq('fabricante', schema_fabricante)

Tabela bigquery-learning-417816.bq_dataset.fabricante criada com sucesso.


In [81]:
# Insere os dados na tabela no BigQuery
insert_bg(schema_fabricante, df_fabricante, get_tableID('fabricante'))

Dados inseridos com sucesso na tabela bigquery-learning-417816.bq_dataset.fabricante


* *Tabela Estado (UF)*

In [44]:
df_uf

Unnamed: 0,uf,estado
0,AC,Acre
1,AL,Alagoas
2,AP,Amapá
3,AM,Amazonas
4,BA,Bahia
5,CE,Ceará
6,DF,Distrito Federal
7,ES,Espírito Santo
8,GO,Goiás
9,MA,Maranhão


In [83]:
# Define a estrutura de dados no BigQuery
schema_estado=[
    bigquery.SchemaField("uf", "STRING", mode='REQUIRED'), 
    bigquery.SchemaField("estado", "STRING")
]

In [84]:
# Cria a tabela no BigQuery
create_table_bq('estado',schema_estado)

Tabela bigquery-learning-417816.bq_dataset.estado criada com sucesso.


In [85]:
# Insere os dados na tabela no BigQuery
insert_bg(schema_estado, df_uf, get_tableID('estado'))

Dados inseridos com sucesso na tabela bigquery-learning-417816.bq_dataset.estado


* *Tabela Cidade*

In [87]:
df_cidade

Unnamed: 0,estado,cidade,cidadeid,uf
0,Bahia,Salvador,8,BA
1,Espírito Santo,Vitória,10,ES
2,Minas Gerais,Belo Horizonte,1,MG
3,Paraná,Cascavel,4,PR
4,Rio de Janeiro,Campos,3,RJ
5,Rio de Janeiro,Petrópolis,6,RJ
6,Rio de Janeiro,Rio de Janeiro,7,RJ
7,São Paulo,Campinas,2,SP
8,São Paulo,Osasco,5,SP
9,São Paulo,São Paulo,9,SP


In [88]:
# Define a estrutura de dados no BigQuery
schema_cidade=[
    bigquery.SchemaField("cidadeid", "INTEGER", mode='REQUIRED'), 
    bigquery.SchemaField("cidade", "STRING"),
    bigquery.SchemaField("uf", "STRING", mode='REQUIRED')
]

In [89]:
# Cria a tabela no BigQuery
create_table_bq('cidade', schema_cidade)

Tabela bigquery-learning-417816.bq_dataset.cidade criada com sucesso.


In [91]:
# Insere os dados na tabela no BigQuery
insert_bg(schema_cidade, df_cidade[['cidadeid','cidade','uf']], get_tableID('cidade'))

Dados inseridos com sucesso na tabela bigquery-learning-417816.bq_dataset.cidade


* *Tabela Loja*

In [51]:
df_loja

Unnamed: 0,lojaid,cidadeid
0,A9990,1
1,A9991,1
2,B7659,2
3,P0761,4
4,R1295,7
5,R1296,7
6,R1297,6
7,R1298,3
8,S6543,5
9,SA7761,8


In [95]:
# Define a estrutura de dados no BigQuery
schema_loja=[
    bigquery.SchemaField("lojaid", "STRING", mode='REQUIRED'), 
    bigquery.SchemaField("cidadeid", "INTEGER", mode='REQUIRED')
]

In [96]:
# Cria a tabela no BigQuery
create_table_bq('loja', schema_loja)

Tabela bigquery-learning-417816.bq_dataset.loja criada com sucesso.


In [97]:
# Insere os dados na tabela no BigQuery
insert_bg(schema_loja, df_loja, get_tableID('loja'))

Dados inseridos com sucesso na tabela bigquery-learning-417816.bq_dataset.loja


* *Tabela Vendedor*

In [54]:
df_vendedor

Unnamed: 0,vendedorid,nome
0,1001,Maria Fernandes
1,1002,André Pereira
2,1003,Mateus Gonçalves
3,1004,Artur Moreira
4,1005,Rodrigo Fagundes
5,1006,Josias Silva
6,1007,Fernando Zambrini
7,1008,Aline Sutter
8,1009,Ana Teixeira


In [98]:
# Define a estrutura de dados no BigQuery
schema_vendedor=[
    bigquery.SchemaField("vendedorid", "INTEGER", mode='REQUIRED'), 
    bigquery.SchemaField("nome", "STRING")
]

In [99]:
# Cria a tabela no BigQuery
create_table_bq('vendedor', schema_vendedor)

Tabela bigquery-learning-417816.bq_dataset.vendedor criada com sucesso.


In [100]:
# Insere os dados na tabela no BigQuery
insert_bg(schema_vendedor, df_vendedor, get_tableID('vendedor'))

Dados inseridos com sucesso na tabela bigquery-learning-417816.bq_dataset.vendedor


* *Tabela Produto*

In [101]:
df_produto

Unnamed: 0,produtoid,produto,categoriaid,categoria,segmentoid,segmento,fabricanteid,fabricante,lojaid
0,SKU-0000012,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
1,SKU-0000136,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
2,SKU-0000137,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
3,SKU-0000138,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
4,SKU-0000141,Geladeira Duplex,1,Eletrodomésticos,1,Doméstico,1,Brastemp,A9990
...,...,...,...,...,...,...,...,...,...
452,SKU-0000151,Samsung Galaxy 8,4,Celulares,2,Corporativo,3,Samsung,V7654
453,SKU-0000202,Fritadeira,2,Eletroportáteis,1,Doméstico,3,Samsung,V7654
454,SKU-0000210,Fritadeira,2,Eletroportáteis,1,Doméstico,3,Samsung,V7654
455,SKU-0000245,Ar Condicionado,1,Eletrodomésticos,3,Industrial,3,Samsung,V7654


In [102]:
# Define a estrutura de dados no BigQuery
schema_produto=[
    bigquery.SchemaField("produtoid", "STRING", mode='REQUIRED'), 
    bigquery.SchemaField("produto", "STRING"),
    bigquery.SchemaField("categoriaid", "INTEGER", mode='REQUIRED'),
    bigquery.SchemaField("segmentoid", "INTEGER", mode='REQUIRED'),
    bigquery.SchemaField("fabricanteid", "INTEGER", mode='REQUIRED'), 
    bigquery.SchemaField("lojaid", "STRING", mode='REQUIRED')
]

In [103]:
# Cria a tabela no BigQuery
create_table_bq('produto', schema_produto)

Tabela bigquery-learning-417816.bq_dataset.produto criada com sucesso.


In [104]:
# Insere os dados na tabela no BigQuery
insert_bg(schema_produto, df_produto[['produtoid','produto','categoriaid','segmentoid','fabricanteid','lojaid']], get_tableID('produto'))

Dados inseridos com sucesso na tabela bigquery-learning-417816.bq_dataset.produto


* *Tabela Venda*

In [105]:
df_venda

Unnamed: 0,produtoid,produto,vendedorid,vendedor,datavenda,valorvenda,comissao,custo,perc_comissao
0,SKU-0000012,Geladeira Duplex,1006,Josias Silva,2012-11-04,1651.0,,790,5
1,SKU-0000136,Geladeira Duplex,1002,André Pereira,2013-01-09,1233.0,,120,2
2,SKU-0000137,Geladeira Duplex,1009,Ana Teixeira,2013-01-10,1233.0,,120,2
3,SKU-0000138,Geladeira Duplex,1006,Josias Silva,2013-02-11,721.0,,120,2
4,SKU-0000141,Geladeira Duplex,1004,Artur Moreira,2013-03-14,346.0,,120,2
...,...,...,...,...,...,...,...,...,...
452,SKU-0000151,Samsung Galaxy 8,1004,Artur Moreira,2013-10-24,3999.0,,120,2
453,SKU-0000202,Fritadeira,1006,Josias Silva,2014-10-01,128.0,,120,2
454,SKU-0000210,Fritadeira,1007,Fernando Zambrini,2015-06-02,121.0,,120,2
455,SKU-0000245,Ar Condicionado,1001,Maria Fernandes,2015-05-02,1290.0,,120,2


In [107]:
# Define a estrutura de dados no BigQuery
schema_venda=[
    bigquery.SchemaField("produtoid", "STRING", mode='REQUIRED'), 
    bigquery.SchemaField("vendedorid", "INTEGER", mode='REQUIRED'),
    bigquery.SchemaField("datavenda", "DATE"),
    bigquery.SchemaField("valorvenda", "FLOAT"), 
    bigquery.SchemaField("perc_comissao", "FLOAT"), 
    bigquery.SchemaField("custo", "FLOAT")]

In [108]:
# Cria a tabela no BigQuery
create_table_bq('venda', schema_venda)

Tabela bigquery-learning-417816.bq_dataset.venda criada com sucesso.


In [109]:
# Insere os dados na tabela no BigQuery
insert_bg(schema_venda, df_venda[['produtoid','vendedorid','datavenda','valorvenda','perc_comissao','custo']], get_tableID('venda'))

Dados inseridos com sucesso na tabela bigquery-learning-417816.bq_dataset.venda


In [None]:
select_categoria = """ select * from bigquery-learning-417816.bq_dataset.categoria limit 10 """
# q_job = client.query(select_categoria)
# rows = q_job.result()
df_cat = client.list_rows(get_tableID('categoria')).to_dataframe()

In [31]:
def schema_bg(df):
    column_types = df.dtypes.astype(str).to_dict() # Dicionário com coluna:tipo_dado

    dict = {'object' : 'STRING', 'float64' : 'FLOAT64',  'int64' : 'INT64', 'datetime64[ns]' : 'DATETIME'} # Dicionário para transformar 

    for column, type in column_types.items() :
        column_types[column] = dict[type] 

    return [bigquery.SchemaField(name=column, field_type=tipo) for column, tipo in column_types.items()]



In [32]:
schema = schema_bg(df_categoria)
schema

[SchemaField('categoriaid', 'INT64', 'NULLABLE', None, None, (), None),
 SchemaField('categoria', 'STRING', 'NULLABLE', None, None, (), None)]