# Importação das Bibliotecas

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
# import os
# from dotenv import load_dotenv
from scipy import stats
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from sqlalchemy import create_engine

## Visualização Inicial da Base de Dados

In [2]:
# Carregar variáveis de ambiente do arquivo .env
# load_dotenv()

# Caminho do arquivo Excel
excel_file = "dados\produtos_naturais.xlsx"

# Leitura do arquivo Excel
df = pd.read_excel(excel_file, sheet_name='BASE')

# Exibir as primeiras linhas do DataFrame
print("DataFrame original:")
print(df.head())
print("------------")

# Exibir os tipos de dados originais
print("\nTipos de dados originais:")
print(df.dtypes)

DataFrame original:
        FILIAL NOME  DIA  MÊS  Filial       Data       Vendedor  Nr Doc  \
0  LJ SHOP DA BAHIA    2    1       1 2022-01-02  AUGUSTO CEZAR   30562   
1  LJ SHOP DA BAHIA    2    1       1 2022-01-02  FLAVIO PANTAS   48751   
2  LJ SHOP DA BAHIA    2    1       1 2022-01-02  FLAVIO PANTAS   48736   
3  LJ SHOP DA BAHIA    2    1       1 2022-01-02  AUGUSTO CEZAR   30562   
4  LJ SHOP DA BAHIA    2    1       1 2022-01-02  FLAVIO PANTAS   48750   

   Caixa  Produto                         Descrição  Quant  Valor  Kit  \
0      1    37737         CHA ERVA DOCE 84G BIO 365  1.000  10.99  NAO   
1      2    37737         CHA ERVA DOCE 84G BIO 365  1.000  10.78  NAO   
2      2    11660            CHA ESPINHEIRA SANTA *  0.092   6.43  NAO   
3      1    37738  CHA ESPINHEIRA SANTA 22G BIO 365  1.000  10.99  NAO   
4      2     9425                     BANANA PASSA*  0.160  11.18  NAO   

   Controle  
0     79294  
1     79319  
2     79295  
3     79294  
4     79316  


## Transformação na Base

In [3]:
# Drop das colunas desnecessárias
columns_to_drop = ['DIA', 'MÊS', 'Nr Doc', 'Caixa', 'Kit', 'Controle']
columns_to_drop = [col for col in columns_to_drop if col in df.columns]
df.drop(columns=columns_to_drop, inplace=True)

# Renomear as colunas conforme especificado
df.rename(columns={
    'FILIAL NOME': 'nome_filial',
    'Filial': 'id_filial',
    'Data': 'data',
    'Vendedor': 'vendedor',
    'Produto': 'id_produto',
    'Descrição': 'nome_produto',
    'Quant': 'quantidade_vendida',
    'Valor': 'valor'
}, inplace=True)

# Ajustar os nomes próprios na coluna 'vendedor' para o formato adequado
df['vendedor'] = df['vendedor'].str.title()

# Ajustar os nomes próprios na coluna 'descricao' para o formato adequado
df['nome_produto'] = df['nome_produto'].str.title()

# Ajustar os nomes próprios na coluna 'filial_nome' para o formato adequado
df['nome_filial'] = df['nome_filial'].str.title()

# Exibir as primeiras linhas do DataFrame após o drop e renomeação
print("\nDataFrame após remover colunas e renomear:")
print(df.head())
print("------------")

# Exibir os tipos de dados após as alterações
print("\nTipos de dados após remover colunas e renomear:")
print(df.dtypes)
print("------------")

# Verificar se existem colunas com informações vazias
df.isna().sum()


DataFrame após remover colunas e renomear:
        nome_filial  id_filial       data       vendedor  id_produto  \
0  Lj Shop Da Bahia          1 2022-01-02  Augusto Cezar       37737   
1  Lj Shop Da Bahia          1 2022-01-02  Flavio Pantas       37737   
2  Lj Shop Da Bahia          1 2022-01-02  Flavio Pantas       11660   
3  Lj Shop Da Bahia          1 2022-01-02  Augusto Cezar       37738   
4  Lj Shop Da Bahia          1 2022-01-02  Flavio Pantas        9425   

                       nome_produto  quantidade_vendida  valor  
0         Cha Erva Doce 84G Bio 365               1.000  10.99  
1         Cha Erva Doce 84G Bio 365               1.000  10.78  
2            Cha Espinheira Santa *               0.092   6.43  
3  Cha Espinheira Santa 22G Bio 365               1.000  10.99  
4                     Banana Passa*               0.160  11.18  
------------

Tipos de dados após remover colunas e renomear:
nome_filial                   object
id_filial                      int

nome_filial           0
id_filial             0
data                  0
vendedor              0
id_produto            0
nome_produto          0
quantidade_vendida    0
valor                 0
dtype: int64

## Visualização do DataFrame

In [4]:
# Visualizar a tabela como DataFrame
df.head(8)

Unnamed: 0,nome_filial,id_filial,data,vendedor,id_produto,nome_produto,quantidade_vendida,valor
0,Lj Shop Da Bahia,1,2022-01-02,Augusto Cezar,37737,Cha Erva Doce 84G Bio 365,1.0,10.99
1,Lj Shop Da Bahia,1,2022-01-02,Flavio Pantas,37737,Cha Erva Doce 84G Bio 365,1.0,10.78
2,Lj Shop Da Bahia,1,2022-01-02,Flavio Pantas,11660,Cha Espinheira Santa *,0.092,6.43
3,Lj Shop Da Bahia,1,2022-01-02,Augusto Cezar,37738,Cha Espinheira Santa 22G Bio 365,1.0,10.99
4,Lj Shop Da Bahia,1,2022-01-02,Flavio Pantas,9425,Banana Passa*,0.16,11.18
5,Lj Shop Da Bahia,1,2022-01-02,Flavio Pantas,17693,Biscoito De Chocolate 45G Whey Viv,1.0,8.99
6,Lj Shop Da Bahia,1,2022-01-02,Augusto Cezar,27651,Bold Bar Cookies E Cream 60G Bold,1.0,14.99
7,Lj Shop Da Bahia,1,2022-01-02,Augusto Cezar,36748,Bold Bar Leite E Avela 60G Bold,1.0,14.99


# Configuração do Banco de Dados

In [5]:
# Passo 1: Carregar os Dados
# rota = os.getenv('CAMINHO_PASTA')
df

Unnamed: 0,nome_filial,id_filial,data,vendedor,id_produto,nome_produto,quantidade_vendida,valor
0,Lj Shop Da Bahia,1,2022-01-02,Augusto Cezar,37737,Cha Erva Doce 84G Bio 365,1.000,10.99
1,Lj Shop Da Bahia,1,2022-01-02,Flavio Pantas,37737,Cha Erva Doce 84G Bio 365,1.000,10.78
2,Lj Shop Da Bahia,1,2022-01-02,Flavio Pantas,11660,Cha Espinheira Santa *,0.092,6.43
3,Lj Shop Da Bahia,1,2022-01-02,Augusto Cezar,37738,Cha Espinheira Santa 22G Bio 365,1.000,10.99
4,Lj Shop Da Bahia,1,2022-01-02,Flavio Pantas,9425,Banana Passa*,0.160,11.18
...,...,...,...,...,...,...,...,...
166872,Lj Lauro,3,2022-10-17,Ana Valéria Ferreira,38640,Kombucha Morango C/Limao 275Ml Gula Fit Food,1.000,17.99
166873,Lj Lauro,3,2022-10-17,Ana Valéria Ferreira,25513,Chips Mix Batatas *,0.108,15.11
166874,Lj Lauro,3,2022-10-17,Ana Valéria Ferreira,25513,Chips Mix Batatas *,0.096,13.43
166875,Lj Lauro,3,2022-10-17,Ana Valéria Ferreira,25513,Chips Mix Batatas *,0.100,13.99


In [6]:
# Passo 2: Criar Tabelas Características

# Aplicar factorize na coluna 'vendedor' para criar IDs únicos para vendedores
df['id_vendedor'] = df['vendedor'].factorize()[0]+1

# Criar tabela d_filial (já temos os IDs)
d_filial = df[['id_filial', 'nome_filial']].drop_duplicates().reset_index(drop=True)

# Criar tabela d_vendedor
d_vendedor = df[['id_vendedor', 'vendedor']].drop_duplicates().reset_index(drop=True)

# Criar tabela d_produto (já temos os IDs)
d_produto = df[['id_produto', 'nome_produto']].drop_duplicates().reset_index(drop=True)

# Exibir as tabelas características
print("\nTabela de Filiais:")
print(d_filial)

print("\nTabela de Vendedores:")
print(d_vendedor)

print("\nTabela de Produtos:")
print(d_produto)


Tabela de Filiais:
   id_filial       nome_filial
0          1  Lj Shop Da Bahia
1          2  Lj Salvador Shop
2          3          Lj Lauro
3          4            Lj Big

Tabela de Vendedores:
    id_vendedor              vendedor
0             1         Augusto Cezar
1             2         Flavio Pantas
2             3        Itana Ferreira
3             4      Vinícius Pereira
4             5         Michael Silva
5             6          Barbara Sena
6             7  Ana Valéria Ferreira
7             8          Bruno Santos
8             9       Gilberto Júnior
9            10         Maria Adriele
10           11      Tainara Da Silva
11           12          Jamile Souza
12           13         Dandara Maria
13           14       Maria Aparecida
14           15       Rodrigo Moreira
15           16   Alessandro Oliveira
16           17        Rita De Cássia
17           18         Fabiano Sales
18           19        Pedro Henrique
19           20         Marcelo Tosta
20  

In [7]:
# Passo 3: Criar a Tabela Fato
f_base_vendas = df[['data', 'id_filial', 'id_vendedor', 'id_produto', 'quantidade_vendida', 'valor']]

In [8]:
# Exibir a tabela fato
print("\nTabela Fato:")
print(f_base_vendas)


Tabela Fato:
             data  id_filial  id_vendedor  id_produto  quantidade_vendida  \
0      2022-01-02          1            1       37737               1.000   
1      2022-01-02          1            2       37737               1.000   
2      2022-01-02          1            2       11660               0.092   
3      2022-01-02          1            1       37738               1.000   
4      2022-01-02          1            2        9425               0.160   
...           ...        ...          ...         ...                 ...   
166872 2022-10-17          3            7       38640               1.000   
166873 2022-10-17          3            7       25513               0.108   
166874 2022-10-17          3            7       25513               0.096   
166875 2022-10-17          3            7       25513               0.100   
166876 2022-10-17          3            7       41725               1.000   

        valor  
0       10.99  
1       10.78  
2        6.43

In [9]:
# Passo 4: Conectar ao Banco de Dados

engine = create_engine('postgresql://postgres:123456789@localhost:5432/produtos_naturais')

In [10]:
# Passo 5: Criar Tabelas no Banco de Dados
create_schema = """
CREATE SCHEMA IF NOT EXISTS produtos;
"""

create_d_filial = """
CREATE TABLE IF NOT EXISTS produtos.d_filial (
    id_filial SERIAL PRIMARY KEY,
    nome_filial VARCHAR(255)
);
"""

create_d_vendedor = """
CREATE TABLE IF NOT EXISTS produtos.d_vendedor (
    id_vendedor SERIAL PRIMARY KEY,
    vendedor VARCHAR(255)
);
"""

create_d_produto = """
CREATE TABLE IF NOT EXISTS produtos.d_produto (
    id_produto SERIAL PRIMARY KEY,
    nome_produto VARCHAR(255)
);
"""

create_f_base_vendas = """
CREATE TABLE IF NOT EXISTS produtos.f_base_vendas (
    id SERIAL PRIMARY KEY,
    data DATE,
    id_filial INT,
    id_vendedor INT,
    id_produto INT,
    quantidade_vendida INT,
    valor DECIMAL(10, 2),
    FOREIGN KEY (id_filial) REFERENCES produtos.d_filial(id_filial),
    FOREIGN KEY (id_vendedor) REFERENCES produtos.d_vendedor(id_vendedor),
    FOREIGN KEY (id_produto) REFERENCES produtos.d_produto(id_produto)
);
"""

try:
    with engine.connect() as conn:
        conn.execute(create_schema)
        conn.execute(create_d_filial)
        conn.execute(create_d_vendedor)
        conn.execute(create_d_produto)
        conn.execute(create_f_base_vendas)
    print("Schema e tabelas criadas com sucesso!")
except Exception as e:
    print(f"Erro ao criar schema e tabelas: {e}")

Schema e tabelas criadas com sucesso!


In [12]:
# Inserir dados em d_filial
try:
    d_filial.to_sql('d_filial', con=engine, schema='produtos', if_exists='append', index=False)
    print("Dados inseridos em d_filial com sucesso!")
except Exception as e:
    print(f"Erro ao inserir dados em d_filial: {e}")

# Inserir dados em d_vendedor
try:
    d_vendedor.to_sql('d_vendedor', con=engine, schema='produtos', if_exists='append', index=False)
    print("Dados inseridos em d_vendedor com sucesso!")
except Exception as e:
    print(f"Erro ao inserir dados em d_vendedor: {e}")

# Inserir dados em d_produto
try:
    d_produto.to_sql('d_produto', con=engine, schema='produtos', if_exists='append', index=False)
    print("Dados inseridos em d_produto com sucesso!")
except Exception as e:
    print(f"Erro ao inserir dados em d_produto: {e}")

# Inserir dados em f_base_vendas
try:
    f_base_vendas.to_sql('f_base_vendas', con=engine, schema='produtos', if_exists='append', index=False)
    print("Dados inseridos em f_base_vendas com sucesso!")
except Exception as e:
    print(f"Erro ao inserir dados em f_base_vendas: {e}")

Dados inseridos em d_filial com sucesso!
Dados inseridos em d_vendedor com sucesso!
Dados inseridos em d_produto com sucesso!
Dados inseridos em f_base_vendas com sucesso!
