## Importando as Bibliotecas 

In [441]:
import pandas as pd 
import locale
import numpy as np 
import sqlite3 
import matplotlib.pyplot as plt 
import seaborn as sns 

## Lendo o Dataset de Vendas

In [140]:
vendas = pd.read_excel("Vendas.xlsx")
vendas

Unnamed: 0,IDProduto,Produto,Categoria,Segmento,Fabricante,Loja,Cidade,Estado,Vendedor,IDVendedor,DataVenda,ValorVenda
0,SKU-0000001,LG K10 TV Power,Celulares,Corporativo,LG,SP8821,São Paulo,São Paulo,Ana Teixeira,1009,2012-10-04,679.00
1,SKU-0000002,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp,SP8821,São Paulo,São Paulo,Josias Silva,1006,2012-01-01,832.00
2,SKU-0000003,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp,SP8821,São Paulo,São Paulo,Josias Silva,1006,2012-02-02,790.00
3,SKU-0000004,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp,SP8821,São Paulo,São Paulo,Mateus Gonçalves,1003,2012-03-03,765.32
4,SKU-0000005,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Electrolux,SP8821,São Paulo,São Paulo,Artur Moreira,1004,2012-04-04,459.89
...,...,...,...,...,...,...,...,...,...,...,...,...
452,SKU-0000453,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp,R1295,Rio de Janeiro,Rio de Janeiro,André Pereira,1002,2015-09-23,1234.00
453,SKU-0000454,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp,R1295,Rio de Janeiro,Rio de Janeiro,André Pereira,1002,2015-10-24,1234.00
454,SKU-0000455,Morotola Moto G5,Celulares,Doméstico,Motorola,R1295,Rio de Janeiro,Rio de Janeiro,Aline Sutter,1008,2015-11-25,1230.00
455,SKU-0000456,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp,R1295,Rio de Janeiro,Rio de Janeiro,André Pereira,1002,2015-11-26,1234.00


## Separação de Colunas para a surgir a Tabela de Dim_Loja

In [141]:
dim_loja = pd.read_excel("Vendas.xlsx", usecols="F, G, H") 

dim_loja

Unnamed: 0,Loja,Cidade,Estado
0,SP8821,São Paulo,São Paulo
1,SP8821,São Paulo,São Paulo
2,SP8821,São Paulo,São Paulo
3,SP8821,São Paulo,São Paulo
4,SP8821,São Paulo,São Paulo
...,...,...,...
452,R1295,Rio de Janeiro,Rio de Janeiro
453,R1295,Rio de Janeiro,Rio de Janeiro
454,R1295,Rio de Janeiro,Rio de Janeiro
455,R1295,Rio de Janeiro,Rio de Janeiro


## Tratamento de Dados - Dim_Loja

In [142]:
## Verificando Valores Faltantes
dim_loja.isna()

Unnamed: 0,Loja,Cidade,Estado
0,False,False,False
1,False,False,False
2,False,False,False
3,False,False,False
4,False,False,False
...,...,...,...
452,False,False,False
453,False,False,False
454,False,False,False
455,False,False,False


In [143]:
## Verificando se existe dados nulos na Tabela Dim_Loja 
dim_loja.isnull().sum()

Loja      0
Cidade    0
Estado    0
dtype: int64

In [144]:
## Verificando se existe dados duplicados na Tabela Dim_Loja 
dim_loja.duplicated()

0      False
1       True
2       True
3       True
4       True
       ...  
452     True
453     True
454     True
455     True
456     True
Length: 457, dtype: bool

In [145]:
## Removendo dados duplicados na Tabela Dim_Loja 
dim_loja = dim_loja.drop_duplicates()
dim_loja_count = dim_loja.count()[0]

dim_loja_count

14

In [146]:
## Contagem de Lojas 
pd.DataFrame({"Total de Lojas" : [dim_loja_count]})

Unnamed: 0,Total de Lojas
0,14


## Separação de Colunas para a parte de Dim_Produto

In [147]:
dim_produto = pd.read_excel("Vendas.xlsx", usecols="A, B, C, D, E")

dim_produto

Unnamed: 0,IDProduto,Produto,Categoria,Segmento,Fabricante
0,SKU-0000001,LG K10 TV Power,Celulares,Corporativo,LG
1,SKU-0000002,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp
2,SKU-0000003,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp
3,SKU-0000004,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp
4,SKU-0000005,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Electrolux
...,...,...,...,...,...
452,SKU-0000453,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp
453,SKU-0000454,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp
454,SKU-0000455,Morotola Moto G5,Celulares,Doméstico,Motorola
455,SKU-0000456,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp


## Tratamento de Dados - Dim_Produto 

In [148]:
## Verificando dados faltantes
dim_produto.isna().sum()

IDProduto     0
Produto       0
Categoria     0
Segmento      0
Fabricante    0
dtype: int64

In [149]:
## Verificando se existe dados nulos 
dim_produto.isnull().sum()

IDProduto     0
Produto       0
Categoria     0
Segmento      0
Fabricante    0
dtype: int64

In [150]:
## Informações da Tabela Dim_Produto

dim_produto.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 457 entries, 0 to 456
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   IDProduto   457 non-null    object
 1   Produto     457 non-null    object
 2   Categoria   457 non-null    object
 3   Segmento    457 non-null    object
 4   Fabricante  457 non-null    object
dtypes: object(5)
memory usage: 18.0+ KB


## Separação de Colunas para a parte de Dim_Tempo 

In [151]:
dim_tempo = pd.read_excel("Vendas.xlsx", usecols="K")
dim_tempo

Unnamed: 0,DataVenda
0,2012-10-04
1,2012-01-01
2,2012-02-02
3,2012-03-03
4,2012-04-04
...,...
452,2015-09-23
453,2015-10-24
454,2015-11-25
455,2015-11-26


## Tratamento de Dados - Dim_Tempo

In [152]:
## Verificando valores faltantes 
dim_tempo.isna()

Unnamed: 0,DataVenda
0,False
1,False
2,False
3,False
4,False
...,...
452,False
453,False
454,False
455,False


In [153]:
## Verificando se existe dados nulos na tabela
dim_tempo.isnull().sum()

DataVenda    0
dtype: int64

In [154]:
## Verificando se obtém dados duplicados 
dim_tempo.duplicated().sum()

349

In [155]:
## Removendo dados duplicados 
dim_tempo = dim_tempo.drop_duplicates()
dim_count_tempo = dim_tempo.count()[0]

pd.DataFrame({"Total de Datas" : [dim_count_tempo]})

Unnamed: 0,Total de Datas
0,108


## Separação de Colunas para a parte de Dim_Vendas 

In [156]:
dim_vendas = pd.read_excel("Vendas.xlsx", usecols="J, I")

dim_vendas

Unnamed: 0,Vendedor,IDVendedor
0,Ana Teixeira,1009
1,Josias Silva,1006
2,Josias Silva,1006
3,Mateus Gonçalves,1003
4,Artur Moreira,1004
...,...,...
452,André Pereira,1002
453,André Pereira,1002
454,Aline Sutter,1008
455,André Pereira,1002


## Tratamento de Dados - Dim_Vendas

In [157]:
## Verificando Valores Faltantes 
dim_vendas.isna()

Unnamed: 0,Vendedor,IDVendedor
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False
...,...,...
452,False,False
453,False,False
454,False,False
455,False,False


In [158]:
## Verificando se existe dados nulos na Tabela Dim_Vendas
dim_vendas.isnull().sum()

Vendedor      0
IDVendedor    0
dtype: int64

In [159]:
## Verificandos dados duplicados
dim_vendas.duplicated()

0      False
1      False
2       True
3      False
4      False
       ...  
452     True
453     True
454     True
455     True
456     True
Length: 457, dtype: bool

In [160]:
## Remoção de Dados duplicados 
dim_vendas = dim_vendas.drop_duplicates()
dim_count_vendas = dim_vendas.count()[0]

dim_count_vendas

9

In [161]:
## Registrando em um dataframe a contagem de vendedores
pd.DataFrame({"Total de Vendedores" : [dim_count_vendas]})

Unnamed: 0,Total de Vendedores
0,9


## Separação de Colunas para a parte de Tb_Fato 

In [162]:
tb_fato = pd.read_excel("Vendas.xlsx", usecols="A, F, J, K, L")

tb_fato

Unnamed: 0,IDProduto,Loja,IDVendedor,DataVenda,ValorVenda
0,SKU-0000001,SP8821,1009,2012-10-04,679.00
1,SKU-0000002,SP8821,1006,2012-01-01,832.00
2,SKU-0000003,SP8821,1006,2012-02-02,790.00
3,SKU-0000004,SP8821,1003,2012-03-03,765.32
4,SKU-0000005,SP8821,1004,2012-04-04,459.89
...,...,...,...,...,...
452,SKU-0000453,R1295,1002,2015-09-23,1234.00
453,SKU-0000454,R1295,1002,2015-10-24,1234.00
454,SKU-0000455,R1295,1008,2015-11-25,1230.00
455,SKU-0000456,R1295,1002,2015-11-26,1234.00


In [163]:
## Verificando Valores Faltantes 
tb_fato.isna().sum()

IDProduto     0
Loja          0
IDVendedor    0
DataVenda     0
ValorVenda    0
dtype: int64

In [164]:
## Verificando se existe dados nulos na Tabela TB_Fato
tb_fato.isnull().sum()

IDProduto     0
Loja          0
IDVendedor    0
DataVenda     0
ValorVenda    0
dtype: int64

In [165]:
## Informações da Tabela Dim_Produto
tb_fato.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 457 entries, 0 to 456
Data columns (total 5 columns):
 #   Column      Non-Null Count  Dtype         
---  ------      --------------  -----         
 0   IDProduto   457 non-null    object        
 1   Loja        457 non-null    object        
 2   IDVendedor  457 non-null    int64         
 3   DataVenda   457 non-null    datetime64[ns]
 4   ValorVenda  457 non-null    float64       
dtypes: datetime64[ns](1), float64(1), int64(1), object(2)
memory usage: 18.0+ KB


In [166]:
## Estatística da Tabela Dim_Produto
tb_fato.describe()

Unnamed: 0,IDVendedor,ValorVenda
count,457.0,457.0
mean,1004.091904,790.111838
std,2.456704,755.541075
min,1001.0,12.0
25%,1002.0,167.0
50%,1004.0,671.0
75%,1006.0,1230.0
max,1009.0,3999.0


## Criando um Banco de Dados - Ponto Máximo 

In [167]:
conn = sqlite3.connect("ponto_maximo.db")

In [168]:
dim_loja.to_sql(name='lojas', con=conn)

In [169]:
dim_produto.to_sql(name='produtos', con=conn)

In [170]:
dim_tempo.to_sql(name='tempo', con=conn)

In [171]:
dim_vendas.to_sql(name='vendas', con=conn)

In [172]:
tb_fato.to_sql(name='fatos', con=conn)

## Verificando se a tabela foi criada no Banco de dados 

In [173]:
!sqlite3 ponto_maximo.db '.tables'

fatos     lojas     produtos  tempo     vendas  


## Informações das Tabelas do Banco de Dados

In [174]:
## Tabela Fatos
!sqlite3 ponto_maximo.db 'PRAGMA table_info(fatos)'

0|index|INTEGER|0||0
1|IDProduto|TEXT|0||0
2|Loja|TEXT|0||0
3|IDVendedor|INTEGER|0||0
4|DataVenda|TIMESTAMP|0||0
5|ValorVenda|REAL|0||0


In [175]:
## Tabela Lojas
!sqlite3 ponto_maximo.db 'PRAGMA table_info(lojas)'

0|index|INTEGER|0||0
1|Loja|TEXT|0||0
2|Cidade|TEXT|0||0
3|Estado|TEXT|0||0


In [176]:
## Tabela Produtos
!sqlite3 ponto_maximo.db 'PRAGMA table_info(produtos)'

0|index|INTEGER|0||0
1|IDProduto|TEXT|0||0
2|Produto|TEXT|0||0
3|Categoria|TEXT|0||0
4|Segmento|TEXT|0||0
5|Fabricante|TEXT|0||0


In [177]:
## Tabela Tempo 
!sqlite3 ponto_maximo.db 'PRAGMA table_info(tempo)'

0|index|INTEGER|0||0
1|DataVenda|TIMESTAMP|0||0


In [178]:
## Tabela Venda 
!sqlite3 ponto_maximo.db 'PRAGMA table_info(vendas)'

0|index|INTEGER|0||0
1|Vendedor|TEXT|0||0
2|IDVendedor|INTEGER|0||0


## Fazendo Consultas Básicas no Banco de Dados 

In [179]:
## Tabela Fatos 
data_fatos = pd.read_sql('SELECT * FROM fatos', con=conn)

data_fatos

Unnamed: 0,index,IDProduto,Loja,IDVendedor,DataVenda,ValorVenda
0,0,SKU-0000001,SP8821,1009,2012-10-04 00:00:00,679.00
1,1,SKU-0000002,SP8821,1006,2012-01-01 00:00:00,832.00
2,2,SKU-0000003,SP8821,1006,2012-02-02 00:00:00,790.00
3,3,SKU-0000004,SP8821,1003,2012-03-03 00:00:00,765.32
4,4,SKU-0000005,SP8821,1004,2012-04-04 00:00:00,459.89
...,...,...,...,...,...,...
452,452,SKU-0000453,R1295,1002,2015-09-23 00:00:00,1234.00
453,453,SKU-0000454,R1295,1002,2015-10-24 00:00:00,1234.00
454,454,SKU-0000455,R1295,1008,2015-11-25 00:00:00,1230.00
455,455,SKU-0000456,R1295,1002,2015-11-26 00:00:00,1234.00


In [180]:
## Tabela Lojas 
data_lojas = pd.read_sql('SELECT * FROM lojas', con=conn)

data_lojas

Unnamed: 0,index,Loja,Cidade,Estado
0,0,SP8821,São Paulo,São Paulo
1,7,A9990,Belo Horizonte,Minas Gerais
2,32,SP8823,São Paulo,São Paulo
3,39,R1296,Rio de Janeiro,Rio de Janeiro
4,41,V7654,Vitória,Espírito Santo
5,87,P0761,Cascavel,Paraná
6,88,SA7761,Salvador,Bahia
7,103,SP8822,São Paulo,São Paulo
8,170,S6543,Osasco,São Paulo
9,173,B7659,Campinas,São Paulo


In [181]:
## Tabela Produtos
data_produtos = pd.read_sql('SELECT * FROM produtos', con = conn)

data_produtos

Unnamed: 0,index,IDProduto,Produto,Categoria,Segmento,Fabricante
0,0,SKU-0000001,LG K10 TV Power,Celulares,Corporativo,LG
1,1,SKU-0000002,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp
2,2,SKU-0000003,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp
3,3,SKU-0000004,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Brastemp
4,4,SKU-0000005,Lavadora 11 Kg,Eletrodomésticos,Doméstico,Electrolux
...,...,...,...,...,...,...
452,452,SKU-0000453,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp
453,453,SKU-0000454,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp
454,454,SKU-0000455,Morotola Moto G5,Celulares,Doméstico,Motorola
455,455,SKU-0000456,Geladeira Duplex,Eletrodomésticos,Doméstico,Brastemp


In [182]:
## Tabela Tempo
data_tempo = pd.read_sql('SELECT * FROM tempo', con = conn)

data_tempo

Unnamed: 0,index,DataVenda
0,0,2012-10-04 00:00:00
1,1,2012-01-01 00:00:00
2,2,2012-02-02 00:00:00
3,3,2012-03-03 00:00:00
4,4,2012-04-04 00:00:00
...,...,...
103,302,2015-09-23 00:00:00
104,303,2015-10-24 00:00:00
105,304,2015-11-25 00:00:00
106,305,2015-11-26 00:00:00


In [183]:
## Tabela Vendas 
data_venda = pd.read_sql('SELECT * FROM vendas', con=conn)

data_venda

Unnamed: 0,index,Vendedor,IDVendedor
0,0,Ana Teixeira,1009
1,1,Josias Silva,1006
2,3,Mateus Gonçalves,1003
3,4,Artur Moreira,1004
4,5,Rodrigo Fagundes,1005
5,7,Fernando Zambrini,1007
6,9,André Pereira,1002
7,30,Maria Fernandes,1001
8,39,Aline Sutter,1008


## 1 - Informe o total e média de vendas da Empresa Ponto Máximo 

In [307]:
consulta1 = '''

SELECT SUM(ValorVenda) AS Total, AVG(ValorVenda) AS Média FROM fatos

'''

resultado1 = pd.read_sql(consulta1, conn)

resultado1

Unnamed: 0,Total,Média
0,361081.11,790.111838


In [328]:
locale.setlocale(locale.LC_MONETARY, 'en_US.UTF-8')

'en_US.UTF-8'

In [329]:
total = locale.currency(361081.11, grouping=True) 
print("Total", total)

Total $361,081.11


In [330]:
media = locale.currency(790.111838, grouping=True) 
print("Média", media)

Média $790.11


## 2 - Informe o total de Vendas por Categoria 

In [429]:
consulta2 = '''

    SELECT Categoria, SUM(ValorVenda) AS Total, AVG(ValorVenda) AS Média
    FROM fatos f INNER JOIN produtos p 
    ON f.IDProduto = p.IDProduto GROUP BY p.Categoria
    
'''

resultado2 = pd.read_sql(consulta2, conn)

resultado2

Unnamed: 0,Categoria,Total,Média
0,Celulares,98932.0,2104.93617
1,Eletrodomésticos,194764.11,861.788097
2,Eletroportáteis,19055.45,153.672984
3,Eletrônicos,48329.55,805.4925


In [477]:
## Conversão para Dollar em Totais de Categorias

print("Total de Catégorias")
total_Categoria_Celulares = locale.currency(98932.00, grouping=True) 
print("Celulares: ", total_Categoria_Celulares) 

total_Categoria_Eletrodomésticos = locale.currency(194764.11, grouping=True) 
print("Eletrodomésticos: ", total_Categoria_Eletrodomésticos)

total_Categoria_Eletroportáteis = locale.currency(19055.45, grouping=True) 
print("Eletroportáteis: ", total_Categoria_Eletroportáteis)

total_Categoria_Eletrônicos = locale.currency(48329.55, grouping=True) 
print("Eletrônicos: ", total_Categoria_Eletrônicos)

print("\n")
print("Media de Catégorias")
## Conversão para Dollar em Médias de Categorias

Média_Categoria_Celulares = locale.currency(2104.936170, grouping=True) 
print("Celulares: ", total_Categoria_Celulares) 

Média_Categoria_Eletrodomésticos = locale.currency(861.788097, grouping=True) 
print("Eletrodomésticos: ", total_Categoria_Eletrodomésticos)

Média_Categoria_Eletroportáteis = locale.currency(153.672984, grouping=True) 
print("Eletroportáteis: ", total_Categoria_Eletroportáteis)

Média_Categoria_Eletrônicos = locale.currency(805.492500, grouping=True) 
print("Eletrônicos: ", total_Categoria_Eletrônicos)

Celulares:  $98,932.00
Eletrodomésticos:  $194,764.11
Eletroportáteis:  $19,055.45
Eletrônicos:  $48,329.55


Media de Catégorias
Celulares:  $98,932.00
Eletrodomésticos:  $194,764.11
Eletroportáteis:  $19,055.45
Eletrônicos:  $48,329.55


In [474]:
analise_geral = pd.DataFrame({"Total de Celulares" : [total_Categoria_Celulares], 
                              "Total de Eletrodomésticos:" : [total_Categoria_Eletrodomésticos], 
                              "Total de Eletroportáteis" : [total_Categoria_Eletroportáteis], 
                              "Total de Eletrônicos" : [total_Categoria_Eletrônicos]})

analise_geral

Unnamed: 0,Total de Celulares,Total de Eletrodomésticos:,Total de Eletroportáteis,Total de Eletrônicos
0,"$98,932.00","$194,764.11","$19,055.45","$48,329.55"


## 3 - Informe o total e média de vendas por Segmento 

In [454]:
consulta3 = '''
    
    SELECT p.Segmento AS Segmento, SUM(f.ValorVenda) AS Total, AVG(f.ValorVenda) AS Média 
    FROM fatos f INNER JOIN produtos p ON f.IDProduto = p.IDProduto GROUP BY p.Segmento 
'''

resultado3 = pd.read_sql(consulta3, conn)

resultado3

Unnamed: 0,Segmento,Total,Média
0,Corporativo,89952.65,2193.967073
1,Doméstico,258573.46,638.452988
2,Industrial,12555.0,1141.363636


In [468]:
resultado3['Total'] = resultado3['Total'].map("R${:,.2f}")

TypeError: 'str' object is not callable