### Projeto Banco de Dados - Santander Coders 2023
#### Fabiano de Simas Rodrigues

#### Preparação do Ambiente

##### Import das Bibliotecas

In [8]:
import pandas as pd
from sqlalchemy import create_engine

In [1]:
# cria uma conexão com o banco postgres
# string de conexão: postgresql://usuário:senha@localhost:5432/nomebanco
engine = create_engine('postgresql://postgres:0534008@localhost:5432/ecommerce')

for file_name in ["produtos.csv", "vendas.csv"]:
	df = pd.read_csv(file_name, sep=',')
	df = df.loc[:, ~df.columns.str.contains('^Unnamed')].copy()

	# salva o dataframe como tabela no banco conectado
	# nome_da_tabela, engine de conexão
	df.to_sql(f'{file_name.split(".")[0]}', engine, index=False)

ValueError: Table 'produtos' already exists.

##### Amostra da Tabela Produtos

In [19]:
produtos = pd.read_sql("SELECT * FROM produtos LIMIT 5;", engine)
produtos

Unnamed: 0,Codigo,Produto,Preco
0,BS001873,Apple Lightning Cable,$21.99
1,BS001874,SanDisk Extreme microSDXC,$31.50
2,BS001875,Seagate 2TB Expansion Portable HDD,$79.00
3,BS001876,TicWatch Pro 3 Ultra GPS Smartwatch Qualcomm,$399.00
4,BS001877,Webcam HD 1080p Web Camera,$59.00


##### Amostra da Tabela Vendas

In [7]:
vendas = pd.read_sql("SELECT * FROM vendas LIMIT 10;", engine)
vendas

Unnamed: 0,Order ID,Date,ship-service-level,Style,Codigo,Courier Status,Qty,ship-country,Fulfillment
0,171-8536041-9190708,6/29/2022,Expedited,SET400,BS001879,Cancelled,4,AU,Yes
1,407-4176879-6571509,6/29/2022,Expedited,JNE3486,BS001890,Cancelled,2,BR,Yes
2,404-4382011-4681149,6/29/2022,Expedited,JNE3887,BS001873,Cancelled,2,BR,Yes
3,406-3412504-2471555,6/29/2022,Expedited,JNE3487,BS001888,Cancelled,2,BR,Yes
4,408-2481787-8248368,6/29/2022,Expedited,JNE3566,BS001898,Cancelled,2,BR,Yes
5,406-7522239-7644307,6/29/2022,Expedited,SET286,BS001900,Cancelled,2,BR,Yes
6,402-5789132-5926724,6/29/2022,Expedited,JNE3675,BS001891,Cancelled,5,BR,Yes
7,406-3380662-9728336,6/29/2022,Expedited,J0157,BS001887,Cancelled,3,BR,Yes
8,402-2465163-9329126,6/29/2022,Expedited,J0337,BS001897,Cancelled,4,BR,Yes
9,407-2688982-0165102,6/29/2022,Expedited,JNE3697,BS001884,Cancelled,3,BR,Yes


#### Views

##### View para normalizar os datos e efetuar o Join das tabelas
```sql
CREATE 
    VIEW tabela_normalizada_view AS 
SELECT 
	v."Order ID" AS "Order_ID",
	TO_CHAR(TO_DATE(v."Date", 'MM/DD/YYYY'), 'MM/YYYY') AS "Periodo",
	v."ship-service-level" AS "Modalidade",
	v."Codigo",
	p."Produto",
	v."Qty" AS "Quantidade",
	CAST(REPLACE(p."Preco", '$', '') AS NUMERIC) AS "Preco",
	v."Courier Status" AS "Despachado", 
	v."ship-country" AS "Pais",
	v."Fulfillment" AS "Incoterms"
FROM vendas v
	LEFT JOIN produtos p ON v."Codigo" = p."Codigo"    
```

##### View para sumarizar o total de vendas, apenas dos itens expedidos, e agrupar por período
```sql
CREATE 
    VIEW valor_total_expedido_view AS 
SELECT 
    tbv."Periodo",
    sum(tbv."Quantidade" * tbv."Preco") AS "Total_Expedido"	
FROM
    tabela_normalizada_view tbv
WHERE
    tbv."Despachado" = 'Shipped'
GROUP BY
    tbv."Periodo";
```


##### View para sumarizar o total de vendas e agrupar por período
```sql
CREATE
    VIEW valor_total_vendas_view AS 
SELECT
    tbv."Periodo",
    sum(tbv."Quantidade" * tbv."Preco") AS "Total_Vendas"	
FROM
    tabela_normalizada_view tbv
GROUP BY
    tbv."Periodo";
```


##### View para sumarizar ovalor total de cada item
```sql
CREATE
    VIEW valor_expedicao_geral AS
SELECT 
    SUM("Quantidade" * "Preco") AS "Total_Geral"
FROM 
    tabela_normalizada_view
WHERE 
    "Despachado" = 'Shipped';
```


##### View para agrupar as opções de modalidade para País
```sql
CREATE 
    VIEW modalidade_por_pais_view AS
SELECT 
    tbv."Pais",
    tbv."Modalidade",
    SUM(tbv."Quantidade" * tbv."Preco") AS "Valor_Total_Por_Modalidade"
FROM 
    tabela_normalizada_view tbv
WHERE 
    tbv."Despachado" = 'Shipped'
GROUP BY 
    tbv."Pais", tbv."Modalidade";
```

#### Desenvolvimento

##### 01. Qual foi o valor bruto em lançamentos mensalmente?

In [35]:
valor_total_bruto = pd.read_sql("SELECT * FROM valor_total_vendas_view;", engine)
valor_total_bruto

Unnamed: 0,Periodo,Total_Vendas
0,03/2022,83701.33
1,04/2022,24210107.12
2,05/2022,20715223.36
3,06/2022,18638621.07


##### 02. Qual valor total foi exepedido mensalmente?

In [36]:
valor_total_expedido = pd.read_sql("SELECT * FROM valor_total_expedido_view;", engine)
valor_total_expedido

Unnamed: 0,Periodo,Total_Expedido
0,03/2022,77359.26
1,04/2022,21682990.28
2,05/2022,18647287.8
3,06/2022,16818229.73


##### 03. Qual o percentual de expedições cancelada?

In [37]:
expedicao_cancelada = pd.read_sql('''
SELECT 
	vte."Periodo",
	vtv."Total_Vendas",
	vte."Total_Expedido",
	round((vtv."Total_Vendas" - vte."Total_Expedido") / vte."Total_Expedido" * 100, 2) AS "Percentual"
FROM 
	valor_total_expedido_view vte
Right Join
	valor_total_vendas_view vtv 
	ON 
		vte."Periodo" = vtv."Periodo"
''', engine)
expedicao_cancelada

Unnamed: 0,Periodo,Total_Vendas,Total_Expedido,Percentual
0,03/2022,83701.33,77359.26,8.2
1,04/2022,24210107.12,21682990.28,11.65
2,05/2022,20715223.36,18647287.8,11.09
3,06/2022,18638621.07,16818229.73,10.82


##### 04. Qual o percentual de expedicao com divergência na informação?

In [38]:
percentual_divergencia = pd.read_sql('''
SELECT 
	tbv."Periodo",
	vtv."Total_Vendas",
	SUM(tbv."Quantidade" * tbv."Preco") AS "Total_Sem_Rastreio",
	ROUND((SUM(tbv."Quantidade" * tbv."Preco") / vtv."Total_Vendas") * 100, 2) AS "Percentual"
FROM 
	tabela_normalizada_view tbv
LEFT JOIN 
	valor_total_vendas_view vtv ON tbv."Periodo" = vtv."Periodo"
WHERE 
	tbv."Despachado" IS NULL 
GROUP BY 
	tbv."Periodo", vtv."Total_Vendas"
ORDER BY 
	tbv."Periodo";
''', engine)

percentual_divergencia

Unnamed: 0,Periodo,Total_Vendas,Total_Sem_Rastreio,Percentual
0,03/2022,83701.33,1129.19,1.35
1,04/2022,24210107.12,1386216.19,5.73
2,05/2022,20715223.36,1126425.23,5.44
3,06/2022,18638621.07,854075.55,4.58


##### 05. Dentre as expedições canceladas, quais foram os 3 produto que tiveram os maiores valores em expedições canceladas?

In [46]:
maiores_cancelamentos = pd.read_sql('''
SELECT 
	tbv."Codigo",
	tbv."Produto",
	SUM(tbv."Quantidade") AS "Itens Cancelandos",
	SUM(tbv."Quantidade" * tbv."Preco") AS "Valor_Total"
FROM 
	tabela_normalizada_view tbv
WHERE 
	tbv."Despachado" IS NULL
GROUP BY 
	tbv."Codigo", tbv."Produto"
ORDER BY 
	SUM(tbv."Quantidade" * tbv."Preco") DESC
LIMIT 3
''', engine)
maiores_cancelamentos

Unnamed: 0,Codigo,Produto,Itens Cancelandos,Valor_Total
0,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,809.0,311465.0
1,BS001888,LEGO Ideas Home Alone McCallisters’ House 21330,644.0,289156.0
2,BS001876,TicWatch Pro 3 Ultra GPS Smartwatch Qualcomm,665.0,265335.0


##### 06. Quais os valores de referentes as expedições canceladas para cada país?

In [45]:
cancelamentos_paises = pd.read_sql('''
SELECT 
	tbv."Pais",
	Sum(tbv."Quantidade") AS "Itens_Cancelados",
	SUM(tbv."Quantidade" * tbv."Preco") AS "Valor_Total"
FROM 
	tabela_normalizada_view tbv
WHERE 
	tbv."Despachado" IS NULL
GROUP BY 
	tbv."Pais"
ORDER BY 
	SUM(tbv."Quantidade" * tbv."Preco") DESC
''', engine)
cancelamentos_paises

Unnamed: 0,Pais,Itens_Cancelados,Valor_Total
0,DK,2313.0,404238.55
1,JP,2298.0,384783.22
2,UK,2297.0,377366.72
3,PT,2311.0,377094.93
4,FR,2238.0,373380.15
5,BR,2279.0,365469.06
6,US,2187.0,365131.46
7,GE,2298.0,364955.42
8,AU,2268.0,355426.65


##### 07. Com relação a Modalidade de envio (Standard / Expedited) qual o percentual para cada uma considerando os produtos expedidos?

In [47]:
percentual_modalidade = pd.read_sql('''
SELECT 
    tbv."Modalidade",
    SUM(tbv."Quantidade" * tbv."Preco") AS "Valor_Total",
    ROUND((SUM(tbv."Quantidade" * tbv."Preco") / tg."Valor_Total") * 100, 2) AS "Percentual"
FROM 
    tabela_normalizada_view tbv
CROSS JOIN (
    SELECT 
    	SUM("Quantidade" * "Preco") AS "Valor_Total"
    FROM 
    	tabela_normalizada_view
    WHERE 
    	"Despachado" = 'Shipped'
) AS tg
WHERE 
    tbv."Despachado" = 'Shipped'
GROUP BY 
    tbv."Modalidade", tg."Valor_Total";
''', engine)
percentual_modalidade

Unnamed: 0,Modalidade,Valor_Total,Percentual
0,Standard,16484216.72,28.81
1,Expedited,40741650.35,71.19


##### 08. Qual o percentual de cada modalidade foi utilizado para expediação para cada país?

In [49]:
modalidade_por_pais = pd.read_sql('''
SELECT 
    mpp."Pais",
    mpp."Modalidade",
    mpp."Valor_Total_Por_Modalidade",
    ROUND((mpp."Valor_Total_Por_Modalidade" / veg."Total_Geral") * 100, 2) AS "Percentual_Modalidade_Pais"
FROM 
    modalidade_por_pais_view mpp
CROSS JOIN 
    valor_expedicao_geral veg;
''', engine)
modalidade_por_pais

Unnamed: 0,Pais,Modalidade,Valor_Total_Por_Modalidade,Percentual_Modalidade_Pais
0,AU,Expedited,4548619.35,7.95
1,AU,Standard,1853836.87,3.24
2,BR,Expedited,4500104.88,7.86
3,BR,Standard,1860637.37,3.25
4,DK,Expedited,4447842.76,7.77
5,DK,Standard,1835361.22,3.21
6,FR,Expedited,4477822.06,7.82
7,FR,Standard,1838606.96,3.21
8,GE,Expedited,4528237.07,7.91
9,GE,Standard,1740186.91,3.04


##### 09. Qual o produto mais expedido em cada país considerando as quantidades?

In [52]:
qtde_mais_expedido = pd.read_sql('''
  SELECT
    agr."Pais",
    agr."Codigo",
    agr."Produto",
    agr."Total_Vendido"
FROM
    (
        SELECT
            tbv."Pais",
            tbv."Codigo",
            tbv."Produto",
            SUM(tbv."Quantidade") AS "Total_Vendido",
            RANK() OVER (PARTITION BY tbv."Pais" ORDER BY SUM(tbv."Quantidade") DESC) AS "Ranking"
        FROM
            tabela_normalizada_view tbv
        WHERE 
            tbv."Despachado" = 'Shipped'
        GROUP BY
            tbv."Pais", tbv."Codigo", tbv."Produto"
    ) agr
WHERE
    agr."Ranking" = 1; 

''', engine)
qtde_mais_expedido

Unnamed: 0,Pais,Codigo,Produto,Total_Vendido
0,AU,BS001900,YABER WiFi Projector Mini Portable Projector 6...,1670.0
1,BR,BS001890,Nintendo Switch Console Lite,1615.0
2,DK,BS001881,TP-Link Tapo Pan/Tilt Smart Security Camera,1595.0
3,FR,BS001891,PHILIPS Sonicare 9900 Prestige Power Toothbrush,1599.0
4,GE,BS001878,Logitech MK270R Wireless Keyboard and Mouse Combo,1670.0
5,JP,BS001892,Kindle Paperwhite (8GB),1657.0
6,PT,BS001901,LG 29WL50S - 29 inch UltraWide UHD,1577.0
7,UK,BS001881,TP-Link Tapo Pan/Tilt Smart Security Camera,1579.0
8,US,BS001900,YABER WiFi Projector Mini Portable Projector 6...,1625.0


##### 10. Qual o produto menos expedido em cada pa´si em termos de quantidade?

In [51]:
qtde_menos_expedido = pd.read_sql('''
SELECT
    agr."Pais",
    agr."Codigo",
    agr."Produto",
    agr."Total_Vendido"
FROM
    (
        SELECT
            tbv."Pais",
            tbv."Codigo",
            tbv."Produto",
            SUM(tbv."Quantidade") AS "Total_Vendido",
            RANK() OVER (PARTITION BY tbv."Pais" ORDER BY SUM(tbv."Quantidade") ASC) AS "Ranking"
        FROM
            tabela_normalizada_view tbv
        WHERE 
            tbv."Despachado" = 'Shipped'
        GROUP BY
            tbv."Pais", tbv."Codigo", tbv."Produto"
    ) agr
WHERE
    agr."Ranking" = 1;

''', engine)
qtde_menos_expedido

Unnamed: 0,Pais,Codigo,Produto,Total_Vendido
0,AU,BS001895,Google Chromecast 3rd Generation,1157.0
1,BR,BS001879,Samsung T37F Monitor UHD 37,1070.0
2,DK,BS001879,Samsung T37F Monitor UHD 37,1001.0
3,FR,BS001879,Samsung T37F Monitor UHD 37,1017.0
4,GE,BS001879,Samsung T37F Monitor UHD 37,961.0
5,JP,BS001879,Samsung T37F Monitor UHD 37,1075.0
6,PT,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,1145.0
7,UK,BS001879,Samsung T37F Monitor UHD 37,1128.0
8,US,BS001898,Apple AirPods (3rd Generation),1137.0


##### 11. Qual o produto mais expedido para cada país em termos de valores?

In [57]:
soma_mais_expedido = pd.read_sql('''
SELECT
    agr."Pais",
    agr."Codigo",
    agr."Produto",
    agr."Total_Vendido"
FROM
    (
        SELECT
            tbv."Pais",
            tbv."Codigo",
            tbv."Produto",
            SUM(tbv."Quantidade" * tbv."Preco") AS "Total_Vendido",
            RANK() OVER (PARTITION BY tbv."Pais" ORDER BY SUM(tbv."Quantidade" * tbv."Preco") DESC) AS "Ranking"
        FROM
            tabela_normalizada_view tbv
        WHERE 
            tbv."Despachado" = 'Shipped'
        GROUP BY
            tbv."Pais", tbv."Codigo", tbv."Produto"
    ) agr
WHERE
    agr."Ranking" = 1;
''', engine)
soma_mais_expedido

Unnamed: 0,Pais,Codigo,Produto,Total_Vendido
0,AU,BS001888,LEGO Ideas Home Alone McCallisters’ House 21330,587741.0
1,BR,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,590205.0
2,DK,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,591745.0
3,FR,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,580195.0
4,GE,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,573650.0
5,JP,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,569415.0
6,PT,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,597520.0
7,UK,BS001888,LEGO Ideas Home Alone McCallisters’ House 21330,617375.0
8,US,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,577885.0


##### 12. Qual o produto menos expedido para cada pais em termos de valores?

In [58]:
soma_menos_expedido = pd.read_sql('''
SELECT
    agr."Pais",
    agr."Codigo",
    agr."Produto",
    agr."Total_Vendido"
FROM
    (
        SELECT
            tbv."Pais",
            tbv."Codigo",
            tbv."Produto",
            SUM(tbv."Quantidade" * tbv."Preco") AS "Total_Vendido",
            RANK() OVER (PARTITION BY tbv."Pais" ORDER BY SUM(tbv."Quantidade" * tbv."Preco") ASC) AS "Ranking"
        FROM
            tabela_normalizada_view tbv
        WHERE 
            tbv."Despachado" = 'Shipped'
        GROUP BY
            tbv."Pais", tbv."Codigo", tbv."Produto"
    ) agr
WHERE
    agr."Ranking" = 1;
''', engine)
soma_menos_expedido

Unnamed: 0,Pais,Codigo,Produto,Total_Vendido
0,AU,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,17682.0
1,BR,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,16926.0
2,DK,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,17920.0
3,FR,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,18116.0
4,GE,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,18130.0
5,JP,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,17682.0
6,PT,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,16030.0
7,UK,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,17570.0
8,US,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,16968.0


##### 13. Qual foi a Order mais cara e o valor dela para cada um dos países?

In [60]:
maior_pedido_pais = pd.read_sql('''
SELECT DISTINCT ON ("Pais")
    "Pais",
    "Order_ID",
    "Valor_Total"
FROM (
    SELECT
        "Order_ID",
        "Pais",
        SUM("Preco" * "Quantidade") AS "Valor_Total"
    FROM
        tabela_normalizada_view tbv
    GROUP BY
        "Order_ID",
        "Pais"
) AS "Pedido_Pais"
ORDER BY
    "Pais", "Valor_Total" DESC;

''', engine)
maior_pedido_pais

Unnamed: 0,Pais,Order_ID,Valor_Total
0,AU,402-9899607-0605132,2245.0
1,BR,406-6143137-4946754,2245.0
2,DK,403-7787234-0880323,2245.0
3,FR,406-3863340-0818727,2245.0
4,GE,404-1854822-9661951,2245.0
5,JP,408-9609778-9623556,2245.0
6,PT,404-7715428-8441140,2245.0
7,UK,404-7496625-0130747,2245.0
8,US,406-7688989-0294748,3043.0


##### 14. Qual foi o pedido mais barato de cada pais?

In [61]:
menor_pedido_pais = pd.read_sql('''
SELECT DISTINCT ON ("Pais")
    "Pais",
    "Order_ID",
    "Valor_Total"
FROM (
    SELECT
        "Order_ID",
        "Pais",
        SUM("Preco" * "Quantidade") AS "Valor_Total"
    FROM
        tabela_normalizada_view tbv
    GROUP BY
        "Order_ID",
        "Pais"
) AS "Pedido_Pais"
ORDER BY
    "Pais", "Valor_Total" ASC;

''', engine)
menor_pedido_pais

Unnamed: 0,Pais,Order_ID,Valor_Total
0,AU,171-7773738-6873157,14.0
1,BR,171-5404065-6253133,14.0
2,DK,404-7966007-1668344,14.0
3,FR,402-7954206-3729142,14.0
4,GE,407-4364419-2338749,14.0
5,JP,408-2770355-3209968,14.0
6,PT,403-7363831-4521937,14.0
7,UK,404-4178459-5526722,14.0
8,US,404-3264054-3970747,14.0


##### 15.Qual o valor médio de Order_ID para cada país?

In [62]:
valor_medio_pais = pd.read_sql('''
SELECT 
    "Pais",
    AVG("Valor_Total") AS "Valor_Medio"
FROM (
    SELECT
        "Pais",
        "Order_ID",
        SUM("Preco" * "Quantidade") AS "Valor_Total"
    FROM
        tabela_normalizada_view tbv
    GROUP BY
        "Order_ID",
        "Pais"
) AS "Pedidos_Por_Pais"
GROUP BY
    "Pais";

''', engine)
valor_medio_pais

Unnamed: 0,Pais,Valor_Medio
0,DK,490.790329
1,JP,497.111601
2,AU,496.096266
3,GE,484.976583
4,BR,495.633316
5,UK,496.683111
6,US,491.930788
7,FR,491.088494
8,PT,498.074348
