## Análise Exploratória de Dados

Foi analisado um conjunto de dados de produtos e vendas, disponíveis no seguinte [link](https://github.com/joelsonSantos/banco_de_dados-aula7/tree/main/aula%207).<br>
Foram coletados 15 insights a partir desses dados.

----------------------------------------------------------------


In [3]:
# imports
import pandas as pd
from sqlalchemy import create_engine
from urllib.parse import quote_plus

In [4]:
# cria uma conexão com o banco postgres
senha = 'postgres@24'
senha_codificada = quote_plus(senha)

engine = create_engine(f'postgresql://postgres:{senha_codificada}@localhost:5432/ecommerce')

----------------------------------------------------------------


# 1º Quais sao os 10 produtos mais caros em termos de preço unitário?
```sql
CREATE VIEW view_produto_mais_caro AS(
SELECT
  "Codigo",
  "Produto",
  "Preco"
FROM produtos
ORDER BY "Preco" DESC
LIMIT 10);
```

In [5]:
produtos = pd.read_sql("SELECT * FROM view_produto_mais_caro;", engine); produtos.head(10)

Unnamed: 0,Codigo,Produto,Preco
0,BS001888,LEGO Ideas Home Alone McCallisters’ House 21330,449.0
1,BS001876,TicWatch Pro 3 Ultra GPS Smartwatch Qualcomm,399.0
2,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,385.0
3,BS001890,Nintendo Switch Console Lite,329.95
4,BS001891,PHILIPS Sonicare 9900 Prestige Power Toothbrush,329.0
5,BS001883,Apple AirPods Pro,309.0
6,BS001879,Samsung T37F Monitor UHD 37,299.0
7,BS001901,LG 29WL50S - 29 inch UltraWide UHD,279.0
8,BS001898,Apple AirPods (3rd Generation),257.0
9,BS001892,Kindle Paperwhite (8GB),239.0


# 2º Quais são os 10 produtos mais vendidos em termos de quantidade?
```sql
CREATE VIEW view_produtos_mais_vendidos AS(
SELECT
  p."Codigo",
  p."Produto",
  SUM(v."Qty") AS "Qtd Vendida"
FROM produtos p
JOIN vendas v
ON p."Codigo" = v."Codigo"
GROUP BY p."Codigo", p."Produto"
ORDER BY "Qtd Vendida" DESC
LIMIT 10);
```

In [6]:
produtos = pd.read_sql("SELECT * FROM view_produtos_mais_vendidos;", engine); produtos.head(10)

Unnamed: 0,Codigo,Produto,Qtd Vendida
0,BS001878,Logitech MK270R Wireless Keyboard and Mouse Combo,15264.0
1,BS001890,Nintendo Switch Console Lite,15256.0
2,BS001889,Taco Cat Goat Cheese Pizza Card Game,15247.0
3,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,15174.0
4,BS001881,TP-Link Tapo Pan/Tilt Smart Security Camera,15168.0
5,BS001891,PHILIPS Sonicare 9900 Prestige Power Toothbrush,15147.0
6,BS001900,YABER WiFi Projector Mini Portable Projector 6...,15138.0
7,BS001880,HyperX QuadCast S – RGB USB Condenser Micropho...,15121.0
8,BS001901,LG 29WL50S - 29 inch UltraWide UHD,15095.0
9,BS001892,Kindle Paperwhite (8GB),15064.0


# 3º Quais são os 10 produtos que mais tiveram transações canceladas e qual a quantidade cancelada de cada produto?
```sql
CREATE VIEW view_transacoes_canceladas AS(
SELECT
  v."Codigo" AS "Codigo Produto",
  p."Produto",
  v."Qty" AS "Qtd Cancelada"
FROM vendas v
JOIN (
  SELECT "Codigo", "Produto"
  FROM produtos) p
  ON v."Codigo" = p."Codigo"
WHERE v."Courier Status" = 'Cancelled'
LIMIT 10);
```

In [7]:
produtos = pd.read_sql("SELECT * FROM view_transacoes_canceladas;", engine); produtos.head(10)

Unnamed: 0,Codigo Produto,Produto,Qtd Cancelada
0,BS001879,Samsung T37F Monitor UHD 37,4
1,BS001890,Nintendo Switch Console Lite,2
2,BS001873,Apple Lightning Cable,2
3,BS001888,LEGO Ideas Home Alone McCallisters’ House 21330,2
4,BS001898,Apple AirPods (3rd Generation),2
5,BS001900,YABER WiFi Projector Mini Portable Projector 6...,2
6,BS001891,PHILIPS Sonicare 9900 Prestige Power Toothbrush,5
7,BS001887,LEGO Ideas 21319 Central Perk Building Kit,3
8,BS001897,New Apple AirTag 4 Pack,4
9,BS001884,Digital Blood Pressure Monitor with Large Colo...,3


# 4º Qual é o total de vendas (em valor) para cada país ('ship country')?
```sql
CREATE VIEW view_total_vendas_por_pais AS(
SELECT
  v."ship country" AS Country,
  ROUND(SUM(p."Preco" * v."Qty")::numeric,2)  AS "Total de Vendas"
FROM vendas v
JOIN produtos p ON v."Codigo" = p."Codigo"
GROUP BY v."ship country"
ORDER BY "Total de Vendas" DESC);
```


In [8]:
produtos = pd.read_sql("SELECT * FROM view_total_vendas_por_pais;", engine); produtos.head(10)

Unnamed: 0,country,Total de Vendas
0,PT,7130930.44
1,BR,7128693.99
2,JP,7118638.12
3,UK,7113495.52
4,AU,7104594.62
5,US,7045924.67
6,FR,7032878.32
7,DK,7028117.51
8,GE,6944379.69


# 5º Quais são os produtos que tiveram o maior valor em vendas?
```sql
CREATE VIEW view_maior_valor_total AS
SELECT
  p."Codigo",
  p."Produto",
  (SELECT ROUND(SUM(("Preco" * "Qty")::numeric), 2) FROM vendas WHERE "Codigo" = p."Codigo") AS "Valor Total"
FROM produtos p
ORDER BY "Valor Total" DESC
LIMIT 10;
```

In [9]:
produtos = pd.read_sql("SELECT * FROM view_maior_valor_total;", engine); produtos.head(10)

Unnamed: 0,Codigo,Produto,Valor Total
0,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,5841990.0
1,BS001888,LEGO Ideas Home Alone McCallisters’ House 21330,5578825.0
2,BS001890,Nintendo Switch Console Lite,5033717.2
3,BS001891,PHILIPS Sonicare 9900 Prestige Power Toothbrush,4983363.0
4,BS001876,TicWatch Pro 3 Ultra GPS Smartwatch Qualcomm,4938822.0
5,BS001901,LG 29WL50S - 29 inch UltraWide UHD,4211505.0
6,BS001883,Apple AirPods Pro,3822330.0
7,BS001892,Kindle Paperwhite (8GB),3600296.0
8,BS001900,YABER WiFi Projector Mini Portable Projector 6...,3300084.0
9,BS001879,Samsung T37F Monitor UHD 37,3258203.0


# 6ºQual é o mês com o maior valor total de vendas?
```sql
SET datestyle = "ISO, MDY";
CREATE VIEW view_maior_valor_total_vendas AS(
WITH cte_valor_total_mes AS (
  SELECT
    TO_CHAR("Date"::date, 'MM') AS "Mes",
    ROUND(SUM(("Preco" * "Qty")::numeric), 2) AS "Valor Total"
  FROM "vendas"
  JOIN "produtos" ON "vendas"."Codigo" = "produtos"."Codigo"
  GROUP BY  TO_CHAR("Date"::date, 'MM')
)
SELECT
  "Mes",
  "Valor Total"
FROM cte_valor_total_mes
ORDER BY "Valor Total" DESC
LIMIT 1);
```

In [17]:
with engine.begin() as connection:
    connection.execute("SET datestyle = 'ISO, MDY';")

produtos = pd.read_sql("SELECT * FROM view_maior_valor_total_vendas;", engine)
produtos.head(10)

Unnamed: 0,Mes,Valor Total
0,4,24210107.12


# 7º Quais são os produtos que tiveram o maior número total de transações?
Left Join foi usado para que todos os produtos da lista apareçam, independente de terem transações ou não.
```sql
CREATE VIEW view_total_transações AS(
WITH cte_total_transacoes AS (
  SELECT
    p."Codigo",
    p."Produto",
    COUNT(v."Order ID") AS "Total de Transacoes"
  FROM "produtos" p
  LEFT JOIN "vendas" v ON p."Codigo" = v."Codigo"
  GROUP BY p."Codigo", p."Produto"
)

SELECT
  "Codigo",
  "Produto",
  "Total de Transacoes"
FROM cte_total_transacoes
ORDER BY "Total de Transacoes" DESC);
```


In [18]:
produtos = pd.read_sql("SELECT * FROM view_total_transações;", engine); produtos.head(10)

Unnamed: 0,Codigo,Produto,Total de Transacoes
0,BS001881,TP-Link Tapo Pan/Tilt Smart Security Camera,5049
1,BS001900,YABER WiFi Projector Mini Portable Projector 6...,5049
2,BS001878,Logitech MK270R Wireless Keyboard and Mouse Combo,5049
3,BS001889,Taco Cat Goat Cheese Pizza Card Game,5049
4,BS001901,LG 29WL50S - 29 inch UltraWide UHD,5049
5,BS001894,Sony WH1000XM4 Noise Canceling Wireless Headph...,5049
6,BS001891,PHILIPS Sonicare 9900 Prestige Power Toothbrush,5049
7,BS001890,Nintendo Switch Console Lite,5048
8,BS001892,Kindle Paperwhite (8GB),5048
9,BS001880,HyperX QuadCast S – RGB USB Condenser Micropho...,5048


# 8ºQual é a quantidade média de produtos vendidos por transação?
```sql
```


In [19]:
query="""
WITH cte_media_quantidade_produtos AS (
  SELECT
    "Order ID",
    AVG("Qty")  AS "Qtd Media_Produtos"
  FROM "vendas"
  GROUP BY "Order ID"
)
SELECT ROUND(AVG("Qtd Media_Produtos"),2) AS "Media Total"
FROM cte_media_quantidade_produtos;
"""

result = pd.read_sql(query, engine);result.head(10)

Unnamed: 0,Media Total
0,3.0


# 9º Qual seria o ticket médio destas transações?
```sql
```

In [20]:
query="""
SELECT ROUND(AVG(("Preco" * "Qty")::numeric), 2) AS "Ticket Medio"
FROM "produtos" p
JOIN "vendas" v ON p."Codigo" = v."Codigo";
"""
result = pd.read_sql(query, engine);result.head(10)

Unnamed: 0,Ticket Medio
0,493.49


# 10º Ranking das regiões que tem maior número de transações?
```sql
```


In [21]:
query="""
SELECT "ship country" AS "Regiao", COUNT(*) AS "Nº Transacoes"
FROM "vendas"
GROUP BY "ship country"
ORDER BY "Nº Transacoes" DESC
LIMIT 5;
"""
result = pd.read_sql(query, engine);result.head(10)

Unnamed: 0,Regiao,Nº Transacoes
0,BR,14384
1,US,14327
2,AU,14325
3,DK,14325
4,FR,14325


# 11º Quantas transações Canceladas?
```sql
```

In [22]:
query="""
SELECT "Courier Status" AS "Tipo da transação", COUNT(*) AS "Nº Transações"
FROM "vendas"
WHERE "Courier Status" = 'Cancelled'
GROUP BY "Courier Status"
ORDER BY "Nº Transações" DESC;
"""
result = pd.read_sql(query, engine);result.head(10)

Unnamed: 0,Tipo da transação,Nº Transações
0,Cancelled,6071


# 12º Qual é o dia da semana com o maior número total de transações?
```sql
```

In [23]:
query= """
WITH cte_total_transacoes_dia_semana AS (
  SELECT
    TO_CHAR("Date"::date, 'Day') AS "Dia",
    COUNT("Order ID") AS "Total Transacoes"
  FROM "vendas"
  GROUP BY "Dia"
)
SELECT
  "Dia",
  "Total Transacoes"
FROM cte_total_transacoes_dia_semana
ORDER BY "Total Transacoes" DESC
LIMIT 1;
"""
result = pd.read_sql(query, engine);result.head(10)

Unnamed: 0,Dia,Total Transacoes
0,Sunday,19619


# 13º Quais são os produtos que têm a menor média de preço por unidade vendida?
```sql

```

In [24]:
query="""
WITH cte_media_preco_por_unidade AS (
  SELECT
    p."Codigo",
    p."Produto",
    round(AVG((p."Preco" / v."Qty"))::NUMERIC,2)  AS "Preco_Medio_Unitário"
  FROM "produtos" p
  JOIN "vendas" v ON p."Codigo" = v."Codigo"
  GROUP BY p."Codigo", p."Produto"
)

SELECT
  "Codigo",
  "Produto",
  "Preco_Medio_Unitário"
FROM cte_media_preco_por_unidade
ORDER BY "Preco_Medio_Unitário" ASC
LIMIT 10;
"""
result = pd.read_sql(query, engine);result.head(10)

Unnamed: 0,Codigo,Produto,Preco_Medio_Unitário
0,BS001893,Apple Lightning to 3.5mm Headphone Jack Adapter,6.31
1,BS001889,Taco Cat Goat Cheese Pizza Card Game,6.79
2,BS001873,Apple Lightning Cable,9.83
3,BS001885,"Fingertip Pulse Oximeter, Blood Oxygen Saturation",9.98
4,BS001874,SanDisk Extreme microSDXC,14.35
5,BS001878,Logitech MK270R Wireless Keyboard and Mouse Combo,17.09
6,BS001896,Charmast Mini Power Bank,17.21
7,BS001884,Digital Blood Pressure Monitor with Large Colo...,22.87
8,BS001882,"HEYMIX Powerboard, Power Strip with 8 Outlets,...",24.17
9,BS001895,Google Chromecast 3rd Generation,25.44


# 14º Quais são os dias da semana que têm, em média, o maior número de transações?
```sql

```


In [25]:
query="""
WITH cte_media_transacoes_dia_semana AS (
  SELECT
    TO_CHAR("Date"::date, 'Day') AS "Dia",
    COUNT("Order ID") AS "Total"
  FROM
    "vendas"
  GROUP BY
    "Dia"
)

SELECT
  "Dia",
  AVG("Total") AS "Media"
FROM
  cte_media_transacoes_dia_semana
GROUP BY
  "Dia"
ORDER BY
  "Media" DESC
LIMIT 10;
"""
result = pd.read_sql(query, engine);result.head(10)


Unnamed: 0,Dia,Media
0,Sunday,19619.0
1,Tuesday,18883.0
2,Wednesday,18594.0
3,Monday,18568.0
4,Saturday,18524.0
5,Friday,17718.0
6,Thursday,17069.0


# 15º Quantas transações foram canceladas em cada país?


In [26]:
query="""
WITH cte_transacoes_canceladas_pais AS (
  SELECT
    "ship country" AS "Pais",
    COUNT("Order ID") AS "Transacoes Canceladas"
  FROM "vendas"
  WHERE "Courier Status" = 'Cancelled'
  GROUP BY "Pais"
)

SELECT
  "Pais",
  "Transacoes Canceladas"
FROM cte_transacoes_canceladas_pais;
"""
result = pd.read_sql(query, engine);result.head(10)

Unnamed: 0,Pais,Transacoes Canceladas
0,BR,769
1,AU,670
2,DK,666
3,UK,664
4,GE,660
5,PT,662
6,US,661
7,FR,660
8,JP,659
