<div style="background-color: lightgreen; padding: 10px;">
    <h2> Projeto | Construção e análise de Banco de Dados
</div>

### Aluno:
André R. Kuster | nº: 1116029

### Objetivo:

O objetivo deste projeto é aplicar os conhecimentos adquiridos ao longo da disciplina de **Banco de Dados 1** em um contexto prático, utilizando um conjunto de dados, a ﬁm de extrair insights e responder perguntas de negócio aplicando o SQL como ferramenta de construção, consulta e análise de dados.

### Base de Dados:
Será utilizado conjunto de dados público de vendas de bicicletas, contendo informações sobre pedidos feitos em uma rede de lojas. O conjunto de dados inclui pedidos, produtos, vendedores, lojas e também a base de clientes. Este projeto visa identificar as características da base, tipagem dos dados corretamente, e entender quais são as informações disponíveis. Um **esquema** do relacionamento das tabelas será apresentado abaixo, com o intuito de facilitar o entendimento do relacionamento entre as bases de dados.

<img src="https://www.googleapis.com/download/storage/v1/b/kaggle-user-content/o/inbox%2F4146319%2Fc5838eb006bab3938ad94de02f58c6c1%2FSQL-Server-Sample-Database.png?generation=1692609884383007&alt=media" width="600"/>

### Ferramentas:
PandaSQL, Git, PostgreSQL, pgAdmin4

### Referências:
- https://pandas.pydata.org
- https://www.postgresql.org
- https://pypi.org/project/pandasql/
- https://pypi.org/project/psycopg2/
- https://www.kaggle.com/datasets/dillonmyrick/bike-store-sample-database

<div style="background-color: lightgreen; padding: 10px;">
    <h2> Importação das bibliotecas
</div>

Inicialmente iremos importar o NumPy e o Pandas, utilizando respectivamente os alias ``np`` e ``pd``. Eles serão utilizados para manipular os dados que estudaremos a seguir.

In [2]:
from sqlalchemy import create_engine
import pandas as pd 
import pandasql as ps

<div style="background-color: lightgreen; padding: 10px;">
    <h2> Construção das bases de dados
</div>

Após realizar o download dos arquivos da bases de dados no site referenciado, avançamos para a construção da bases de dados no ``PostgreSQL``. <br>
Utilizamos a ferramenta ``pgAdmin 4``, onde podemos declarar as tabelas no schema ``projeto_kuster`` e fazer os seu carregamento utilizando os arquivos .csv. <br>

---
Criação das tabelas, declaração das variáveis e tipagem dos dados utilizando **Data Definition Language (DDL)**:

Exemplo de criação da tabela ``projeto_kuster.brands``:
```
CREATE TABLE projeto_kuster.brands(
	brand_id INT,
	brand_name VARCHAR(30)
);
```

---
Para importar os dados das tabelas, foi realizado um procedimento no ``pgAdmin`` onde importamos os dados do arquivo .csv com o auxílio da ferramenta.<br>
O passo a passo está representado no conjunto de imagens abaixo. Como exemplo na tabela ``projeto_kuster.brands``:


![importing_data_postgresql.png](attachment:dbad5477-28e9-4dec-acac-deb86ce5f787.png)

---
Checagem dos dados da tabela criada:
```
SELECT * FROM projeto_kuster.brands
```

![checking_data_postgresql.png](attachment:f7347e95-0b2e-4def-a6f9-96e092ed932d.png)

---
Repetiremos o procedimento para todas as outras tabelas do conjunto de dados. <br>
Abaixo está o código em DDL para a construção e tipagem dos dados:

```
CREATE TABLE projeto_kuster.categories(
	category_id INT,
	category_name VARCHAR(30)
);

CREATE TABLE projeto_kuster.customers(
	customer_id INT,
	first_name VARCHAR(30),
	last_name VARCHAR(30),
	phone VARCHAR(30),
	email VARCHAR(255),
	street VARCHAR(255),
	city VARCHAR(255),
	state VARCHAR(30),
	zip_code INT
);

CREATE TABLE projeto_kuster.order_items(
	order_id INT,
	item_id INT,
	product_id INT,
	quantity INT,
	list_price DECIMAL(10,2),
	discount DECIMAL(10,2)
);

CREATE TABLE projeto_kuster.orders(
	order_id INT,
	customer_id INT,
	order_status INT,
	order_date DATE,
	required_date DATE,
	shipped_date VARCHAR(255),
	store_id INT,
	staff_id INT	
);

CREATE TABLE projeto_kuster.products(
	product_id INT,
	product_name VARCHAR(255),
	brand_id INT,
	category_id INT,
	model_year INT,
	list_price DECIMAL(10,2)	
);

CREATE TABLE projeto_kuster.staffs(
	staff_id INT,
	first_name VARCHAR(30),
	last_name VARCHAR(30),
	email VARCHAR(255),
	phone VARCHAR(30),
	active BOOL,
	store_id INT,
	manager_id VARCHAR(30)
);

CREATE TABLE projeto_kuster.stocks(
	store_id INT,
	product_id INT,
	quantity INT
);

CREATE TABLE projeto_kuster.stores(
	store_id INT,
	store_name VARCHAR(30),
	phone VARCHAR(30),
	email VARCHAR(255),
	street VARCHAR(255),
	city VARCHAR(255),
	state VARCHAR(30),
	zip_code INT
);
```

---
Após a criação das tabelas repetimos os procedimento de carregamento dos dados utilizando os arquivos em .csv referenciados.

**Nota:** Em alguns casos surgiram algumas dificuldades pois a presença de valores ``null`` inviabilizava a tipagem de algumas colunas, como na tabela ``projeto_kuster.orders``, onde a presença do ``null`` não permitiu a tipagem da coluna ``shipped_date`` como ``DATE``.

Segue imagem do erro do PostgreSQL antes do ajuste final da tipagem:

![date_type_error_null.png](attachment:7df3c297-79a7-4b82-8fd8-0f44f3aea516.png)

Sendo assim, optamos por atribuir o tipo ``varchar`` nessa coluna.

<div style="background-color: lightgreen; padding: 10px;">
    <h2> Leitura dos Dados utilizando SQL
</div>

Após o carregamento das bases de dados, avançamos para a etapa de leitura e análise da estrutura das tabelas e dos tipos e das informações armazenadas.<br>

Primeiro, vamos estabelecer a conexão com a base de dados do ``PostgreSQL`` através da engine de conexão por meio dos parâmetros passados na ``URL`` abaixo:

In [3]:
# SGBD://USER:SENHA@HOST/DATABASE

SGBD = "postgresql+psycopg2"
USER = "postgres"
SENHA = "newpassword"
HOST = "localhost"
DATABASE = "postgres"

engine = create_engine(f"{SGBD}://{USER}:{SENHA}@{HOST}:5433/{DATABASE}")
engine.connect()

<sqlalchemy.engine.base.Connection at 0x1fbb1987950>

---
Conectado com sucesso, podemos iniciar as queries em SQL para leitura das tabelas, como por exemplo:
- Tabela ``projeto_kuster.brands``;

In [74]:
query = """
SELECT *
FROM
projeto_kuster.brands
"""
pd.read_sql_query(query, con = engine)

Unnamed: 0,brand_id,brand_name
0,1,Electra
1,2,Haro
2,3,Heller
3,4,Pure Cycles
4,5,Ritchey
5,6,Strider
6,7,Sun Bicycles
7,8,Surly
8,9,Trek


Identificamos que existem 9 marcas diferentes de bicicletas, as linhas estão indexadas de 0 a 9, e os ids das marcas vão de 1 a 9.<br>

Podemos verificar também a tipagem das colunas com o auxílio da biblioteca ``Pandas``, utilizando a função ``DataFrame.info()``, que trás consigo informações pertinentes da estrutura dos dados, além de contabilizar a quantidade de valores não-nulos:

In [77]:
df = pd.read_sql_query(query, con = engine)
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 2 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   brand_id    9 non-null      int64 
 1   brand_name  9 non-null      object
dtypes: int64(1), object(1)
memory usage: 276.0+ bytes
None


---
Agora podemos repetir o mesmo procedimento para as demais tabelas de nosso banco de dados:
- Tabela ``projeto_kuster.categories``;

Existem 7 categorias diferentes para a bicicletas e não há valores nulos na tabela.

In [20]:
query = """
SELECT *
FROM
projeto_kuster.categories
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,category_id,category_name
0,1,Children Bicycles
1,2,Comfort Bicycles
2,3,Cruisers Bicycles
3,4,Cyclocross Bicycles
4,5,Electric Bikes
5,6,Mountain Bikes
6,7,Road Bikes


In [21]:
df = pd.read_sql_query(query, con = engine)
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 2 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   category_id    7 non-null      int64 
 1   category_name  7 non-null      object
dtypes: int64(1), object(1)
memory usage: 244.0+ bytes
None


---
- Tabela ``projeto_kuster.customers``:

In [82]:
query = """
SELECT *
FROM
projeto_kuster.customers
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,customer_id,first_name,last_name,phone,email,street,city,state,zip_code
0,1,Debra,Burks,,debra.burks@yahoo.com,9273 Thorne Ave.,Orchard Park,NY,14127
1,2,Kasha,Todd,,kasha.todd@yahoo.com,910 Vine Street,Campbell,CA,95008
2,3,Tameka,Fisher,,tameka.fisher@aol.com,769C Honey Creek St.,Redondo Beach,CA,90278
3,4,Daryl,Spence,,daryl.spence@aol.com,988 Pearl Lane,Uniondale,NY,11553
4,5,Charolette,Rice,(916) 381-6003,charolette.rice@msn.com,107 River Dr.,Sacramento,CA,95820
...,...,...,...,...,...,...,...,...,...
1440,1441,Jamaal,Morrison,,jamaal.morrison@msn.com,796 SE. Nut Swamp St.,Staten Island,NY,10301
1441,1442,Cassie,Cline,,cassie.cline@gmail.com,947 Lafayette Drive,Brooklyn,NY,11201
1442,1443,Lezlie,Lamb,,lezlie.lamb@gmail.com,401 Brandywine Street,Central Islip,NY,11722
1443,1444,Ivette,Estes,,ivette.estes@gmail.com,88 N. Canterbury Ave.,Canandaigua,NY,14424


Essa tabela armazena as informações cadastrais dos clientes na base de dados, contendo telefone email e endereço.

**Nota:** Identificamos que existem valores nulos na tabela na coluna ``phone`` porém a indexação da variável como ``varchar`` acabou transformando esse valor em texto. 

Será necessário portanto utilizar-se de uma query para identificar quantos valores nulos possuímos:

In [97]:
query = """
SELECT COUNT(c.phone) as phone_missings
FROM
projeto_kuster.customers as c
WHERE c.phone = 'NULL'
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,phone_missings
0,1267


Sendo assim, 1267 valores estão em branco, de um total de 1445 observações.

---
- Tabela ``projeto_kuster.order_items``:

In [4]:
query = """
SELECT *
FROM
projeto_kuster.order_items
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,order_id,item_id,product_id,quantity,list_price,discount
0,1,1,20,1,599.99,0.20
1,1,2,8,2,1799.99,0.07
2,1,3,10,2,1549.00,0.05
3,1,4,16,2,599.99,0.05
4,1,5,4,1,2899.99,0.20
...,...,...,...,...,...,...
4717,1614,2,159,2,2299.99,0.07
4718,1614,3,213,2,269.99,0.20
4719,1615,1,197,2,2299.99,0.20
4720,1615,2,214,1,899.99,0.07


In [6]:
df = pd.read_sql_query(query, con = engine)
print(df.dtypes)

order_id        int64
item_id         int64
product_id      int64
quantity        int64
list_price    float64
discount      float64
dtype: object


Nessa tabela encontramos as principais informações e chaves estrangeiras a respeito dos pedidos realizados.

A tabela ``order_items`` armazena a relação entre o pedido, o produto, a quantidade, o preço total e o desconto aplicado.

---
- Tabela ``projeto_kuster.orders``:

In [7]:
query = """
SELECT *
FROM
projeto_kuster.orders
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,order_id,customer_id,order_status,order_date,required_date,shipped_date,store_id,staff_id
0,1,259,4,2016-01-01,2016-01-03,2016-01-03,1,2
1,2,1212,4,2016-01-01,2016-01-04,2016-01-03,2,6
2,3,523,4,2016-01-02,2016-01-05,2016-01-03,2,7
3,4,175,4,2016-01-03,2016-01-04,2016-01-05,1,3
4,5,1324,4,2016-01-03,2016-01-06,2016-01-06,2,6
...,...,...,...,...,...,...,...,...
1610,1611,6,3,2018-09-06,2018-09-06,,2,7
1611,1612,3,3,2018-10-21,2018-10-21,,1,3
1612,1613,1,3,2018-11-18,2018-11-18,,2,6
1613,1614,135,3,2018-11-28,2018-11-28,,3,8


In [8]:
df = pd.read_sql_query(query, con = engine)
print(df.dtypes)

order_id          int64
customer_id       int64
order_status      int64
order_date       object
required_date    object
shipped_date     object
store_id          int64
staff_id          int64
dtype: object


Essa tabela armazena as informações primárias do pedido em si. O cliente relacionado, o status do pedido, data do pedido e do envio, caso exista, e também informações sobre a loja e o staff que o vendeu.

A documentação da base de dados trouxe a informação de que os status do pedido são enumerados de 1 a 4, sendo:<br>
- 1: Pending
- 2: Processing
- 3: Rejected
- 4: Completed

**Nota:** Identificamos que existem valores nulos na tabela na coluna ``shipped_date`` porém a indexação da variável como ``varchar`` acabou transformando esse valor em texto. 

Será necessário portanto utilizar-se de uma query para identificar quantos valores nulos possuímos:

In [99]:
query = """
SELECT COUNT(o.shipped_date) as shipped_missings
FROM
projeto_kuster.orders as o
WHERE o.shipped_date = 'NULL'
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,shipped_missings
0,170


Sendo assim, 170 valores estão em branco, de um total de 1614 observações.

---
- Tabela ``projeto_kuster.products``:

In [9]:
query = """
SELECT *
FROM
projeto_kuster.products
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,product_id,product_name,brand_id,category_id,model_year,list_price
0,1,Trek 820 - 2016,9,6,2016,379.99
1,2,Ritchey Timberwolf Frameset - 2016,5,6,2016,749.99
2,3,Surly Wednesday Frameset - 2016,8,6,2016,999.99
3,4,Trek Fuel EX 8 29 - 2016,9,6,2016,2899.99
4,5,Heller Shagamaw Frame - 2016,3,6,2016,1320.99
...,...,...,...,...,...,...
316,317,Trek Checkpoint ALR 5 - 2019,9,7,2019,1999.99
317,318,Trek Checkpoint ALR 5 Women's - 2019,9,7,2019,1999.99
318,319,Trek Checkpoint SL 5 Women's - 2019,9,7,2019,2799.99
319,320,Trek Checkpoint SL 6 - 2019,9,7,2019,3799.99


In [10]:
df = pd.read_sql_query(query, con = engine)
print(df.dtypes)

product_id        int64
product_name     object
brand_id          int64
category_id       int64
model_year        int64
list_price      float64
dtype: object


Na tabela ``products`` encontramos o cadastro de todas as bicicletas incluindo marca, categoria, ano de fabricação e preço.

Com exceção do nome do produto, todas as demais colunas são numéricas, sendo int ou float no caso do preço.

---
- Tabela ``projeto_kuster.staffs``:

In [11]:
query = """
SELECT *
FROM
projeto_kuster.staffs
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,staff_id,first_name,last_name,email,phone,active,store_id,manager_id
0,1,Fabiola,Jackson,fabiola.jackson@bikes.shop,(831) 555-5554,True,1,
1,2,Mireya,Copeland,mireya.copeland@bikes.shop,(831) 555-5555,True,1,1.0
2,3,Genna,Serrano,genna.serrano@bikes.shop,(831) 555-5556,True,1,2.0
3,4,Virgie,Wiggins,virgie.wiggins@bikes.shop,(831) 555-5557,True,1,2.0
4,5,Jannette,David,jannette.david@bikes.shop,(516) 379-4444,True,2,1.0
5,6,Marcelene,Boyer,marcelene.boyer@bikes.shop,(516) 379-4445,True,2,5.0
6,7,Venita,Daniel,venita.daniel@bikes.shop,(516) 379-4446,True,2,5.0
7,8,Kali,Vargas,kali.vargas@bikes.shop,(972) 530-5555,True,3,1.0
8,9,Layla,Terrell,layla.terrell@bikes.shop,(972) 530-5556,True,3,7.0
9,10,Bernardine,Houston,bernardine.houston@bikes.shop,(972) 530-5557,True,3,7.0


In [12]:
df = pd.read_sql_query(query, con = engine)
print(df.dtypes)

staff_id       int64
first_name    object
last_name     object
email         object
phone         object
active          bool
store_id       int64
manager_id    object
dtype: object


Na tabela ``staffs`` temos as informações cadastrais dos vendedores das lojas, se ele se encontra ativo, sua loja e manager.

Como existem valores nulos na coluna ``manager_id``, iremos utilizar uma query para contabilizar a quantidade de missings:

In [13]:
query = """
SELECT COUNT(s.manager_id) as manager_missings
FROM
projeto_kuster.staffs as s
WHERE s.manager_id = 'NULL'
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,manager_missings
0,1


---
- Tabela ``projeto_kuster.stocks``:

In [14]:
query = """
SELECT *
FROM
projeto_kuster.stocks
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,store_id,product_id,quantity
0,1,1,27
1,1,2,5
2,1,3,6
3,1,4,23
4,1,5,22
...,...,...,...
934,3,309,30
935,3,310,8
936,3,311,23
937,3,312,18


In [15]:
df = pd.read_sql_query(query, con = engine)
print(df.dtypes)

store_id      int64
product_id    int64
quantity      int64
dtype: object


A tabela ``stocks`` armazena informações da quantidade de produtos disponíveis em cada loja. Caso não haja disponibilidade é atribuido valor 0.

---
- Tabela ``projeto_kuster.stores``:

In [16]:
query = """
SELECT *
FROM
projeto_kuster.stores
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,store_id,store_name,phone,email,street,city,state,zip_code
0,1,Santa Cruz Bikes,(831) 476-4321,santacruz@bikes.shop,3700 Portola Drive,Santa Cruz,CA,95060
1,2,Baldwin Bikes,(516) 379-8888,baldwin@bikes.shop,4200 Chestnut Lane,Baldwin,NY,11432
2,3,Rowlett Bikes,(972) 530-5555,rowlett@bikes.shop,8000 Fairway Avenue,Rowlett,TX,75088


In [19]:
df = pd.read_sql_query(query, con = engine)
print(df.dtypes)

store_id       int64
store_name    object
phone         object
email         object
street        object
city          object
state         object
zip_code       int64
dtype: object


A tabela ``stores`` por fim, armazena informações das 3 lojas cadastradas para a venda de bicicletas, contendo colunas para contato e também sobre a localização geográfica.

---
Concluimos essa etapa identificando informações importantes a respeito da estrutura de cada tabela.

Já sabemos a quantidade de informações exibida, entendemos que existem colunas com informações faltantes e também estamos atentos ao formato de cada informação, que podem ser chaves primárias contendo id's, strings e também valores numéricos inteiros e decimais.

<div style="background-color: lightgreen; padding: 10px;">
    <h2>  Análise exploratória dos dados
</div>

Passadas as etapas de construção, tipagem, e leitura das tabelas, avançamos para a análise exploratória dos dados.

Nosso objetivo é aplicar as funções para unir as tabelas (``JOIN``) conforme especificado no esquema inicial, e realizar consultas envolvendo filtragens e cálculos com as variáveis para responder possíveis perguntas de negócio.

<div style="background-color: lightgray; padding: 10px;">
    <h3>  Distribuição geográfica:
</div>

---
Um primeiro assunto a ser analisado é sobre a **distribuição geográfica** dos clientes e das vendas.

- Como estão distribuídos os clientes geograficamente?
- Quais são os estados com mais clientes? Quais são as cidades com mais clientes?
- Qual o número de vendas por estado?
- Qual loja possui o maior número de vendas, ela se localiza no mesmo estado com maior número de vendas?

In [33]:
query = """
SELECT state, COUNT(customer_id) as qty
FROM
projeto_kuster.customers
GROUP BY state
ORDER BY qty DESC
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,state,qty
0,NY,1019
1,CA,284
2,TX,142


In [36]:
query = """
SELECT state, city, COUNT(customer_id) as qty
FROM
projeto_kuster.customers
GROUP BY city, state
ORDER BY qty DESC
LIMIT 10
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,state,city,qty
0,NY,Mount Vernon,20
1,NY,Ballston Spa,17
2,NY,Scarsdale,17
3,NY,Canandaigua,14
4,NY,Ossining,13
5,TX,Longview,13
6,NY,Floral Park,13
7,NY,Richmond Hill,12
8,NY,Merrick,12
9,NY,Astoria,12


Identificamos que o estado com o maior número de Clientes é ``NY - New York``, com 1019 clientes.

As cidades que possuem maior número de clientes são ``Mount Vernon``, com 20 clientes. Seguidas por ``Ballston Spa`` e ``Scarsdale``, com 17 clientes cada.

Do TOP10 de cidades com mais clientes, 9 delas estão no estado de ``New York (NY)``, e somente 1 vem do ``Texas (TX)``.

---
Para calcular o número de vendas por estado, vamos precisar realizar ``JOINs`` entre as tabelas ``customers`` e ``orders``:

In [41]:
query = """
SELECT c.state, COUNT(o.order_id) as qty
FROM
projeto_kuster.customers as c
LEFT JOIN projeto_kuster.orders as o
ON o.customer_id = c.customer_id
GROUP BY 1
ORDER BY 2 DESC
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,state,qty
0,NY,1093
1,CA,348
2,TX,174


Identificamos então que os 1019 clientes do estado de New York (NY) contabilizam 1093 pedidos nesse banco de dados.

---
Para calcular o número de vendas por loja, vamos precisar realizar ``JOINs`` entre as tabelas ``orders`` e ``stores``:

In [43]:
query = """
SELECT s.store_name, COUNT(o.order_id) as qty
FROM
projeto_kuster.stores as s
LEFT JOIN projeto_kuster.orders as o
ON o.store_id = s.store_id
GROUP BY 1
ORDER BY 2 DESC
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,store_name,qty
0,Baldwin Bikes,1093
1,Santa Cruz Bikes,348
2,Rowlett Bikes,174


O número de vendas por loja é exatamente igual ao número de vendas por estado visto anteriormente. Então, vamos atestar isso verificando com a coluna ``state`` da tabelas lojas e também ta tabela ``customers`` para concluir se existem ou não vendas para estados diferentes do da localização da loja:

In [48]:
query = """
SELECT s.state as store_state, c.state as customer_state, COUNT(o.order_id) as qty
FROM
projeto_kuster.stores as s
LEFT JOIN projeto_kuster.orders as o
ON o.store_id = s.store_id
LEFT JOIN projeto_kuster.customers as c
ON c.customer_id = o.customer_id
GROUP BY 1,2
ORDER BY 3 DESC
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,store_state,customer_state,qty
0,NY,NY,1093
1,CA,CA,348
2,TX,TX,174


Concluímos então que todas as vendas são realizadas para os mesmos estados dos quais as lojas estão localizadas. Ou seja, não existem vendas interestaduais nessa base de dados. 

Pode ser uma preferência de logística das lojas, ou também limitação do frete para as entregas, supomos.

<div style="background-color: lightgray; padding: 10px;">
    <h3>  Análise de produtos:
</div>

---
Agora, podemos avançar para a exploração da tabela de **produtos**.
- Qual o produto mais caro, e o mais barato?
- Como identificar quais produtos mais vendidos?
- Qual marca e qual categoria possui mais produtos vendidos?
- Ainda existe estoque disponível do produto mais vendido em alguma loja?

In [57]:
query = """
SELECT max(list_price), product_name
FROM
projeto_kuster.products
GROUP BY 2
ORDER BY 1 DESC
LIMIT 1
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,max,product_name
0,11999.99,Trek Domane SLR 9 Disc - 2018


In [59]:
query = """
SELECT min(list_price), product_name
FROM
projeto_kuster.products
GROUP BY 2
ORDER BY 1 ASC
LIMIT 1
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,min,product_name
0,89.99,Strider Classic 12 Balance Bike - 2018


Agora sabemos que as bicicletas custam desde 89,99 dólares até altos valores como a ``Trek Domane SLR 9 Disc - 2018`` que custa seus incríveis 12 mil dólares.

---
Para calcularmos os produtos mais vendidos, vamos precisar realizar ``JOINs`` entre as tabelas ``order_items`` e ``products``:

In [95]:
query = """
SELECT product_name, p.list_price, SUM(quantity) as total
FROM
projeto_kuster.order_items as o 
LEFT JOIN projeto_kuster.products as p
ON p.product_id = o.product_id
GROUP BY 1, 2
ORDER BY 3 DESC
LIMIT 5
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,product_name,list_price,total
0,Electra Cruiser 1 (24-Inch) - 2016,269.99,296
1,Electra Townie Original 7D EQ - 2016,599.99,290
2,Electra Townie Original 21D - 2016,549.99,289
3,Electra Girl's Hawaii 1 (16-inch) - 2015/2016,269.99,269
4,Surly Ice Cream Truck Frameset - 2016,469.99,167


Observamos que as bicicletas mais vendidas (top 5) por nome, custam na faixa de 270 a 550 dólares.

A campeã de vendas é a ``Electra Cruiser 1 (24-Inch) - 2016``, que custa US$269,99.

Porém, vamos verificar se o id do produto influencia nessa verificação, já que um mesmo nome de bicicleta **pode ou não** aparecer cadastrado com ids diferentes.

In [96]:
query = """
SELECT *
FROM
projeto_kuster.products as p
WHERE p.product_name = 'Electra Cruiser 1 (24-Inch) - 2016'
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,product_id,product_name,brand_id,category_id,model_year,list_price
0,13,Electra Cruiser 1 (24-Inch) - 2016,1,3,2016,269.99
1,21,Electra Cruiser 1 (24-Inch) - 2016,1,1,2016,269.99


Vemos que existem 2 tipos de ``Electra Cruiser 1 (24-Inch) - 2016``. O que varia é a categoria, que pode ser 1 ou 3 (Cruiser, ou para Crianças).
Logo, vamos refazer a query dos produtos mais vendidos, considerando também os products_ids:

In [98]:
query = """
SELECT product_name, p.product_id, p.list_price, SUM(quantity) as total
FROM
projeto_kuster.order_items as o 
LEFT JOIN projeto_kuster.products as p
ON p.product_id = o.product_id
GROUP BY 1, 2, 3
ORDER BY 4 DESC
LIMIT 5
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,product_name,product_id,list_price,total
0,Surly Ice Cream Truck Frameset - 2016,6,469.99,167
1,Electra Cruiser 1 (24-Inch) - 2016,13,269.99,157
2,Electra Townie Original 7D EQ - 2016,16,599.99,156
3,Trek Slash 8 27.5 - 2016,7,3999.99,154
4,Electra Girl's Hawaii 1 (20-inch) - 2015/2016,23,299.99,154


Agora o resultado é um pouco diferente, quando olhamos por ``product_id``, a bicicleta cujo id é o mais vendido, é a ``Surly Ice Cream Truck Frameset - 2016`` com o valor de US$ 469,99 e a referida ``Electra Cruiser`` cujo id é = 13, caiu para a segunda posição.

<div style="background-color: lightgray; padding: 10px;">
    <h3>  Análise de marcas, categorias e estoque:
</div>

---
Agora, para calcularmos os produtos mais vendidos por marca e categoria, vamos precisar realizar ``JOINs`` entre as tabelas ``order_items`` e ``products``, e também com as tabelas ``brands`` e ``categories``. Em seguida, vamos realizar 3 queries para encontrar essas respostas:

In [87]:
query = """
SELECT category_name,ct.category_id, SUM(quantity) as total
FROM
projeto_kuster.order_items as o 
LEFT JOIN projeto_kuster.products as p
ON p.product_id = o.product_id
LEFT JOIN projeto_kuster.categories as ct
ON ct.category_id = p.category_id

GROUP BY 1,2
ORDER BY 3 DESC
LIMIT 10
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,category_name,category_id,total
0,Cruisers Bicycles,3,2063
1,Mountain Bikes,6,1755
2,Children Bicycles,1,1179
3,Comfort Bicycles,2,813
4,Road Bikes,7,559
5,Cyclocross Bicycles,4,394
6,Electric Bikes,5,315


In [89]:
query = """
SELECT brand_name,b.brand_id, SUM(quantity) as total
FROM
projeto_kuster.order_items as o 
LEFT JOIN projeto_kuster.products as p
ON p.product_id = o.product_id
LEFT JOIN projeto_kuster.brands as b
ON b.brand_id = p.brand_id

GROUP BY 1,2
ORDER BY 3 DESC
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,brand_name,brand_id,total
0,Electra,1,2612
1,Trek,9,1839
2,Surly,8,908
3,Sun Bicycles,7,731
4,Pure Cycles,4,376
5,Haro,2,331
6,Heller,3,138
7,Ritchey,5,118
8,Strider,6,25


In [92]:
query = """
SELECT brand_name,category_name, SUM(quantity) as total
FROM
projeto_kuster.order_items as o 
LEFT JOIN projeto_kuster.products as p
ON p.product_id = o.product_id
LEFT JOIN projeto_kuster.brands as b
ON b.brand_id = p.brand_id
LEFT JOIN projeto_kuster.categories as ct
ON ct.category_id = p.category_id

GROUP BY 1,2
ORDER BY 3 DESC
LIMIT 5
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,brand_name,category_name,total
0,Electra,Cruisers Bicycles,1329
1,Trek,Mountain Bikes,752
2,Electra,Children Bicycles,747
3,Surly,Mountain Bikes,526
4,Electra,Comfort Bicycles,524


Concluímos que a categoria de bikes mais vendidas são as ``Cruisers Bicycles``. São bicicletas confortáveis e de guidon mais largo, utilizadas para deslocamentos urbanos.

Quando olhamos para as marcas, novamente encontramos as ``Electra`` no top1.

Quando combinamos ambas colunas ``category`` e ``brand``, encontramos a Electra no TOP5 de marcas por categoria.

---
Agora que conhecemos o id do produto mais vendido (``product_id = 6``), podemos consultar se existe estoque em alguma loja, realizando ``JOINs`` entre as tabelas ``stores`` e ``stocks``:

In [101]:
query = """
SELECT *
FROM
projeto_kuster.stores as s
LEFT JOIN projeto_kuster.stocks as k
ON k.store_id = s.store_id
WHERE product_id = 6
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,store_id,store_name,phone,email,street,city,state,zip_code,store_id.1,product_id,quantity
0,1,Santa Cruz Bikes,(831) 476-4321,santacruz@bikes.shop,3700 Portola Drive,Santa Cruz,CA,95060,1,6,0
1,2,Baldwin Bikes,(516) 379-8888,baldwin@bikes.shop,4200 Chestnut Lane,Baldwin,NY,11432,2,6,11
2,3,Rowlett Bikes,(972) 530-5555,rowlett@bikes.shop,8000 Fairway Avenue,Rowlett,TX,75088,3,6,27


Concluímos essa etapa após uma extensa análise de produtos vendidos, marcas e categorias, e completamos com uma análise de estoque, onde mostramos que o produto mais vendido está em falta na loja ``Santa Cruz Bikes``, mas ainda existem 38 unidades distribuídas entre as outras 2 lojas.

<div style="background-color: lightgray; padding: 10px;">
    <h3>  Estatísticas descritivas dos pedidos:
</div>

---
Podemos explorar também as estatísticas descritivas das informações das vendas.

Por exemplo:
- Qual o valor médio de um pedido?
- Qual o máximo valor que cada vendedor já vendeu em um único pedido?
- Qual a quantidade de pedidos por order_status?
- Qual o valor total dos pedidos que ainda estão com order_status = 'Pending' ?

In [128]:
query = """

SELECT *
FROM
projeto_kuster.order_items as o
LIMIT 6
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,order_id,item_id,product_id,quantity,list_price,discount
0,1,1,20,1,599.99,0.2
1,1,2,8,2,1799.99,0.07
2,1,3,10,2,1549.0,0.05
3,1,4,16,2,599.99,0.05
4,1,5,4,1,2899.99,0.2
5,2,1,20,1,599.99,0.07


Como dentro da tabela ``order_items`` nós temos diferentes produtos e quantidades relacionados a um mesmo ``order_id``, para responder à pergunta do preço médio de um pedido, vamos precisar utilizar alguns recursos importantes nas queries.

Primeiro, com uma ``cte`` vamos calcular o valor total dos itens de cada pedido, e depois agregar com uma soma, para descobrir o valor total de cada pedido:

In [131]:
query = """
WITH order_price as(
SELECT order_id, (o.list_price * quantity) as total_value
FROM
projeto_kuster.order_items as o
GROUP BY 1,2
ORDER BY 1 ASC
) 

SELECT SUM(total_value), order_id 
FROM 
order_price
GROUP BY 2
LIMIT 5
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,sum,order_id
0,11397.94,1
1,1799.97,2
2,1599.98,3
3,1499.98,4
4,4126.99,5


Agora somos capazes de calcular o valor médio de cada pedido, e também de descobrirmos qual valor máximo cada vendedor já vendeu em um único pedido.

In [133]:
query = """
WITH order_price as(
SELECT order_id, (o.list_price * quantity) as total_value
FROM
projeto_kuster.order_items as o
GROUP BY 1,2
ORDER BY 1 ASC
) 

SELECT AVG(total_value) as average_value
FROM 
order_price
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,average_value
0,1825.27563


In [148]:
query = """
WITH order_price as(
SELECT order_id, (o.list_price * quantity) as total_value
FROM
projeto_kuster.order_items as o
GROUP BY 1,2
ORDER BY 1 ASC
) 

SELECT s.staff_id, s.first_name, MAX(total_value) as max_value
FROM 
order_price
LEFT JOIN projeto_kuster.orders as o
ON o.order_id = order_price.order_id
LEFT JOIN projeto_kuster.staffs as s
ON s.staff_id = o.staff_id
GROUP BY 1,2
ORDER BY 3 DESC

"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,staff_id,first_name,max_value
0,6,Marcelene,23999.98
1,7,Venita,23999.98
2,9,Layla,12999.98
3,2,Mireya,12999.98
4,8,Kali,11999.98
5,3,Genna,10999.98


Identificamos que o valor médio de um pedido é de aproximadamente US$ 1825.

Com relação aos vendedores, as campeãs de vendas são Marcelene e Venita, com vendas que já atingiram a marca de quase US$ 24 mil.

---
Para finalizar nossa análise, vamos olhar para os pedidos e entender qual a quantidade de pedidos por cada tipo de ``order_status``, relembrando a regra:
- 1: Pending
- 2: Processing
- 3: Rejected
- 4: Completed

In [151]:
query = """

SELECT order_status, COUNT(order_id)
FROM
projeto_kuster.orders as o
GROUP BY 1
ORDER BY 2 DESC
"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,order_status,count
0,4,1445
1,2,63
2,1,62
3,3,45


Existem portanto 1445 pedidos já finalizados. 

Existem também 62 pedidos pendentes.

Queremos entender o valor total dos pedidos que estão ``Pending`` e requer uma atenção maior do pessoal de vendas para garantir esse sucesso.

Portanto, estaremos interessados em filtrar nossa ``cte`` utilizando o filtro ``WHERE order_status = 1``

In [154]:
query = """
WITH order_price as(
SELECT order_id, (o.list_price * quantity) as total_value
FROM
projeto_kuster.order_items as o
GROUP BY 1,2
ORDER BY 1 ASC
) 

SELECT o.order_status, SUM(total_value) as sum
FROM 
order_price
LEFT JOIN projeto_kuster.orders as o
ON o.order_id = order_price.order_id

WHERE order_status = 1
GROUP BY 1
ORDER BY 2 DESC

"""

pd.read_sql_query(query, con = engine)

Unnamed: 0,order_status,sum
0,1,421212.42


---
Concluímos essa etapa com uma análise detalhada que envolveu ``JOINs`` com todas as tabelas da nossa base de dados.

Exploramos o potencial dos produtos mais vendidos, das categorias e também das marcas.

Entendemos a disponibilizade de estoque do produto mais vendido, e também analisamos a performance dos vendedores.

Por fim, nos desafiamos a entender qual o valor acumulado que os pedidos com status pendentes somam, e chegamos ao valor na casa de US$421 mil dólares.

<div style="background-color: lightgreen; padding: 10px;">
    <h2>  Conclusões
</div>

Este projeto buscou aplicar os conhecimentos de ``SQL`` e ``Python`` adquiridos no módulo de **Banco de Dados I** por meio da aplicação prática, utilizando dados que simulam a realidade.

Foi possível explorar um conjunto de ``9 tabelas`` que compõem um banco de dados de vendas de bicicletas, incluindo ``clientes``, ``produtos`` e ``pedidos``.

Durante a etapa de construção do banco de dados, estivemos atentos para entender quais eram as colunas e especificar corretamente a tipagem dos dados.

Durante a etapa de leitura, buscamos entender quais as informações que as tabelas apresentavam em suas colunas.

E por fim, durante a análise, buscamos responder perguntas de negócio sobre a localização geográfica das vendas, quais os produtos e marcas mais vendidos, visando extrair dados valiosos e que possam alavancar ainda mais as vendas de cada loja.

Obrigado pela atenção de todos. 
Fiquem à vontade para apresentar melhorias nos códigos.