## Introdução

Este notebook tem como objetivo realizar a integração do projeto com um banco de dados PostgreSQL,
permitindo a análise dos dados de vendas utilizando SQL.

Aqui são realizadas:
- Conexão com o banco de dados
- Validação da carga de dados
- Consultas SQL analíticas
- Extração de insights estratégicos

Essa abordagem simula um cenário real de mercado, onde dados são consumidos diretamente de um banco relacional.


1 - Importando Libs

In [1]:
import pandas as pd
from sqlalchemy import create_engine


2- Conexão com o banco e testes

In [2]:
#conexão com o banco
engine = create_engine(
    "postgresql://postgres:caua2005@localhost:5432/supermarket_sales"
)


In [5]:
#Carregando o CSV
df = pd.read_csv("../data/sales.csv")


In [7]:
#Enviando para o banco
df.to_sql(
    "sales",
    engine,
    if_exists="append",  # ou "replace"
    index=False
)


1000

In [None]:
pd.read_sql("SELECT COUNT(*) FROM sales", engine)


Unnamed: 0,count
0,1000


In [12]:
query = "SELECT * FROM sales LIMIT 10"
df_preview = pd.read_sql(query, engine)
df_preview


Unnamed: 0,sale_id,branch,city,customer_type,gender,product_name,product_category,unit_price,quantity,tax,total_price,reward_points
0,1,A,New York,Member,Male,Shampoo,Personal Care,5.5,3,1.16,17.66,1
1,2,B,Los Angeles,Normal,Female,Notebook,Stationery,2.75,10,1.93,29.43,0
2,3,A,New York,Member,Female,Apple,Fruits,1.2,15,1.26,19.26,1
3,4,A,Chicago,Normal,Male,Detergent,Household,7.8,5,2.73,41.73,0
4,5,B,Los Angeles,Member,Female,Orange Juice,Beverages,3.5,7,1.72,26.22,2
5,6,A,Chicago,Normal,Male,Shampoo,Stationery,11.24,9,7.08,108.24,0
6,7,A,Chicago,Normal,Male,Shampoo,Personal Care,10.71,1,0.75,11.46,0
7,8,B,Los Angeles,Normal,Female,Shampoo,Household,18.23,9,11.48,175.55,0
8,9,A,Chicago,Member,Female,Apple,Fruits,14.15,20,19.81,302.81,30
9,10,B,Los Angeles,Member,Male,Shampoo,Fruits,18.42,19,24.5,374.48,37


3 - Análises SQL

In [13]:
query = """
SELECT 
    SUM(total_price) AS faturamento_total
FROM sales
"""
pd.read_sql(query, engine)


Unnamed: 0,faturamento_total
0,118583.9


4 - Faturamento

In [14]:
#Faturamento por cidade
query = """
SELECT 
    city,
    SUM(total_price) AS faturamento
FROM sales
GROUP BY city
ORDER BY faturamento DESC
"""
pd.read_sql(query, engine)


Unnamed: 0,city,faturamento
0,Chicago,42584.71
1,New York,40226.93
2,Los Angeles,35772.26


In [15]:
#Produtos mais vendidos
query = """
SELECT 
    product_name,
    SUM(quantity) AS total_vendido
FROM sales
GROUP BY product_name
ORDER BY total_vendido DESC
LIMIT 10
"""
pd.read_sql(query, engine)

Unnamed: 0,product_name,total_vendido
0,Shampoo,2238.0
1,Orange Juice,2183.0
2,Notebook,2165.0
3,Detergent,2010.0
4,Apple,1741.0


In [16]:
#Receita por categoria
query = """
SELECT 
    product_category,
    SUM(total_price) AS faturamento
FROM sales
GROUP BY product_category
ORDER BY faturamento DESC
"""
pd.read_sql(query, engine)


Unnamed: 0,product_category,faturamento
0,Personal Care,27050.18
1,Fruits,26197.45
2,Beverages,22983.32
3,Household,21615.84
4,Stationery,20737.11


5 - Análise por tipo de cliente

In [17]:
query = """
SELECT 
    customer_type,
    COUNT(*) AS total_vendas,
    SUM(total_price) AS faturamento
FROM sales
GROUP BY customer_type
"""
pd.read_sql(query, engine)


Unnamed: 0,customer_type,total_vendas,faturamento
0,Normal,484,55370.27
1,Member,516,63213.63


7 - Integração SQL + Pandas

In [18]:
query = """
SELECT 
    city,
    SUM(total_price) AS faturamento
FROM sales
GROUP BY city
"""
df_city = pd.read_sql(query, engine)

df_city.sort_values(by="faturamento", ascending=False)


Unnamed: 0,city,faturamento
0,Chicago,42584.71
1,New York,40226.93
2,Los Angeles,35772.26


## Conclusão

Neste notebook foi possível integrar um banco de dados PostgreSQL ao projeto,
realizando análises diretamente via SQL, como ocorre em ambientes corporativos.

Principais aprendizados e resultados:
- Validação e consumo de dados em banco relacional
- Uso de SQL para análises analíticas e agregações
- Extração de insights estratégicos a partir dos dados
- Integração eficiente entre SQL e pandas

### Pontos de melhoria e próximos passos:
- Implementar índices no banco para otimização de performance
- Criar views SQL para consultas recorrentes
- Integrar a base a uma ferramenta de BI (Power BI ou Streamlit)
- Automatizar o pipeline de carga de dados (ETL)

Essa estrutura torna o projeto mais robusto, profissional e alinhado
com práticas reais do mercado de dados.
