# An√°lise de Dados - Silver Layer (Star Schema)

Este notebook demonstra como acessar e analisar os dados da camada Silver.

**Estrutura:**
- `bronze.vehicle_prices` - Dados brutos (1M registros)
- `silver.dim_modelo` - Dimens√£o de modelos
- `silver.dim_especificacao` - Dimens√£o de especifica√ß√µes
- `silver.fato_veiculo` - Tabela fato com m√©tricas


## 1. Importa√ß√µes e Conex√£o


In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sqlalchemy import create_engine

# Configurar visualiza√ß√µes
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
%matplotlib inline

print("Bibliotecas importadas com sucesso!")


In [None]:
# Conectar ao banco de dados PostgreSQL
engine = create_engine('postgresql://sbd2_vehicle:sbd2_vehicle@postgres:5432/sbd2_vehicle')

print("Conex√£o estabelecida com sucesso!")


## üîç 2. Verifica√ß√£o - Schemas e Tabelas


In [None]:
# Contar registros em todas as tabelas
query = """
SELECT 'Bronze' as camada, 'vehicle_prices' as tabela, COUNT(*) as registros 
FROM bronze.vehicle_prices
UNION ALL
SELECT 'Silver', 'dim_modelo', COUNT(*) FROM silver.dim_modelo
UNION ALL
SELECT 'Silver', 'dim_especificacao', COUNT(*) FROM silver.dim_especificacao
UNION ALL
SELECT 'Silver', 'fato_veiculo', COUNT(*) FROM silver.fato_veiculo
"""

df_tabelas = pd.read_sql(query, engine)
print("Tabelas e Registros:") 
display(df_tabelas)


## üìà 3. An√°lise: Top 10 Marcas Mais Caras


In [None]:
query = """
SELECT 
    m.make as marca,
    ROUND(AVG(f.price)::numeric, 2) as preco_medio,
    COUNT(*) as quantidade
FROM silver.fato_veiculo f
JOIN silver.dim_modelo m ON f.id_modelo = m.id_modelo
GROUP BY m.make
ORDER BY preco_medio DESC
LIMIT 10
"""

df_top_marcas = pd.read_sql(query, engine)
display(df_top_marcas)

# Visualiza√ß√£o
plt.figure(figsize=(12, 6))
plt.barh(df_top_marcas['marca'], df_top_marcas['preco_medio'])
plt.xlabel('Pre√ßo M√©dio ($)')
plt.ylabel('Marca')
plt.title('Top 10 Marcas Mais Caras (Pre√ßo M√©dio)')
plt.gca().invert_yaxis()
for i, v in enumerate(df_top_marcas['preco_medio']):
    plt.text(v, i, f' ${v:,.0f}', va='center')
plt.tight_layout()
plt.show()


## üö® 4. Impacto de Acidentes no Pre√ßo


In [None]:
query = """
SELECT 
    e.accident_history as historico,
    ROUND(AVG(f.price)::numeric, 2) as preco_medio,
    COUNT(*) as quantidade
FROM silver.fato_veiculo f
JOIN silver.dim_especificacao e ON f.id_especificacao = e.id_especificacao
GROUP BY e.accident_history
ORDER BY preco_medio DESC
"""

df_acidentes = pd.read_sql(query, engine)
display(df_acidentes)

# Visualiza√ß√£o
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

ax1.bar(df_acidentes['historico'], df_acidentes['preco_medio'])
ax1.set_ylabel('Pre√ßo M√©dio ($)')
ax1.set_title('Impacto no Pre√ßo')
ax1.tick_params(axis='x', rotation=45)

ax2.bar(df_acidentes['historico'], df_acidentes['quantidade'])
ax2.set_ylabel('Quantidade')
ax2.set_title('Distribui√ß√£o')
ax2.tick_params(axis='x', rotation=45)

plt.tight_layout()
plt.show()


In [None]:
# Encontrar ve√≠culos com melhor custo-benef√≠cio
query = """
SELECT 
    m.make || ' ' || m.model as veiculo,
    m.year,
    f.mileage as km,
    ROUND(f.price::numeric, 2) as preco
FROM silver.fato_veiculo f
JOIN silver.dim_modelo m ON f.id_modelo = m.id_modelo
WHERE f.price < 20000  -- Abaixo do pre√ßo m√©dio
  AND f.mileage < 80000  -- Baixa quilometragem
  AND m.year >= 2018  -- Relativamente novo
ORDER BY f.price ASC
LIMIT 20
"""

df = pd.read_sql(query, engine)
print("Ve√≠culos com Melhor Custo-Benef√≠cio:")
display(df)
