# Sales Analysis - Relatorio Completo

Projeto de analise de dados de vendas com Python

Dataset: 3000 registros de vendas fict√≠cios

In [None]:
import sys
sys.path.insert(0, '.')

from src.generate_data import generate_sales_dataset
from src.cleaning import clean_sales_data
from src.analysis import calculate_kpis, sales_by_month, top_products
from src.visuals import plot_sales_over_time, plot_top_products
import pandas as pd
import os

print('[OK] Bibliotecas carregadas com sucesso!')

## 1. Carregando dados

In [None]:
# Gerar dados
df_raw = generate_sales_dataset(n_rows=3000, output_path='data/raw/sales_raw.csv')
print(f'Shape: {df_raw.shape}')
print(f'\nPrimeiras linhas:')
df_raw.head()

## 2. Limpando dados

In [None]:
df_clean = clean_sales_data(df_raw, output_path='data/processed/sales_clean.csv')
print(f'Dados originais: {df_raw.shape}')
print(f'Dados limpos: {df_clean.shape}')
print(f'\nLinhas removidas: {len(df_raw) - len(df_clean)}')

## 3. KPIs Principais

In [None]:
kpis = calculate_kpis(df_clean)
print(kpis.to_string(index=False))

## 4. Vendas por Mes

In [None]:
monthly = sales_by_month(df_clean)
print(monthly.to_string(index=False))

## 5. Grafico: Vendas ao Longo do Tempo

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
plt.plot(range(len(monthly)), monthly['Total de Vendas'], marker='o', linewidth=2, color='steelblue')
plt.xlabel('Mes', fontsize=12)
plt.ylabel('Vendas (R$)', fontsize=12)
plt.title('Vendas ao Longo do Tempo', fontsize=14, fontweight='bold')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

## 6. Top 10 Produtos

In [None]:
top = top_products(df_clean, n=10)
print(top.to_string(index=False))

## 7. Grafico: Top 10 Produtos Mais Vendidos

In [None]:
plt.figure(figsize=(12, 6))
plt.bar(top['Produto'], top['Total de Vendas'], color='steelblue')
plt.xlabel('Produto', fontsize=12)
plt.ylabel('Vendas (R$)', fontsize=12)
plt.title('Top 10 Produtos Mais Vendidos', fontsize=14, fontweight='bold')
plt.xticks(rotation=45, ha='right')
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 8. Analise por Regiao

In [None]:
by_region = df_clean.groupby('region').agg({
    'sales': 'sum',
    'quantity': 'sum'
}).sort_values('sales', ascending=False).reset_index()

by_region.columns = ['Regiao', 'Total de Vendas', 'Quantidade']
print(by_region.to_string(index=False))

## 9. Conclusoes

- Dataset analisado: 3000 transacoes de vendas
- Periodo: Jan 2023 - Dez 2024
- Produtos: 5 categorias diferentes
- Regioes: 5 regioes geograficas
- Dados limpos e validados com sucesso