# üõçÔ∏è PROJETO: An√°lise Completa de E-commerce
## Pipeline de Dados com Pandas

**Curso:** Programa√ß√£o para Ci√™ncia de Dados  
**Instrutor:** Arthur Casals  

---

## üìã Contexto de Neg√≥cio

Voc√™ √© analista de dados em uma **loja online de eletr√¥nicos** e recebeu a miss√£o de:

### üéØ Objetivos
1. **Identificar produtos mais lucrativos** por categoria
2. **Analisar comportamento de clientes** (segmenta√ß√£o)
3. **Detectar tend√™ncias temporais** (crescimento m√™s a m√™s)
4. **Encontrar oportunidades** de crescimento
5. **Criar relat√≥rio executivo** com insights acion√°veis

---

## üìä Dados Dispon√≠veis

- **Vendas:** 500 transa√ß√µes (√∫ltimos 6 meses)
- **Produtos:** 25 itens em 7 categorias
- **Clientes:** 30 compradores com perfis variados
- **Canais:** Online, App Mobile, Marketplace

---

## üó∫Ô∏è Roadmap do Projeto

```
1. Setup e Gera√ß√£o de Dados        
2. Inspe√ß√£o Inicial               
3. Limpeza e Prepara√ß√£o           
4. Feature Engineering            
5. An√°lise por Segmentos          
6. An√°lise Temporal               
7. Detec√ß√£o de Padr√µes            
8. Insights e Recomenda√ß√µes       
9. Exporta√ß√£o de Resultados       
```

---

## üîß Tecnologias

- **Pandas 2.2+**: Manipula√ß√£o de dados
- **NumPy**: Gera√ß√£o de dados sint√©ticos
- **T√©cnicas aplicadas:**
  - Named aggregations
  - Binning (qcut)
  - Window functions (rank, pct_change)
  - Merge com valida√ß√£o
  - Pivot tables
  - Transform & normaliza√ß√£o
  - Method chaining

---

# 1Ô∏è‚É£ SETUP E GERA√á√ÉO DE DADOS

Vamos configurar o ambiente e gerar dados sint√©ticos **realistas** de um e-commerce.

In [None]:
# === IMPORTA√á√ïES ===

import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import warnings

warnings.filterwarnings('ignore')

# Configurar display
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.float_format', '{:.2f}'.format)

# Seed para reprodutibilidade
np.random.seed(2025)

print("‚úÖ Ambiente configurado!")
print(f"üì¶ Pandas: {pd.__version__}")
print(f"üî¢ NumPy: {np.__version__}")

In [None]:
# === GERAR DADOS SINT√âTICOS REALISTAS ===

print("üîÑ Gerando dados sint√©ticos...\n")

# 1. PRODUTOS (25 itens em 7 categorias)
produtos_data = [
    # Smartphones (pre√ßos altos, margem m√©dia)
    (1, 'iPhone 15 Pro', 'Smartphones', 5999.00, 4500.00),
    (2, 'Samsung Galaxy S24', 'Smartphones', 4499.00, 3400.00),
    (3, 'Xiaomi 13 Pro', 'Smartphones', 3299.00, 2500.00),
    # Notebooks (pre√ßos muito altos, margem baixa)
    (4, 'MacBook Pro M3', 'Notebooks', 12999.00, 11000.00),
    (5, 'Dell XPS 15', 'Notebooks', 8999.00, 7500.00),
    (6, 'Lenovo ThinkPad', 'Notebooks', 6499.00, 5500.00),
    # Perif√©ricos (pre√ßos m√©dios, margem alta)
    (7, 'Mouse Logitech MX', 'Perif√©ricos', 399.00, 150.00),
    (8, 'Teclado Keychron K2', 'Perif√©ricos', 599.00, 250.00),
    (9, 'Webcam Logitech C920', 'Perif√©ricos', 449.00, 200.00),
    (10, 'Headset HyperX', 'Perif√©ricos', 299.00, 120.00),
    # Monitores (pre√ßos altos, margem m√©dia)
    (11, 'Monitor LG 27" 4K', 'Monitores', 1899.00, 1300.00),
    (12, 'Monitor Samsung 32"', 'Monitores', 2499.00, 1800.00),
    (13, 'Monitor Dell UltraSharp', 'Monitores', 2999.00, 2200.00),
    # √Åudio (pre√ßos variados, margem alta)
    (14, 'AirPods Pro', '√Åudio', 1899.00, 1000.00),
    (15, 'Sony WH-1000XM5', '√Åudio', 1699.00, 900.00),
    (16, 'JBL Flip 6', '√Åudio', 599.00, 250.00),
    (17, 'Microfone Blue Yeti', '√Åudio', 899.00, 400.00),
    # Armazenamento (pre√ßos m√©dios, margem m√©dia)
    (18, 'SSD Samsung 1TB', 'Armazenamento', 499.00, 300.00),
    (19, 'HD Externo 2TB', 'Armazenamento', 399.00, 250.00),
    (20, 'Pen Drive 128GB', 'Armazenamento', 79.00, 40.00),
    # Acess√≥rios (pre√ßos baixos, margem alt√≠ssima)
    (21, 'Cabo USB-C 2m', 'Acess√≥rios', 49.00, 10.00),
    (22, 'Hub USB 7 Portas', 'Acess√≥rios', 129.00, 40.00),
    (23, 'Mousepad RGB', 'Acess√≥rios', 99.00, 25.00),
    (24, 'Suporte Notebook', 'Acess√≥rios', 149.00, 50.00),
    (25, 'Organizador Cabos', 'Acess√≥rios', 39.00, 10.00)
]

produtos = pd.DataFrame(
    produtos_data,
    columns=['produto_id', 'nome_produto', 'categoria', 'preco', 'custo']
)

# 2. CLIENTES (30 compradores com perfis diferentes)
nomes = [
    'Ana Silva', 'Bruno Costa', 'Carlos Souza', 'Diana Lima', 'Eduardo Santos',
    'Fernanda Alves', 'Gabriel Martins', 'Helena Rocha', 'Igor Ferreira', 'Julia Oliveira',
    'Lucas Pereira', 'Marina Castro', 'Nicolas Ribeiro', 'Olivia Carvalho', 'Pedro Ara√∫jo',
    'Quezia Mendes', 'Rafael Gomes', 'Sabrina Dias', 'Thiago Barbosa', 'Ursula Campos',
    'Vitor Moura', 'Wanda Correia', 'Xavier Teixeira', 'Yara Monteiro', 'Z√© Cardoso',
    'Alice Freitas', 'Bernardo Pinto', 'Cec√≠lia Nunes', 'Daniel Farias', 'Elisa Moreira'
]

cidades = ['S√£o Paulo', 'Rio de Janeiro', 'Belo Horizonte', 'Porto Alegre',
           'Curitiba', 'Bras√≠lia', 'Salvador', 'Fortaleza']

# Criar clientes com datas de cadastro variadas
clientes = pd.DataFrame({
    'cliente_id': range(1, 31),
    'nome': nomes,
    'cidade': np.random.choice(cidades, 30),
    'data_cadastro': pd.date_range('2023-01-01', periods=30, freq='10D')
})

# 3. VENDAS (500 transa√ß√µes nos √∫ltimos 6 meses)
n_vendas = 500
data_inicio = datetime(2024, 5, 1)  # Maio a Outubro 2024
data_fim = datetime(2024, 10, 21)

# Gerar datas com sazonalidade (mais vendas recentemente)
dias_total = (data_fim - data_inicio).days
datas_vendas = []
for _ in range(n_vendas):
    # Distribui√ß√£o n√£o-uniforme: mais vendas nos √∫ltimos meses
    peso = np.random.beta(2, 5)  # Distribui√ß√£o assim√©trica
    dias = int(peso * dias_total)
    datas_vendas.append(data_inicio + timedelta(days=dias))

# Produtos mais vendidos tem maior probabilidade
# Acess√≥rios e Perif√©ricos vendem mais (volume)
# Notebooks e Smartphones vendem menos (alto valor)
pesos_produtos = np.array([
    0.02, 0.02, 0.03,  # Smartphones (baixo volume)
    0.01, 0.01, 0.02,  # Notebooks (baix√≠ssimo volume)
    0.08, 0.08, 0.06, 0.07,  # Perif√©ricos (alto volume)
    0.03, 0.02, 0.02,  # Monitores (m√©dio volume)
    0.04, 0.04, 0.05, 0.03,  # √Åudio (alto volume)
    0.06, 0.05, 0.08,  # Armazenamento (alto volume)
    0.10, 0.09, 0.11, 0.07, 0.12  # Acess√≥rios (alt√≠ssimo volume)
])

# Normalizar pesos
pesos_produtos_norm = pesos_produtos / pesos_produtos.sum()

# Verificacao - soma das probabilidades deve ser 1.0
print(f"Soma das probabilidades: {pesos_produtos_norm.sum()}")

# Now use in choice
produtos_vendidos = np.random.choice(
    produtos['produto_id'].values,
    size=n_vendas,
    p=pesos_produtos_norm
)

# Canais de venda
canais = ['Site', 'App Mobile', 'Marketplace']
pesos_canais = [0.5, 0.35, 0.15]  # Site √© principal

# Criar DataFrame de vendas
vendas = pd.DataFrame({
    'pedido_id': range(1, n_vendas + 1),
    'data': datas_vendas,
    'cliente_id': np.random.choice(clientes['cliente_id'], n_vendas),
    'produto_id': produtos_vendidos,
    'quantidade': np.random.choice([1, 1, 1, 1, 2, 2, 3], n_vendas),  # Maioria compra 1
    'canal': np.random.choice(canais, n_vendas, p=pesos_canais),
    'desconto_pct': np.random.choice([0, 0, 0, 5, 10, 15], n_vendas)  # Maioria sem desconto
})

vendas = vendas.sort_values('data').reset_index(drop=True)

print("‚úÖ Dados gerados com sucesso!\n")
print(f"üì¶ Produtos: {len(produtos)} itens em {produtos['categoria'].nunique()} categorias")
print(f"üë• Clientes: {len(clientes)} compradores")
print(f"üõí Vendas: {len(vendas)} transa√ß√µes")
print(f"üìÖ Per√≠odo: {vendas['data'].min().date()} at√© {vendas['data'].max().date()}")
print(f"üì± Canais: {', '.join(vendas['canal'].unique())}")

---

# 2Ô∏è‚É£ INSPE√á√ÉO INICIAL

Primeira olhada nos dados para entender sua estrutura.

In [None]:
# === INSPE√á√ÉO R√ÅPIDA ===

print("‚ïê‚ïê‚ïê PRODUTOS ‚ïê‚ïê‚ïê")
print(produtos.head(10))
print(f"\nCategorias: {produtos['categoria'].unique()}")

print("\n‚ïê‚ïê‚ïê CLIENTES ‚ïê‚ïê‚ïê")
print(clientes.head())
print(f"\nCidades: {clientes['cidade'].value_counts().to_dict()}")

print("\n‚ïê‚ïê‚ïê VENDAS ‚ïê‚ïê‚ïê")
print(vendas.head())
print("\nüìä Informa√ß√µes dos dados:")
vendas.info()

print("\nüí° Pr√≥ximo passo: Combinar tudo em um √∫nico DataFrame!")

---

# 3Ô∏è‚É£ LIMPEZA E PREPARA√á√ÉO

Combinar dados e criar features b√°sicas de neg√≥cio.

In [None]:
# === PIPELINE DE PREPARA√á√ÉO ===

print("üîÑ Preparando dataset unificado...\n")

# Combinar todos os dados (merge validado!)
df = (
    vendas
    # Merge com produtos
    .merge(
        produtos,
        on='produto_id',
        how='left',
        validate='m:1'  # M√∫ltiplas vendas, um produto
    )
    # Merge com clientes
    .merge(
        clientes,
        on='cliente_id',
        how='left',
        validate='m:1'  # M√∫ltiplas vendas, um cliente
    )
    # Criar features b√°sicas
    .assign(
        # Valores financeiros
        preco_original=lambda x: x['preco'] * x['quantidade'],
        valor_desconto=lambda x: x['preco'] * x['quantidade'] * (x['desconto_pct'] / 100),
        receita=lambda x: x['preco_original'] - x['valor_desconto'],
        custo_total=lambda x: x['custo'] * x['quantidade'],
        lucro=lambda x: x['receita'] - x['custo_total'],
        margem_pct=lambda x: (x['lucro'] / x['receita'] * 100).round(2),

        # Features temporais
        ano=lambda x: x['data'].dt.year,
        mes=lambda x: x['data'].dt.month,
        mes_nome=lambda x: x['data'].dt.strftime('%Y-%m'),
        dia_semana=lambda x: x['data'].dt.day_name(),
        semana_mes=lambda x: (x['data'].dt.day - 1) // 7 + 1
    )
)

print("‚úÖ Dataset preparado!")
print(f"\nShape final: {df.shape}")
print(f"Per√≠odo: {df['data'].min().date()} at√© {df['data'].max().date()}")

print("\n=== PRIMEIRAS LINHAS ===")
print(df[['data', 'nome', 'nome_produto', 'categoria', 'receita', 'lucro', 'canal']].head(10))

print("\n=== ESTAT√çSTICAS FINANCEIRAS ===")
print(f"üí∞ Receita total: R$ {df['receita'].sum():,.2f}")
print(f"üìä Lucro total: R$ {df['lucro'].sum():,.2f}")
print(f"üìà Margem m√©dia: {df['margem_pct'].mean():.2f}%")
print(f"üé´ Ticket m√©dio: R$ {df['receita'].mean():.2f}")

---

# 4Ô∏è‚É£ FEATURE ENGINEERING

Criar features avan√ßadas para an√°lise de neg√≥cio.

In [None]:
# === FEATURE ENGINEERING AVAN√áADO ===

print("üîß Criando features avan√ßadas...\n")

# 1. SEGMENTA√á√ÉO DE CLIENTES (RFM simplificado)
print("1Ô∏è‚É£ Segmentando clientes por valor...")

# Calcular m√©tricas por cliente
cliente_stats = df.groupby('cliente_id').agg(
    total_gasto=('receita', 'sum'),
    num_compras=('pedido_id', 'count'),
    ticket_medio=('receita', 'mean'),
    ultima_compra=('data', 'max')
).reset_index()

# Criar segmentos com qcut (quartis balanceados)
cliente_stats['segmento_valor'] = pd.qcut(
    cliente_stats['total_gasto'],
    q=4,
    labels=['Bronze', 'Prata', 'Ouro', 'Platina']
)

# Merge de volta no dataset principal
df = df.merge(
    cliente_stats[['cliente_id', 'segmento_valor']],
    on='cliente_id',
    how='left',
    validate='m:1'
)

print(f"   ‚úÖ Clientes segmentados: {df['segmento_valor'].value_counts().to_dict()}")

# 2. CLASSIFICA√á√ÉO DE PRODUTOS (por faixa de pre√ßo)
print("\n2Ô∏è‚É£ Classificando produtos por faixa de pre√ßo...")

df['faixa_preco'] = pd.cut(
    df['preco'],
    bins=[0, 200, 1000, 5000, 15000],
    labels=['Baixo', 'M√©dio', 'Alto', 'Premium']
)

print(f"   ‚úÖ Distribui√ß√£o: {df['faixa_preco'].value_counts().to_dict()}")

# 3. IDENTIFICAR PRIMEIRAS COMPRAS
print("\n3Ô∏è‚É£ Identificando primeira compra de cada cliente...")

df['primeira_compra'] = df.groupby('cliente_id')['data'].transform('min')
df['eh_primeira_compra'] = (df['data'] == df['primeira_compra']).astype(int)
df['dias_desde_cadastro'] = (df['data'] - df['data_cadastro']).dt.days

primeiras = df['eh_primeira_compra'].sum()
print(f"   ‚úÖ Primeiras compras: {primeiras} de {len(df)} transa√ß√µes")

# 4. CATEGORIZAR DESCONTOS
print("\n4Ô∏è‚É£ Categorizando uso de descontos...")

df['tem_desconto'] = (df['desconto_pct'] > 0).astype(int)
df['tipo_desconto'] = pd.cut(
    df['desconto_pct'],
    bins=[-1, 0, 5, 10, 100],
    labels=['Sem Desconto', 'Leve (‚â§5%)', 'M√©dio (‚â§10%)', 'Alto (>10%)']
)

print(f"   ‚úÖ Vendas com desconto: {df['tem_desconto'].sum()} ({df['tem_desconto'].mean()*100:.1f}%)")

print("\n‚úÖ Feature engineering completo!")
print(f"\nTotal de features: {df.shape[1]} colunas")
print(f"Principais: {list(df.columns[-10:])}")

---

# 5Ô∏è‚É£ AN√ÅLISE POR SEGMENTOS

Analisar performance por categoria, canal e segmento de cliente.

In [None]:
# === AN√ÅLISE POR CATEGORIA (Named Aggregations) ===

print("üìä AN√ÅLISE POR CATEGORIA\n")
print("="*70)

analise_categoria = (
    df
    .groupby('categoria')
    .agg(
        receita_total=('receita', 'sum'),
        lucro_total=('lucro', 'sum'),
        margem_media=('margem_pct', 'mean'),
        num_vendas=('pedido_id', 'count'),
        ticket_medio=('receita', 'mean'),
        itens_vendidos=('quantidade', 'sum')
    )
    .assign(
        roi=lambda x: (x['lucro_total'] / (x['receita_total'] - x['lucro_total']) * 100).round(2)
    )
    .sort_values('receita_total', ascending=False)
    .round(2)
)

print(analise_categoria)

print("\nüèÜ TOP 3 CATEGORIAS:")
for i, (cat, row) in enumerate(analise_categoria.head(3).iterrows(), 1):
    print(f"\n{i}¬∫ {cat}")
    print(f"   üí∞ Receita: R$ {row['receita_total']:,.2f}")
    print(f"   üìä Lucro: R$ {row['lucro_total']:,.2f} (Margem: {row['margem_media']:.1f}%)")
    print(f"   üì¶ Vendas: {row['num_vendas']:.0f} | Ticket: R$ {row['ticket_medio']:.2f}")

In [None]:
# === AN√ÅLISE POR CANAL ===

print("\n" + "="*70)
print("üì± AN√ÅLISE POR CANAL DE VENDA\n")

analise_canal = (
    df
    .groupby('canal')
    .agg(
        receita=('receita', 'sum'),
        lucro=('lucro', 'sum'),
        vendas=('pedido_id', 'count'),
        ticket_medio=('receita', 'mean'),
        conversao_desconto=('tem_desconto', 'mean')
    )
    .assign(
        share_receita=lambda x: (x['receita'] / x['receita'].sum() * 100).round(2)
    )
    .sort_values('receita', ascending=False)
    .round(2)
)

print(analise_canal)

print("\nüí° INSIGHTS POR CANAL:")
for canal, row in analise_canal.iterrows():
    print(f"\n{canal}:")
    print(f"   üìä Participa√ß√£o: {row['share_receita']:.1f}% da receita")
    print(f"   üé´ Ticket: R$ {row['ticket_medio']:.2f}")
    print(f"   üè∑Ô∏è Taxa de desconto: {row['conversao_desconto']*100:.1f}%")

In [None]:
# === AN√ÅLISE POR SEGMENTO DE CLIENTE ===

print("\n" + "="*70)
print("üë• AN√ÅLISE POR SEGMENTO DE CLIENTE\n")

analise_segmento = (
    df
    .groupby('segmento_valor')
    .agg(
        receita=('receita', 'sum'),
        lucro=('lucro', 'sum'),
        vendas=('pedido_id', 'count'),
        clientes=('cliente_id', 'nunique'),
        ticket_medio=('receita', 'mean')
    )
    .assign(
        vendas_por_cliente=lambda x: (x['vendas'] / x['clientes']).round(1),
        share_receita=lambda x: (x['receita'] / x['receita'].sum() * 100).round(2)
    )
    .round(2)
)

# Ordenar por import√¢ncia do segmento
ordem_segmento = ['Platina', 'Ouro', 'Prata', 'Bronze']
analise_segmento = analise_segmento.reindex(ordem_segmento)

print(analise_segmento)

print("\nüíé PERFIL DOS SEGMENTOS:")
for seg, row in analise_segmento.iterrows():
    print(f"\n{seg}:")
    print(f"   üë• {row['clientes']:.0f} clientes ({row['share_receita']:.1f}% da receita)")
    print(f"   üõí {row['vendas_por_cliente']:.1f} compras/cliente")
    print(f"   üé´ Ticket: R$ {row['ticket_medio']:.2f}")

---

# 6Ô∏è‚É£ AN√ÅLISE TEMPORAL

Tend√™ncias e evolu√ß√£o ao longo do tempo.

In [None]:
# === AN√ÅLISE MENSAL COM WINDOW FUNCTIONS ===

print("üìÖ EVOLU√á√ÉO MENSAL\n")
print("="*70)

# Agregar por m√™s
vendas_mensais = (
    df
    .groupby('mes_nome')
    .agg(
        receita=('receita', 'sum'),
        lucro=('lucro', 'sum'),
        vendas=('pedido_id', 'count'),
        clientes_unicos=('cliente_id', 'nunique')
    )
    .reset_index()
    .assign(
        # Window functions!
        receita_mes_anterior=lambda x: x['receita'].shift(1),
        crescimento_abs=lambda x: x['receita'].diff(),
        crescimento_pct=lambda x: (x['receita'].pct_change() * 100).round(2),
        receita_acumulada=lambda x: x['receita'].cumsum()
    )
    .round(2)
)

print(vendas_mensais)

print("\nüìà CRESCIMENTO MENSAL:")
for _, row in vendas_mensais.iterrows():
    if pd.notna(row['crescimento_pct']):
        simbolo = "üìà" if row['crescimento_pct'] > 0 else "üìâ"
        print(f"{row['mes_nome']}: {simbolo} {row['crescimento_pct']:+.1f}% | R$ {row['receita']:,.2f}")
    else:
        print(f"{row['mes_nome']}: (baseline) | R$ {row['receita']:,.2f}")

# Estat√≠sticas gerais
crescimento_medio = vendas_mensais['crescimento_pct'].mean()
print(f"\nüí° Crescimento m√©dio mensal: {crescimento_medio:.2f}%")

In [None]:
# === PIVOT TABLE: CATEGORIA √ó M√äS ===

print("\n" + "="*70)
print("üìä RECEITA POR CATEGORIA AO LONGO DO TEMPO\n")

pivot_cat_mes = pd.pivot_table(
    df,
    values='receita',
    index='categoria',
    columns='mes_nome',
    aggfunc='sum',
    fill_value=0
).round(2)

# Adicionar total
pivot_cat_mes['TOTAL'] = pivot_cat_mes.sum(axis=1)
pivot_cat_mes = pivot_cat_mes.sort_values('TOTAL', ascending=False)

print(pivot_cat_mes)

print("\nüí° Esta matriz mostra a distribui√ß√£o temporal da receita.")
print("   Ideal para identificar sazonalidade e tend√™ncias!")

---

# 7Ô∏è‚É£ DETEC√á√ÉO DE PADR√ïES

Rankings e identifica√ß√£o de outliers.

In [None]:
# === RANKING DE PRODUTOS POR CATEGORIA ===

print("üèÜ TOP 3 PRODUTOS POR CATEGORIA\n")
print("="*70)

# Agregar vendas por produto
produtos_vendas = (
    df
    .groupby(['categoria', 'nome_produto'])
    .agg(
        receita=('receita', 'sum'),
        lucro=('lucro', 'sum'),
        unidades=('quantidade', 'sum')
    )
    .reset_index()
)

# Criar ranking dentro de cada categoria
produtos_vendas['rank'] = produtos_vendas.groupby('categoria')['receita'].rank(
    ascending=False,
    method='dense'
).astype(int)

# Filtrar top 3 de cada categoria
top3_por_categoria = (
    produtos_vendas
    .query('rank <= 3')
    .sort_values(['categoria', 'rank'])
)

for categoria in top3_por_categoria['categoria'].unique():
    print(f"\n{categoria}:")
    dados_cat = top3_por_categoria[top3_por_categoria['categoria'] == categoria]
    for _, row in dados_cat.iterrows():
        print(f"  {row['rank']}¬∫ {row['nome_produto']}")
        print(f"     üí∞ R$ {row['receita']:,.2f} | üì¶ {row['unidades']:.0f} un")

In [None]:
# === DETEC√á√ÉO DE OUTLIERS (Transform + Z-score) ===

print("\n" + "="*70)
print("üîç DETEC√á√ÉO DE OUTLIERS (Normaliza√ß√£o por Categoria)\n")

# Normalizar receita dentro de cada categoria (Z-score)
produtos_vendas['receita_zscore'] = (
    produtos_vendas
    .groupby('categoria')['receita']
    .transform(lambda x: ((x - x.mean()) / x.std()).round(2))
)

# Identificar outliers (|z| > 2)
outliers = produtos_vendas[produtos_vendas['receita_zscore'].abs() > 2].copy()
outliers = outliers.sort_values('receita_zscore', ascending=False)

if len(outliers) > 0:
    print(f"üìä {len(outliers)} PRODUTOS OUTLIERS DETECTADOS:\n")
    for _, row in outliers.iterrows():
        tipo = "üöÄ SUPER VENDIDO" if row['receita_zscore'] > 0 else "‚ö†Ô∏è SUB-PERFORMANDO"
        print(f"{tipo}")
        print(f"  {row['nome_produto']} ({row['categoria']})")
        print(f"  Receita: R$ {row['receita']:,.2f} | Z-score: {row['receita_zscore']}")
        print()
else:
    print("‚úÖ Nenhum outlier extremo detectado.")
    print("   Todos os produtos est√£o dentro de 2 desvios-padr√£o da m√©dia da categoria.")

print("\nüí° Z-score indica quantos desvios-padr√£o um valor est√° da m√©dia.")
print("   |Z| > 2 = Outlier (muito acima ou abaixo do esperado)")

---

# 8Ô∏è‚É£ INSIGHTS E RECOMENDA√á√ïES

Consolidar descobertas e gerar recomenda√ß√µes acion√°veis.

In [None]:
# === RELAT√ìRIO EXECUTIVO ===

print("\n" + "="*70)
print("üìã RELAT√ìRIO EXECUTIVO")
print("="*70)

# Calcular KPIs gerais
kpis = {
    'receita_total': df['receita'].sum(),
    'lucro_total': df['lucro'].sum(),
    'margem_media': df['margem_pct'].mean(),
    'num_vendas': len(df),
    'num_clientes': df['cliente_id'].nunique(),
    'ticket_medio': df['receita'].mean(),
    'itens_vendidos': df['quantidade'].sum(),
    'crescimento_mensal': vendas_mensais['crescimento_pct'].mean()
}

print("\nüìä PRINCIPAIS M√âTRICAS:")
print(f"\nüí∞ Receita Total: R$ {kpis['receita_total']:,.2f}")
print(f"üìä Lucro Total: R$ {kpis['lucro_total']:,.2f} ({kpis['margem_media']:.1f}% margem)")
print(f"üõí Vendas: {kpis['num_vendas']} transa√ß√µes ({kpis['itens_vendidos']:.0f} itens)")
print(f"üë• Clientes: {kpis['num_clientes']} compradores ativos")
print(f"üé´ Ticket M√©dio: R$ {kpis['ticket_medio']:.2f}")
print(f"üìà Crescimento Mensal M√©dio: {kpis['crescimento_mensal']:.2f}%")

print("\n\nüéØ PRINCIPAIS INSIGHTS:\n")

# Insight 1: Categoria mais lucrativa
cat_top = analise_categoria.iloc[0]
print(f"1. üì¶ CATEGORIA CAMPE√É: {analise_categoria.index[0]}")
print(f"   ‚Ä¢ Representa {(cat_top['receita_total']/kpis['receita_total']*100):.1f}% da receita total")
print(f"   ‚Ä¢ Margem de {cat_top['margem_media']:.1f}% - {'acima' if cat_top['margem_media'] > kpis['margem_media'] else 'abaixo'} da m√©dia")

# Insight 2: Segmento Platina
platina = analise_segmento.loc['Platina']
print(f"\n2. üëë CLIENTES PLATINA:")
print(f"   ‚Ä¢ Apenas {(platina['clientes']/kpis['num_clientes']*100):.1f}% dos clientes")
print(f"   ‚Ä¢ Geram {platina['share_receita']:.1f}% da receita")
print(f"   ‚Ä¢ {platina['vendas_por_cliente']:.1f} compras/cliente")

# Insight 3: Crescimento
melhor_mes_idx = vendas_mensais['crescimento_pct'].idxmax()
melhor_mes = vendas_mensais.loc[melhor_mes_idx]
print(f"\n3. üìà MELHOR CRESCIMENTO:")
print(f"   ‚Ä¢ {melhor_mes['mes_nome']}: +{melhor_mes['crescimento_pct']:.1f}% vs m√™s anterior")
print(f"   ‚Ä¢ Receita: R$ {melhor_mes['receita']:,.2f}")

# Insight 4: Canal
canal_top = analise_canal.iloc[0]
print(f"\n4. üì± CANAL PRINCIPAL: {analise_canal.index[0]}")
print(f"   ‚Ä¢ {canal_top['share_receita']:.1f}% da receita")
print(f"   ‚Ä¢ Ticket m√©dio: R$ {canal_top['ticket_medio']:.2f}")

print("\n\nüí° RECOMENDA√á√ïES ESTRAT√âGICAS:\n")
print("1. FOCO EM CLIENTES PLATINA:")
print("   ‚Üí Criar programa de fidelidade exclusivo")
print("   ‚Üí Oferecer pr√©-venda de lan√ßamentos")
print("   ‚Üí Benef√≠cios exclusivos e atendimento VIP")

print("\n2. OTIMIZAR CATEGORIAS DE ALTA MARGEM:")
cat_alta_margem = analise_categoria.nlargest(1, 'margem_media').index[0]
print(f"   ‚Üí Expandir linha de {cat_alta_margem}")
print("   ‚Üí Investir em marketing dessas categorias")
print("   ‚Üí Bundle com produtos de baixa margem")

print("\n3. CRESCER CANAIS ALTERNATIVOS:")
canais_menores = analise_canal.iloc[1:]
for canal, row in canais_menores.iterrows():
    if row['share_receita'] < 30:
        print(f"   ‚Üí Investir em {canal} (atual: {row['share_receita']:.1f}%)")

print("\n4. ESTRAT√âGIA DE DESCONTOS:")
taxa_desconto = df['tem_desconto'].mean() * 100
print(f"   ‚Üí Atual: {taxa_desconto:.1f}% das vendas com desconto")
print("   ‚Üí Focar descontos em itens de alta rota√ß√£o/baixa margem")
print("   ‚Üí Evitar descontos em produtos premium")

print("\n" + "="*70)

---

# 9Ô∏è‚É£ EXPORTA√á√ÉO DE RESULTADOS

Salvar an√°lises para compartilhamento.

In [None]:
# === EXPORTAR AN√ÅLISES ===

print("üíæ Exportando resultados...\n")

# 1. Dataset completo processado
df.to_csv('vendas_processadas.csv', index=False, encoding='utf-8')
print("‚úÖ vendas_processadas.csv")

# 2. An√°lise por categoria
analise_categoria.to_csv('analise_categoria.csv', encoding='utf-8')
print("‚úÖ analise_categoria.csv")

# 3. An√°lise por segmento
analise_segmento.to_csv('analise_segmento.csv', encoding='utf-8')
print("‚úÖ analise_segmento.csv")

# 4. Evolu√ß√£o mensal
vendas_mensais.to_csv('evolucao_mensal.csv', index=False, encoding='utf-8')
print("‚úÖ evolucao_mensal.csv")

# 5. Top produtos por categoria
top3_por_categoria.to_csv('top_produtos_categoria.csv', index=False, encoding='utf-8')
print("‚úÖ top_produtos_categoria.csv")

# 6. Relat√≥rio executivo (texto)
with open('relatorio_executivo.txt', 'w', encoding='utf-8') as f:
    f.write("RELAT√ìRIO EXECUTIVO - AN√ÅLISE DE E-COMMERCE\n")
    f.write("="*70 + "\n\n")
    f.write(f"Per√≠odo: {df['data'].min().date()} at√© {df['data'].max().date()}\n\n")
    f.write("PRINCIPAIS M√âTRICAS:\n")
    f.write(f"Receita Total: R$ {kpis['receita_total']:,.2f}\n")
    f.write(f"Lucro Total: R$ {kpis['lucro_total']:,.2f}\n")
    f.write(f"Margem M√©dia: {kpis['margem_media']:.2f}%\n")
    f.write(f"Vendas: {kpis['num_vendas']}\n")
    f.write(f"Clientes: {kpis['num_clientes']}\n")
    f.write(f"Ticket M√©dio: R$ {kpis['ticket_medio']:.2f}\n")

print("‚úÖ relatorio_executivo.txt")

print("\n‚úÖ Todos os arquivos foram salvos com sucesso!")
print("\nüìä Arquivos prontos para compartilhar com stakeholders.")

---

# üéâ CONCLUS√ÉO

## ‚úÖ O que fizemos neste projeto:

### 1. T√©cnicas Aplicadas
- ‚ú® **Named Aggregations** (c√≥digo leg√≠vel)
- üìä **Binning** (qcut para segmenta√ß√£o)
- üìà **Window Functions** (pct_change, shift, rank)
- üîó **Merge Validado** (prevenir duplicatas)
- üìä **Pivot Tables** (an√°lise multidimensional)
- üîÑ **Transform** (normaliza√ß√£o por grupo)
- ‚õìÔ∏è **Method Chaining** (pipelines limpos)

### 2. An√°lises Realizadas
- Performance por categoria, canal e segmento
- Evolu√ß√£o temporal com crescimento m√™s-a-m√™s
- Rankings de produtos por categoria
- Detec√ß√£o de outliers (Z-score)
- Segmenta√ß√£o de clientes (RFM simplificado)

### 3. Entregas
- üìä 6 arquivos CSV com an√°lises
- üìù Relat√≥rio executivo
- üí° Insights acion√°veis
- üéØ Recomenda√ß√µes estrat√©gicas

---

## üöÄ Pr√≥ximos Passos

Para aprofundar ainda mais:

1. **Visualiza√ß√£o**
   - Gr√°ficos com Matplotlib/Seaborn
   - Dashboard interativo com Plotly

2. **Machine Learning**
   - Previs√£o de vendas (s√©ries temporais)
   - Segmenta√ß√£o de clientes (clustering)
   - Recomenda√ß√£o de produtos

3. **Automa√ß√£o**
   - Pipeline ETL autom√°tico
   - Relat√≥rios agendados
   - Alertas de anomalias

---

## üìö Conceitos-Chave para Lembrar

| T√©cnica | Quando Usar |
|---------|-------------|
| **Named agg** | Sempre! C√≥digo profissional |
| **qcut()** | Segmenta√ß√£o balanceada |
| **pct_change()** | Crescimento temporal |
| **rank()** | Top N, classifica√ß√µes |
| **validate** | Produ√ß√£o, evitar bugs |
| **pivot_table** | An√°lise multidimensional |
| **transform()** | Adicionar stats mantendo shape |
| **Method chaining** | Pipelines limpos |

---

*Criado por Arthur Casals - Programa√ß√£o para Ci√™ncia de Dados*  
*Outubro 2025*