# Projeto Integrador Final - Curso: Programação para Ciência de Dados

**Aluno:** [SEU NOME COMPLETO AQUI]  
**Data de Entrega:** 17 de Novembro de 2025, 18:00  
**Peso:** 30% da nota final

---

## <font color="red">INSTRUÇÕES - LEIA COM ATENÇÃO</font>

1. Coloque seu código nas células marcadas com `# === SEU CÓDIGO AQUI ===`
2. Documente suas justificativas e decisões nas células de texto existentes no notebook, marcadas com `=== SEU TEXTO AQUI ===`
3. **Não modifique as células existentes**, a não ser as que estiverem marcadas para niserção de código ou documentação (conforme os items acima).
4. Execute as funções de teste para verificar seu desenvolvimento. IMPORTANTE: as funções de teste não fazem parte do processo de correção. Estas funções servem somente para guiar o desenvolvimento correto do projeto.
5. Usem o google Colab OBRIGATORIAMENTE, para evitar eventuais erros de formatação e configuração que possam vir de ambientes locais (apontamentos para localhost:8080, mapeamentos de diretórios locais, etc.).
6. Em caso de dúvidas referentes ao enunciado: consulte o professor/monitor durante a aula do dia 14/11 ou coloque sua dúvida no fórum do Moodle.

### <font color="red">Nomes Padronizados OBRIGATÓRIOS:</font>
- DataFrame principal: `df`
- DataFrame limpo: `df_clean`
- DataFrame com features: `df_features`
- DataFrame temporal: `df_temporal`

### <font color="red">Features OBRIGATÓRIAS (nomes exatos):</font>
- `Revenue`, `Year`, `Month`, `DayOfWeek`, `Hour`, `Is_Cancellation`

### Requisitos:
- Mínimo 12 visualizações
- Execute TUDO antes de submeter
- Escolha 3 de 5 análises opcionais (Seção 5.2)


---
# Seção 1: Documentação e Contexto (5 pts)
---

## 1.1 Introdução
Escreva uma introdução clara explicando o contexto, o cliente e a importância desta análise.


# <font color="red">=== SEU TEXTO AQUI ===</font>


[Escreva aqui]


## 1.2 Objetivos

Liste **5-7 objetivos específicos** que você pretende alcançar com esta análise.

**Formato esperado:**
- Use verbos de ação (identificar, analisar, determinar, avaliar...)
- Seja específico e mensurável
- Conecte com as preocupações do CEO mencionadas no contexto


### <font color="red">=== SEU TEXTO AQUI ===</font>
### Objetivos:
1. [Objetivo 1]
2. [Objetivo 2]
3. ...


## 1.3 Perguntas de Negócio

Liste **5-7 perguntas específicas** que o CEO gostaria de ver respondidas.

**Formato esperado:**
- Perguntas diretas terminando em "?"
- Relacionadas aos objetivos acima
- Respondíveis com os dados disponíveis


### <font color="red">=== SEU TEXTO AQUI ===</font>
### Perguntas:
1. [Pergunta 1]?
2. [Pergunta 2]?
3. ...


---
# Seção 2: Carregamento e Inspeção (5 pts)
---


In [None]:
# === IMPORTS ===
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

warnings.filterwarnings('ignore')
plt.style.use('default')
%matplotlib inline

print("Bibliotecas importadas")


In [None]:
# === CARREGAMENTO ===
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/00352/Online%20Retail.xlsx'

# === SEU CÓDIGO AQUI ===
# Carregue o dataset em uma variável chamada 'df'

In [None]:
# === VALIDAÇÃO AUTOMÁTICA - NÃO MODIFICAR ===
def _validar_carregamento():
    """Valida se o dataset foi carregado corretamente."""
    try:
        # Verificar se df existe
        if 'df' not in globals():
            print("DataFrame 'df' não encontrado")
            return False

        _df = globals()['df']

        # Verificar tamanho mínimo
        if len(_df) <= 400000:
            print(f"Dataset muito pequeno: {len(_df):,} linhas (esperado: >400k)")
            return False

        # Verificar colunas essenciais
        _required = ['InvoiceNo', 'StockCode', 'Quantity', 'UnitPrice', 'CustomerID', 'Country']
        _missing = [c for c in _required if c not in _df.columns]

        if _missing:
            print(f"Colunas ausentes: {_missing}")
            return False

        print("VALIDAÇÃO PASSOU - Dataset carregado corretamente!")
        print(f"   - {len(_df):,} transações")
        print(f"   - {_df.shape[1]} colunas")
        return True

    except Exception as e:
        print(f"Erro na validação: {e}")
        return False

# Executar validação
_validar_carregamento()

In [None]:
# === INSPEÇÃO INICIAL ===
# Execute os comandos abaixo e DOCUMENTE suas observações em markdown

# === SEU CÓDIGO AQUI ===

# 1. Primeiras linhas (entender estrutura)
# df.head(10)

# 2. Informações sobre tipos e memória
# df.info()

# 3. Estatísticas descritivas (numéricas)
# df.describe()

# 4. Valores faltantes por coluna
# df.isnull().sum()

# 5. Valores únicos em colunas categóricas
# df['Country'].value_counts()
# df['StockCode'].nunique()



### <font color="red">=== SEU TEXTO AQUI ===</font>

### Observações iniciais:
[Suas observações]

In [None]:
# === CONVERSÃO DE TIPOS (Pré-processamento Mínimo) ===
# OBRIGATÓRIO: Converter InvoiceDate para datetime
# NOTA: Embora esta seja a Seção de "Carregamento", é prática padrão
# converter tipos de data IMEDIATAMENTE após carregar, pois:
#   1. Permite análises temporais no EDA (Seção 3)
#   2. Evita erros downstream
#   3. É transformação "obrigatória", não opcional
#
# df_clean (Seção 4) herdará esta conversão.

# === SEU CÓDIGO AQUI ===


In [None]:
# === VALIDAÇÃO AUTOMÁTICA - NÃO MODIFICAR ===
def _validar_tipos():
    """Valida se InvoiceDate foi convertido para datetime."""
    try:
        if 'df' not in globals():
            print("DataFrame 'df' não encontrado")
            return False

        _df = globals()['df']
        _date_col = 'InvoiceDate'

        if _date_col not in _df.columns:
            print(f"Coluna '{_date_col}' não encontrada")
            return False

        _is_datetime = pd.api.types.is_datetime64_any_dtype(_df[_date_col])

        if not _is_datetime:
            print(f"'{_date_col}' deve ser datetime, atual: {_df[_date_col].dtype}")
            print("   DICA: Use pd.to_datetime(df['InvoiceDate'])")
            return False

        print("VALIDAÇÃO PASSOU - InvoiceDate é datetime!")
        print(f"   - Tipo: {_df[_date_col].dtype}")
        print(f"   - Range: {_df[_date_col].min()} a {_df[_date_col].max()}")
        return True

    except Exception as e:
        print(f"Erro: {e}")
        return False

_validar_tipos()

---
# Seção 3: Análise Exploratória - EDA (18 pts)
---

## 3.1 Análise Univariada (6 pts)
**Requisitos:** Mínimo 4 visualizações


In [None]:
# === ANÁLISE UNIVARIADA ===
# Crie PELO MENOS 4 VISUALIZAÇÕES DIFERENTES para variáveis individuais

# === SEU CÓDIGO AQUI ===

# SUGESTÕES (escolha pelo menos 4 tipos diferentes):
# • Histograma - distribuição de Quantity, UnitPrice, Revenue
# • Boxplot - identificar outliers em variáveis numéricas
# • Barplot - top 10 produtos, top 10 países
# • Countplot - frequência de cancelamentos
# • KDE plot - densidade de Revenue





### <font color="red">=== SEU TEXTO AQUI ===</font>
### Observações:
[Suas observações]


## 3.2 Análise Bivariada (7 pts)
**Requisitos:** Mínimo 4 visualizações


In [None]:
# === ANÁLISE BIVARIADA ===
# Explore RELAÇÕES entre 2 variáveis (mínimo 4 visualizações)

# === SEU CÓDIGO AQUI ===

# SUGESTÕES de relações importantes:
# • Quantity vs UnitPrice (correlação? comportamento de preço?)
# • Revenue por País (boxplot ou barplot)
# • Revenue por Mês (linha temporal)
# • Quantity por Dia da Semana (padrões semanais?)
# • UnitPrice por Produto (variação de preços)




### <font color="red">=== SEU TEXTO AQUI ===</font>
### Observações:
[Suas observações]


## 3.3 Análise Multidimensional (5 pts)

**Objetivo:** Explorar relações entre **3 ou mais variáveis simultaneamente**.

**Requisitos:** Mínimo 2 análises complexas usando:
- Pivot tables (agregações por múltiplas dimensões)
- Crosstabs (tabelas cruzadas)
- Heatmaps de correlação ou agregações
- FacetGrids (gráficos condicionais)


In [None]:
# === ANÁLISE MULTIDIMENSIONAL ===
# === SEU CÓDIGO AQUI ===




### <font color="red">=== SEU TEXTO AQUI ===</font>
### Observações:
[Suas observações]

---
# Seção 4: Pré-processamento (20 pts)
---

## 4.1 Limpeza (10 pts)


In [None]:
# === TRATAMENTO DE DADOS FALTANTES ===
# Analise os missing e DOCUMENTE sua estratégia

# === SEU CÓDIGO AQUI ===

# 1. Análise de missing
# 2. Decisão estratégica (JUSTIFIQUE E DOCUMENTE):
# 3. Aplicar estratégia escolhida



In [None]:
# === TRATAMENTO DE OUTLIERS E INCONSISTÊNCIAS ===
# Identifique e trate valores problemáticos

# === SEU CÓDIGO AQUI ===

# 1. Identificar problemas comuns
# 2. Visualizar outliers
# 3. Decisão estratégica (o que remover, manter, etc. - DOCUMENTE):
# 4. Aplicar tratamento


### <font color="red">=== SEU TEXTO AQUI ===</font>
### Observações:
[Suas observações]

In [None]:
# === CRIAR DF_CLEAN ===
df_clean = df.copy()  # Modifique conforme necessário

print(f"✓ df_clean: {df_clean.shape}")


In [None]:
# === VALIDAÇÃO AUTOMÁTICA - NÃO MODIFICAR ===
def _validar_limpeza():
    """Valida se df_clean foi criado adequadamente."""
    try:
        if 'df_clean' not in globals():
            print("DataFrame 'df_clean' não encontrado")
            print("   DICA: df_clean = df.copy() após sua limpeza")
            return False

        _df_clean = globals()['df_clean']
        _df = globals().get('df', None)

        if not isinstance(_df_clean, pd.DataFrame):
            print("df_clean deve ser DataFrame")
            return False

        if len(_df_clean) < 100000:
            print(f"df_clean muito pequeno: {len(_df_clean):,} linhas")
            return False

        _null_pct = _df_clean.isnull().sum().sum() / (len(_df_clean) * _df_clean.shape[1]) * 100

        print("VALIDAÇÃO PASSOU - df_clean criado!")
        if _df is not None:
            print(f"   - {len(_df_clean):,} linhas ({len(_df_clean)/len(_df)*100:.1f}% do original)")
        else:
            print(f"   - {len(_df_clean):,} linhas")
        print(f"   - Missing: {_null_pct:.2f}%")

        if _null_pct > 30:
            print("   AVISO: Alto percentual de missing (considere tratar)")

        return True

    except Exception as e:
        print(f"Erro: {e}")
        return False

_validar_limpeza()

## 4.2 Feature Engineering (10 pts)


In [None]:
# === FEATURE: REVENUE ===
# OBRIGATÓRIO: Nome exato 'Revenue'

# === SEU CÓDIGO AQUI ===




In [None]:
# === FEATURES TEMPORAIS ===
# OBRIGATÓRIO: Year, Month, DayOfWeek, Hour

# === SEU CÓDIGO AQUI ===




In [None]:
# === FEATURE: IS_CANCELLATION ===
# OBRIGATÓRIO: Nome exato 'Is_Cancellation'

# === SEU CÓDIGO AQUI ===




In [None]:
# === FEATURES CRIATIVAS ===
# Crie pelo menos 3 features adicionais

# === SEU CÓDIGO AQUI ===




In [None]:
# === CRIAR DF_FEATURES ===
df_features = df_clean.copy()

print(f"✓ df_features: {df_features.shape}")


### <font color="red">=== SEU TEXTO AQUI ===</font>
### Observações:
[Suas observações]

In [None]:
# === VALIDAÇÃO AUTOMÁTICA - NÃO MODIFICAR ===
def _validar_features():
    """Valida se features obrigatórias foram criadas."""
    try:
        if 'df_features' not in globals():
            print("DataFrame 'df_features' não encontrado")
            return False

        _df = globals()['df_features']
        _required = ['Revenue', 'Year', 'Month', 'DayOfWeek', 'Hour', 'Is_Cancellation']

        _missing = [f for f in _required if f not in _df.columns]
        _present = [f for f in _required if f in _df.columns]

        print(f"Features obrigatórias: {len(_present)}/{len(_required)}")

        for feat in _present:
            print(f"   {feat}")

        for feat in _missing:
            print(f"   {feat} - AUSENTE!")

        # Validações específicas
        if 'Revenue' in _df.columns:
            if _df['Revenue'].sum() <= 0:
                print("   Revenue deve ter valores positivos")

        if 'Is_Cancellation' in _df.columns:
            _unique = _df['Is_Cancellation'].nunique()
            if _unique > 2:
                print(f"   Is_Cancellation deve ser binária (encontrado: {_unique} valores)")

        if len(_missing) == 0:
            print("\nVALIDAÇÃO PASSOU - Todas features obrigatórias presentes!")
            return True
        else:
            print(f"\nATENÇÃO: {len(_missing)} feature(s) ausente(s)!")
            return False

    except Exception as e:
        print(f"Erro: {e}")
        return False

_validar_features()

---
# Seção 5: Análise de Negócio (22 pts)
---

## 5.1 Análise Temporal OBRIGATÓRIA (10 pts)
**Requisitos:**
- Agregação temporal
- Médias móveis (7 e 30 dias)
- Decomposição temporal
- Detecção de anomalias
- Crescimento MoM
- Mínimo 4 visualizações


In [None]:
# === AGREGAÇÃO TEMPORAL ===
# Agrupe seus dados por DIA para análise de séries temporais

# IMPORTANTE: df_temporal deve ter:
#   • Índice: Data (datetime)
#   • Colunas: Métricas agregadas

# === SEU CÓDIGO AQUI ===



In [None]:
# === MÉDIAS MÓVEIS ===
# Calcule médias móveis de 7 e 30 dias para suavizar tendências

# IMPORTANTE: Crie colunas 'MA_7' e 'MA_30' em df_temporal

# === SEU CÓDIGO AQUI ===





In [None]:
# === DECOMPOSIÇÃO TEMPORAL ===
# Separe a série em: Tendência + Sazonalidade + Resíduo

from statsmodels.tsa.seasonal import seasonal_decompose

# === SEU CÓDIGO AQUI ===

# A decomposição ajuda a identificar:
#   • TENDÊNCIA: Crescimento/decrescimento geral
#   • SAZONALIDADE: Padrões que se repetem (semanal/mensal)
#   • RESÍDUO: Variações aleatórias
# INTERPRETE: Há tendência de crescimento? Há padrão semanal/mensal?




In [None]:
# === DETECÇÃO DE ANOMALIAS ===
# Identifique dias com receita ANORMALMENTE alta ou baixa
# Interprete os resultados (DOCUMENTE)

# === SEU CÓDIGO AQUI ===



In [None]:
# === CRESCIMENTO MOM (Month-over-Month) ===
# Calcule a variação percentual de receita entre meses consecutivos
# INTERPRETE: Quais meses tiveram maior crescimento? Há sazonalidade?

# === SEU CÓDIGO AQUI ===


### <font color="red">=== SEU TEXTO AQUI ===</font>
### Observações:
[Suas observações]

In [None]:
# === VALIDAÇÃO AUTOMÁTICA - NÃO MODIFICAR ===
def _validar_temporal():
    """Valida se análise temporal foi executada."""
    try:
        if 'df_temporal' not in globals():
            print("DataFrame 'df_temporal' não encontrado")
            print("   DICA: Agregue dados por data e calcule médias móveis")
            return False

        _df_temporal = globals()['df_temporal']

        print("df_temporal criado!")
        print(f"   - {len(_df_temporal)} períodos")

        # Verificar médias móveis
        _ma_cols = [c for c in _df_temporal.columns if 'MA' in c or 'moving' in c.lower()]

        if len(_ma_cols) >= 2:
            print(f"   Médias móveis encontradas: {', '.join(_ma_cols)}")
        else:
            print(f"   Médias móveis: {len(_ma_cols)} encontrada(s), esperado: 2+ (MA_7, MA_30)")

        # Verificar visualizações
        _num_figs = len(plt.get_fignums())
        print(f"   - Visualizações totais até agora: {_num_figs}")

        if _num_figs >= 10:
            print("   Bom progresso em visualizações!")
        else:
            print(f"   Crie mais visualizações (atual: {_num_figs}, mín: 12 no total)")

        return True

    except Exception as e:
        print(f"Erro: {e}")
        return False

_validar_temporal()

### <font color="red">=== SEU TEXTO AQUI ===</font>
### Recomendação Temporal:
[Quando intensificar marketing?]


## 5.2 Outras Análises (12 pts)
**ESCOLHA 3 DE 5 - Inclua o código SOMENTE para as 3 que escolher**


### 5.2.1 OPCIONAL 1: Produtos


In [None]:
# === ANÁLISE OPCIONAL 1: PRODUTOS ===

# # === SEU CÓDIGO AQUI ===




### <font color="red">=== SEU TEXTO AQUI ===</font>
### Recomendação (Produtos):
[Se escolheu, escreva aqui]


### 5.2.2 OPCIONAL 2: Geografia


In [None]:
# === ANÁLISE OPCIONAL 2: GEOGRAFIA ===

# # === SEU CÓDIGO AQUI ===




### <font color="red">=== SEU TEXTO AQUI ===</font>
### Recomendação (Geografia):
[Se escolheu, escreva aqui]


### 5.2.3 OPCIONAL 3: Clientes


In [None]:
# === ANÁLISE OPCIONAL 3: CLIENTES ===

# # === SEU CÓDIGO AQUI ===




### <font color="red">=== SEU TEXTO AQUI ===</font>
### Recomendação (Clientes):
[Se escolheu, escreva aqui]


### 5.2.4 OPCIONAL 4: Comportamento


In [None]:
# === ANÁLISE OPCIONAL 4: COMPORTAMENTO ===
# Descomente se escolher esta análise

# # === SEU CÓDIGO AQUI ===




### <font color="red">=== SEU TEXTO AQUI ===</font>
### Recomendação (Comportamento):
[Se escolheu, escreva aqui]


### 5.2.5 OPCIONAL 5: Cancelamentos


In [None]:
# === ANÁLISE OPCIONAL 5: CANCELAMENTOS ===
# Descomente se escolher esta análise

# # === SEU CÓDIGO AQUI ===




### <font color="red">=== SEU TEXTO AQUI ===</font>
### Recomendação (Cancelamentos):
[Se escolheu, escreva aqui]


---
# Seção 6: Insights e Recomendações (18 pts)
---

## 6.1 Top 5 Insights (6 pts)


### <font color="red">=== SEU TEXTO AQUI ===</font>
### TOP 5 INSIGHTS:

#### 1. [Insight 1]
**Descoberta:** ...
**Impacto:** ...
**Urgência:** Alta/Média/Baixa

#### 2. [Insight 2]
...

#### 3. [Insight 3]
...

#### 4. [Insight 4]
...

#### 5. [Insight 5]
...


## 6.2 Resumo Executivo (6 pts)
**Máximo 300 palavras, linguagem não-técnica**


### <font color="red">=== SEU TEXTO AQUI ===</font>
### RESUMO EXECUTIVO:

[Escreva aqui - máx 300 palavras]


## 6.3 Top 3 Recomendações (6 pts)


### <font color="red">=== SEU TEXTO AQUI ===</font>
### RECOMENDAÇÕES:

#### Recomendação 1:
**Ação:** ...
**KPI:** ...
**Riscos:** ...
**Timeline:** ...

#### Recomendação 2:
...

#### Recomendação 3:
...


In [None]:
# === VALIDAÇÃO FINAL - NÃO MODIFICAR ===
def _validacao_final():
    """Fornece resumo completo do projeto."""
    print("="*60)
    print("VALIDAÇÃO FINAL - PROJETO INTEGRADOR")
    print("="*60)

    _resultados = {}

    # 1. DataFrames
    print("\n1 - DATAFRAMES:")
    _dfs = {
        'df': 'df' in globals(),
        'df_clean': 'df_clean' in globals(),
        'df_features': 'df_features' in globals(),
        'df_temporal': 'df_temporal' in globals()
    }
    for _name, _exists in _dfs.items():
        print(f"   {'OK: ' if _exists else 'ERRO: '} {_name}")
        _resultados[_name] = _exists

    # 2. Features obrigatórias
    print("\n2 - FEATURES OBRIGATÓRIAS:")
    if 'df_features' in globals():
        _df = globals()['df_features']
        _required = ['Revenue', 'Year', 'Month', 'DayOfWeek', 'Hour', 'Is_Cancellation']
        for _feat in _required:
            _exists = _feat in _df.columns
            print(f"   {'OK: ' if _exists else 'ERRO: '} {_feat}")
            _resultados[f'feat_{_feat}'] = _exists
    else:
        print("   df_features não encontrado")

    # 3. Visualizações
    print("\n3 - VISUALIZAÇÕES:")
    _num_viz = len(plt.get_fignums())
    print(f"   Total: {_num_viz} (mínimo: 12)")
    print(f"   {'OK: ' if _num_viz >= 12 else 'ERRO: '} Requisito de quantidade")
    _resultados['visualizacoes'] = _num_viz >= 12

    # 4. Análise temporal
    print("\n4 - ANÁLISE TEMPORAL:")
    if 'df_temporal' in globals():
        print("   df_temporal existe")
        _df_temp = globals()['df_temporal']
        _ma_cols = [c for c in _df_temp.columns if 'MA' in c or 'moving' in c.lower()]
        _ma_ok = len(_ma_cols) >= 2
        print(f"   {'OK: ' if _ma_ok else 'ERRO: '} Médias móveis ({len(_ma_cols)} encontradas)")
        _resultados['temporal'] = _ma_ok
    else:
        print("   df_temporal não encontrado")
        _resultados['temporal'] = False

    # 5. Execução completa
    print("\n5 - EXECUÇÃO:")
    try:
        _test_df = 'df' in globals() and isinstance(globals()['df'], pd.DataFrame)
        _test_features = 'df_features' in globals() and isinstance(globals()['df_features'], pd.DataFrame)
        _exec_ok = _test_df and _test_features
        print(f"   {'OK: ' if _exec_ok else 'ERRO: '} Pipeline executado")
        _resultados['execucao'] = _exec_ok
    except:
        print("   Erro na execução")
        _resultados['execucao'] = False

    print("\n" + "="*60)
    print("Esta validação é apenas um GUIA!")
    print("A nota final depende de qualidade, insights e recomendações.")
    print("="*60)

    return _resultados

_validacao_final()

---
# CHECKLIST FINAL

Antes de submeter:
- [ ] Nome preenchido
- [ ] Todas células executadas
- [ ] Sem erros
- [ ] 12+ visualizações
- [ ] Features obrigatórias presentes
- [ ] Análise temporal completa
- [ ] 3 análises opcionais
- [ ] Top 5 insights
- [ ] Resumo executivo
- [ ] Arquivo: SeuNome_ProjetoIntegrador.ipynb

**Boa sorte!**
