# Tech Challenge – Fase 2
## Previsão de Tendência do IBOVESPA (↑ / ↓)

Este notebook apresenta o desenvolvimento de um modelo preditivo capaz de prever
se o índice IBOVESPA irá fechar em alta ou baixa no dia seguinte, com base em dados
históricos diários do próprio índice.

O modelo desenvolvido aqui será posteriormente utilizado em ambiente produtivo,
com deploy via Streamlit (Fase 4).

---

## 1. Contexto do Problema

Você foi alocado em uma equipe de cientistas de dados de um grande fundo de
investimentos brasileiro. O objetivo é desenvolver um modelo preditivo que indique
a tendência do índice IBOVESPA no dia seguinte (alta ou baixa), servindo como
insumo para dashboards internos de apoio à tomada de decisão.

---

## 2. Fonte de Dados

Os dados históricos do índice IBOVESPA foram obtidos a partir do site Investing.com,
com frequência diária, contemplando um intervalo superior a dois anos, conforme
exigido pelo desafio.

As principais variáveis disponíveis são:
- Data
- Abertura
- Máxima
- Mínima
- Fechamento
- Volume

---

## 3. Pré-processamento dos Dados

O pré-processamento contempla:
- Padronização dos nomes das colunas
- Conversão da coluna de data para formato datetime
- Ordenação temporal dos registros
- Tratamento de valores ausentes gerados por janelas móveis

Essas etapas garantem consistência temporal e qualidade para a modelagem.

---

## 4. Análise Exploratória dos Dados (EDA)

Foi realizada uma análise exploratória inicial com foco na visualização do
comportamento histórico do fechamento do IBOVESPA, permitindo identificar
tendências, volatilidade e movimentos de mercado ao longo do tempo.

---

## 5. Engenharia de Atributos

Foram criadas variáveis derivadas com o objetivo de capturar padrões temporais
relevantes para a previsão da tendência do índice, incluindo:
- Retorno diário
- Médias móveis de curto e médio prazo (5, 10 e 20 dias)
- Volatilidade de curto prazo
- Amplitude diária (diferença entre máxima e mínima)

---

## 6. Definição do Target

O target do modelo foi definido de forma binária:
- 1 → quando o fechamento do dia seguinte é maior que o fechamento atual (alta)
- 0 → quando o fechamento do dia seguinte é menor ou igual ao atual (baixa)

---

## 7. Estratégia de Validação Temporal

Foi adotado um split temporal respeitando a natureza sequencial dos dados:
- Treinamento: histórico completo, exceto os últimos 30 dias
- Teste: últimos 30 dias disponíveis

---

## 8. Modelo Utilizado

Foi utilizada Regressão Logística devido à sua simplicidade, interpretabilidade
e bom desempenho em problemas de classificação binária, além de menor risco
de overfitting.

---

## 9. Avaliação do Modelo

O desempenho foi avaliado por meio das métricas:
- Acurácia
- Precision
- Recall
- Matriz de confusão

O modelo atingiu a acuracidade mínima exigida pelo desafio (≥ 75%).

---

## 10. Salvamento do Modelo

O modelo treinado foi salvo em formato `.pkl`, permitindo sua reutilização
no deploy via Streamlit na Fase 4.

---

## 11. Conclusão

O modelo desenvolvido apresentou desempenho satisfatório e atende aos requisitos
do desafio. A solução equilibra simplicidade, interpretabilidade e eficiência,
sendo adequada para uso em apoio à tomada de decisão financeira.
