# Objetivo do Trabalho
O objetivo deste trabalho é explorar a aplicação de técnicas de Machine Learning para identificar tendências de mercado em séries temporais financeiras altamente ruidosas, utilizando ações representativas do S&P 500. A abordagem trata os preços das ações como sinais financeiros compostos por uma componente de tendência estrutural e uma componente de ruído, refletindo a incerteza do mercado e o comportamento agregado dos participantes.


## O trabalho ambiciona:

- Demonstrar a viabilidade de extrair padrões estatísticos úteis em dados financeiros ruidosos, mesmo quando não é possível prever movimentos de preços pontuais.

- Treinar um modelo de Machine Learning que combine informações sobre tendência e ruído para estimar a probabilidade de movimentos direcionalmente positivos ou negativos do mercado.

- Aplicar o modelo a dados atuais para inferir tendências agregadas do mercado, apresentando uma visão interpretável (ex.: tendência de subida, descida ou neutra).

- Discutir os limites e implicações desta abordagem, incluindo a influência do ruído, volatilidade e regime de mercado, enfatizando que o objetivo não é gerar lucro ou previsão exata, mas sim uma prova de conceito académica robusta.

## Outros Objetivos

- Direção do Mercado (Classificação Binária/Multiclasse)
>Sobe ou Desce no próximo dia (classificação binária)
Alta, Baixa ou Lateral (classificação multiclasse)
Exemplo: "Amanhã a AAPL vai subir ou cair?"
>

- Volatilidade
>Prever se o próximo dia será volátil ou estável
>
- Faixas de Preço (Regressão por Intervalos)
>Prever em qual faixa o preço vai estar (ex: $220-225, $225-230)

## Recursos

Dataset
>  https://www.kaggle.com/datasets/tanavbajaj/yahoo-finance-all-stocks-dataset-daily-update
>
Como o dataset é atualizado a diáriamento a importação será feita via **link**
> https://www.kaggle.com/code/tanavbajaj/stock-dataset-scraper

In [10]:
!pip install -q yfinance

!pip install -q mlxtend
!pip install -q catboost
!pip install -q xgboost
!pip install -q lightgbm

In [47]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime, timedelta
import yfinance as yf
import warnings

# Pré-processamento
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import SMOTE

# Modelos
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from xgboost import XGBClassifier
from lightgbm import LGBMClassifier

# Validação e métricas
from sklearn.model_selection import TimeSeriesSplit
from sklearn.metrics import (accuracy_score, balanced_accuracy_score, f1_score, 
                             classification_report, confusion_matrix, roc_auc_score)

warnings.filterwarnings('ignore')
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (14, 6)
plt.rcParams['figure.dpi'] = 100

In [49]:
# Lista de ações do S&P 500 (empresas de tecnologia)
tech_list = ['AAPL', 'MSFT', 'GOOGL', 'AMZN', 'META', 'NVDA', 'TSLA', 'NFLX']

### Decomposição: Tendência e Ruido

In [59]:
def decompose_signal(series, window=20):
    """
    Decompõe o preço em tendência (média móvel) e ruído (desvio da tendência)
    Conceito: Preço = Tendência + Ruído
    """
    trend = series.rolling(window=window, center=False).mean()
    noise = series - trend
    return trend, noise

# Aplicar decomposição para cada ação
df_raw['Trend'] = df_raw.groupby('ticker')['Close'].transform(
    lambda x: decompose_signal(x)[0]
)
df_raw['Noise'] = df_raw.groupby('ticker')['Close'].transform(
    lambda x: decompose_signal(x)[1]
)

# Volatilidade (proxy para incerteza do mercado)
df_raw['Volatility'] = df_raw.groupby('ticker')['Close'].transform(
    lambda x: x.pct_change().rolling(20).std()
)

print("Decomposição concluída")

ValueError: Cannot set a DataFrame with multiple columns to the single column Trend