### Anotações importantes sobre Aprendizado de Máquina, Modelos matemáticos e Finanças Quantitativas

- 1) Modelagem Matemática

Baseado nas aulas de Modelagem e Cálculo estocástico do  Professor Claudio Possani

Antes de explorarmos modelos complexos de mercado, daremos um passo atrás, e exploraremos a base de qualquer modelagem matemática. O primeiro exemplo será o de Crescimento Populacional, mas iremos explorar outros exemplos. Terminaremos esse capítulo revisando o cálculo estocástico para finanças, e com isso teremos dado um passo importante na direção das Finanças Quant.

#### Modelando Crescimento Populacional:


N = N(t) = número de indivíduos

Podemos supor inicialmente que a variação de N com o passar do tempo é simplesmente

$\frac{N}{t} = $ Nascimentos - Mortes + Migração


Uma simplificação grosseira, mas útil no nosso exemplo, é considerar migração = 0 pois podemos contabiliza-lo dentro da variável 'Nascimentos'. Dessa forma conseguimos chegar em:

$\frac{N}{t} = n\dot N - m\dot N = (n-m)\dot N$, com (n-m) representando um coeficiente qualquer, que tenha haver com a relação nascimento/mortes. Uma boa forma de iniciarmos nosso modelo é supormos que $N(t) = N_o \dot \exp{(n-m)\dot t}$ já que sua derivada mantém a nossa intuição inicial (não só $\frac{N}{t} = N_o \dot (n-m) \exp{(n-m)t}$ , mas para n=m $N(t) = N_o$ e diverge para $n>m$ e converge para 0 se $n<m$).

Um modelo mais realista deve considerar o limite populacional do espaço em questão (podemos definir $\rho = n-m$ como o coeficiente de proporcionalidade e $k = $ limite estável).



- 2) Aprendizado de Máquina

#### Algoritmos e Estrutura de Dados (+tecnologias de dados - Azure/AWS/QueriesSQL/MLOps)
Vamos começar ...

#### Tópicos de Machine Learning
Baseado nos livros: "Aurélien Géron - Mãos à Obra_ Aprendizado de Máquina com Scikit-Learn & TensorFlow (2019)", "(Elements in Quantitative Finance) Marcos M. López de Prado - Machine Learning for Asset Managers-Cambridge University Press (2020)" e "Marcos Lopez de Prado - Advances in Financial Machine Learning-Wiley (2018)"



- O método triple-barrier é uma das quatro estratégias de rotulagem (labeling) importantes discutidas nas fontes, sendo as outras: o método de horizonte fixo (Fixed-Horizon), o método de varredura de tendência (Trend-Scanning) e a meta-rotulagem (Meta-labeling).
A forma como os pesquisadores definem os rótulos é crucial, pois determina a tarefa que o algoritmo de Machine Learning irá aprender. Enquanto o método de horizonte fixo busca prever se um retorno excederá um limiar τ em um ponto preciso no tempo, o método de triple-barrier busca prever o lado do próximo retorno absoluto que excederá um limiar τ dentro de um horizonte máximo h.


1. Fixed-Horizon Method (Método de Horizonte Fixo)
O método de fixed-horizon é amplamente utilizado em estudos acadêmicos de Machine Learning (ML) em finanças, mas é fortemente criticado.
Desvantagens/Críticas:
• Heterocedasticidade e Sazonalidade: Se aplicado a barras de tempo (que são amplamente populares na literatura financeira), os retornos calculados em um horizonte fixo exibem substancial heterocedasticidade (volatilidade não constante), geralmente devido a padrões sazonais de atividade intraday. O uso de um limiar constante (τ) transfere essa sazonalidade para os rótulos, tornando a distribuição dos rótulos não estacionária.
    ◦ Solução sugerida: Aplicar o método de fixed-horizon em barras de tick, volume ou dólar (em vez de barras de tempo) ou basear o rótulo em retornos padronizados, ajustados pela volatilidade prevista no intervalo.
• Desprezo pela Informação do Caminho: O método descarta todas as informações sobre os retornos intermediários no intervalo. Isso é problemático porque as posições de investimento são tipicamente gerenciadas usando níveis de realização de lucro (profit taking) e stop-loss.
• Irrelevância Preditiva: Raramente os investidores estão interessados em prever se um retorno excederá um limiar τ em um ponto preciso no tempo. Seria mais prático prever o lado do próximo retorno absoluto que excede τ dentro de um horizonte máximo h.
Em resumo, o método de horizonte fixo sofre de múltiplas limitações.
2. Triple-Barrier Method (Método de Três Barreiras)
O método triple-barrier é considerado mais realista em aplicações financeiras porque simula o sucesso ou falha de uma posição de acordo com os princípios reais de gerenciamento de risco e lucro.
Vantagens:
• Reflete Regras de Negociação: Uma posição é mantida até que o primeiro de três resultados ocorra: atingir o lucro alvo (barreira de lucro), atingir o limite de perda (stop-loss) ou atingir o período máximo de posse (barreira vertical).
• Incorpora Informações do Caminho: Ao contrário do fixed-horizon, o triple-barrier incorpora informações sobre o caminho percorrido no intervalo de barras.
• Flexibilidade: Pode-se definir barreiras horizontais como função da volatilidade prevista se o lado da posição for desconhecido, resultando em barreiras simétricas.
3. Trend-Scanning Method (Método de Varredura de Tendência)
O trend-scanning é um método que não requer a definição de h (horizonte) nem de barreiras de stop-loss ou profit-taking. A ideia é identificar tendências e deixá-las seguir.
Vantagens:
• Identificação de Tendências Significativas: Rótulos são atribuídos com base na tendência estatisticamente mais significativa observada em um conjunto de períodos de look-forward (horizonte de tempo futuros).
• Uso Flexível: Rótulos de trend-scanning são frequentemente intuitivos e podem ser usados tanto em problemas de classificação (rótulos {−1,0,1}) quanto de regressão (magnitude do valor t que indica a força da tendência).
4. Meta-Labeling Method (Meta-Rotulagem)
A meta-labeling é uma abordagem de rotulagem secundária, focada em aprimorar o dimensionamento da aposta (bet-sizing) e o tempo da posição, e não na previsão primária da direção.
O Propósito do Meta-Labeling: O objetivo principal é treinar um modelo secundário (meta-model) para prever se a previsão de um modelo primário será lucrativa (1) ou não (0), evitando ou reduzindo a exposição a falsos positivos. Isso é crucial, pois uma estratégia pode ter alta precisão, mas se as apostas forem pequenas nos verdadeiros positivos e grandes nos falsos positivos, ela perderá dinheiro.
Vantagens:
• Aumento da Precisão (Precision): O meta-labeling troca um pouco da recall (taxa de verdadeiros positivos) por uma precision mais alta, melhorando o F1-score do modelo.
• Desacoplamento de Tarefas: Reconhece que o modelo que determina o lado (compra/venda) da posição pode não ser o melhor para determinar o tamanho da aposta.
• Base para Bet-Sizing: A probabilidade de sucesso (prevista pelo modelo secundário) é usada para dimensionar a aposta (e.g., pelo Sharpe Ratio Esperado ou Ensemble Bet Sizing).
Conclusão: Qual é a Melhor?
Não há uma única estratégia "melhor" entre o triple-barrier, trend-scanning e meta-labeling; a escolha depende do problema de ML que o pesquisador deseja resolver.
1. Fixed-Horizon: É a menos recomendada, devido aos problemas de não estacionaridade dos rótulos e descarte de informações do caminho, tornando-a menos representativa de um investimento real.
2. Triple-Barrier: É a melhor para rotular o resultado de uma posição de investimento refletindo níveis de risco e lucro pré-determinados, simulando regras de negociação reais.
3. Trend-Scanning: É útil quando o pesquisador está interessado em prever a direção da tendência mais forte em vez de prever um evento discreto ou o retorno em um ponto exato no tempo.
4. Meta-labeling: Não é um substituto dos métodos primários (como triple-barrier ou trend-scanning), mas um complemento crucial. É a melhor estratégia quando o objetivo é filtrar sinais primários (reduzir falsos positivos) e dimensionar as apostas.


- 3) Finanças Quantitativas:

#### Finanças Básicas
Baseado nos materiais básicos de CFG, CGA e CFA

#### Teoria da Arbitragem
livro "Tomas Björk - Arbitrage Theory in Continuous Time-Oxford University Press, USA (1999)"

#### Análise Quantitativa
livro "Paul Wilmott Introduces Quant Finances".