# Resumos 

### Towards more realistic evaluations: The impact of label delays in malware detection pipelines

Concluiram que, para mitigar os atrasos de label (rótulo) e o impacto negativo nas taxas de detecção causados pelo problema de atraso de label na detecção de malware, os pesquisadores defenderam a necessidade de se apoiar em pseudo-rótulos, o que lhes permitiu recuperar as taxas de detecção para valores próximos aos dos pipelines originais (reduzindo a perda de 70% para 30% nos experimentos).

Repositório: https://github.com/marcusbotacin/ML.delay.experiments

Link Artigo: https://www.sciencedirect.com/science/article/pii/S0167404824004279

## Utilização das bibliotecas

Python versão 3.10


## Base de Dados

## Active Learning (AL)

### Expected Model Change (EMC)

O EMC seleciona a amostra cuja rotulagem causaria a maior mudança nos pesos (gradientes) do modelo. Se o modelo tem que se esforçar muito para incorporar um novo dado, esse dado é valioso. Isso garante que cada rótulo pago (custo) maximize o aprendizado do modelo.

### Budgeted Active Learning (BAL)

O BAL não é um algoritmo de seleção, mas um quadro de gerenciamento. Seu objetivo é garantir que o Active Learning opere de forma sustentável, respeitando o limite (orçamento ou budget) de tempo, dinheiro ou amostras que podem ser rotuladas em um dado período de tempo (crucial em Data Streams).

### Density-Weighted Methods

Combina a Incerteza (o modelo está em dúvida) com a Densidade da amostra no espaço de features. Isso evita rotular anomalias únicas (outliers), que são incertas, mas de pouco valor para a fronteira de decisão principal. Ele busca amostras incertas que também são representativas de uma grande parte do Data Stream.

## Semisupervisionado (SSL)

### Semi-supervised Multi-view Stream Cluster (SmSCluster)

Estratégia especializada que usa técnicas de agrupamento (clustering) para dados de fluxo com poucos rótulos. Ele aproveita a similaridade dos dados (clusters) para propagar rótulos (ou pseudo-rótulos) dentro de grupos coesos.

### Semi-Supervised Ensemble Algorithm

Estrutura genérica que combina múltiplos classificadores (ensemble) e os treina usando uma mistura de dados rotulados e não rotulados. O foco é usar o consenso do ensemble para gerar pseudo-rótulos mais robustos (evitando erros de um único modelo).

### Online Semi-supervised Neural Network (OSNN)

Um algoritmo que integra a capacidade de aprendizado incremental (Online Learning) com otimização semissupervisionada (geralmente usando o princípio de consistência ou propagação de rótulos) dentro de uma estrutura de Rede Neural (ex: RBF Network).

## Concept Drift (CD)

### Adaptive Windowing (ADWIN)

Detector de mudança estatística que monitora o erro de classificação (ou a média das features) em uma janela de tamanho variável, adaptando-se rapidamente à mudança.

### Kolmogorov-Smirnov Windowing (KSWIN)

Detector que utiliza o teste estatístico de Kolmogorov-Smirnov para verificar se os dados de duas sub-janelas têm distribuições de probabilidade diferentes.

### Drift Detection Method (DDM) e Early DDM (EDDM)

DDM monitora o erro do classificador usando limites baseados na Desigualdade de Hoeffding; EDDM é uma variação otimizada para detectar drifts graduais ou lentos.

### Online Density Separation (ODS)

Monitora a mudança na separação de densidade entre as classes. Tipicamente, utiliza um método não supervisionado (como Isolation Forest ou Autoencoders) para pontuar o quão anômalo é o tráfego atual. O drift é sinalizado quando a média dessas pontuações de anomalia muda.

## Online Machine Learning (OML)

### Hoeffding Trees (HT) 

É um classificador de árvore de decisão incremental. Ele usa a Desigualdade de Hoeffding para decidir, com base em evidências estatísticas, o melhor momento para dividir um nó, garantindo que a árvore construída online seja similar àquela construída com todos os dados offline. É a base para muitos outros métodos de OML.

### Adaptive Random Forests (ARF)

Um dos ensembles mais eficientes para Data Streams. Combina o Online Bagging com um mecanismo de substituição de árvores degradadas. Ele utiliza detectores de Concept Drift (como o ADWIN) para substituir sub-árvores que se tornaram obsoletas, permitindo rápida adaptação.

### OzaBagging

Implementação do Online Bagging. Treina um ensemble (conjunto) de classificadores em diferentes subamostras (com reposição) do stream de dados. O OzaBagging e o Online Boosting mantêm a diversidade do ensemble e aumentam a acurácia em streams.

### Dynamic Weighted Majority (DWM)

Estrutura que atribui pesos dinâmicos aos classificadores. O DWM ajusta os pesos dos modelos que erram e pode criar novos classificadores quando o ensemble atinge um erro alto (sinal de Concept Drift). É conhecido por sua capacidade de se adaptar a drifts abruptos.

### Online Bagging with Active Learning (OBA)

O OBA é uma variação do Online Bagging que integra a função de consulta do Active Learning. Ele usa o ensemble para determinar as amostras de dados de stream que mais beneficiarão o aprendizado se forem rotuladas por um especialista.

## Pipeline Inicial (HT+ADWIN+BAL+Pseudo Rotulagem por confiança)