# 🚨 Detecção de Anomalias

A **detecção de anomalias** é o processo de **identificar padrões ou valores** que se  
📉 **desviam significativamente do comportamento normal** ou esperado em um conjunto de dados.  

Isso pode incluir:
- 🔺 **Valores extremos**
- 📊 **Outliers**
- ⚠️ **Erros de coleta de dados**
- 🛡️ **Ataques mal-intencionados**

A detecção de anomalias é essencial para:
- ✅ Garantir a **qualidade** e a **confiabilidade** dos dados
- 🕵️ **Detectar e prevenir ameaças cibernéticas**

## 🧪 Alguns Casos de Uso

- 💳 **Detecção de Fraude**:  
  Identificar transações suspeitas em **finanças**, **comércio eletrônico** e outras indústrias.

- 🌐 **Monitoramento e análise de tráfego de rede**:  
  Detectar **ataques cibernéticos** como invasões, **malware** e **ransomware**.

- 🏭 **Controle de qualidade**:  
  Detectar **defeitos** em produtos ou **falhas** em processos industriais.

- 🔐 **Segurança**:  
  Identificar comportamentos suspeitos em **sistemas de segurança**, como **acesso não autorizado**.

- 🧬 **Doenças e Anomalias Médicas**:  
  Detectar padrões anômalos em **exames de sangue** ou **registros médicos** que possam indicar uma **condição rara** ou uma **doença**.

- 📉 **Anomalias em Séries Temporais**:  
  Identificar **pontos de dados anômalos** em séries temporais, como dados de **sensores** ou **métricas de desempenho**.

- 🌐 **Análise de Desempenho de Aplicações Web**:  
  Identificar **picos de tempo de resposta** ou **falhas no servidor** que não correspondem ao comportamento normal da aplicação.

![image.png](attachment:image.png)

## 🧭 LOF (Local Outlier Factor)

**LOF (Local Outlier Factor)** é uma técnica de aprendizado de máquina **não supervisionado**  
usada para detectar **anomalias** em conjuntos de dados.

🔍 Ele compara a **densidade de cada ponto** com a densidade dos seus **vizinhos mais próximos**.  
Se um ponto está em uma região de **densidade significativamente menor** que a de seus vizinhos,  
ele é considerado uma **anomalia**.

📌 O LOF é útil em situações com **densidades variáveis**, permitindo identificar pontos **isolados localmente**,  
mesmo com a presença de **clusters com diferentes densidades**.

![image.png](attachment:image.png)

## ⚙️ Como funciona o algoritmo LOF?

### 🔢 Passo 1: Definir a quantidade de vizinhos (k)

Defina o número de **vizinhos (k)** a serem considerados para cada ponto de dados.

🎯 Determinar este número é crucial. Para isso, podemos realizar:
- 🧪 Testes empíricos com **diversos valores**
- 📉 Análise de **estabilidade**
- 📊 Visualização em **gráficos de dispersão**

Além disso, é possível:
- ⚖️ Comparar a **densidade entre pontos anômalos e normais**  
- 🔍 Avaliar as **diferenças locais** entre eles

### 📏 Passo 2: Cálculo da Distância k-Distância

A **k-distância** é a **distância entre um ponto (A) e seu k-ésimo vizinho mais próximo**.

🔢 Exemplo:  
Se escolhermos `k = 3`, a k-distância do ponto `A` será a **distância entre `A` e seu terceiro vizinho mais próximo**.

📌 Na figura referida, a **k-distância de A** seria a **distância até o ponto E**, que é o **3º vizinho mais próximo**.

![image-2.png](attachment:image-2.png)

### 📐 Passo 3: Cálculo do Alcance k-Distância (Reachability Distance ou RD)

Para dois pontos (A) e (B), o **alcance k-distância** é definido como:

\[
RD_k(A, B) = \max(\text{kdistância}(B), \text{distância}(A, B))
\]

📏 A distância de alcance é o **maior valor entre a k-distância de B e a distância direta entre A e B**.

✅ Isso garante que a distância de alcance:
- Nunca seja menor que a k-distância de B
- ⚖️ **Evite distorções causadas por valores muito pequenos**
- 🛡️ Ajude a **normalizar as distâncias**
- ❌ **Reduza o impacto de outliers** na análise de densidade local

![image-3.png](attachment:image-3.png)

### 📊 Passo 4: Cálculo da Densidade de Alcance Local (Local Reachability Density ou LRD)

A **densidade de alcance local** é a **inversa da média da distância de alcance k**  
para todos os `k` vizinhos de `A`.  
Ela representa **quão densamente o ponto A está rodeado por seus vizinhos**.

\[
LRD_k(A) = \frac{1}{\frac{1}{k} \sum_{B \in kNN(A)} RD_k(A, B)}
\]

📌 Onde `kNN(A)` é o conjunto de `k` vizinhos mais próximos de `A`.

### 🧮 Passo 5: Cálculo do LOF

Compara a **densidade local do ponto A** com a **densidade local de seus vizinhos**.

📊 É calculado como a **média das razões** entre:
- As densidades locais dos vizinhos de A (`LRD_k(B)`)
- Pela densidade local de A (`LRD_k(A)`)

\[
LOF_k(A) = \frac{1}{|kNN(A)|} \sum_{B \in kNN(A)} \frac{LRD_k(B)}{LRD_k(A)}
\]

📌 Onde `kNN(A)` representa o conjunto de **k vizinhos mais próximos** de A.

![image-4.png](attachment:image-4.png)