# **Anomaly Detection and Novelty Detection**  
### *Wykrywanie anomalii i nowości*

---

## **English**

Anomaly detection (also called outlier detection) is the identification of rare items, events, or observations that raise suspicions by differing significantly from the majority of the data. Novelty detection is concerned with identifying an unobserved pattern in new observations not included in training data.

### **Key Concepts**

1. **Anomaly/Outlier**: Data point that deviates significantly from the expected pattern
2. **Novelty**: New pattern not seen during training
3. **Global Anomaly**: Point that is anomalous with respect to the entire dataset
4. **Local Anomaly**: Point that is anomalous within its local neighborhood
5. **Collective Anomaly**: Collection of data points that together are anomalous

### **Types of Anomaly Detection**

#### **1. Statistical Methods**
- **Z-Score Method**: Based on standard deviations from mean
- **Modified Z-Score**: Uses median absolute deviation (MAD)
- **Grubbs' Test**: For detecting single outliers in normally distributed data

#### **2. Proximity-Based Methods**
- **k-Nearest Neighbors (k-NN)**: Distance to k-th nearest neighbor
- **Local Outlier Factor (LOF)**: Local density-based anomaly detection
- **DBSCAN**: Density-based clustering identifies outliers as noise

#### **3. Model-Based Methods**
- **Gaussian Mixture Models**: Probability-based anomaly detection
- **One-Class SVM**: Classification with only normal class
- **Isolation Forest**: Isolates anomalies using random splits
- **Autoencoders**: Neural network reconstruction error

### **Mathematical Foundations**

#### **Z-Score**
$$
z = \frac{x - \mu}{\sigma}
$$
Where $\mu$ is mean and $\sigma$ is standard deviation.

#### **Modified Z-Score**
$$
M_i = \frac{0.6745(x_i - \tilde{x})}{\text{MAD}}
$$
Where $\tilde{x}$ is the median and MAD is median absolute deviation.

#### **Local Outlier Factor (LOF)**
$$
\text{LOF}_k(A) = \frac{\sum_{B \in N_k(A)} \frac{\text{lrd}_k(B)}{\text{lrd}_k(A)}}{|N_k(A)|}
$$

Where $\text{lrd}_k(A)$ is local reachability density.

#### **Isolation Forest Score**
Anomaly score based on path length in isolation trees:
$$
s(x,n) = 2^{-\frac{E(h(x))}{c(n)}}
$$

### **Applications**

- **Fraud Detection**: Credit card transactions, insurance claims
- **Network Security**: Intrusion detection, malware identification
- **Quality Control**: Manufacturing defects, sensor anomalies
- **Healthcare**: Disease outbreak detection, medical diagnosis
- **Finance**: Market manipulation, algorithmic trading anomalies
- **IoT**: Sensor failure detection, predictive maintenance

### **Evaluation Metrics**

1. **Precision**: $\frac{\text{True Positives}}{\text{True Positives + False Positives}}$
2. **Recall**: $\frac{\text{True Positives}}{\text{True Positives + False Negatives}}$
3. **F1-Score**: $\frac{2 \times \text{Precision} \times \text{Recall}}{\text{Precision + Recall}}$
4. **Area Under ROC Curve (AUC-ROC)**
5. **Area Under Precision-Recall Curve (AUC-PR)**

### **Advantages**
- **Unsupervised**: No need for labeled anomaly data
- **Versatile**: Can detect various types of anomalies
- **Scalable**: Many algorithms work well with large datasets
- **Real-time**: Can be applied for online anomaly detection

### **Challenges**
- **Imbalanced Data**: Anomalies are typically rare
- **High Dimensionality**: Curse of dimensionality affects performance
- **Concept Drift**: Data distribution changes over time
- **False Positives**: Normal behavior might be flagged as anomalous
- **Evaluation**: Difficult to evaluate without ground truth labels

---

## **Polish**

Wykrywanie anomalii (zwane także wykrywaniem wartości odstających) to identyfikacja rzadkich elementów, zdarzeń lub obserwacji, które budzą podejrzenia, różniąc się znacząco od większości danych. Wykrywanie nowości dotyczy identyfikacji nieobserwowanych wzorców w nowych obserwacjach nieuwzględnionych w danych treningowych.

### **Kluczowe pojęcia**

1. **Anomalia/Wartość odstająca**: Punkt danych znacząco odbiegający od oczekiwanego wzorca
2. **Nowość**: Nowy wzorzec niewidoczny podczas treningu
3. **Anomalia globalna**: Punkt anomalny względem całego zbioru danych
4. **Anomalia lokalna**: Punkt anomalny w swojej lokalnej okolicy
5. **Anomalia zbiorowa**: Zbiór punktów danych, które razem są anomalne

### **Typy wykrywania anomalii**

#### **1. Metody statystyczne**
- **Metoda Z-Score**: Oparta na odchyleniach standardowych od średniej
- **Zmodyfikowany Z-Score**: Używa mediany odchylenia bezwzględnego (MAD)
- **Test Grubbsa**: Do wykrywania pojedynczych wartości odstających w danych o rozkładzie normalnym

#### **2. Metody oparte na bliskości**
- **k-najbliższych sąsiadów (k-NN)**: Odległość do k-tego najbliższego sąsiada
- **Lokalny współczynnik odstajności (LOF)**: Wykrywanie anomalii oparte na lokalnej gęstości
- **DBSCAN**: Klasteryzacja oparta na gęstości identyfikuje odstające jako szum

#### **3. Metody oparte na modelach**
- **Modele mieszanin Gaussowskich**: Wykrywanie anomalii oparte na prawdopodobieństwie
- **One-Class SVM**: Klasyfikacja tylko z klasą normalną
- **Isolation Forest**: Izoluje anomalie używając losowych podziałów
- **Autoencoders**: Błąd rekonstrukcji sieci neuronowej

### **Podstawy matematyczne**

#### **Z-Score**
$$
z = \frac{x - \mu}{\sigma}
$$
Gdzie $\mu$ to średnia a $\sigma$ to odchylenie standardowe.

#### **Zmodyfikowany Z-Score**
$$
M_i = \frac{0.6745(x_i - \tilde{x})}{\text{MAD}}
$$
Gdzie $\tilde{x}$ to mediana a MAD to mediana odchylenia bezwzględnego.

#### **Lokalny współczynnik odstajności (LOF)**
$$
\text{LOF}_k(A) = \frac{\sum_{B \in N_k(A)} \frac{\text{lrd}_k(B)}{\text{lrd}_k(A)}}{|N_k(A)|}
$$

Gdzie $\text{lrd}_k(A)$ to lokalna gęstość dostępności.

#### **Wynik Isolation Forest**
Wynik anomalii oparty na długości ścieżki w drzewach izolacji:
$$
s(x,n) = 2^{-\frac{E(h(x))}{c(n)}}
$$

### **Zastosowania**

- **Wykrywanie oszustw**: Transakcje kartami kredytowymi, roszczenia ubezpieczeniowe
- **Bezpieczeństwo sieci**: Wykrywanie intruzów, identyfikacja malware
- **Kontrola jakości**: Defekty produkcyjne, anomalie czujników
- **Ochrona zdrowia**: Wykrywanie epidemii, diagnoza medyczna
- **Finanse**: Manipulacje rynkowe, anomalie w handlu algorytmicznym
- **IoT**: Wykrywanie awarii czujników, konserwacja predykcyjna

### **Metryki ewaluacji**

1. **Precyzja**: $\frac{\text{Prawdziwe Pozytywne}}{\text{Prawdziwe Pozytywne + Fałszywe Pozytywne}}$
2. **Czułość**: $\frac{\text{Prawdziwe Pozytywne}}{\text{Prawdziwe Pozytywne + Fałszywe Negatywne}}$
3. **F1-Score**: $\frac{2 \times \text{Precyzja} \times \text{Czułość}}{\text{Precyzja + Czułość}}$
4. **Obszar pod krzywą ROC (AUC-ROC)**
5. **Obszar pod krzywą Precyzja-Czułość (AUC-PR)**

### **Zalety**
- **Bez nadzoru**: Nie wymaga oznaczonych danych anomalii
- **Wszechstronność**: Może wykrywać różne typy anomalii
- **Skalowalność**: Wiele algorytmów działa dobrze z dużymi zbiorami danych
- **Czas rzeczywisty**: Może być stosowane do wykrywania anomalii online

### **Wyzwania**
- **Niezrównoważone dane**: Anomalie są zazwyczaj rzadkie
- **Wysoka wymiarowość**: Przekleństwo wymiarowości wpływa na wydajność
- **Dryf koncepcji**: Rozkład danych zmienia się w czasie
- **Fałszywe pozytywy**: Normalne zachowanie może być oznaczone jako anomalne
- **Ewaluacja**: Trudna do oceny bez etykiet prawdy podstawowej
