# **Лабораторна робота 6: Пошук аномалій та вирішення задачі *anomaly detection* за допомогою бібліотек `scikit-learn`та `PyTorch`**
**Всі завдання виконуються індивідуально. Використання запозиченого коду буде оцінюватись в 0 балів.**

**Лабораторні роботи де в коді буде використаня КИРИЛИЦІ будуть оцінюватись в 20 балів.**

### Мета роботи:
Ознайомитися з основними методами виявлення аномалій, навчитися використовувати бібліотеки `scikit-learn` та `PyTorch` для реалізації алгоритмів пошуку аномалій, проаналізувати ефективність різних методів на реальних наборах даних з Kaggle.


### Опис завдання:

1. **Постановка задачі**:
   Використовуючи один із доступних наборів даних Kaggle (наприклад, *Credit Card Fraud Detection*, *Network Intrusion*, або інші), вам потрібно розв'язати задачу виявлення аномалій. Основна мета — ідентифікувати аномальні записи серед нормальних. Вибраний набір даних повинен містити мітки аномалій для перевірки результатів.

2. **Етапи виконання завдання**:
   - Завантажте та підготуйте набір даних.
   - Проведіть попередню обробку даних (масштабування, заповнення пропущених значень, видалення нерелевантних ознак).
   - Використайте різні методи виявлення аномалій:
     - **Методи з бібліотеки scikit-learn**:
       - Isolation Forest
       - One-Class SVM
       - Local Outlier Factor (LOF)
     - **Методи з використанням PyTorch**:
       - Автоенкодери для виявлення аномалій.
   - Порівняйте отримані результати, обчисліть метрики якості (Precision, Recall, F1-Score).
   - Оцініть, який метод найкраще підходить для вирішення задачі на вашому наборі даних.

### Покрокова інструкція

1. **Підготовка середовища**:
   - Встановіть необхідні бібліотеки:
     ```
     pip install scikit-learn torch pandas numpy matplotlib
     ```

2. **Вибір набору даних з Kaggle**:
   Зареєструйтесь на Kaggle та оберіть один із наборів даних для виявлення аномалій. Наприклад:
   - [Credit Card Fraud Detection](https://www.kaggle.com/mlg-ulb/creditcardfraud)
   - [Network Intrusion Detection](https://www.kaggle.com/xyuanh/benchmarking-datasets)

3. **Попередня обробка даних**:
   - Завантажте дані та проведіть їхню початкову обробку.
   - Масштабуйте ознаки за допомогою `StandardScaler` або `MinMaxScaler`.
   - Розділіть дані на навчальну і тестову вибірки.

4. **Методи з бібліотеки `scikit-learn`**:

   - **Isolation Forest**:
     ```
     from sklearn.ensemble import IsolationForest
     ```

   - **One-Class SVM**:
     ```
     from sklearn.svm import OneClassSVM
     ```

   - **Local Outlier Factor**:
     ```
     from sklearn.neighbors import LocalOutlierFactor
     ```

5. **Методи на основі нейронних мереж (PyTorch)**:

   Використайте автоенкодер для пошуку аномалій. Побудуйте нейронну мережу з енкодером і декодером. Під час навчання порівняйте відновлені дані з вхідними та обчисліть помилку. Записи з великою помилкою можуть бути аномаліями.

   - **Реалізація автоенкодера**:
     ```
     import torch
     import torch.nn as nn
     import torch.optim as optim
     ```

6. **Оцінка результатів**:
   Використовуйте метрики оцінки якості:
   - `Precision`, `Recall`, `F1-score`
   ```
   from sklearn.metrics import classification_report
   ```

7. **Звіт**:
   - Поясніть, який метод дав найкращі результати.
   - Проаналізуйте, чому деякі методи працюють краще на вашому наборі даних.
   - Оцініть можливості використання глибоких нейронних мереж (автоенкодерів) для вирішення задачі.


### Результати, які необхідно надати:
1. Код рішення у вигляді Jupyter Notebook з аналізом результатів та поясненнями.


### Дедлайн:
[27 жовтня 23:59]


### Корисні ресурси:
- [Документація PyTorch](https://pytorch.org/docs/stable/index.html)
- [Документація scikit-learn](https://scikit-learn.org/stable/documentation.html)
- [Kaggle Datasets](https://www.kaggle.com/datasets)

In [21]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import IsolationForest
from sklearn.metrics import classification_report
from sklearn.svm import OneClassSVM
from sklearn.neighbors import LocalOutlierFactor
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.metrics import classification_report

In [22]:
file_path = 'creditcard.csv'
data = pd.read_csv(file_path)

print("First few rows of the dataset:")
print(data.head())

print("\nMissing values in the dataset:")
print(data.isnull().sum())

scaler = StandardScaler()
data['Amount'] = scaler.fit_transform(data[['Amount']])

X = data.drop(columns=['Class', 'Time'])
y = data['Class']

X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.3, random_state=42, stratify=y
)

print("\nDataset dimensions:")
print(f"Training set: {X_train.shape}")
print(f"Testing set: {X_test.shape}")

First few rows of the dataset:
   Time        V1        V2        V3        V4        V5        V6        V7  \
0   0.0 -1.359807 -0.072781  2.536347  1.378155 -0.338321  0.462388  0.239599   
1   0.0  1.191857  0.266151  0.166480  0.448154  0.060018 -0.082361 -0.078803   
2   1.0 -1.358354 -1.340163  1.773209  0.379780 -0.503198  1.800499  0.791461   
3   1.0 -0.966272 -0.185226  1.792993 -0.863291 -0.010309  1.247203  0.237609   
4   2.0 -1.158233  0.877737  1.548718  0.403034 -0.407193  0.095921  0.592941   

         V8        V9  ...       V21       V22       V23       V24       V25  \
0  0.098698  0.363787  ... -0.018307  0.277838 -0.110474  0.066928  0.128539   
1  0.085102 -0.255425  ... -0.225775 -0.638672  0.101288 -0.339846  0.167170   
2  0.247676 -1.514654  ...  0.247998  0.771679  0.909412 -0.689281 -0.327642   
3  0.377436 -1.387024  ... -0.108300  0.005274 -0.190321 -1.175575  0.647376   
4 -0.270533  0.817739  ... -0.009431  0.798278 -0.137458  0.141267 -0.206010   

 

In [23]:
isolation_forest = IsolationForest(contamination=0.01, random_state=42)
isolation_forest.fit(X_train)

y_pred = isolation_forest.predict(X_test)
y_pred = [1 if x == -1 else 0 for x in y_pred]

print("Results for Isolation Forest:")
print(classification_report(y_test, y_pred))

Results for Isolation Forest:
              precision    recall  f1-score   support

           0       1.00      0.99      1.00     85295
           1       0.11      0.63      0.19       148

    accuracy                           0.99     85443
   macro avg       0.55      0.81      0.59     85443
weighted avg       1.00      0.99      0.99     85443



In [24]:
one_class_svm = OneClassSVM(nu=0.01, kernel="rbf", gamma=0.1)
one_class_svm.fit(X_train)

y_pred = one_class_svm.predict(X_test)
y_pred = [1 if x == -1 else 0 for x in y_pred]

print("Results for One-Class SVM:")
print(classification_report(y_test, y_pred))

Results for One-Class SVM:
              precision    recall  f1-score   support

           0       1.00      0.96      0.98     85295
           1       0.03      0.76      0.06       148

    accuracy                           0.96     85443
   macro avg       0.51      0.86      0.52     85443
weighted avg       1.00      0.96      0.98     85443



In [25]:
lof = LocalOutlierFactor(n_neighbors=20, contamination=0.01)
y_pred = lof.fit_predict(X_test)
y_pred = [1 if x == -1 else 0 for x in y_pred]

print("Results for Local Outlier Factor:")
print(classification_report(y_test, y_pred))

Results for Local Outlier Factor:
              precision    recall  f1-score   support

           0       1.00      0.99      0.99     85295
           1       0.00      0.02      0.01       148

    accuracy                           0.99     85443
   macro avg       0.50      0.51      0.50     85443
weighted avg       1.00      0.99      0.99     85443



In [26]:
class Autoencoder(nn.Module):
    def __init__(self, input_dim):
        super(Autoencoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(input_dim, 16),
            nn.ReLU(),
            nn.Linear(16, 8)
        )
        self.decoder = nn.Sequential(
            nn.Linear(8, 16),
            nn.ReLU(),
            nn.Linear(16, input_dim)
        )
    
    def forward(self, x):
        encoded = self.encoder(x)
        decoded = self.decoder(encoded)
        return decoded

X_train_tensor = torch.tensor(X_train.values, dtype=torch.float32)
X_test_tensor = torch.tensor(X_test.values, dtype=torch.float32)

input_dim = X_train.shape[1]
autoencoder = Autoencoder(input_dim)
criterion = nn.MSELoss()
optimizer = optim.Adam(autoencoder.parameters(), lr=0.001)

epochs = 20
batch_size = 128

for epoch in range(epochs):
    autoencoder.train()
    epoch_loss = 0
    for i in range(0, len(X_train_tensor), batch_size):
        batch = X_train_tensor[i:i + batch_size]
        optimizer.zero_grad()
        outputs = autoencoder(batch)
        loss = criterion(outputs, batch)
        loss.backward()
        optimizer.step()
        epoch_loss += loss.item()
    print(f"Epoch {epoch + 1}/{epochs}, Loss: {epoch_loss:.4f}")

autoencoder.eval()
with torch.no_grad():
    reconstructions = autoencoder(X_test_tensor)
    reconstruction_errors = torch.mean((reconstructions - X_test_tensor) ** 2, dim=1)
    
threshold = torch.quantile(reconstruction_errors, 0.99)
y_pred = (reconstruction_errors > threshold).int().numpy()

print("Results for Autoencoder:")
print(classification_report(y_test, y_pred))

Epoch 1/20, Loss: 862.8160
Epoch 2/20, Loss: 541.9467
Epoch 3/20, Loss: 501.5427
Epoch 4/20, Loss: 479.3627
Epoch 5/20, Loss: 462.4141
Epoch 6/20, Loss: 446.9248
Epoch 7/20, Loss: 432.0146
Epoch 8/20, Loss: 418.8767
Epoch 9/20, Loss: 409.5665
Epoch 10/20, Loss: 404.0762
Epoch 11/20, Loss: 400.8887
Epoch 12/20, Loss: 399.3410
Epoch 13/20, Loss: 398.2242
Epoch 14/20, Loss: 397.4079
Epoch 15/20, Loss: 396.5614
Epoch 16/20, Loss: 395.5229
Epoch 17/20, Loss: 395.3393
Epoch 18/20, Loss: 394.6018
Epoch 19/20, Loss: 394.0857
Epoch 20/20, Loss: 393.6791
Results for Autoencoder:
              precision    recall  f1-score   support

           0       1.00      0.99      0.99     85295
           1       0.03      0.20      0.06       148

    accuracy                           0.99     85443
   macro avg       0.52      0.59      0.53     85443
weighted avg       1.00      0.99      0.99     85443



1. Найкращий метод дав такий результат: Precision: 11% Recall: 63% F1-міра: 19%, це у нас був Isolation Forest. Інші методи показали не дуже рузультат, але можна відмітити One-Class SVM, у Recall він видав найбілший результат, 76%.

2. Isolation Forest ефективно працює в багатовимірному просторі, що відповідає характеристикам даного набору даних. SVM оказав високу повноту (76%), але низьку точність через високу кількість помилкових спрацьовувань. LOF не впорався із сильно дисбалансованим набором даних. Він припускає більш рівномірний розподіл точок, що не відповідає реальності цього завдання. Автоенкодери намагаються реконструювати вхідні дані. Хоча вони можуть виявляти складні патерни, обраний поріг помилки реконструкції не завжди чітко відокремлює аномалії. Дисбаланс класів також ускладнює навчання нейронної мережі.

3. Плюси: Автоенкодери здатні працювати з великими наборами даних, вони ефективні для обробки даних із високою розмірністю та складною структурою. 
Мінуси : Значна нерівномірність класів ускладнює навчання нейронних мереж. Нейронні мережі потребують більше часу та обчислювальних ресурсів для навчання порівняно з простішими методами, такими як Isolation Forest.

