# **Лабораторна робота 6: Пошук аномалій та вирішення задачі *anomaly detection* за допомогою бібліотек `scikit-learn`та `PyTorch`**
**Всі завдання виконуються індивідуально. Використання запозиченого коду буде оцінюватись в 0 балів.**

**Лабораторні роботи де в коді буде використаня КИРИЛИЦІ будуть оцінюватись в 20 балів.**

### Мета роботи:
Ознайомитися з основними методами виявлення аномалій, навчитися використовувати бібліотеки `scikit-learn` та `PyTorch` для реалізації алгоритмів пошуку аномалій, проаналізувати ефективність різних методів на реальних наборах даних з Kaggle.


### Опис завдання:

1. **Постановка задачі**:
   Використовуючи один із доступних наборів даних Kaggle (наприклад, *Credit Card Fraud Detection*, *Network Intrusion*, або інші), вам потрібно розв'язати задачу виявлення аномалій. Основна мета — ідентифікувати аномальні записи серед нормальних. Вибраний набір даних повинен містити мітки аномалій для перевірки результатів.

2. **Етапи виконання завдання**:
   - Завантажте та підготуйте набір даних.
   - Проведіть попередню обробку даних (масштабування, заповнення пропущених значень, видалення нерелевантних ознак).
   - Використайте різні методи виявлення аномалій:
     - **Методи з бібліотеки scikit-learn**:
       - Isolation Forest
       - One-Class SVM
       - Local Outlier Factor (LOF)
     - **Методи з використанням PyTorch**:
       - Автоенкодери для виявлення аномалій.
   - Порівняйте отримані результати, обчисліть метрики якості (Precision, Recall, F1-Score).
   - Оцініть, який метод найкраще підходить для вирішення задачі на вашому наборі даних.

### Покрокова інструкція

1. **Підготовка середовища**:
   - Встановіть необхідні бібліотеки:
     ```
     pip install scikit-learn torch pandas numpy matplotlib
     ```

2. **Вибір набору даних з Kaggle**:
   Зареєструйтесь на Kaggle та оберіть один із наборів даних для виявлення аномалій. Наприклад:
   - [Credit Card Fraud Detection](https://www.kaggle.com/mlg-ulb/creditcardfraud)
   - [Network Intrusion Detection](https://www.kaggle.com/xyuanh/benchmarking-datasets)

3. **Попередня обробка даних**:
   - Завантажте дані та проведіть їхню початкову обробку.
   - Масштабуйте ознаки за допомогою `StandardScaler` або `MinMaxScaler`.
   - Розділіть дані на навчальну і тестову вибірки.

4. **Методи з бібліотеки `scikit-learn`**:

   - **Isolation Forest**:
     ```
     from sklearn.ensemble import IsolationForest
     ```

   - **One-Class SVM**:
     ```
     from sklearn.svm import OneClassSVM
     ```

   - **Local Outlier Factor**:
     ```
     from sklearn.neighbors import LocalOutlierFactor
     ```

5. **Методи на основі нейронних мереж (PyTorch)**:

   Використайте автоенкодер для пошуку аномалій. Побудуйте нейронну мережу з енкодером і декодером. Під час навчання порівняйте відновлені дані з вхідними та обчисліть помилку. Записи з великою помилкою можуть бути аномаліями.

   - **Реалізація автоенкодера**:
     ```
     import torch
     import torch.nn as nn
     import torch.optim as optim
     ```

6. **Оцінка результатів**:
   Використовуйте метрики оцінки якості:
   - `Precision`, `Recall`, `F1-score`
   ```
   from sklearn.metrics import classification_report
   ```

7. **Звіт**:
   - Поясніть, який метод дав найкращі результати.
   - Проаналізуйте, чому деякі методи працюють краще на вашому наборі даних.
   - Оцініть можливості використання глибоких нейронних мереж (автоенкодерів) для вирішення задачі.


### Результати, які необхідно надати:
1. Код рішення у вигляді Jupyter Notebook з аналізом результатів та поясненнями.


### Дедлайн:
[23 жовтня 23:59]


### Корисні ресурси:
- [Документація PyTorch](https://pytorch.org/docs/stable/index.html)
- [Документація scikit-learn](https://scikit-learn.org/stable/documentation.html)
- [Kaggle Datasets](https://www.kaggle.com/datasets)

In [2]:
import pandas as pd
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import IsolationForest
from sklearn.svm import OneClassSVM
from sklearn.neighbors import LocalOutlierFactor
import torch
import torch.nn as nn
import torch.optim as optim
from sklearn.metrics import classification_report
import numpy as np

data = pd.read_csv('creditcard.csv')
print(data.info())
print(data['Class'].value_counts()) 

scaler = StandardScaler()
X = data.drop('Class', axis=1)
y = data['Class']
X_scaled = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284807 entries, 0 to 284806
Data columns (total 31 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Time    284807 non-null  float64
 1   V1      284807 non-null  float64
 2   V2      284807 non-null  float64
 3   V3      284807 non-null  float64
 4   V4      284807 non-null  float64
 5   V5      284807 non-null  float64
 6   V6      284807 non-null  float64
 7   V7      284807 non-null  float64
 8   V8      284807 non-null  float64
 9   V9      284807 non-null  float64
 10  V10     284807 non-null  float64
 11  V11     284807 non-null  float64
 12  V12     284807 non-null  float64
 13  V13     284807 non-null  float64
 14  V14     284807 non-null  float64
 15  V15     284807 non-null  float64
 16  V16     284807 non-null  float64
 17  V17     284807 non-null  float64
 18  V18     284807 non-null  float64
 19  V19     284807 non-null  float64
 20  V20     284807 non-null  float64
 21  V21     28

Набір даних Credit Card Fraud Detection має дуже дисбалансований розподіл: серед 284,807 записів лише 492 є аномальними, решта — нормальні транзакції. Це ускладнює задачу, оскільки модель може легко досягати високої точності, передбачаючи більшість записів як нормальні.

In [5]:
iso_forest = IsolationForest(contamination=0.01, random_state=42)
y_pred_if = iso_forest.fit_predict(X_test)
y_pred_if = [1 if x == -1 else 0 for x in y_pred_if]

oc_svm = OneClassSVM(kernel='rbf', gamma=0.001, nu=0.01)
y_pred_svm = oc_svm.fit_predict(X_test)
y_pred_svm = [1 if x == -1 else 0 for x in y_pred_svm]

lof = LocalOutlierFactor(n_neighbors=20, contamination=0.01)
y_pred_lof = lof.fit_predict(X_test)
y_pred_lof = [1 if x == -1 else 0 for x in y_pred_lof]

print("Isolation Forest")
print(classification_report(y_test, y_pred_if))
print("One-Class SVM")
print(classification_report(y_test, y_pred_svm))
print("Local Outlier Factor")
print(classification_report(y_test, y_pred_lof))

Isolation Forest
              precision    recall  f1-score   support

           0       1.00      0.99      1.00     56864
           1       0.11      0.61      0.18        98

    accuracy                           0.99     56962
   macro avg       0.55      0.80      0.59     56962
weighted avg       1.00      0.99      0.99     56962

One-Class SVM
              precision    recall  f1-score   support

           0       1.00      0.99      1.00     56864
           1       0.10      0.59      0.17        98

    accuracy                           0.99     56962
   macro avg       0.55      0.79      0.58     56962
weighted avg       1.00      0.99      0.99     56962

Local Outlier Factor
              precision    recall  f1-score   support

           0       1.00      0.99      0.99     56864
           1       0.01      0.07      0.02        98

    accuracy                           0.99     56962
   macro avg       0.51      0.53      0.51     56962
weighted avg       1.0

In [3]:

class Autoencoder(nn.Module):
    def __init__(self):
        super(Autoencoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(X_train.shape[1], 64),
            nn.ReLU(),
            nn.Linear(64, 32),
            nn.ReLU(),
            nn.Linear(32, 16)
        )
        self.decoder = nn.Sequential(
            nn.Linear(16, 32),
            nn.ReLU(),
            nn.Linear(32, 64),
            nn.ReLU(),
            nn.Linear(64, X_train.shape[1]),
            nn.Sigmoid()
        )

    def forward(self, x):
        encoded = self.encoder(x)
        decoded = self.decoder(encoded)
        return decoded

model = Autoencoder()
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)


X_train_tensor = torch.tensor(X_train[y_train == 0], dtype=torch.float32) 


epochs = 20
batch_size = 64
for epoch in range(epochs):
    for i in range(0, len(X_train_tensor), batch_size):
        batch = X_train_tensor[i:i+batch_size]
        optimizer.zero_grad()
        outputs = model(batch)
        loss = criterion(outputs, batch)
        loss.backward()
        optimizer.step()
    print(f"Epoch {epoch+1}/{epochs}, Loss: {loss.item():.4f}")


X_test_tensor = torch.tensor(X_test, dtype=torch.float32)
with torch.no_grad():
    reconstructions = model(X_test_tensor)
    reconstruction_errors = torch.mean((reconstructions - X_test_tensor) ** 2, dim=1)


threshold = np.percentile(reconstruction_errors.numpy(), 95)  

y_pred_autoencoder = (reconstruction_errors.numpy() > threshold).astype(int)

print("Autoencoder")
print(classification_report(y_test, y_pred_autoencoder))


Epoch 1/20, Loss: 0.6431
Epoch 2/20, Loss: 0.5876
Epoch 3/20, Loss: 0.5700
Epoch 4/20, Loss: 0.5618
Epoch 5/20, Loss: 0.5519
Epoch 6/20, Loss: 0.5471
Epoch 7/20, Loss: 0.5432
Epoch 8/20, Loss: 0.5418
Epoch 9/20, Loss: 0.5409
Epoch 10/20, Loss: 0.5416
Epoch 11/20, Loss: 0.5392
Epoch 12/20, Loss: 0.5389
Epoch 13/20, Loss: 0.5383
Epoch 14/20, Loss: 0.5427
Epoch 15/20, Loss: 0.5381
Epoch 16/20, Loss: 0.5377
Epoch 17/20, Loss: 0.5376
Epoch 18/20, Loss: 0.5375
Epoch 19/20, Loss: 0.5377
Epoch 20/20, Loss: 0.5374
Autoencoder
              precision    recall  f1-score   support

           0       1.00      0.95      0.98     56864
           1       0.03      0.91      0.06        98

    accuracy                           0.95     56962
   macro avg       0.52      0.93      0.52     56962
weighted avg       1.00      0.95      0.97     56962



Isolation Forest:

Precision для аномалій становить 11%, що свідчить про великий відсоток помилкових спрацьовувань. Однак, recall для аномалій дорівнює 61%, що вказує на здатність методу виявляти аномальні записи, хоча й не з дуже високою точністю.
F1-score для аномалій становить 18%, що свідчить про середню ефективність. Метод здатний знайти частину аномалій, але й має помилки.

One-Class SVM:

Показав схожі результати до Isolation Forest тільки на пару сотих відсотків нижчу точність.

Local Outlier Factor:

Показав погані результати, що свідчить, що цей метод поганий для поставленої задачі

Автоенкодер:

 виявив 91% з 98 аномалій, проте велику частину нормальних записів класифікував як аномалії, що призвело до низької precision.

 Автоенкодери показали результати, що свідчать про їх обмежену ефективність у даному випадку. Хоча вони виявилися здатними досягти високого значення recall (91%) для аномалій, їх precision (3%) був дуже низьким. Це означає, що більшість з того, що автоенкодер вважає аномаліями, насправді є нормальними записами, що призводить до високого рівня помилкових спрацьовувань. Висока помилка відновлення свідчить про те, що автоенкодер не здатний адекватно відтворювати дані аномалій, через що він не може бути надійним для задачі виявлення аномалій у такому дисбалансному наборі.

 На мою думку найкращим варіантом для цієї задачі являється Isolation Forest, хоча він і має невисоку точність recall на рівні 61% але має precision 11%, що робить його більш заблансованим для цього набору даних