# **Лабораторна робота 6: Пошук аномалій та вирішення задачі *anomaly detection* за допомогою бібліотек `scikit-learn`та `PyTorch`**
**Всі завдання виконуються індивідуально. Використання запозиченого коду буде оцінюватись в 0 балів.**

**Лабораторні роботи де в коді буде використаня КИРИЛИЦІ будуть оцінюватись в 20 балів.**

### Мета роботи:
Ознайомитися з основними методами виявлення аномалій, навчитися використовувати бібліотеки `scikit-learn` та `PyTorch` для реалізації алгоритмів пошуку аномалій, проаналізувати ефективність різних методів на реальних наборах даних з Kaggle.


### Опис завдання:

1. **Постановка задачі**:
   Використовуючи один із доступних наборів даних Kaggle (наприклад, *Credit Card Fraud Detection*, *Network Intrusion*, або інші), вам потрібно розв'язати задачу виявлення аномалій. Основна мета — ідентифікувати аномальні записи серед нормальних. Вибраний набір даних повинен містити мітки аномалій для перевірки результатів.

2. **Етапи виконання завдання**:
   - Завантажте та підготуйте набір даних.
   - Проведіть попередню обробку даних (масштабування, заповнення пропущених значень, видалення нерелевантних ознак).
   - Використайте різні методи виявлення аномалій:
     - **Методи з бібліотеки scikit-learn**:
       - Isolation Forest
       - One-Class SVM
       - Local Outlier Factor (LOF)
     - **Методи з використанням PyTorch**:
       - Автоенкодери для виявлення аномалій.
   - Порівняйте отримані результати, обчисліть метрики якості (Precision, Recall, F1-Score).
   - Оцініть, який метод найкраще підходить для вирішення задачі на вашому наборі даних.

### Покрокова інструкція

1. **Підготовка середовища**:
   - Встановіть необхідні бібліотеки:
     ```
     pip install scikit-learn torch pandas numpy matplotlib
     ```

2. **Вибір набору даних з Kaggle**:
   Зареєструйтесь на Kaggle та оберіть один із наборів даних для виявлення аномалій. Наприклад:
   - [Credit Card Fraud Detection](https://www.kaggle.com/mlg-ulb/creditcardfraud)
   - [Network Intrusion Detection](https://www.kaggle.com/xyuanh/benchmarking-datasets)

3. **Попередня обробка даних**:
   - Завантажте дані та проведіть їхню початкову обробку.
   - Масштабуйте ознаки за допомогою `StandardScaler` або `MinMaxScaler`.
   - Розділіть дані на навчальну і тестову вибірки.

4. **Методи з бібліотеки `scikit-learn`**:

   - **Isolation Forest**:
     ```
     from sklearn.ensemble import IsolationForest
     ```

   - **One-Class SVM**:
     ```
     from sklearn.svm import OneClassSVM
     ```

   - **Local Outlier Factor**:
     ```
     from sklearn.neighbors import LocalOutlierFactor
     ```

5. **Методи на основі нейронних мереж (PyTorch)**:

   Використайте автоенкодер для пошуку аномалій. Побудуйте нейронну мережу з енкодером і декодером. Під час навчання порівняйте відновлені дані з вхідними та обчисліть помилку. Записи з великою помилкою можуть бути аномаліями.

   - **Реалізація автоенкодера**:
     ```
     import torch
     import torch.nn as nn
     import torch.optim as optim
     ```

6. **Оцінка результатів**:
   Використовуйте метрики оцінки якості:
   - `Precision`, `Recall`, `F1-score`
   ```
   from sklearn.metrics import classification_report
   ```

7. **Звіт**:
   - Поясніть, який метод дав найкращі результати.
   - Проаналізуйте, чому деякі методи працюють краще на вашому наборі даних.
   - Оцініть можливості використання глибоких нейронних мереж (автоенкодерів) для вирішення задачі.


### Результати, які необхідно надати:
1. Код рішення у вигляді Jupyter Notebook з аналізом результатів та поясненнями.


### Дедлайн:
[27 жовтня 23:59]


### Корисні ресурси:
- [Документація PyTorch](https://pytorch.org/docs/stable/index.html)
- [Документація scikit-learn](https://scikit-learn.org/stable/documentation.html)
- [Kaggle Datasets](https://www.kaggle.com/datasets)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import IsolationForest
from sklearn.svm import OneClassSVM
from sklearn.neighbors import LocalOutlierFactor
from sklearn.metrics import classification_report, precision_score, recall_score, f1_score
import torch
import torch.nn as nn
import torch.optim as optim

In [13]:
data = pd.read_csv('creditcard.csv') 

In [3]:
print(data.isnull().sum())

scaler = StandardScaler()
scaled_features = scaler.fit_transform(data.drop(['Class'], axis=1))

scaled_data = pd.DataFrame(scaled_features, columns=data.columns[:-1])
scaled_data['Class'] = data['Class']

X_train, X_test, y_train, y_test = train_test_split(scaled_data.drop(['Class'], axis=1), scaled_data['Class'], test_size=0.3, random_state=42
)

Time      0
V1        0
V2        0
V3        0
V4        0
V5        0
V6        0
V7        0
V8        0
V9        0
V10       0
V11       0
V12       0
V13       0
V14       0
V15       0
V16       0
V17       0
V18       0
V19       0
V20       0
V21       0
V22       0
V23       0
V24       0
V25       0
V26       0
V27       0
V28       0
Amount    0
Class     0
dtype: int64


In [4]:
isolation_forest = IsolationForest(contamination=0.1, random_state=42)
isolation_forest.fit(X_train)
y_predIf = isolation_forest.predict(X_test)

print(y_predIf)

sumAnomalies = (y_predIf == -1).sum()
print(f"Sum of anomalies: {sumAnomalies}")

[-1  1  1 ...  1  1  1]
Sum of anomalies: 8609


In [5]:
one_class_svm = OneClassSVM(nu=0.1, kernel="rbf", gamma=0.1)
one_class_svm.fit(X_train)
y_predSvm = one_class_svm.predict(X_test)

y_predSvmBinary = np.where(y_predSvm == -1, 1, 0)

precision = precision_score(y_test, y_predSvmBinary)
recall = recall_score(y_test, y_predSvmBinary)
f1 = f1_score(y_test, y_predSvmBinary)

print("Results One-Class SVM:")
print(f"Precision: {precision:.4f}")
print(f"Completeness (Recall): {recall:.4f}")
print(f"F1 measure: {f1:.4f}")

print(pd.Series(y_predSvmBinary).value_counts())

Results One-Class SVM:
Precision: 0.0146
Completeness (Recall): 0.9265
F1 measure: 0.0287
0    76784
1     8659
Name: count, dtype: int64


In [6]:
local_outlier_factor = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
y_predLof = local_outlier_factor.fit_predict(X_test)

In [10]:
y_predLofBinary = np.where(y_predLof == -1, 1, 0)

precision_lof = precision_score(y_test, y_predLofBinary)
recall_lof = recall_score(y_test, y_predLofBinary)
f1_lof = f1_score(y_test, y_predLofBinary)

print("Results Local Outlier Factor:")
print(f"Precision: {precision_lof:.4f}")
print(f"Completeness (Recall): {recall_lof:.4f}")
print(f"F1 measure: {f1_lof:.4f}")

print(f"\n")

print(pd.Series(y_predLofBinary).value_counts())

Results Local Outlier Factor:
Precision: 0.0034
Completeness (Recall): 0.2132
F1 measure: 0.0067


0    76898
1     8545
Name: count, dtype: int64


Завдання 5 - створення класу Autoencoder

In [11]:
class Autoencoder(nn.Module):
    def __init__(self, input_size):
        super(Autoencoder, self).__init__()
        
        self.encoder = nn.Sequential(
            nn.Linear(input_size, 128),
            nn.ReLU(True),
            nn.Linear(128, 64),
            nn.ReLU(True),
            nn.Linear(64, 32)
        )
        
        self.decoder = nn.Sequential(
            nn.Linear(32, 64),
            nn.ReLU(True),
            nn.Linear(64, 128),
            nn.ReLU(True),
            nn.Linear(128, input_size),
            nn.Sigmoid()
        )

    def forward(self, x):
        x = self.encoder(x)
        x = self.decoder(x)
        return x

In [15]:
X_train_tensor = torch.FloatTensor(X_train.values)
X_test_tensor = torch.FloatTensor(X_test.values)

In [24]:
inputSize = X_train.shape[1]  
numEpochs = 50
learning_rate = 0.001

model = Autoencoder(inputSize)
criterion = nn.MSELoss() 
optimizer = optim.Adam(model.parameters(), lr=learning_rate)

for epoch in range(numEpochs):
    outputs = model(X_train_tensor)
    loss = criterion(outputs, X_train_tensor)
    
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 10 == 0:
        print(f'Epoch [{epoch + 1}/{numEpochs}], Loss: {loss.item():.4f}')

Epoch [10/50], Loss: 1.2234
Epoch [20/50], Loss: 1.0945
Epoch [30/50], Loss: 1.0061
Epoch [40/50], Loss: 1.0061
Epoch [50/50], Loss: 1.0061


In [25]:
with torch.no_grad():
    reconstructed = model(X_test_tensor)
    
lossPerSample = criterion(reconstructed, X_test_tensor).numpy()
threshold = np.percentile(lossPerSample, 95) 

anomalies = lossPerSample > threshold
print(f'Number of anomalies detected: {np.sum(anomalies)}')

Number of anomalies detected: 0


Завдання 6

In [28]:
print("Classification Report for Isolation Forest:")
y_pred_if_binary = np.where(y_predIf == -1, 1, 0)  
print(classification_report(y_test, y_pred_if_binary))

print("Classification Report for One-Class SVM:")
print(classification_report(y_test, y_predSvmBinary))

print("Classification Report for Local Outlier Factor:")
y_pred_lof_binary = np.where(y_predLof == -1, 1, 0)  
print(classification_report(y_test, y_pred_lof_binary))

Classification Report for Isolation Forest:
              precision    recall  f1-score   support

           0       1.00      0.90      0.95     85307
           1       0.01      0.90      0.03       136

    accuracy                           0.90     85443
   macro avg       0.51      0.90      0.49     85443
weighted avg       1.00      0.90      0.95     85443

Classification Report for One-Class SVM:
              precision    recall  f1-score   support

           0       1.00      0.90      0.95     85307
           1       0.01      0.93      0.03       136

    accuracy                           0.90     85443
   macro avg       0.51      0.91      0.49     85443
weighted avg       1.00      0.90      0.95     85443

Classification Report for Local Outlier Factor:
              precision    recall  f1-score   support

           0       1.00      0.90      0.95     85307
           1       0.00      0.21      0.01       136

    accuracy                           0.90     8

# Звіт

1. Найкращий метод: 
 - (Isolation Forest та One-Class SVM), але One-Class SVM буде трохи кращим у точносці.

2. Аналіз методів: 
 - Isolation Forest: Добре підходить для великих обсягів даних. Може бути менш чутливим до шуму та викидів.
 - One-Class SVM: Цей метод є оптимальним рішенням для задач, які вимагають виявлення аномалій у високорозмірних просторах.
 - Local Outlier Factor: (LOF) може виявитися менш ефективним для цього набору даних, оскільки він залежить від щільності локальних областей.

3. Автоенкодери є потужним інструментом для виявлення аномалій. 
   - В мене Автоенкодер показав 0 виявлюваність аномалій у цьому тесті.
