# **Лабораторна робота 6: Пошук аномалій та вирішення задачі *anomaly detection* за допомогою бібліотек `scikit-learn`та `PyTorch`**
**Всі завдання виконуються індивідуально. Використання запозиченого коду буде оцінюватись в 0 балів.**

**Лабораторні роботи де в коді буде використаня КИРИЛИЦІ будуть оцінюватись в 20 балів.**

### Мета роботи:
Ознайомитися з основними методами виявлення аномалій, навчитися використовувати бібліотеки `scikit-learn` та `PyTorch` для реалізації алгоритмів пошуку аномалій, проаналізувати ефективність різних методів на реальних наборах даних з Kaggle.


### Опис завдання:

1. **Постановка задачі**:
   Використовуючи один із доступних наборів даних Kaggle (наприклад, *Credit Card Fraud Detection*, *Network Intrusion*, або інші), вам потрібно розв'язати задачу виявлення аномалій. Основна мета — ідентифікувати аномальні записи серед нормальних. Вибраний набір даних повинен містити мітки аномалій для перевірки результатів.

2. **Етапи виконання завдання**:
   - Завантажте та підготуйте набір даних.
   - Проведіть попередню обробку даних (масштабування, заповнення пропущених значень, видалення нерелевантних ознак).
   - Використайте різні методи виявлення аномалій:
     - **Методи з бібліотеки scikit-learn**:
       - Isolation Forest
       - One-Class SVM
       - Local Outlier Factor (LOF)
     - **Методи з використанням PyTorch**:
       - Автоенкодери для виявлення аномалій.
   - Порівняйте отримані результати, обчисліть метрики якості (Precision, Recall, F1-Score).
   - Оцініть, який метод найкраще підходить для вирішення задачі на вашому наборі даних.

### Покрокова інструкція

1. **Підготовка середовища**:
   - Встановіть необхідні бібліотеки:
     ```
     pip install scikit-learn torch pandas numpy matplotlib
     ```

2. **Вибір набору даних з Kaggle**:
   Зареєструйтесь на Kaggle та оберіть один із наборів даних для виявлення аномалій. Наприклад:
   - [Credit Card Fraud Detection](https://www.kaggle.com/mlg-ulb/creditcardfraud)
   - [Network Intrusion Detection](https://www.kaggle.com/xyuanh/benchmarking-datasets)

3. **Попередня обробка даних**:
   - Завантажте дані та проведіть їхню початкову обробку.
   - Масштабуйте ознаки за допомогою `StandardScaler` або `MinMaxScaler`.
   - Розділіть дані на навчальну і тестову вибірки.

4. **Методи з бібліотеки `scikit-learn`**:

   - **Isolation Forest**:
     ```
     from sklearn.ensemble import IsolationForest
     ```

   - **One-Class SVM**:
     ```
     from sklearn.svm import OneClassSVM
     ```

   - **Local Outlier Factor**:
     ```
     from sklearn.neighbors import LocalOutlierFactor
     ```

5. **Методи на основі нейронних мереж (PyTorch)**:

   Використайте автоенкодер для пошуку аномалій. Побудуйте нейронну мережу з енкодером і декодером. Під час навчання порівняйте відновлені дані з вхідними та обчисліть помилку. Записи з великою помилкою можуть бути аномаліями.

   - **Реалізація автоенкодера**:
     ```
     import torch
     import torch.nn as nn
     import torch.optim as optim
     ```

6. **Оцінка результатів**:
   Використовуйте метрики оцінки якості:
   - `Precision`, `Recall`, `F1-score`
   ```
   from sklearn.metrics import classification_report
   ```

7. **Звіт**:
   - Поясніть, який метод дав найкращі результати.
   - Проаналізуйте, чому деякі методи працюють краще на вашому наборі даних.
   - Оцініть можливості використання глибоких нейронних мереж (автоенкодерів) для вирішення задачі.


### Результати, які необхідно надати:
1. Код рішення у вигляді Jupyter Notebook з аналізом результатів та поясненнями.


### Дедлайн:
[27 жовтня 23:59]


### Корисні ресурси:
- [Документація PyTorch](https://pytorch.org/docs/stable/index.html)
- [Документація scikit-learn](https://scikit-learn.org/stable/documentation.html)
- [Kaggle Datasets](https://www.kaggle.com/datasets)

In [13]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, MinMaxScaler
from sklearn.ensemble import IsolationForest
from sklearn.svm import OneClassSVM
from sklearn.neighbors import LocalOutlierFactor

file_path = './creditcard.csv'
data = pd.read_csv(file_path)

data_info = data.info()
missing_values = data.isnull().sum()

X = data.drop(columns=['Class'], axis=1)
y = data['Class']
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)

data_info, missing_values.head()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284807 entries, 0 to 284806
Data columns (total 31 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Time    284807 non-null  float64
 1   V1      284807 non-null  float64
 2   V2      284807 non-null  float64
 3   V3      284807 non-null  float64
 4   V4      284807 non-null  float64
 5   V5      284807 non-null  float64
 6   V6      284807 non-null  float64
 7   V7      284807 non-null  float64
 8   V8      284807 non-null  float64
 9   V9      284807 non-null  float64
 10  V10     284807 non-null  float64
 11  V11     284807 non-null  float64
 12  V12     284807 non-null  float64
 13  V13     284807 non-null  float64
 14  V14     284807 non-null  float64
 15  V15     284807 non-null  float64
 16  V16     284807 non-null  float64
 17  V17     284807 non-null  float64
 18  V18     284807 non-null  float64
 19  V19     284807 non-null  float64
 20  V20     284807 non-null  float64
 21  V21     28

(None,
 Time    0
 V1      0
 V2      0
 V3      0
 V4      0
 dtype: int64)

In [None]:
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

iso_forest = IsolationForest(contamination=0.01, random_state=42)
y_pred_iso = iso_forest.fit_predict(X_train)
y_pred_iso = [1 if i == -1 else 0 for i in y_pred_iso]

oc_svm = OneClassSVM(nu=0.01, kernel='rbf', gamma=0.1)
y_pred_svm = oc_svm.fit_predict(X_train)
y_pred_svm = [1 if i == -1 else 0 for i in y_pred_svm]

lof = LocalOutlierFactor(n_neighbors=20, contamination=0.01)
y_pred_lof = lof.fit_predict(X_train)
y_pred_lof = [1 if i == -1 else 0 for i in y_pred_lof]

def evaluate_model(y_true, y_pred, model_name):
    print(f"Results for {model_name}:")
    print("Confusion Matrix:")
    print(confusion_matrix(y_true, y_pred))
    print("Classification Report:")
    print(classification_report(y_true, y_pred))
    print("Accuracy:", accuracy_score(y_true, y_pred))

evaluate_model(y_train, y_pred_iso, "Isolation Forest")
evaluate_model(y_train, y_pred_svm, "One-Class SVM")
evaluate_model(y_train, y_pred_lof, "Local Outlier Factor")

Results for Isolation Forest:
Confusion Matrix:
[[225412   2039]
 [   154    240]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      0.99      1.00    227451
           1       0.11      0.61      0.18       394

    accuracy                           0.99    227845
   macro avg       0.55      0.80      0.59    227845
weighted avg       1.00      0.99      0.99    227845

Accuracy: 0.9903750356602076
Results for One-Class SVM:
Confusion Matrix:
[[221485   5966]
 [   245    149]]
Classification Report:
              precision    recall  f1-score   support

           0       1.00      0.97      0.99    227451
           1       0.02      0.38      0.05       394

    accuracy                           0.97    227845
   macro avg       0.51      0.68      0.52    227845
weighted avg       1.00      0.97      0.98    227845

Accuracy: 0.9727402400754899
Results for Local Outlier Factor:
Confusion Matrix:
[[225183   2268]
 [   383  

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

class Autoencoder(nn.Module):
    def __init__(self, input_dim, hidden_dim):
        super(Autoencoder, self).__init__()
        self.encoder = nn.Sequential(
            nn.Linear(input_dim, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, hidden_dim // 2),
            nn.ReLU()
        )
        self.decoder = nn.Sequential(
            nn.Linear(hidden_dim // 2, hidden_dim),
            nn.ReLU(),
            nn.Linear(hidden_dim, input_dim),
            nn.Sigmoid()
        )
        
    def forward(self, x):
        x = self.encoder(x)
        x = self.decoder(x)
        return x

X_train_tensor = torch.tensor(X_train, dtype=torch.float32)
X_test_tensor = torch.tensor(X_test, dtype=torch.float32)

batch_size = 64
train_dataset = TensorDataset(X_train_tensor)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)

input_dim = X_train.shape[1]
hidden_dim = 32
model = Autoencoder(input_dim=input_dim, hidden_dim=hidden_dim)
criterion = nn.MSELoss()
optimizer = optim.Adam(model.parameters(), lr=0.001)

num_epochs = 20
for epoch in range(num_epochs):
    model.train()
    running_loss = 0.0
    for batch in train_loader:
        inputs = batch[0]
        outputs = model(inputs)
        loss = criterion(outputs, inputs)
        optimizer.zero_grad()
        loss.backward()
        optimizer.step()
        
        running_loss += loss.item()
    
    avg_loss = running_loss / len(train_loader)
    print(f"Epoch [{epoch+1}/{num_epochs}], Loss: {avg_loss:.4f}")

"Autoencoder training complete."

Epoch [1/20], Loss: 0.8193
Epoch [2/20], Loss: 0.7359
Epoch [3/20], Loss: 0.7203
Epoch [4/20], Loss: 0.7134
Epoch [5/20], Loss: 0.7082
Epoch [6/20], Loss: 0.7060
Epoch [7/20], Loss: 0.7038
Epoch [8/20], Loss: 0.7034
Epoch [9/20], Loss: 0.7022
Epoch [10/20], Loss: 0.7012
Epoch [11/20], Loss: 0.7005
Epoch [12/20], Loss: 0.7002
Epoch [13/20], Loss: 0.6996
Epoch [14/20], Loss: 0.6998
Epoch [15/20], Loss: 0.6993
Epoch [16/20], Loss: 0.6991
Epoch [17/20], Loss: 0.6992
Epoch [18/20], Loss: 0.6992
Epoch [19/20], Loss: 0.6990
Epoch [20/20], Loss: 0.6990


'Autoencoder training complete.'

In [5]:
from sklearn.metrics import classification_report

def get_reconstruction_errors(model, data):
    model.eval()
    with torch.no_grad():
        reconstructed = model(data)
        mse = torch.mean((data - reconstructed) ** 2, axis=1)
    return mse

reconstruction_errors = get_reconstruction_errors(model, X_test_tensor)
threshold = reconstruction_errors.mean() + 3 * reconstruction_errors.std()

y_pred_autoencoder = (reconstruction_errors > threshold).int().numpy()
y_test_np = y_test.to_numpy()

report = classification_report(y_test_np, y_pred_autoencoder, target_names=["Normal", "Anomaly"])
report

'              precision    recall  f1-score   support\n\n      Normal       1.00      1.00      1.00     56864\n     Anomaly       0.14      0.46      0.22        98\n\n    accuracy                           0.99     56962\n   macro avg       0.57      0.73      0.61     56962\nweighted avg       1.00      0.99      1.00     56962\n'

In [6]:
reconstruction_errors = get_reconstruction_errors(model, X_test_tensor)
threshold = reconstruction_errors.mean() + 3 * reconstruction_errors.std()

y_pred_autoencoder = (reconstruction_errors > threshold).int().numpy()
y_test_np = y_test.to_numpy()
report = classification_report(y_test_np, y_pred_autoencoder, target_names=["Normal", "Anomaly"])
print(report)

              precision    recall  f1-score   support

      Normal       1.00      1.00      1.00     56864
     Anomaly       0.14      0.46      0.22        98

    accuracy                           0.99     56962
   macro avg       0.57      0.73      0.61     56962
weighted avg       1.00      0.99      1.00     56962



**1. Порівняння результатів моделей.**
**Для кожної з моделей було отримано метрики якості: Precision, Recall та F1-score:**

Isolation Forest показав найкращі результати для виявлення аномалій серед трьох методів:
1. Він досяг найвищого рівня Recall (0.61) для аномалій, що означає, що метод виявляє більше аномалій, ніж інші.

2. Попри низьку Precision - 0.11, він забезпечив найбільший баланс між точністю та повнотою F1-score - 0.18 для аномалій.

    Отже він є найефективнішим методом для цього набору даних, оскільки він краще справляється з виявленням рідкісних аномалій, хоча і має помірну кількість хибно позитивних спрацьовувань.

**2. Чому деякі методи працюють краще на даних**
1. Набір містить чисельні ознаки з сильними кореляціями та різною щільністю в різних кластерах. У таких випадках методи, як LOF, можуть виявитися ефективними, оскільки вони визначають аномалії відносно локальної щільності.
2. Аномалії є рідкісними, і дані досить високорозмірні, що робить автоенкодери та Isolation Forest кращими виборами завдяки їх здатності обробляти велику кількість ознак і знаходити відхилення від нормальних шаблонів.

**3. Оцініть можливості використання глибоких нейронних мереж (автоенкодерів) для вирішення задачі**
1. Автоенкодери здатні навчитися кодувати складні зв’язки та патерни, що часто є у транзакційних даних. Це дозволяє краще відрізняти нормальні транзакції від аномалій, які значно відхиляються від очікуваних шаблонів.

2. Автоенкодери можуть навчитися нелінійним залежностям, що дозволяє виявляти аномалії навіть у складних випадках, де методи LOF або One-Class SVM можуть бути обмеженими.

3. Великі дані, як у випадку з фінансовими транзакціями, є відповідними для автоенкодерів. Вони здатні виділити важливі ознаки у компактному латентному просторі, зберігаючи корисну інформацію для виявлення аномалій.