Я створив новий CSV файл з симульованими даними, до якого додав два нових стовпці і виконав one-hot encoding для категорійних даних. Ви можете завантажити цей файл за наступним посиланням:

[Скачати Encoded_Fake_Credit_Card_Transactions.csv](./Encoded_Fake_Credit_Card_Transactions.csv)



Тепер, давайте переробимо приклад 1, використовуючи цей модифікований і закодований набір даних:

### Підготовка даних та навчання моделі



In [7]:

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import IsolationForest

# Завантаження даних
data = pd.read_csv('Encoded_Fake_Credit_Card_Transactions.csv')

# Розділення даних на вхідні (X) і цільову змінну (y)
X = data.drop('Fraud', axis=1)
y = data['Fraud']

# Розділення даних на навчальний і тестовий набори
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Налаштування моделі виявлення аномалій
model = IsolationForest(n_estimators=1000, contamination=float(y.sum())/len(y), random_state=42)

# Навчання моделі на навчальних даних
model.fit(X_train)

# Виявлення аномалій
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

# Перетворення міток з [-1, 1] (де -1 - аномалії) на [0, 1] для співставлення з 'Fraud'
y_pred_train = (y_pred_train == -1).astype(int)
y_pred_test = (y_pred_test == -1).astype(int)

# Виведення результатів для тренувального і тестового наборів
from sklearn.metrics import classification_report, confusion_matrix

print("Класифікаційний звіт для тренувального набору:")
print(classification_report(y_train, y_pred_train))

print("Класифікаційний звіт для тестового набору:")
print(classification_report(y_test, y_pred_test))
print(confusion_matrix(y_test, y_pred_test))


Класифікаційний звіт для тренувального набору:
              precision    recall  f1-score   support

           0       0.95      0.95      0.95      3812
           1       0.04      0.04      0.04       188

    accuracy                           0.91      4000
   macro avg       0.50      0.50      0.50      4000
weighted avg       0.91      0.91      0.91      4000

Класифікаційний звіт для тестового набору:
              precision    recall  f1-score   support

           0       0.93      0.93      0.93       936
           1       0.03      0.03      0.03        64

    accuracy                           0.88      1000
   macro avg       0.48      0.48      0.48      1000
weighted avg       0.88      0.88      0.88      1000

[[874  62]
 [ 62   2]]




Цей код дозволяє аналізувати великі обсяги даних і виявляти аномалії, які можуть вказувати на потенційні фінансові махінації, використовуючи модель ізоляційного лісу на даних з перекодованими категорійними значеннями.