In [1]:
import pandas as pd
from sklearn.neighbors import LocalOutlierFactor
from sklearn.ensemble import IsolationForest
from sklearn.metrics import recall_score, f1_score, accuracy_score

z = pd.read_csv(r"data\diy.txt")
z = z[z['Frequency'] > 1]
z1 = z.drop(['Monetary_Q', 'Monetary_A', 'ClientID'], axis = 1)

In [2]:
# Задание по профилю клиента 
# Проверка алгоритма с novelty=False
lof_model_1 = LocalOutlierFactor(
    n_neighbors=100,
    algorithm='auto',
    leaf_size=30,
    metric='minkowski',
    p=2,
    metric_params=None,
    contamination='auto',# Доля ожидаемых выбросов от (0;1)
    novelty=False,
    n_jobs=-1 # Использовать все достпуные ядра процессора
)

In [3]:
pred_1 = lof_model_1.fit_predict(z1)
z2 = z.copy()
z2['is_anomaly'] = pred_1
pred_1_1 = z2[z2['is_anomaly'] == -1]['is_anomaly'].values
print('Количество аномалий согласно результату LOF:', len(pred_1_1))

Количество аномалий согласно результату LOF: 534


In [4]:
# Проверка алгоритма с novelty=True
z2_1 = z2[z2['is_anomaly'] == -1].drop(['Monetary_Q', 'Monetary_A', 'ClientID', 'is_anomaly'], axis = 1) # Клиенты-аномалии
z2_0 = z2[z2['is_anomaly'] == 1].drop(['Monetary_Q', 'Monetary_A', 'ClientID', 'is_anomaly'], axis = 1) # Обычные клиенты

In [5]:
lof_model_2 = LocalOutlierFactor(
    n_neighbors=100,
    algorithm='auto',
    leaf_size=30,
    metric='minkowski',
    p=2,
    metric_params=None,
    contamination='auto', # Доля ожидаемых выбросов от (0;1)
    novelty=True,
    n_jobs=-1 # Использовать все достпуные ядра процессора
)

In [6]:
lof_model_2.fit(z2_0)
pred_2 = lof_model_2.predict(z2_1)

anomalies = pred_2[pred_2 == -1]



In [7]:
print('Количество аномалий согласно результату LOF:', len(anomalies))

Количество аномалий согласно результату LOF: 534


In [8]:
# Метрики качества:

recall1 = recall_score(pred_1_1, pred_2, pos_label=-1)
f1_1 = f1_score(pred_1_1, pred_2, pos_label=-1)
accuracy1 = accuracy_score(pred_1_1, pred_2)

print('Recall: ', recall1)
print('F1-Score:', f1_1)
print('Accuracy: ', accuracy1)

Recall:  1.0
F1-Score: 1.0
Accuracy:  1.0


In [9]:
# Isolation forest

if_model_1 = IsolationForest(
    n_estimators=1000,
    max_samples='auto',
    contamination='auto',
    max_features=1,
    bootstrap=False,
    n_jobs=None,
    random_state=None,
    verbose=0,
    warm_start=False
)

In [10]:
if_model_1.fit
pred_3 = lof_model_1.fit_predict(z1)
z3 = z.copy()
z3['is_anomaly'] = pred_3
pred_3_1 = z3[z3['is_anomaly'] == -1]['is_anomaly'].values
print('Количество аномалий согласно результату LOF:', len(z3[z3['is_anomaly'] == -1]))

Количество аномалий согласно результату LOF: 534


In [11]:
if_model_2 = IsolationForest(
    n_estimators=1000,
    max_samples='auto',
    contamination='auto',
    max_features=1,
    bootstrap=False,
    n_jobs=None,
    random_state=None,
    verbose=0,
    warm_start=False
)

In [12]:
# Проверка алгоритма с fit_predict
z3_1 = z3[z3['is_anomaly'] == -1].drop(['Monetary_Q', 'Monetary_A', 'ClientID', 'is_anomaly'], axis = 1) # Клиенты-аномалии
z3_0 = z3[z3['is_anomaly'] == 1].drop(['Monetary_Q', 'Monetary_A', 'ClientID', 'is_anomaly'], axis = 1) # Обычные клиенты

In [13]:
if_model_2.fit(z3_0)
pred_4 = if_model_2.predict(z3_1)

anomalies2 = pred_4[pred_4 == -1]
print('Количество аномалий согласно результату LOF:', len(anomalies2))

Количество аномалий согласно результату LOF: 534


In [14]:
# Метрики качества:

recall2 = recall_score(pred_3_1, pred_4, pos_label=-1)
f1_2 = f1_score(pred_3_1, pred_4, pos_label=-1)
accuracy2 = accuracy_score(pred_3_1, pred_4)

print('Recall: ', recall2)
print('F1-Score:', f1_2)
print('Accuracy: ', accuracy2)

Recall:  1.0
F1-Score: 1.0
Accuracy:  1.0


In [16]:
# Задание с банками

df = pd.read_csv(r"data\banks.txt", encoding="windows-1251")

In [17]:
df1 = df.drop(['Bank'], axis = 1)

In [18]:
# Проверка алгоритма с novelty=False
lof_model_3 = LocalOutlierFactor(
    n_neighbors=20,
    algorithm='auto',
    leaf_size=30,
    metric='minkowski',
    p=2,
    metric_params=None,
    contamination='auto',# Доля ожидаемых выбросов от (0;1)
    novelty=False,
    n_jobs=-1 # Использовать все достпуные ядра процессора
)

In [19]:
pred_5 = lof_model_3.fit_predict(df1)
df2 = df.copy()
df2['is_anomaly'] = pred_5
pred_5_1 = df2[df2['is_anomaly'] == -1]['is_anomaly'].values
print('Количество аномалий согласно результату LOF:', len(pred_5_1))

Количество аномалий согласно результату LOF: 56


In [20]:
# Проверка алгоритма с novelty=True
df2_1 = df2[df2['is_anomaly'] == -1].drop(['Bank'], axis = 1) # Клиенты-аномалии
df2_0 = df2[df2['is_anomaly'] == 1].drop(['Bank'], axis = 1) # Обычные клиенты

In [21]:
lof_model_4 = LocalOutlierFactor(
    n_neighbors=20,
    algorithm='auto',
    leaf_size=30,
    metric='minkowski',
    p=2,
    metric_params=None,
    contamination='auto', # Доля ожидаемых выбросов от (0;1)
    novelty=True,
    n_jobs=-1 # Использовать все достпуные ядра процессора
)

In [22]:
lof_model_4.fit(df2_0)
pred_6 = lof_model_4.predict(df2_1)

anomalies3 = pred_6[pred_6 == -1]

print('Количество аномалий согласно результату LOF:', len(anomalies3))

Количество аномалий согласно результату LOF: 56




In [23]:
# Метрики качества:

recall3 = recall_score(pred_5_1, pred_6, pos_label=-1)
f1_3 = f1_score(pred_5_1, pred_6, pos_label=-1)
accuracy3 = accuracy_score(pred_5_1, pred_6)

print('Recall: ', recall3)
print('F1-Score:', f1_3)
print('Accuracy: ', accuracy3)

Recall:  1.0
F1-Score: 1.0
Accuracy:  1.0


In [24]:
# Isolation forest

if_model_3 = IsolationForest(
    n_estimators=100,
    max_samples='auto',
    contamination='auto',
    max_features=1,
    bootstrap=False,
    n_jobs=None,
    random_state=None,
    verbose=0,
    warm_start=False
)

In [25]:
if_model_3.fit
pred_7 = if_model_3.fit_predict(df1)
df3 = df.copy()
df3['is_anomaly'] = pred_7
pred_7_1 = df3[df3['is_anomaly'] == -1]['is_anomaly'].values
print('Количество аномалий согласно результату LOF:', len(df3[df3['is_anomaly'] == -1]))

Количество аномалий согласно результату LOF: 33


In [26]:
if_model_4 = IsolationForest(
    n_estimators=100,
    max_samples='auto',
    contamination='auto',
    max_features=1,
    bootstrap=False,
    n_jobs=None,
    random_state=None,
    verbose=0,
    warm_start=False
)

In [27]:
# Проверка алгоритма с fit_predict
df3_1 = df3[df3['is_anomaly'] == -1].drop(['Bank'], axis = 1) # Клиенты-аномалии
df3_0 = df3[df3['is_anomaly'] == 1].drop(['Bank'], axis = 1) # Обычные клиенты

In [28]:
if_model_4.fit(df3_0)
pred_8 = if_model_4.predict(df3_1)

anomalies4 = pred_8[pred_8 == -1]
print('Количество аномалий согласно результату LOF:', len(anomalies4))

Количество аномалий согласно результату LOF: 33


In [29]:
# Метрики качества:

recall4 = recall_score(pred_7_1, pred_8, pos_label=-1)
f1_4 = f1_score(pred_7_1, pred_8, pos_label=-1)
accuracy4 = accuracy_score(pred_7_1, pred_8)

print('Recall: ', recall4)
print('F1-Score:', f1_4)
print('Accuracy: ', accuracy4)

Recall:  1.0
F1-Score: 1.0
Accuracy:  1.0
