In [43]:
# Импортируем библиотеки
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from utils import *


В рамках данной работы рассматривается набор данных, содержащий транзакции по кредитным картам, совершенные европейскими держателями карт в 2023 году. 
Датасет содержит более 550 000 записей, и данные были анонимизированы для защиты личности владельцев карт. 
Состав данных:
* id: Уникальный идентификатор для каждой транзакции
* V1 - V28: Анонимизированные функции, представляющие различные атрибуты транзакции (например, время, местоположение и т.д.)
* Amount: Сумма транзакции
* Class: Двоичная метка, указывающая, является ли транзакция мошеннической (1) или нет (0)

Далее представлен код, который обучается определять мошеннические транзакции с помощью логистической регрессии.

In [21]:
# Загружаем данные
data = pd.read_csv('creditcard_2023.csv')
y = data.Class
X = data.drop(['id', 'Class'], axis=1)

In [34]:
print("First five elements in X are:\n", X[:5])
print("First five elements in y are:\n", y[:5])

First five elements in X are:
          V1        V2        V3        V4        V5        V6        V7  \
0 -0.260648 -0.469648  2.496266 -0.083724  0.129681  0.732898  0.519014   
1  0.985100 -0.356045  0.558056 -0.429654  0.277140  0.428605  0.406466   
2 -0.260272 -0.949385  1.728538 -0.457986  0.074062  1.419481  0.743511   
3 -0.152152 -0.508959  1.746840 -1.090178  0.249486  1.143312  0.518269   
4 -0.206820 -0.165280  1.527053 -0.448293  0.106125  0.530549  0.658849   

         V8        V9       V10  ...       V20       V21       V22       V23  \
0 -0.130006  0.727159  0.637735  ...  0.091202 -0.110552  0.217606 -0.134794   
1 -0.133118  0.347452  0.529808  ... -0.233984 -0.194936 -0.605761  0.079469   
2 -0.095576 -0.261297  0.690708  ...  0.361652 -0.005020  0.702906  0.945045   
3 -0.065130 -0.205698  0.575231  ... -0.378223 -0.146927 -0.038212 -0.214048   
4 -0.212660  1.049921  0.968046  ...  0.247237 -0.106984  0.729727 -0.161666   

        V24       V25       V26      

In [24]:
print ('The shape of X is:', X.shape)
print ('The shape of y is:', y.shape)

The shape of X is: (568630, 29)
The shape of y is: (568630,)


In [58]:
# Разделяем данные на тренировочную и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.2, random_state = 5, stratify = y)

In [59]:
print("First five elements in X_train are:\n", X_train[:5])
print("First five elements in y_train are:\n", y_train[:5])
print ('The shape of X_train is:', X_train.shape)
print ('The shape of y_train is:', y_train.shape)

First five elements in X_train are:
               V1        V2        V3        V4        V5        V6        V7  \
285638  0.727548  0.424131 -0.642807  0.749707  2.122255 -0.538272  0.554432   
388553 -1.222997  0.954118 -1.063489  1.616556 -1.428299 -1.043515 -1.567217   
153929  0.006284 -0.012152  2.720972  0.806653  0.441175  1.251123  0.373764   
392282 -0.793205  0.231267 -0.642259  0.280131 -0.151193 -0.757129 -0.360637   
531702 -0.383284 -0.488671 -0.166684  0.368899 -0.640173  0.482760  0.569090   

              V8        V9       V10  ...       V20       V21       V22  \
285638 -0.562439 -0.376224  0.089783  ... -0.433826  0.252616 -0.649114   
388553  1.124442 -2.044436 -1.708163  ...  0.517828  0.763684  0.404135   
153929 -0.087109  0.065541  1.091909  ...  0.139945 -0.066813  0.553472   
392282 -0.265159  0.732575 -0.642636  ... -0.657929  0.309793  0.180536   
531702 -0.025768 -0.551258 -0.314361  ...  1.637026  0.258623  0.132643   

             V23       V24     

In [60]:
print("First five elements in X_test are:\n", X_test[:5])
print("First five elements in y_test are:\n", y_test[:5])
print ('The shape of X_test is:', X_test.shape)
print ('The shape of y_test is:', y_test.shape)

First five elements in X_test are:
               V1        V2        V3        V4        V5        V6        V7  \
247376  1.903854 -0.981229  0.428734 -1.032850 -0.164580  0.869894 -0.052621   
38978  -0.277321 -0.338258  0.487382 -0.834080  0.194448  0.483250  0.811506   
160096  1.811675 -0.514607 -0.061982 -0.643279  0.406468  0.273728  0.415609   
85290  -0.194142 -0.231422  0.813413 -1.397797  0.605906  0.242504  0.835924   
145287 -0.505881  0.153800 -0.182293 -2.532806  0.736163 -0.166570  0.698099   

              V8        V9       V10  ...       V20       V21       V22  \
247376 -0.064277  1.414682  0.852228  ... -0.288500 -0.074767  0.365884   
38978  -0.035939  0.340775  0.396577  ... -0.492884 -0.067249  0.359168   
160096 -0.159000  1.004586  0.648523  ... -0.470926  0.001778  0.736582   
85290  -0.138958  0.265221  0.539664  ...  0.084303 -0.293900 -1.220234   
145287 -0.703419  1.493837  0.842067  ... -0.772437  0.750231 -0.223630   

             V23       V24      

In [61]:
# Обучение модели
model = LogisticRegression().fit(X_train, y_train)

In [62]:
# Получаем параметры модели
w = model.coef_[0]
b = model.intercept_
print(f'Weights = {w}')
print(f'b = {b}')

Weights = [-7.49943060e-01  1.04178097e-02 -8.25684722e-01  2.04406817e+00
  3.22418170e-01 -9.80688097e-02  5.26584682e-02 -4.13440957e-01
 -3.48765773e-01 -4.99818022e-01  8.91143191e-01 -1.39013397e+00
 -1.06052404e-01 -1.54978736e+00 -4.20011404e-02 -1.98989704e-01
  3.34266124e-01  8.88851888e-02 -3.25742066e-01 -8.55181606e-02
  1.86204977e-01  2.55723281e-01 -6.65595391e-03  5.27414784e-02
 -8.18192677e-02 -1.10822274e-01  9.16478015e-02  1.06725276e-01
  5.25059866e-05]
b = [1.1135357]


In [64]:
# Прогнозирование и оценка полеченных результатов
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy: {:.2f}%".format(accuracy * 100))

Accuracy: 95.65%
