## Этот код демонстрирует, как использовать логистическую регрессию для обнаружения мошенничества с кредитными картами. 

### Импорт библиотек: В этой части кода импортируются необходимые библиотеки для работы с данными, машинным обучением и визуализацией, такие как pandas, numpy, sklearn, matplotlib и seaborn.

In [18]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

### Загрузка и изучение данных: В этой части кода загружается набор данных о транзакциях с кредитными картами, содержащий 284 807 записей и 31 признак. Один из признаков - это label, который указывает, является ли транзакция мошеннической (1) или нет (0). 

In [2]:
# Считывание данных из CSV-файла
df = pd.read_csv('payment_fraud.csv')

In [4]:
df.shape

(39221, 6)

In [8]:
df['label'].value_counts()

0    38661
1      560
Name: label, dtype: int64

In [9]:
df['paymentMethod'].value_counts()

creditcard     28004
paypal          9303
storecredit     1914
Name: paymentMethod, dtype: int64

In [10]:
df.sample(20)

Unnamed: 0,accountAgeDays,numItems,localTime,paymentMethod,paymentMethodAgeDays,label
33182,153,1,4.962055,paypal,152.063889,0
21764,112,1,4.505662,creditcard,0.0,0
4871,4,1,4.895263,creditcard,3.559722,0
14890,836,1,5.040929,creditcard,721.078472,0
17382,2000,1,4.886641,creditcard,1728.866667,0
16121,2000,1,4.057414,creditcard,0.08125,0
33405,154,1,4.921318,creditcard,152.0,0
12112,1859,1,4.921318,creditcard,0.011806,0
32347,8,1,4.748314,paypal,7.636806,0
14898,2000,1,4.836982,creditcard,0.000694,0


## Преобразование категориальных признаков:
### Он преобразует категориальный признак "paymentMethod" в фиктивные переменные с помощью метода one-hot encoding.


In [11]:
# Преобразовать категориальный признак в фиктивные переменные с однократным кодированием
df = pd.get_dummies(df, columns=['paymentMethod'])
df.sample(5)

Unnamed: 0,accountAgeDays,numItems,localTime,paymentMethodAgeDays,label,paymentMethod_creditcard,paymentMethod_paypal,paymentMethod_storecredit
31752,1170,1,4.836982,0.002083,0,1,0,0
361,2000,1,5.034622,0.0,0,1,0,0
28381,1303,1,4.742303,0.0,0,1,0,0
25580,216,1,4.748314,0.0,0,1,0,0
16312,21,1,4.745402,20.944444,0,0,1,0


## Разделение данных:
### Он разделяет данные на обучающий и тестовый наборы для оценки производительности модели.

In [15]:
# Разделить набор данных на обучающие и тестовые наборы
X_train, X_test, y_train, y_test = train_test_split(
    df.drop('label', axis=1), df['label'],
    test_size=0.3, random_state=17)

## Инициализация и обучение модели: 
### Он создает модель логистической регрессии и обучает ее на обучающих данных.

In [16]:
# Инициализировать и обучить модель классификатора
clf = LogisticRegression().fit(X_train, y_train)

# Делайте прогнозы по тестовому набору
y_pred = clf.predict(X_test)

## Оценка производительности модели: 
### Он вычисляет точность предсказаний и выводит матрицу ошибок, которая показывает, какие метки были предсказаны верно, а какие — неверно.

In [17]:
# Сравните предсказания тестового набора с основными метками истинности
print(accuracy_score(y_pred, y_test))
print(confusion_matrix(y_test, y_pred))

1.0
[[11596     0]
 [    0   171]]
