# Dataset для обнаружения мошенничества
#### Выявляйте мошенничество на ходу с помощью обширного набора данных (более 6,3 млн строк).

#### isFraud: 1 - это мошенничество. 0 - не являестя мошенничество.
#### isFlaggedFraud: 1 - это 100% мошенничество. 0 - не являестя мошенничество.
#### type: типы перевода денег
#### amount: сколько переводили денег

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_csv("dataset.csv")

In [None]:
df.info()
df.head()

In [None]:
df['isFraud'].value_counts(), df['isFlaggedFraud'].value_counts()

### isFraud: 1 - это мошенничество. 0 - не являестя мошенничество.
#### 8213 - кол'во мошенничества.
#### 6354407 - кол'во не являющихся мошенничеством.

### isFlaggedFraud: 1 - это 100% мошенничество. 0 - не являестя мошенничество.
#### 16 - кол'во 100%-го мошенничества.
#### 6362604 - кол'во не являющихся мошенничеством.

In [None]:
df.isnull().sum() # где и сколько есть прокусков данных

In [None]:
df.shape # сколько строк и столбцов

In [None]:
lines = df.shape[0]
amount_of_fraud = df['isFraud'].value_counts()[1]
fraud_rate = round((amount_of_fraud / lines) * 100,2) # процент мошенничества от общего объема данных
print(f'Процент мошенничества от общего объема данных составляет: {fraud_rate}%')

In [None]:
df['type'].value_counts().sort_values(ascending=False).plot(
    kind='bar',
    title='Transaction Types',
    color='red',
    xlabel='Transaction Type',
    ylabel='Count',
    ) 
# типы перевода денег и рейтинг их использования

In [None]:
df.groupby('type')['isFraud'].mean().sort_values(ascending=False).plot(
    kind='bar',
    title='Fraud Rate by Type',
    color='red',
    ylabel='Fraud Rate',
    xlabel='Transaction Type',
) # показывает какие типы перевода денег использовались мошенниками

In [None]:
df['amount'].describe().astype(int)

In [None]:
np.log1p(df['amount'])

In [None]:
amount_log = np.log1p(df['amount'])
sns.histplot(
    amount_log,
    bins=100,
    kde=True,
    color='red',
    )

In [None]:
df_under_50k = df[df['amount'] < 50000]
sns.boxplot(data=df_under_50k, x='isFraud', y='amount')

In [None]:
df['balanceDiffOrig'] = df['oldbalanceOrg'] - df['newbalanceOrig']

df['balanceDiffDest'] = df['newbalanceDest'] - df['oldbalanceDest']

In [None]:
(df['balanceDiffOrig'] < 0).sum()

In [None]:
(df['balanceDiffDest'] < 0).sum()

In [None]:
frauds_per_step = df[df['isFraud'] == 1]['step'].value_counts().sort_index()

In [None]:
plt.figure(figsize=(8,4))
plt.plot(frauds_per_step)
plt.xlabel('step')
plt.ylabel('fraud count')
plt.title('Frauds per step')
plt.grid()
plt.show()


In [None]:
df.drop(columns='step', inplace=True)

In [15]:
top_senders = df['nameOrig'].value_counts().head(10)
top_senders

nameOrig
C2098525306    3
C400299098     3
C1999539787    3
C1065307291    3
C545315117     3
C1976208114    3
C1784010646    3
C1530544995    3
C1902386530    3
C1677795071    3
Name: count, dtype: int64

In [17]:
top_receivers = df['nameDest'].value_counts().head(10)
top_receivers

nameDest
C1286084959    113
C985934102     109
C665576141     105
C2083562754    102
C248609774     101
C1590550415    101
C451111351      99
C1789550256     99
C1360767589     98
C1023714065     97
Name: count, dtype: int64