# 1. 정상거래와 사기거래의 거래 금액 분포 비교

### 거래금액 분포

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# 사기거래와 정상거래로 데이터 분할
illegal = df[df['Is Fraudulent'] == 1]
legal = df[df['Is Fraudulent'] == 0]

# Transaction Amount 분포 비교
plt.figure(figsize=(10, 6))
sns.histplot(data=illegal, x='Transaction Amount', color='red', alpha=0.7, label='사기거래', kde=True)
sns.histplot(data=legal, x='Transaction Amount', color='blue', alpha=0.7, label='정상거래', kde=True)

# 각 분포의 최대값에 라인 그리고 수치 표시
max_legal = legal['Transaction Amount'].max()
max_illegal = illegal['Transaction Amount'].max()
plt.axvline(x=max_legal, color='blue', linestyle='--', label=f'정상거래 최대값: {max_legal:.2f}')
plt.axvline(x=max_illegal, color='red', linestyle='--', label=f'사기거래 최대값: {max_illegal:.2f}')

plt.title('거래금액 분포')
plt.xlabel('Transaction Amount')
plt.ylabel('Density')
plt.legend(loc='upper center')  # 범례 위치 조정
plt.show()

### 사기 여부에 따른 거래 금액의 BoxPlot

In [None]:
# 박스 플롯 시각화
plt.figure(figsize=(10, 6))
sns.boxplot(x='Is Fraudulent', y='Transaction Amount', data=df)
plt.title('사기 여부에 따른 거래 금액의 BoxPlot')
plt.xlabel('Is Fraudulent')
plt.ylabel('Transaction Amount')
plt.xticks([0, 1], ['정상거래', '사기거래'])
plt.show()

### 정상 거래의 거래금액에 대한 커널 밀도 추정

In [None]:
# 정상 거래 데이터만 추출
fraudulent_transactions = df[df['Is Fraudulent'] == 0]

# 중앙값 계산
median_amount = np.median(fraudulent_transactions['Transaction Amount'])

# KDE 플롯으로 결제 금액의 분포 시각화
plt.figure(figsize=(10, 6))
sns.kdeplot(data=fraudulent_transactions, x='Transaction Amount', fill=True)
plt.title('정상 거래의 거래금액에 대한 커널 밀도 추정')
plt.xlabel('Transaction Amount')
plt.ylabel('Density')

# 중앙값을 빨간색 선으로 추가
plt.axvline(x=median_amount, color='red', linestyle='--', label=f'Median: {median_amount:.2f}')
plt.legend()

plt.show()

### 사기 거래의 거래금액에 대한 커널 밀도 추정

In [None]:
# 사기 거래 데이터만 추출
fraudulent_transactions = df[df['Is Fraudulent'] == 1]

# 중앙값 계산
median_amount = np.median(fraudulent_transactions['Transaction Amount'])

# KDE 플롯으로 결제 금액의 분포 시각화
plt.figure(figsize=(10, 6))
sns.kdeplot(data=fraudulent_transactions, x='Transaction Amount', fill=True)
plt.title('사기 거래의 거래금액에 대한 커널 밀도 추정')
plt.xlabel('Transaction Amount')
plt.ylabel('Density')

# 중앙값을 빨간색 선으로 추가
plt.axvline(x=median_amount, color='red', linestyle='--', label=f'Median: {median_amount:.2f}')
plt.legend()

plt.show()

### 거래금액 범위별 정상거래 비율

In [None]:
# 0에서 4000까지 200단위로 금액대를 생성
bins = np.arange(0, 1700, 200)
labels = [f"{i} - {i+199}" for i in bins[:-1]]

# 금액대별로 데이터 분류
df['Amount Range'] = pd.cut(df['Transaction Amount'], bins=bins, labels=labels)

# 정상 거래만 포함하는 데이터프레임 생성
fraudulent_transactions = df[df['Is Fraudulent'] == 0]

# 금액대별 사기 거래 수 계산
fraud_counts_by_range = fraudulent_transactions['Amount Range'].value_counts().sort_index()

# 전체 정상 거래 수
total_fraud_count = fraudulent_transactions.shape[0]

# 각 금액대별 정상 거래 비율 계산 (해당 금액대의 정상 거래 수 / 전체 정상 거래 수)
fraud_rate_by_range = fraud_counts_by_range / total_fraud_count

# Seaborn을 사용한 시각화 및 각 막대 위에 수치 표시
plt.figure(figsize=(12, 6))
barplot = sns.barplot(x=fraud_rate_by_range.index, y=fraud_rate_by_range.values, palette="viridis")
plt.title('거래 금액 범위별 정상거래 비율')
plt.xlabel('Transaction Amount Range')
plt.ylabel('Percentage of Total Fraudulent Transactions')
plt.xticks(rotation=45)

# 각 막대 위에 비율 표시
for index, value in enumerate(fraud_rate_by_range):
    plt.text(index, value, f"{value:.2%}", color='black', ha="center", va="bottom")

plt.show()

### 거래금액 범위별 사기거래 비율

In [None]:
# 사기 거래 데이터만 추출
fraudulent_transactions = df[df['Is Fraudulent'] == 1]

# 0에서 4000까지 200단위로 금액대를 생성
bins = np.arange(0, 4200, 200)
labels = [f"{i} - {i+199}" for i in bins[:-1]]

# 금액대별로 데이터 분류
df['Amount Range'] = pd.cut(df['Transaction Amount'], bins=bins, labels=labels)

# 사기 거래만 포함하는 데이터프레임 생성
fraudulent_transactions = df[df['Is Fraudulent'] == 1]

# 금액대별 사기 거래 수 계산
fraud_counts_by_range = fraudulent_transactions['Amount Range'].value_counts().sort_index()

# 전체 사기 거래 수
total_fraud_count = fraudulent_transactions.shape[0]

# 각 금액대별 사기 거래 비율 계산 (해당 금액대의 사기 거래 수 / 전체 사기 거래 수)
fraud_rate_by_range = fraud_counts_by_range / total_fraud_count

# Seaborn을 사용한 시각화 및 각 막대 위에 수치 표시
plt.figure(figsize=(12, 6))
barplot = sns.barplot(x=fraud_rate_by_range.index, y=fraud_rate_by_range.values, palette="viridis")
plt.title('거래 금액 범위별 사기거래 비율')
plt.xlabel('Transaction Amount Range')
plt.ylabel('Percentage of Total Fraudulent Transactions')
plt.xticks(rotation=45)

# 각 막대 위에 비율 표시
for index, value in enumerate(fraud_rate_by_range):
    plt.text(index, value, f"{value:.2%}", color='black', ha="center", va="bottom")

plt.show()

# 2. 결제수단별 거래수 및 비율

### 정상거래의 결제수단별 거래수 및 비율

In [None]:
import math

# 시각화
plt.figure(figsize=(10, 6))

# 막대 그래프 (거래 수)
ax1 = sns.barplot(data=fraudulent_transactions_count_by_payment, x='Payment Method', y='Count', color='blue')
ax1.set_ylabel('Count', color='blue')

# 라인 그래프 (비율)
ax2 = ax1.twinx()
sns.lineplot(data=fraudulent_transactions_count_by_payment, x='Payment Method', y='Ratio', marker='o', color='red', ax=ax2)
ax2.set_ylabel('Ratio', color='red')

# 각 막대와 라인 포인트에 count와 ratio를 수치로 표시 (소수점 세 자리까지 표기)
for index, row in fraudulent_transactions_count_by_payment.iterrows():
    rounded_ratio = math.floor(row['Ratio'] * 10000) / 10000  # 소수점 넷째 자리에서 버림
    ax1.text(index, row['Count'], f'{row["Count"]}', color='black', ha='center', va='bottom')
    ax2.text(index, row['Ratio'], f'{rounded_ratio:.4f}', color='black', ha='center', va='top')

# Ratio의 y 축 범위 설정
ax2.set_ylim(0.0, 0.3)

plt.title('Payment Method별 정상거래 수 및 비율')
plt.show()

### 사기거래의 결제수단별 거래수 및 비율

In [None]:
import math

# 시각화
plt.figure(figsize=(10, 6))

# 막대 그래프 (거래 수)
ax1 = sns.barplot(data=fraudulent_transactions_count_by_payment, x='Payment Method', y='Count', color='blue')
ax1.set_ylabel('Count', color='blue')

# 라인 그래프 (비율)
ax2 = ax1.twinx()
sns.lineplot(data=fraudulent_transactions_count_by_payment, x='Payment Method', y='Ratio', marker='o', color='red', ax=ax2)
ax2.set_ylabel('Ratio', color='red')

# 각 막대와 라인 포인트에 count와 ratio를 수치로 표시 (소수점 세 자리까지 표기)
for index, row in fraudulent_transactions_count_by_payment.iterrows():
    rounded_ratio = math.floor(row['Ratio'] * 10000) / 10000  # 소수점 넷째 자리에서 버림
    ax1.text(index, row['Count'], f'{row["Count"]}', color='black', ha='center', va='bottom')
    ax2.text(index, row['Ratio'], f'{rounded_ratio:.4f}', color='black', ha='center', va='top')

# Ratio의 y 축 범위 설정
ax2.set_ylim(0.0, 0.3)

plt.title('Payment Method별 사기거래 수 및 비율')
plt.show()

# 3. 결제 방법별 거래 금액 범위에 따른 사기거래 비율

In [None]:
# 거래 금액을 10개의 균일한 구간으로 나눔
df['Amount Range'] = pd.qcut(df['Transaction Amount'], 10, duplicates='drop')

# 결제 방법과 금액 범위에 따라 그룹화하여 사기 거래 비율 계산
fraud_rates = df.groupby(['Payment Method', 'Amount Range']).apply(
    lambda x: x['Is Fraudulent'].mean()
).unstack(fill_value=0)  # 결측치는 0으로 채움

# 사기 거래 비율 시각화
plt.figure(figsize=(12, 8))
sns.heatmap(fraud_rates, annot=True, cmap='Reds', fmt=".3f")
plt.title('결제 방법과 거래 금액 범위별 사기거래 비율')
plt.ylabel('Payment Method')
plt.xlabel('Transaction Amount Range')
plt.show()