### 지도학습 - 분류 EX 1

#### 신용카드 사기 거래 탐지
- 신용카드 사기 거래 탐지는 이진 분류 문제로, 주어진 거래가 정상인지 사기인지 예측
- LogisticRegression 알고리즘 이용
- [Credit Card Fraud Detection](https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud)  데이터 셋 사용

##### 구현 가이드
- **데이터 로드**: 신용카드 거래 데이터셋을 로드
- **특성과 레이블 분리**: 'Class' 열은 거래의 레이블(정상: 0, 사기: 1)을 나타내며, 이를 제외한 나머지 열은 특성으로 사용
- **데이터 분할**: 데이터를 학습 세트와 테스트 세트로 분할하여 모델의 성능을 평가
- **데이터 스케일링**: 특성 값의 범위를 표준화
- **모델 학습**: 랜덤 포레스트 분류기를 사용하여 학습 세트에 대해 모델을 학습
- **예측 및 평가**: 테스트 세트에 대한 예측을 수행하고, 정확도와 기타 평가 지표를 출력

In [52]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, roc_auc_score, roc_curve

In [53]:
# 1. 데이터 로드
df = pd.read_csv('creditcard.csv')

# 데이터 초기 탐색
print("\n=== 데이터셋 ===\n")
print(df.head())

print("\n=== 데이터셋 정보 ===\n")
df.info()

print("\n=== 결측치 확인 ===\n")
print(df.isnull().sum().sum()) # 전체 결측치 개수 확인

print("\n=== 기술 통계량 ===\n")
print(df.describe())


# 2. 특성과 레이블 분리
# 'Class' 컬럼을 레이블(y)로, 나머지를 특성(X)으로 분리
X = df.drop('Class', axis=1)
y = df['Class']


=== 데이터셋 ===

   Time        V1        V2        V3        V4        V5        V6        V7  \
0   0.0 -1.359807 -0.072781  2.536347  1.378155 -0.338321  0.462388  0.239599   
1   0.0  1.191857  0.266151  0.166480  0.448154  0.060018 -0.082361 -0.078803   
2   1.0 -1.358354 -1.340163  1.773209  0.379780 -0.503198  1.800499  0.791461   
3   1.0 -0.966272 -0.185226  1.792993 -0.863291 -0.010309  1.247203  0.237609   
4   2.0 -1.158233  0.877737  1.548718  0.403034 -0.407193  0.095921  0.592941   

         V8        V9  ...       V21       V22       V23       V24       V25  \
0  0.098698  0.363787  ... -0.018307  0.277838 -0.110474  0.066928  0.128539   
1  0.085102 -0.255425  ... -0.225775 -0.638672  0.101288 -0.339846  0.167170   
2  0.247676 -1.514654  ...  0.247998  0.771679  0.909412 -0.689281 -0.327642   
3  0.377436 -1.387024  ... -0.108300  0.005274 -0.190321 -1.175575  0.647376   
4 -0.270533  0.817739  ... -0.009431  0.798278 -0.137458  0.141267 -0.206010   

        V26      

In [54]:
# 2. 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42,
)

In [55]:
# 3. 데이터 스케일링
numerical_features = X.columns

scaler = StandardScaler()
X_train[numerical_features] = scaler.fit_transform(X_train[numerical_features])
X_test[numerical_features] = scaler.transform(X_test[numerical_features])

print(df.head())

   Time        V1        V2        V3        V4        V5        V6        V7  \
0   0.0 -1.359807 -0.072781  2.536347  1.378155 -0.338321  0.462388  0.239599   
1   0.0  1.191857  0.266151  0.166480  0.448154  0.060018 -0.082361 -0.078803   
2   1.0 -1.358354 -1.340163  1.773209  0.379780 -0.503198  1.800499  0.791461   
3   1.0 -0.966272 -0.185226  1.792993 -0.863291 -0.010309  1.247203  0.237609   
4   2.0 -1.158233  0.877737  1.548718  0.403034 -0.407193  0.095921  0.592941   

         V8        V9  ...       V21       V22       V23       V24       V25  \
0  0.098698  0.363787  ... -0.018307  0.277838 -0.110474  0.066928  0.128539   
1  0.085102 -0.255425  ... -0.225775 -0.638672  0.101288 -0.339846  0.167170   
2  0.247676 -1.514654  ...  0.247998  0.771679  0.909412 -0.689281 -0.327642   
3  0.377436 -1.387024  ... -0.108300  0.005274 -0.190321 -1.175575  0.647376   
4 -0.270533  0.817739  ... -0.009431  0.798278 -0.137458  0.141267 -0.206010   

        V26       V27       V28 

In [56]:
# 4. 모델 학습

# Logistic Regression 모델 초기화
model = LogisticRegression(max_iter=1000, random_state=42)

# 모델 학습
model.fit(X_train, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,42
,solver,'lbfgs'
,max_iter,1000


In [57]:
# 5. 예측
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

# 6. 평가 지표 계산
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

# 평가 지표 출력
print("\n=== 모델 평가 결과 ===\n")
print(f"정확도: {accuracy}")
print(f"정밀도: {precision}")
print(f"재현율: {recall}")
print(f"F1 점수: {f1}")

# Confusion Matrix 출력
print("\n=== Confusion Matrix ===\n")
print(conf_matrix)


=== 모델 평가 결과 ===

정확도: 0.9990695551420246
정밀도: 0.8461538461538461
재현율: 0.5612244897959183
F1 점수: 0.6748466257668712

=== Confusion Matrix ===

[[56854    10]
 [   43    55]]


### 지도학습 예제 2

#### 신용카드 사기 거래 탐지
- 신용카드 사기 거래 탐지는 이진 분류 문제로, 주어진 거래가 정상인지 사기인지 예측
- KNeighborsClassifier 알고리즘 이용
- [Credit Card Fraud Detection](https://www.kaggle.com/datasets/mlg-ulb/creditcardfraud)  데이터 셋 사용

##### 구현 가이드
- **데이터 로드**: 신용카드 거래 데이터셋을 로드
- 데이터 분할: 데이터를 학습 세트(80%)와 테스트 세트(20%)로 분할
- 데이터 스케일링: KNN은 거리 기반 알고리즘이므로, 특성 값의 범위가 다르면 성능에 영향을 줄 수 있습니다. 이를 해결하기 위해 StandardScaler를 사용하여 데이터를 표준화
- KNN 모델 학습: KNeighborsClassifier를 사용하여 KNN 분류 모델을 생성하고 학습 데이터를 학습시킵니다. n_neighbors=5는 가장 가까운 5개의 이웃을 기준으로 분류
- 예측 및 성능 평가: 학습된 모델로 테스트 데이터를 예측하고, accuracy_score와 classification_report로 성능을 평가

In [58]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier # KNN 분류기 임포트
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix, classification_report, roc_auc_score, roc_curve

In [59]:
# 1. 데이터 로드
df = pd.read_csv('creditcard.csv')

# 데이터 초기 탐색
print("\n=== 데이터셋 ===\n")
print(df.head())

print("\n=== 데이터셋 정보 ===\n")
df.info()

print("\n=== 결측치 확인 ===\n")
print(df.isnull().sum().sum()) # 전체 결측치 개수 확인

print("\n=== 기술 통계량 ===\n")
print(df.describe())


# 특성과 레이블 분리
# 'Class' 컬럼을 레이블(y)로, 나머지를 특성(X)으로 분리
X = df.drop('Class', axis=1)
y = df['Class']


=== 데이터셋 ===

   Time        V1        V2        V3        V4        V5        V6        V7  \
0   0.0 -1.359807 -0.072781  2.536347  1.378155 -0.338321  0.462388  0.239599   
1   0.0  1.191857  0.266151  0.166480  0.448154  0.060018 -0.082361 -0.078803   
2   1.0 -1.358354 -1.340163  1.773209  0.379780 -0.503198  1.800499  0.791461   
3   1.0 -0.966272 -0.185226  1.792993 -0.863291 -0.010309  1.247203  0.237609   
4   2.0 -1.158233  0.877737  1.548718  0.403034 -0.407193  0.095921  0.592941   

         V8        V9  ...       V21       V22       V23       V24       V25  \
0  0.098698  0.363787  ... -0.018307  0.277838 -0.110474  0.066928  0.128539   
1  0.085102 -0.255425  ... -0.225775 -0.638672  0.101288 -0.339846  0.167170   
2  0.247676 -1.514654  ...  0.247998  0.771679  0.909412 -0.689281 -0.327642   
3  0.377436 -1.387024  ... -0.108300  0.005274 -0.190321 -1.175575  0.647376   
4 -0.270533  0.817739  ... -0.009431  0.798278 -0.137458  0.141267 -0.206010   

        V26      

In [60]:
# 2. 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(
    X, y, 
    test_size=0.2, 
    random_state=42,
)

In [61]:
# 3. 데이터 스케일링
numerical_features = X.columns

scaler = StandardScaler()
X_train[numerical_features] = scaler.fit_transform(X_train[numerical_features])
X_test[numerical_features] = scaler.transform(X_test[numerical_features])

print(df.head())

   Time        V1        V2        V3        V4        V5        V6        V7  \
0   0.0 -1.359807 -0.072781  2.536347  1.378155 -0.338321  0.462388  0.239599   
1   0.0  1.191857  0.266151  0.166480  0.448154  0.060018 -0.082361 -0.078803   
2   1.0 -1.358354 -1.340163  1.773209  0.379780 -0.503198  1.800499  0.791461   
3   1.0 -0.966272 -0.185226  1.792993 -0.863291 -0.010309  1.247203  0.237609   
4   2.0 -1.158233  0.877737  1.548718  0.403034 -0.407193  0.095921  0.592941   

         V8        V9  ...       V21       V22       V23       V24       V25  \
0  0.098698  0.363787  ... -0.018307  0.277838 -0.110474  0.066928  0.128539   
1  0.085102 -0.255425  ... -0.225775 -0.638672  0.101288 -0.339846  0.167170   
2  0.247676 -1.514654  ...  0.247998  0.771679  0.909412 -0.689281 -0.327642   
3  0.377436 -1.387024  ... -0.108300  0.005274 -0.190321 -1.175575  0.647376   
4 -0.270533  0.817739  ... -0.009431  0.798278 -0.137458  0.141267 -0.206010   

        V26       V27       V28 

In [62]:
# 4. KNN 모델 학습

# KNeighborsClassifier 모델 초기화
# n_neighbors: 사용할 이웃의 수
# p=2 (기본값): 유클리드 거리 (p=1은 맨해튼 거리)
# n_jobs=-1: 가능한 모든 CPU 코어를 사용하여 학습 속도 향상 (대규모 데이터셋에 유용)

knn_model = KNeighborsClassifier(n_neighbors=5, p=2, n_jobs=-1)

In [63]:
# 5. 모델 예측
knn_model.fit(X_train, y_train)
y_pred = knn_model.predict(X_test)
y_pred_proba = knn_model.predict_proba(X_test)[:, 1]

# 6. 평가 지표 계산
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

# 평가 지표 출력
print("\n=== KNN 모델 평가 결과 ===\n")
print(f"정확도: {accuracy}")
print(f"정밀도: {precision}")
print(f"재현율: {recall}")
print(f"F1 점수: {f1}")

# Confusion Matrix 출력
print("\n=== Confusion Matrix ===\n")
print(conf_matrix)



=== KNN 모델 평가 결과 ===

정확도: 0.9995259997893332
정밀도: 0.9382716049382716
재현율: 0.7755102040816326
F1 점수: 0.8491620111731844

=== Confusion Matrix ===

[[56859     5]
 [   22    76]]
