### 지도학습
- 신용카드 사기 거래 탐지
    - 이진 분류 문제로, 주어진 거래가 정상인지 사기인지 예측
    - LogisicRegression 알고리즘
    - 구현 가이드
    - 1. **데이터 로드**: 신용카드 거래 데이터셋을 로드
    - 2. **특성과 레이블 분리**: 'Class' 열은 거래의 레이블(정상: 0, 사기: 1)을 나타내며, 이를 제외한 나머지 열은 특성으로 사용
    - 3. **데이터 분할**: 데이터를 학습 세트와 테스트 세트로 분할하여 모델의 성능을 평가
    - 4. **데이터 스케일링**: 특성 값의 범위를 표준화
    - 5. **모델 학습**: 랜덤 포레스트 분류기를 사용하여 학습 세트에 대해 모델을 학습
    - 6. **예측 및 평가**: 테스트 세트에 대한 예측을 수행하고, 정확도와 기타 평가 지표를 출력

In [67]:
import pandas as pd # csv => DataFrame
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, accuracy_score, confusion_matrix

In [68]:
data = pd.read_csv('creditcard.csv')
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 284807 entries, 0 to 284806
Data columns (total 31 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   Time    284807 non-null  float64
 1   V1      284807 non-null  float64
 2   V2      284807 non-null  float64
 3   V3      284807 non-null  float64
 4   V4      284807 non-null  float64
 5   V5      284807 non-null  float64
 6   V6      284807 non-null  float64
 7   V7      284807 non-null  float64
 8   V8      284807 non-null  float64
 9   V9      284807 non-null  float64
 10  V10     284807 non-null  float64
 11  V11     284807 non-null  float64
 12  V12     284807 non-null  float64
 13  V13     284807 non-null  float64
 14  V14     284807 non-null  float64
 15  V15     284807 non-null  float64
 16  V16     284807 non-null  float64
 17  V17     284807 non-null  float64
 18  V18     284807 non-null  float64
 19  V19     284807 non-null  float64
 20  V20     284807 non-null  float64
 21  V21     28

In [69]:
data.isnull().sum()

Time      0
V1        0
V2        0
V3        0
V4        0
V5        0
V6        0
V7        0
V8        0
V9        0
V10       0
V11       0
V12       0
V13       0
V14       0
V15       0
V16       0
V17       0
V18       0
V19       0
V20       0
V21       0
V22       0
V23       0
V24       0
V25       0
V26       0
V27       0
V28       0
Amount    0
Class     0
dtype: int64

In [70]:
data.head()

Unnamed: 0,Time,V1,V2,V3,V4,V5,V6,V7,V8,V9,...,V21,V22,V23,V24,V25,V26,V27,V28,Amount,Class
0,0.0,-1.359807,-0.072781,2.536347,1.378155,-0.338321,0.462388,0.239599,0.098698,0.363787,...,-0.018307,0.277838,-0.110474,0.066928,0.128539,-0.189115,0.133558,-0.021053,149.62,0
1,0.0,1.191857,0.266151,0.16648,0.448154,0.060018,-0.082361,-0.078803,0.085102,-0.255425,...,-0.225775,-0.638672,0.101288,-0.339846,0.16717,0.125895,-0.008983,0.014724,2.69,0
2,1.0,-1.358354,-1.340163,1.773209,0.37978,-0.503198,1.800499,0.791461,0.247676,-1.514654,...,0.247998,0.771679,0.909412,-0.689281,-0.327642,-0.139097,-0.055353,-0.059752,378.66,0
3,1.0,-0.966272,-0.185226,1.792993,-0.863291,-0.010309,1.247203,0.237609,0.377436,-1.387024,...,-0.1083,0.005274,-0.190321,-1.175575,0.647376,-0.221929,0.062723,0.061458,123.5,0
4,2.0,-1.158233,0.877737,1.548718,0.403034,-0.407193,0.095921,0.592941,-0.270533,0.817739,...,-0.009431,0.798278,-0.137458,0.141267,-0.20601,0.502292,0.219422,0.215153,69.99,0


In [71]:
# 레이블 분리 : Class => Target 
# Class : 0(정상), 사기거래(1)
X = data.drop('Class', axis=1)   # 특성
y = data['Class']   # 출력 데이터(레이블)

In [72]:
print(X.shape, y.shape)

(284807, 30) (284807,)


In [73]:
print(X.head())
print(y.head())

   Time        V1        V2        V3        V4        V5        V6        V7  \
0   0.0 -1.359807 -0.072781  2.536347  1.378155 -0.338321  0.462388  0.239599   
1   0.0  1.191857  0.266151  0.166480  0.448154  0.060018 -0.082361 -0.078803   
2   1.0 -1.358354 -1.340163  1.773209  0.379780 -0.503198  1.800499  0.791461   
3   1.0 -0.966272 -0.185226  1.792993 -0.863291 -0.010309  1.247203  0.237609   
4   2.0 -1.158233  0.877737  1.548718  0.403034 -0.407193  0.095921  0.592941   

         V8        V9  ...       V20       V21       V22       V23       V24  \
0  0.098698  0.363787  ...  0.251412 -0.018307  0.277838 -0.110474  0.066928   
1  0.085102 -0.255425  ... -0.069083 -0.225775 -0.638672  0.101288 -0.339846   
2  0.247676 -1.514654  ...  0.524980  0.247998  0.771679  0.909412 -0.689281   
3  0.377436 -1.387024  ... -0.208038 -0.108300  0.005274 -0.190321 -1.175575   
4 -0.270533  0.817739  ...  0.408542 -0.009431  0.798278 -0.137458  0.141267   

        V25       V26       V27 

In [74]:
# 훈련셋과 테스트셋으로 분할 => 8:2
x_train, x_test, y_train, y_test = train_test_split(
    X, y,
    test_size=0.2,
    random_state=42
)


In [75]:
# 데이터 스케일링

# 표준화 : 평균 0, 표준편차 1
scaler = StandardScaler()

# 학습 데이터에 적합
x_train_scaled = scaler.fit_transform(x_train)

x_test_scaled = scaler.fit_transform(x_test)

In [76]:
# 학습모델 객체 생성 => 학습 => 예측
# 모델 객체 생성
rf_model = LogisticRegression(max_iter=1000)

In [77]:
# 학습
rf_model.fit(x_train_scaled, y_train)

0,1,2
,penalty,'l2'
,dual,False
,tol,0.0001
,C,1.0
,fit_intercept,True
,intercept_scaling,1
,class_weight,
,random_state,
,solver,'lbfgs'
,max_iter,1000


In [78]:
# 예측
y_pred = rf_model.predict(x_test_scaled)

In [79]:
# 성능평가
accuracy = accuracy_score(y_test, y_pred)
print('accuracy_score : ', accuracy)

accuracy_score :  0.9990871107053826


In [80]:
# 분류 리포트
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     56864
           1       0.85      0.57      0.68        98

    accuracy                           1.00     56962
   macro avg       0.92      0.79      0.84     56962
weighted avg       1.00      1.00      1.00     56962



In [81]:
# 혼돈 행렬
print("\n혼동 행렬:\n", confusion_matrix(y_test, y_pred))


혼동 행렬:
 [[56854    10]
 [   42    56]]


- 정확도 : 99.91% 로 매우 높은 정확도를 보이지만, 사기의 비율이 너무 적어서 과대평가돈 지표.
- 분류 리포트 : 
    - 정상거래 (0)
        - precision : 1.0 : 정상이라고 예측한 것 중 100% 진짜 정상
        - recall : 1.0 : 실제 정상 거래 중 100%를 정확히 예측
        - f1-score : 1.0 : 완벽
    - 사기 거래 (1)
        - precision : 0.85 : 사기라고 예측한 것 중 85%는 진짜 사기
        - **recall : 0.57 : 실제 사기 중 57%만 탐지**
     - f1-score : 0.68 : precision과 recall의 조화 평균 

> 정확도는 99.91%로 매우 높지만, 사기 거래는 절반정도로 탐지하지 못하고 있다. 

In [82]:
# 'Class' 열 기준으로 각 클래스의 개수 세기
class_counts = data['Class'].value_counts()

# 클래스별 개수 출력
print("클래스별 개수:\n", class_counts)

# 비율(%) 계산
class_ratio = data['Class'].value_counts(normalize=True) * 100
print("\n클래스별 비율(%):\n", class_ratio.round(3))


클래스별 개수:
 Class
0    284315
1       492
Name: count, dtype: int64

클래스별 비율(%):
 Class
0    99.827
1     0.173
Name: proportion, dtype: float64


---

- 지도학습 2
    - **데이터 로드**: 신용카드 거래 데이터셋을 로드
    - 데이터 분할: 데이터를 학습 세트(80%)와 테스트 세트(20%)로 분할
    - 데이터 스케일링: KNN은 거리 기반 알고리즘이므로, 특성 값의 범위가 다르면 성능에 영향을 줄 수 있습니다. 이를 해결하기 위해 StandardScaler를 사용하여 데이터를 표준화
    - KNN 모델 학습: KNeighborsClassifier를 사용하여 KNN 분류 모델을 생성하고 학습 데이터를 학습시킵니다. n_neighbors=5는 가장 가까운 5개의 이웃을 기준으로 분류
    - 예측 및 성능 평가: 학습된 모델로 테스트 데이터를 예측하고, accuracy_score와 classification_report로 성능을 평가

In [84]:
# 신용카드 사기 거래 탐지 : KNeighborsClassifier 
from sklearn.neighbors import KNeighborsClassifier

In [85]:
# 이미 위에서 전처리를 했기 때문에 학습부터 실시.

In [86]:
# KNN 객체 생성 => 학습
# n_neighbors=5
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(x_train_scaled, y_train)


0,1,2
,n_neighbors,5
,weights,'uniform'
,algorithm,'auto'
,leaf_size,30
,p,2
,metric,'minkowski'
,metric_params,
,n_jobs,


In [87]:
# 예측
y_pred = knn.predict(x_test_scaled)

In [88]:
# 성능평가
accuracy = accuracy_score(y_test, y_pred)
print('accuracy_score : ', accuracy)

accuracy_score :  0.9995259997893332


In [89]:
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00     56864
           1       0.94      0.78      0.85        98

    accuracy                           1.00     56962
   macro avg       0.97      0.89      0.92     56962
weighted avg       1.00      1.00      1.00     56962



- 분류 리포트 
    - 이전 모델 보다는 성능이 향상된 것을 확인 가능.

    - 사기 (1)      precision: 0.94 ,    recall:  0.78   ,  f1-score:  0.85 

---

### 어떻세 knn의 성능을 높일까?
- 최적의 거리를 찾아보기
- 사기 데이터를 증강하기
- 다른 모델 사용해 보기.
