# [과제 3] 로지스틱 회귀분석
### - sklearn 패키지를 사용해 로지스틱 회귀분석을 진행해주세요.
### - 성능지표를 계산하고 이에 대해 해석해주세요.
### - 성능 개선을 시도해주세요. (어떠한 성능지표를 기준으로 개선을 시도했는지, 그 이유도 함께 적어주세요.)
### - 주석으로 설명 및 근거 자세하게 달아주시면 감사하겠습니다. :)

## Data 

출처 : https://www.kaggle.com/mlg-ulb/creditcardfraud


* V1 ~ V28 : 비식별화 된 개인정보 
* **Class** : Target 변수  
  - 1 : fraudulent transactions (사기)
  - 0 : otherwise 

In [20]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import warnings
warnings.filterwarnings(action='ignore')

In [21]:
data = pd.read_csv("C:/Users/MJHwang/Desktop/tobigs/Tobigs20/Week2/assignment3_creditcard.csv")

In [22]:
data.head()

Unnamed: 0,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,...,V20,V21,V22,V23,V24,V25,V26,V27,V28,Class
0,-1.848212,2.3849,0.379573,1.048381,-0.84507,2.537837,-4.542983,-10.201458,-1.504967,-2.234167,...,2.585817,-5.29169,0.859364,0.423231,-0.506985,1.020052,-0.627751,-0.017753,0.280982,0
1,2.071805,-0.477943,-1.444444,-0.548657,0.010036,-0.582242,-0.042878,-0.24716,1.171923,-0.342382,...,-0.077306,0.042858,0.390125,0.041569,0.598427,0.098803,0.979686,-0.093244,-0.065615,0
2,-2.985294,-2.747472,1.194068,-0.003036,-1.151041,-0.263559,0.5535,0.6356,0.438545,-1.806488,...,1.345776,0.37376,-0.385777,1.197596,0.407229,0.008013,0.762362,-0.299024,-0.303929,0
3,-1.479452,1.542874,0.290895,0.838142,-0.52929,-0.717661,0.484516,0.545092,-0.780767,0.324804,...,0.038397,0.116771,0.40556,-0.116453,0.541275,-0.216665,-0.415578,0.027126,-0.150347,0
4,-0.281976,-0.309699,-2.162299,-0.851514,0.106167,-1.483888,1.930994,-0.843049,-1.249272,1.079608,...,-0.875516,-0.004199,1.015108,-0.026748,0.077115,-1.468822,0.7517,0.496732,0.331001,0


In [23]:
data.columns

Index(['V1', 'V2', 'V3', 'V4', 'V5', 'V6', 'V7', 'V8', 'V9', 'V10', 'V11',
       'V12', 'V13', 'V14', 'V15', 'V16', 'V17', 'V18', 'V19', 'V20', 'V21',
       'V22', 'V23', 'V24', 'V25', 'V26', 'V27', 'V28', 'Class'],
      dtype='object')

### 로지스틱 회귀분석

In [28]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

# 사이킷런의 train_test_split과 logisticregression 이용함

In [25]:
X = data.drop(["Class"], axis = 1)
y = data["Class"]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=42)

# 독립변수 X와 종속변수 y로 나눈 후 train set과 test set으로 데이터를 분할함
# test_size는 0.2로 설정

In [26]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape # split된 모습 확인

((22942, 28), (5736, 28), (22942,), (5736,))

In [29]:
model = LogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# 로지스틱 회귀분석을 위해 LogisticRegression을 생성 후 모델로 사용하고 train set에 모델을 학습시킴
# 테스트 데이터로 예측을 수행(y_pred)함

In [30]:
y_pred # 예측한 y_pred를 확인해보았을 때 이진분류에 맞게 예측된 모습을 확인할 수 있음

array([0, 0, 0, ..., 0, 0, 0], dtype=int64)

### 성능지표 계산

In [31]:
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

정확도(accuracy), 정밀도(precision), 재현율(recall), F1 점수(f1-score) 및 혼동 행렬(confusion matrix)을 성능 평가 지표로 살펴봄

### 1. 정확도(Accuracy)

: 실제 데이터에서 예측 데이터가 얼마나 같은지를 판단하는 지표
<br>
정확도 = 예측 결과가 동일한 데이터 건수 / 전체 예측 데이터 건수
<br>
- 이진 분류의 경우 데이터와 구성에 따라 ML모델의 성능을 왜곡할 수 있기에 정확도 수치 하나만을 가지고 성능을 평가하지 않음

In [35]:
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy) 

# 정확도가 0.99877로 높게 나왔으나 정확도 지표 만으로 모델의 성능을 평가하기엔 무리 존재

Accuracy: 0.9987796373779637


### 2. 오차행렬(Confusion matrix)
: 학습된 분류 모델이 예측을 수행하면서 얼마나 헷갈리고 있는지 함께 보여주는 지표
<br>
-> 이진 분류의 예측 오류가 얼마인지 & 어떠한 유형의 예측 오류가 발생하고 있는지 함께 나타내는 지표
- tn, tp, fp, fn 형태로 오차 행렬의 4분면 구성함

In [36]:
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:\n", conf_matrix) 

Confusion Matrix:
 [[5688    0]
 [   7   41]]


tn: 5688개, fp: 0개, fn: 7개, tp: 41개
<br>
=> 모델이 잘못 예측한 경우가 7개 존재함

### 3. 정밀도(Precision)
: 예측을 Positive로 한 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율
<br>
TP / (FP+TP)

In [38]:
precision = precision_score(y_test, y_pred)
print("Precision:", precision) 

Precision: 1.0


### 4. 재현율(Recall)
: 실제 값이 Positive인 대상 중에 예측과 실제 값이 Positive로 일치한 데이터의 비율
<br>
TP / (FN + TP)

In [39]:
recall = recall_score(y_test, y_pred)
print("Recall:", recall)

Recall: 0.8541666666666666


### 5. f1 score
: 정밀도와 재현율의 조화 평균

In [41]:
f1 = f1_score(y_test, y_pred)
print("F1 Score:", f1)

F1 Score: 0.9213483146067416


### 6. AUC 

In [43]:
from sklearn.metrics import roc_auc_score

roc_score = roc_auc_score(y_test, y_pred)
print('ROC AUC 값: {0:.4f}'.format(roc_score))

ROC AUC 값: 0.9271


## 성능 개선 시도

재현율이 상대적으로 낮게 나타나고 있음. 재현율과 정밀도의 trade-off를 고려해 성능 개선을 판단해야 함. 로지스틱 회귀 외의 다른 분류 모델을 시도해보는 방법을 시도해볼 수 있는데, 분류 모델들 중 xgboost 모델을 적용해봄. 

In [51]:
from xgboost import XGBClassifier
classifier_xgb = XGBClassifier(random_state=0)
classifier_xgb.fit(X_train, y_train)
y_pred = classifier_xgb.predict(X_test)



In [53]:
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy) 
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:\n", conf_matrix) 
precision = precision_score(y_test, y_pred)
print("Precision:", precision) 
recall = recall_score(y_test, y_pred)
print("Recall:", recall)
f1 = f1_score(y_test, y_pred)
print("F1 Score:", f1)

Accuracy: 0.99860529986053
Confusion Matrix:
 [[5686    2]
 [   6   42]]
Precision: 0.9545454545454546
Recall: 0.875
F1 Score: 0.9130434782608695


로지스틱 회귀를 적용했을 때에 비해 정밀도는 낮아졌으나 재현율은 증가함. 하지만 f1 score 값도 감소하였으며 accuracy 또한 감소함. 따라서 xgboost 모델의 적용은 알맞지 않다고 볼 수 있음.