# 로지스틱 회귀 (logistic regression) 
- 분류에 사용하는 기법으로 선형 회귀(출력 값을 예측)와 달리 S자 함수를 사용하여 참(True, 1)과 거짓(False, 0)을 분류

### 로지스틱 회귀 (logistic regression) 
- 분류에 사용하는 기법으로 선형 회귀와 달리 S자 함수를 사용하여 참(True, 1)과 거짓(False, 0)을 분류
- 선형 회귀 모델은 실제값과 예측값의 오차에 기반한 지표를 사용
- 로지스틱 회귀 모델은 이진 분류 결과를 평가하기 위해 오차 행렬에 기반한 성능 지표인 정확도(accuracy), 정밀도 (precision), 재현율 (recall), F1 스코어(F1 score), ROC_AUC를 사용
### 시그모이드 함수 (sigmoid function): y = 1/(1+e^(ax+b))
- 로지스틱 회귀에서 사용하는 S자 함수
- x의 값이 커지면 y의 값은 1에 근사하게 되고 x의 값이 작아지면 y의 값은 0에 근사하게 되어 S자 형태의 그래프가 됨
- 두 개의 값을 분류하는 이진 분류(binary classification)에 많이 사용

### 오차 행렬 (confusion matrix)
- 행렬을 사용해 이진 분류 (binary classification)의 예측 오류를 나타내는 지표
- 행은 실제 클래스의 Negative/Positive 값
- 열은 예측 클래스의 Negative/ Positive 
TN: Negative가 참인 경우(N예측 → 실제N) TP: Positive가 참인 경우(T예측 → 실제T)
FN: Negative가 거짓인 경우(N예측 → 실제T) FP: Positive가 거짓인 경우(T예측 → 실제N)  
 사이킷런에서는 오차 행렬을 구하기 위해 confusion_matrix 함수를 제공

| 실제(Actual) \ 예측(Predicted) | **Negative(0)**                       | **Positive(1)**               |
| ------------------------------ | ------------------------------------- | ----------------------------- |
| **Negative(0)**                | TN (True Negative 00)                 | FP (False Positive 01) (오탐) |
| **Positive(1)**                | FN (False Negative 10) (misdetection) | TP (True Positive 11)         |

오검출(오탐)(false alarm) & misdetection(미스디텍션)은 **트레이드오프(trade-off)** 상호보완적 관계이다.  
정밀도(Precision) & 재현율(Recall)의 관계도 **트레이드오프(trade-off)** 상호보완적 관계이다.

#### **Accuracy(정확도)** = (TP + TN) / 전체(TN + FP + FN + TP)

#### **Precision(정밀도)** = TP / (TP + FP)
- 예측이 Positive인 것(FP+TP) 중에서, 참인 것(TP)의 비율을 의미
- 정밀도는 Positive 예측 성능을 더 정밀하게 평가하기 위한 지표로 사용
- 사이킷런에서는 정밀도를 구하기 위해 precision_score 함수를 제공

#### **Recall(재현율)** = TP / (TP + FN)
- 실제값이 Positive인 것(FN+TP) 중에서 참인 것(TP)의 비율을 의미
- 실제 Positive인 데이터를 정확히 예측했는지 평가하는 지표 (민감도 (sensitivity) 또는 TPR (True Positive Rate))
- 사이킷런에서는 재현율을 구하기 위해 recall_score 함수를 제공

#### **F1-score** = 2 × (Precision × Recall) / (Precision + Recall)
- 정밀도와 재현율을 결합한 평가 지표
- 정밀도와 재현율이 서로 트레이드 오프 관계(상충 관계)인 문제점을 고려하여 정확한 평가를 위해 많이 사용
- 사이킷런에서는 F1 스코어를 구하기 위해 f1_score 함수를 제공

#### **ROC 기반 AUC 스코어** (Receiver Operation characteristic Curve – Area Under Curve)
- 오차 행렬의 FPR이 변할 때 TPR이 어떻게 변하는지를 나타내는 곡선  
    - FPR (False Positive Rate) [FP / (FP + TN)] : 실제 Negative인 데이터를 Positive로 거짓(False)으로 예측한 비율 (오탐)  
    - TPR (True Positive Rate) [TP / (TP + FN)] : 실제 Positive인 데이터를 참(True)으로 예측한 비율 (재현율)  
- ROC 기반의 AUC 값은 ROC 곡선 밑의 면적을 구한 것으로 1에 가까울수록 좋은 성능을 의미
- 사이킷런에서는 ROC 기반의 AUC를 구하기 위해 roc_auc_score 함수를 제공

## 목표: 유방암 특징을 측정한 데이터에 로지스틱 회귀 분석을 수행하여 유방암 발생을 예측

In [None]:
import numpy as np
import pandas as pd
from sklearn.datasets import load_breast_cancer

In [None]:
b_cancer = load_breast_cancer()

In [None]:
print(b_cancer.DESCR)

In [None]:
b_cancer_df = pd.DataFrame(b_cancer.data, columns = b_cancer.feature_names)

In [None]:
b_cancer_df['diagnosis']= b_cancer.target

In [None]:
b_cancer_df.head()

In [None]:
print('유방암 진단 데이터셋 크기: ', b_cancer_df.shape)

In [None]:
b_cancer_df.info()

In [None]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()

In [None]:
b_cancer_scaled = scaler.fit_transform(b_cancer.data)

In [None]:
print(b_cancer.data[0])

In [None]:
print(b_cancer_scaled[0])

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split

In [None]:
#X, Y 설정하기
Y = b_cancer_df['diagnosis'] 
X = b_cancer_scaled

In [None]:
#훈련용 데이터와 평가용 데이터 분할하기
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.3, random_state = 0)

In [None]:
#로지스틱 회귀 분석: (1) 모델 생성
lr_b_cancer = LogisticRegression()

In [None]:
#로지스틱 회귀 분석: (2) 모델 훈련
lr_b_cancer.fit(X_train, Y_train)

In [None]:
#로지스틱 회귀 분석: (3) 평가 데이터에 대한 예측 수행 -> 예측 결과 Y_predict 구하기
Y_predict = lr_b_cancer.predict(X_test)

In [None]:
from sklearn.metrics import confusion_matrix, accuracy_score
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score

In [None]:
#오차 행렬
cm = confusion_matrix(Y_test, Y_predict)
print(cm)
print(cm.dtype)

In [None]:
acccuracy = accuracy_score(Y_test, Y_predict) 
precision = precision_score(Y_test, Y_predict) 
recall = recall_score(Y_test, Y_predict) 
f1 = f1_score(Y_test, Y_predict) 
roc_auc = roc_auc_score(Y_test, Y_predict)

In [None]:
print('정확도: {0:.3f}, 정밀도: {1:.3f}, 재현율: {2:.3f}, F1: {3:.3f}'.format(acccuracy, precision, recall, f1))

In [None]:
print('ROC_AUC: {0:.3f}'.format(roc_auc))