# 로지스틱 회귀 (Logistic Regression) - 분류 

### 로지스틱 회귀
- 선형 회귀 방식을 분류에 적용한 알고리즘
- 선형 회귀 방식을 기반으로 하되
- 시그모이드 함수를 이용해 분류 수행

### 로지스틱 회귀가 선형 회귀와 다른 점
- 학습을 통해 선형 함수의 회귀선을 찾는 것이 아니라
- 시그모이드(Sigmoid) 함수의 최적선을 찾음


#### 시그모이드 함수
- S자 커브 형태
- x 값이 +, -로 아무리 커지거나 작아져도
- y 값은 항상 0과 1 사이의 값 반환
- x 값이 커지면 1에 근사하고
- x 값이 작아지면 0에 근사  
- 실제 많은 자연, 사회 현상에서 
- 특정 변수의 확률값은 선형이 아니라(무한대로 커지거나 작아지지 않고) S자 커브 형태 가진다는 것에 착안

#### 선형 함수 vs 시그모이드 함수  
![image-2.png](attachment:image-2.png)

#### 회귀를 이용한 예측  
- 종양의 크기에 따라 악성 종양인지(Yes=1) 그렇지 않은지(No=0)를
- 회귀를 이용해 1과 0의 값으로 예측

종양 크기에 따라 악성이 될 확률이 높다고 가정
- X축 : 종양 크기
- Y축 : 종양 여부

왼쪽 그래프 (선형 함수)
- 회기 적용 : 데이터가 모여 있는 곳으로 회기 선을 그릴 수 있지만
- 회기 선은 0과 1을 제대로 분류하지 못함
- 선형 회귀가 분류를 못하는 것은 아니지만 정확도가 떨어짐

오른쪽 그래프 (시그모이드 함수)
- S자 커브 형태의 시그모이드 함수 이용
- 좀 더 정확하게 0과 1에 대해 분류 가능
- 로지스틱 회귀 방법
- 선형 회귀 방식을 기반으로 하되 시그모이드 함수를 이용해서 분류를 수행하는 회귀

### LogisticRegression(파라미터)
- solver : 최적화에 사용하는 알고리즘
    - liblinear : L1 제약조건, L2 제약조건 모두 지원 
        - 적은 데이터에 적합
    - sag, saga   
        - 대용량 데이터에 적합
        - sag : L1 제약조건만 지원 (Stochastic Average Gradient descent)  
        - saga : L1, L2 제약조건 모두 지원
    - newton-cg, lbgfs : 멀티 클래스 분류 모델에 사용
        - newton-cg : 성능 가장 좋음 (뉴튼-랩슨(Newton-Raphson)방법) 
        - lbfgs : L2 제약조건만 지원 (Limited-memory Broyden-Fletcher-Goldfarb-Shnno) 
     - 이전에는 liblinear가 기본, 지금은 lbfgs가 기본
- C : 규제 강도 (Cost Function) >> 회귀계수가 너무 커지는 문제가 회귀 알고리즘의 주요 이슈
	- 회귀 계수가 너무 커지지 않도록 규제, 얼마나 강하게 규제할지 가중치를 의미
    - 기본값 :  1
    - C = 1/alpha  
	- 값이 작을 수록 규제가 강해짐
	- 값이 크면 훈련을 더 복잡하게 하므로 규제가 약해짐
    - 참고 : 선형 회귀 모델에서
      - 비용함수 : 실제값과 예측값의 차이를 최소화하는 것을 목표  
      - 학습 테이터에 지나치게 맞추게 되면, 회귀 계수가 쉽게 커지는 현상 발생(과적합) 
      - 비용함수 최소화하고 회귀 계수는 커지지 않도록 유지하는 것이 필요한데  
        - 이때 회귀 계수의 값의 크기를 제어하기 위해 alpha 파라미터 사용  
          - alpha 값을 크게 해서 회기 계수를 작게하여 과적합을 개선  
      
- penalty : 규제에 사용될 제약조건 설정
	- 기본값 : L2
- class_weight : class에 부여할 가중치 
	- 기본값 : None  
- max_iter : 반복 학습 횟수 (기본 : 100)     
- verbose : 동작 과정에 대한 출력   
- multi_class : 다중 분류 시에 (ovr, multinomial, auto)로 설정  
- n_jobs : 병렬 처리 할 때 사용되는 CPU 코어 수  
- l1_ratio : L1 규제의 비율(Elastic-Net 믹싱 파라미터 경우에만 사용)  

#### 규제 (제약조건)
- 회귀 계수 값의 크기를 감소시켜 과적합을 개선하는 방식
- 즉, 회귀 계수의 값이나 제곱값이 무한히 커져서 과적합이 될 위험을 줄이기 위한 규제
- L2 방식과 L1 방식

L2 규제  
- 회귀 계수 **값의 제곱**에 대해 패널티를 부여하는 방식 >> 기호를 없애기 위해   
- 회귀 계수의 크기 감소  
    
L1 규제  
- 회귀 계수 값의 **절대값**에 대해 패널티를 부여하는 방식 >> 기호를 없애기 위해  
- 영향력이 크지 않은 회귀 계수를 0으로 변환하고 제거  
- 적절한 피처만 회귀에 포함시키는 피처 선택의 특성  
   
LogisticRegression에서의 규제  
- penalty : 규제 유형 설정 (l1, l2 규제) : l2가 기본  
- C : 규제 강도 설정 (C값이 작을수록 규제 강도가 큼)  

In [1]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity="all"

### 로지스틱 회귀 예제

####  위스콘신 유방암 데이터 세트를 이용해서 로지스틱 회귀로 암 여부 
- 유방암의 악성종양, 양성종양 여부를 결정하는 이진 분류  데이터 세트   
- 종양의 크기, 모양 등의 형태와 관련한 많은 피처 포함  
- load_breast_cancer() 함수를 통해 데이터 세트 로드
- 레이블(label)
    - 0 : malignant (악성 종양 : 암)  
    - 1 : benign (양성 : 정상)          

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.datasets import load_breast_cancer

# 데이터 로드
cancer = load_breast_cancer()
cancer_df = pd.DataFrame(data=cancer.data, columns=cancer.feature_names)
cancer_df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst radius,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension
0,17.99,10.38,122.8,1001.0,0.1184,0.2776,0.3001,0.1471,0.2419,0.07871,...,25.38,17.33,184.6,2019.0,0.1622,0.6656,0.7119,0.2654,0.4601,0.1189
1,20.57,17.77,132.9,1326.0,0.08474,0.07864,0.0869,0.07017,0.1812,0.05667,...,24.99,23.41,158.8,1956.0,0.1238,0.1866,0.2416,0.186,0.275,0.08902
2,19.69,21.25,130.0,1203.0,0.1096,0.1599,0.1974,0.1279,0.2069,0.05999,...,23.57,25.53,152.5,1709.0,0.1444,0.4245,0.4504,0.243,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.1425,0.2839,0.2414,0.1052,0.2597,0.09744,...,14.91,26.5,98.87,567.7,0.2098,0.8663,0.6869,0.2575,0.6638,0.173
4,20.29,14.34,135.1,1297.0,0.1003,0.1328,0.198,0.1043,0.1809,0.05883,...,22.54,16.67,152.2,1575.0,0.1374,0.205,0.4,0.1625,0.2364,0.07678


### 스케일링 / 데이터 세트 분리

In [7]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 피처에 표준 스케일링 적용 >> 회귀 기반이므로 피처 스케일링 진행
scaler = StandardScaler()
data_scaled = scaler.fit_transform(cancer.data)
# 데이터 세트 분리
X_train, X_test, y_train, y_test = train_test_split(data_scaled,
                                                    cancer.target,
                                                    test_size=0.3, 
                                                    random_state=0)

### 학습 / 예측 / 평가

In [8]:
# 로지스틱 회귀를 이용하여 학습/예측/평가

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

lr_reg = LogisticRegression(solver="liblinear")
lr_reg.fit(X_train, y_train)
y_pred = lr_reg.predict(X_test)

# 정확도
print(f'정확도 : {accuracy_score(y_test, y_pred)}')
# 0.9824561403508771


정확도 : 0.9824561403508771


### 하이퍼 파라미터 튜닝

하이퍼 파라미터 튜닝
- GridSearchCV를 이용해 하이퍼 파라미터 최적화

LogisticRegression 클래스의 주요 하이퍼 파라미터
- penalty : 규제 유형 설정 (l1, l2 규제) : l2가 기본
- C : 규제 강도 조절
    - **C값이 작을수록 규제 강도가 큼**
    - 기본값 : 1


In [15]:
# 하이퍼 파라미터 설정 : 최적 평균 정확도 확인
from sklearn.model_selection import GridSearchCV

# 하이퍼 파라미터 설정
# max_iter : 100, 300, 500, 1000
# penerty : l2,  l1 # 소문자 엘(l)
# C : [0.01, 0.05, 0.1, 0.5, 1, 5, 10]
parameters = {
    "max_iter":[100, 300, 500, 1000],
    "penalty":["l2", "l1"],
    "C":[0.01, 0.05, 0.1, 0.5, 1, 5, 10]
}

# GridSearchCV 이용해서 최적의 하이퍼 파라미터 찾음
# 교차 검증 폴드 수 : cv=3, cv=5 .. 바꿔가면서 결과 비교
grid_lr_reg = GridSearchCV(lr_reg, param_grid=parameters, scoring="accuracy", cv=3)
grid_lr_reg.fit(X_train, y_train)

print('GridSearchCV 최적 하이퍼 파라미터 : ', grid_lr_reg.best_params_)
print('GridSearchCV 최고 정확도 : {0:.4f} ', format(grid_lr_reg.best_score_))

# 최고 점수를 낸 파라미터를 가진 모형(모델)
best_lr_clf = grid_lr_reg.best_estimator_

# 최적 하이퍼  파라미터로 학습된 Estimator 예측/평가 수행
y_pred = best_lr_clf.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)

print('하이퍼 파라미터 튜닝을 끝낸 최종 정확도 : {0:.4f}', format(accuracy))
# 교차검증을 10회 시행
# GridSearchCV 최적 하이퍼 파라미터 :  {'C': 0.5, 'max_iter': 100, 'penalty': 'l2'}
# GridSearchCV 최고 정확도 : {0:.4f}  0.9849683544303798
# 하이퍼 파라미터 튜닝을 끝낸 최종 정확도 : {0:.4f} 0.9824561403508771

# 교차검증을 5회 시행
# GridSearchCV 최적 하이퍼 파라미터 :  {'C': 0.5, 'max_iter': 100, 'penalty': 'l2'}
# GridSearchCV 최고 정확도 : {0:.4f}  0.9849683544303798
# 하이퍼 파라미터 튜닝을 끝낸 최종 정확도 : {0:.4f} 0.9824561403508771

# 교차검증을 3회 시행
# GridSearchCV 최적 하이퍼 파라미터 :  {'C': 0.5, 'max_iter': 100, 'penalty': 'l2'}
# GridSearchCV 최고 정확도 : {0:.4f}  0.9849434191539453
# 하이퍼 파라미터 튜닝을 끝낸 최종 정확도 : {0:.4f} 0.9824561403508771

# >> 동일해버림



GridSearchCV 최적 하이퍼 파라미터 :  {'C': 0.5, 'max_iter': 100, 'penalty': 'l2'}
GridSearchCV 최고 정확도 : {0:.4f}  0.9849434191539453
하이퍼 파라미터 튜닝을 끝낸 최종 정확도 : {0:.4f} 0.9824561403508771


In [None]:
# 모든 평가 지표 출력
# 최적 하이퍼 파라미터 :  {'C': 0.5, 'max_iter': 100, 'penalty': 'l2'}

In [16]:
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score, roc_auc_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.metrics import f1_score 

def get_clf_eval(y_test, y_pred, pred_proba) :
    cm = confusion_matrix(y_test, y_pred) # 혼동행렬(오차행렬)
    accuracy = accuracy_score(y_test, y_pred) # 정확도
    precision = precision_score(y_test, y_pred) # 정밀도
    recall = recall_score(y_test, y_pred)# 재현율
    f1 = f1_score(y_test, y_pred) # F1 스코어
    roc_auc = roc_auc_score(y_test, pred_proba) # ROC_AUC 스코어
    
    # 출력 
    # 오차행렬
    print("오차행렬 : ", cm)
    # 정확도, 정밀도, 재현율, F1
    print(f"정확도: {accuracy:.4f}, 정밀도: {precision:.4f},  재현율: {recall:.4f}, F1 Score: {f1:.4f}, ROC_AUC : {roc_auc:.4f}")
    

In [17]:
# 하이퍼 파라미터 튜닝에서 찾은 최적의 파라미터로 모델 생성/학습/예측/평가
# 최적 하이퍼 파라미터 :  {'C': 0.5, 'max_iter': 100, 'penalty': 'l2'}
lr_clf = LogisticRegression(solver='liblinear', C=0.5, penalty='l2')
lr_clf.fit(X_train, y_train)
y_pred = lr_clf.predict(X_test)

pred_proba = lr_clf.predict_proba(X_test)[:, 1]

get_clf_eval(y_test, y_pred, pred_proba )

# 오차행렬 :  [[ 61   2]
#  [  1 107]]
# 정확도: 0.9825, 정밀도: 0.9817,  재현율: 0.9907, F1 Score: 0.9862, ROC_AUC : 0.9956

오차행렬 :  [[ 61   2]
 [  1 107]]
정확도: 0.9825, 정밀도: 0.9817,  재현율: 0.9907, F1 Score: 0.9862, ROC_AUC : 0.9956


### 로지스틱 회귀 정리
- 가볍고 빠르면서도  
- 이진 분류 예측 성능도 뛰어남  
- 따라서 이진 분류기의 기본 모델로 사용하는 경우 많음

In [None]:
###############################################################################