# 로지스틱 회귀

회귀 문제를 약간 비틀어 분류 문제에 적용

가령 종양의 크기에 따라 악성 종양인지(1), 아닌지(0)를 회귀를 이용해 1, 0의 값으로 예측하기

로지스틱 회귀 : 선형 회귀 방식을 기반으로 하되 시그모이드 함수를 이용해 분류를 수행하는 회귀

위스콘시 유방암 데이터 세트 기반에서 로지스틱 회귀로 암 여부를 판단

In [24]:
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression

import warnings
warnings.filterwarnings('ignore')
    

cancer = load_breast_cancer()

In [25]:
# 선형 회귀 계열의 로지스틱 회귀는 데이터의 정규 분포도에 따라 예측 성능 영향을 받을 수 있으므로 데이터에 먼저 정규 분포 형태의 표준 스케일링을 적용 후 분리

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# StandardScaler()로 평균이 0, 분산이 1로 데이터 분포도 변환
scaler = StandardScaler()
data_scaled = scaler.fit_transform(cancer.data)

X_train, X_test, y_train, y_test = train_test_split(data_scaled, cancer.target, test_size = 0.3, random_state = 0)

In [26]:
from sklearn.metrics import accuracy_score, roc_auc_score

# 로지스틱 회귀를 이용해 학습 및 예측 수행
# solver 인자갑을 생성자로 입력하지 않으면 solver = 'lbfgs'
lr = LogisticRegression() # 모델 생성
lr.fit(X_train, y_train) # 학습 
lr_preds = lr.predict(X_test) # 예측

# accuracy, roc_auc측정
print('accuracy : {:.3f}, roc_auc : {:.3f}'.format(accuracy_score(y_test, lr_preds), roc_auc_score(y_test, lr_preds)))

accuracy : 0.977, roc_auc : 0.972


In [27]:
# 서로 다른 solver값으로 학습, 성능 평가

solvers = ['lbfgs', 'liblinear', 'newton-cg', 'sag', 'saga']

# 여러 개의 solver값별로 LogisticRegression 학습 후 성능 평가
for solver in solvers:
    lr = LogisticRegression(solver = solver, max_iter = 600)
    lr.fit(X_train, y_train)
    lr_preds = lr.predict(X_test)
    
    # accuracy, roc_auc 측정
    print('solver : {}, accuracy : {:.3f}, roc_auc : {:.3f}'.format(solver, accuracy_score(y_test, lr_preds), roc_auc_score(y_test, lr_preds)))

solver : lbfgs, accuracy : 0.977, roc_auc : 0.972
solver : liblinear, accuracy : 0.982, roc_auc : 0.979
solver : newton-cg, accuracy : 0.977, roc_auc : 0.972
solver : sag, accuracy : 0.982, roc_auc : 0.979
solver : saga, accuracy : 0.982, roc_auc : 0.979


In [28]:
from sklearn.model_selection import GridSearchCV

params = {'solver' : ['liblinear', 'lbfgs'],
         'penalty' : ['l2', 'l1'],
         'C' : [0.01, 0.1, 1, 5, 10]}

lr = LogisticRegression()

grid = GridSearchCV(lr, param_grid = params, scoring = 'accuracy', cv = 3)
grid.fit(X_train, y_train)
print('최적 하이퍼 파라미터 : {}, 최적 평균 정확도 : {:.3f}'.format(grid.best_params_, grid.best_score_))

최적 하이퍼 파라미터 : {'C': 1, 'penalty': 'l2', 'solver': 'liblinear'}, 최적 평균 정확도 : 0.985


로지스틱 회귀는 가볍고 바르지만, 이진 분류 예측 성능도 뛰어난다

로지스틱 회귀를 이진 분류의 기본 모델로 사용하는 경우가 많다

희소한 데이터 세트 분류에도 뛰어난 성능을 보여 텍스트 분류에서도 자주 사용