In [1]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression

cancer = load_breast_cancer()

- 선형 회귀 계열의 로지스틱 회귀는 데이터의 정규 분포도에 따라 예측 성능 영향을 받을수 있으므로 데이터에 먼저 정규 분포 형태의 표준 스케일링을 적용한 뒤에 train_test_split()을 이용해 데이터 세트를 분리

In [2]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# StandardScaler()로 평균이 0, 분산 1로 데이터 분포도 변환
scaler = StandardScaler()
data_scaled = scaler.fit_transform(cancer.data)

X_train, X_test, y_train, y_test = train_test_split(data_scaled, cancer.target, test_size=0.3, random_state=0)

로지스틱 회귀를 이용해 학습 및 예측을 수행 => 정확도와 ROC-AUC 값을 구해보자

In [4]:
from sklearn.metrics import accuracy_score, roc_auc_score

# 로지스틱 회귀 이용해 학습 및 예측 수행
lr_clf = LogisticRegression()
lr_clf.fit(X_train, y_train)
lr_preds = lr_clf.predict(X_test)

# 정확도와 roc_auc 측정
print('accuracy: {:0.3f}'.format(accuracy_score(y_test, lr_preds)))
print('roc_aucL {:0.3f}'.format(roc_auc_score(y_test, lr_preds)))

accuracy: 0.977
roc_aucL 0.972


- 사이킷런 LogisticRegression 클래스의 주요 하이퍼 파라미터로 penalty와 C가 있음
    - penalty: 규제(Regularization)의 유형을 설명하며 'l2'로 설정 시 L2 규제를, 'l1'으로 설정 시 L1 규제를 뜻함(기본은 'l2')
    - C는 규제 강도를 조정하는 alpha값의 역수
        - 즉 C = 1/alpha
        - C값이 작을 수록 규제 강도가 큼

In [6]:
from sklearn.model_selection import GridSearchCV

params = {'penalty': ['l2', 'l1'],
          'C': [0.01, 0.1, 1 ,5 ,10]}

grid_clf = GridSearchCV(lr_clf, param_grid=params, scoring='accuracy', cv=3)
grid_clf.fit(data_scaled, cancer.target)
print('최적 하이퍼 파라미터:{0}, 최적 평균 정확도:{1:.3f}'.format(grid_clf.best_params_,
                                                 grid_clf.best_score_))

최적 하이퍼 파라미터:{'C': 1, 'penalty': 'l2'}, 최적 평균 정확도:0.975


ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.



- 로지스틱 회귀는 가볍고 빠르지만, 이진 분류 예측 성능도 뛰어남 => 로지스틱 회귀를 이진 분류의 기본 모델로 사용하는 경우 많음
- 또한 로지스틱 회귀는 희소한 데이터 세트 분류에도 뛰어난 성능을 보여서 텍스트 분류에서도 자주 사용됨