## 로지스틱 회귀

- 선형 회귀 분류는 예외적인 데이터에 민감하다는 단점이 있음
- 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘
- 학습을 통해 선형 함수의 회귀 최적선을 찾는 것이 아니라 시그모이드(Sigmoid) 함수 최적선을 찾고 이 시그모이드 함수의 반환 값을 확률로 간주해 확률에 따라 분류를 결정함


- 시그모이드 함수 식 $ S(x) = \frac{1}{1 + e^{-x}} $
- 항상 0과 1사이의 값이 나옴 / x 값이 커지면 1에 근사하며 x 값이 작아지면 0에 근사함. 그리고 x가 0일 때는 0.5
- 시그모이드 함수의 결괏값도 0과 1 사이의 **연속**적인 값이기 때문에 회귀라고 부름

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression

cancer = load_breast_cancer()

In [2]:

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# StandardScaler( )로 평균이 0, 분산 1로 데이터 분포도 변환
scaler = StandardScaler()
data_scaled = scaler.fit_transform(cancer.data)

X_train , X_test, y_train , y_test = train_test_split(data_scaled, cancer.target, test_size=0.3, random_state=0)

In [4]:
from sklearn.metrics import accuracy_score, roc_auc_score

# 로지스틱 회귀를 이용하여 학습 및 예측 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train, y_train)
lr_preds = lr_clf.predict(X_test)

# accuracy와 roc_auc 측정
print('accuracy: {:0.3f}'.format(accuracy_score(y_test, lr_preds))) # 정확도
print('roc_auc: {:0.3f}'.format(roc_auc_score(y_test , lr_preds)))

accuracy: 0.977
roc_auc: 0.972


- penalty 는 규제(Regularization)의 유형을 설정하며 'l2'로 설정 시 L2 규제, 'l1'으로 설정 시 L1 규제를 뜻함. 기본은 'l2'
- C는 규제 강도를 조절하는 alpha값의 역수. 즉, $ C = \frac{1}{alpha} $
- C 값이 작을수록 규제 강도가 큼

In [5]:
from sklearn.model_selection import GridSearchCV

params={'penalty':['l2', 'l1'],
        'C':[0.01, 0.1, 1, 1, 5, 10]}

grid_clf = GridSearchCV(lr_clf, param_grid=params, scoring='accuracy', cv=3 )
grid_clf.fit(data_scaled, cancer.target)
print('최적 하이퍼 파라미터:{0}, 최적 평균 정확도:{1:.3f}'.format(grid_clf.best_params_, 
                                                  grid_clf.best_score_))

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.



최적 하이퍼 파라미터:{'C': 1, 'penalty': 'l2'}, 최적 평균 정확도:0.975


ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

