## 07 로지스틱 회귀

In [1]:
# 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘이다.
# 로지스틱 회귀가 선형 회귀와 다른 점은 시그모이드(Sigmoid) 함수 최적선을 찾고
# 이 시그모이드 함수의 반환 값을 확률로 간주해 확률에 따라 분류를 결정한다는 것이다.

# 많은 자연, 사회 현상에서 특정 변수의 확률 값은 선형이 아니라 S자 커브 형태를 가진다.
# 시그모이드 함수의 정의는 y = 1 / 1+e-x 이다.
# 시그모이드 함수는 x 값이 +, -로 아무리 작아져도 y 값은 항상 0과 1 사이 값을 반환한다.
# x 값이 커지면 1에 근사하며 x값이 작아지면 0에 근사한다. x가 0일 때는 0.5 이다.

# 로지스틱 회귀는 선형 회귀 방식을 기반하되 시그모이드 함수를 이용해 분류를 수행하는 회귀이다.

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression

cancer = load_breast_cancer()

In [3]:
# 선형 회귀 계열의 로지스틱 회귀는 데이터의 정규 분포도에 따라 예측 성능 영향을
# 받을 수 있으므로 데이터에 먼저 정규 분포 형태의 표준 스케일링을 적용 한 뒤에 데이터 세트를 분리한다.

from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

# StandardScaler( )로 평균이 0, 분산이 1인 데이터로 변환
scaler = StandardScaler()
data_scaled = scaler.fit_transform(cancer.data)

X_train, X_test, y_train, y_test = train_test_split(data_scaled, cancer.target,
                                                   test_size=0.3, random_state=0)

In [4]:
from sklearn.metrics import accuracy_score, roc_auc_score

# 로지스틱 회귀를 이용하여 학습 및 예측 수행.
lr_clf = LogisticRegression()
lr_clf.fit(X_train, y_train)
lr_preds = lr_clf.predict(X_test)

# accuracy와 roc_auc 측정
print('accuracy: {:0.3f}'.format(accuracy_score(y_test, lr_preds)))
print('roc_auc: {:0.3f}'.format(roc_auc_score(y_test, lr_preds)))

accuracy: 0.977
roc_auc: 0.972


In [5]:
# 사이킷런 LogisticRegression 클래스의 주요 하이퍼 파라미터는 penalty와 C가 있다.
# penalty는 규제(Regularization)의 유형을 설정하며 'l2'와 'l1'이 있다.
# C는 규제 강도를 조절하는 alpha값의 역수이다. 즉, C = 1/alpha 이다.
# C 값이 작을수록 규제 강도가 크다.

In [7]:
from sklearn.model_selection import GridSearchCV

params={'penalty':['l2', 'l1'],
        'C':[0.01, 0.1, 1, 1, 5, 10]}

grid_clf = GridSearchCV(lr_clf, param_grid=params, scoring='accuracy', cv=3 )
grid_clf.fit(data_scaled, cancer.target)
print('최적 하이퍼 파라미터:{0}, 최적 평균 정확도:{1:.3f}'.format(grid_clf.best_params_, 
                                                  grid_clf.best_score_))

최적 하이퍼 파라미터:{'C': 1, 'penalty': 'l2'}, 최적 평균 정확도:0.975


18 fits failed out of a total of 36.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
18 fits failed with the following error:
Traceback (most recent call last):
  File "/Users/adam/anaconda3/lib/python3.10/site-packages/sklearn/model_selection/_validation.py", line 686, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "/Users/adam/anaconda3/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py", line 1162, in fit
    solver = _check_solver(self.solver, self.penalty, self.dual)
  File "/Users/adam/anaconda3/lib/python3.10/site-packages/sklearn/linear_model/_logistic.py", line 54, in _check_solver
    raise ValueError(
ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

 0.97