# 로지스틱 회귀
- 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘
- 시그모이드(Sigmoid) 함수 최적선을 찾고 이 시그모이드 함수의 반환 값을 확률로 간주해 확률에 따라 분류를 결정함
- 시그모이드 함수의 정의는 $y=\frac{1}{1+{e}^{-x}}$
- 시그모이드 함수는 x 값이 +,- 로 아무리 커지거나 작아져도 y값은 항상 0과 1 사이의 값을 반환함
- x값이 커지면 1에 근사하며 x값이 작아지면 0에 근사함
- 그리고 x가 0일때는 0.5
> 위스콘신 유방암 데이터 세트를 로지스틱 회귀를 이용해 암 여부를 판단하는 예지

In [7]:
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, roc_auc_score
cancer = load_breast_cancer()

# StandardScaler( )로 평균이 0, 분산이 1로 데이터 분포도 변환
scaler = StandardScaler()
data_scaled = scaler.fit_transform(cancer.data)

X_train, X_test, y_train, y_test = train_test_split(data_scaled, cancer.target,
                                                   test_size =0.3, random_state = 0)

# 로지스틱 회귀를 이용해 학습 및 예측 수행
lr_clf = LogisticRegression()
lr_clf.fit(X_train, y_train)
lr_preds = lr_clf.predict(X_test)

# 정확도와 roc_auc 측정
print('accuracy: {0:.3f}'.format(accuracy_score(y_test, lr_preds)))
print('roc_aucL {0:.3f}'.format(roc_auc_score(y_test, lr_preds)))

accuracy: 0.977
roc_aucL 0.972


# 파라미터 조정
- LogisticRegression의 주요 하이퍼 파라미터는 penalty와 C가 있음
- penalty는 규제(Regularization)의 유형을 설정하며 'l2'로 설정 시 L2 규제를, 'l1'로 설정 시 L1 규제를 뜻함. (Default = 'l2')
- C는 규제 강도를 조절하는 alpha 값의 역수, C가 작을 수록 규제 강도가 큼
> GridSearchCV를 이용해 하이퍼 파라미터를 최적화하는 예

In [12]:
from sklearn.model_selection import GridSearchCV

params = {'penalty':['l2'],
          'C':[0.01, 0.1, 1, 2, 5, 10]}

grid_clf = GridSearchCV(lr_clf, param_grid=params, scoring='accuracy', cv=3)
grid_clf.fit(data_scaled, cancer.target)
print('최적 하이퍼 파라미터:{0}, 최적 평균 정확도: {1:.3f}'.format(grid_clf.best_params_,
                                                              grid_clf.best_score_))

최적 하이퍼 파라미터:{'C': 1, 'penalty': 'l2'}, 최적 평균 정확도: 0.975
