# 로지스틱 회귀

## 선형 회귀 방식을 '분류'에 적용한 알고리즘

* 로지스틱 회귀가 선형 회귀와 다른 점은 학습을 통해 선형 함수의 회귀 최적선을 찾는 것이 아니라 '시그모이드' 함수 최적선을 찾고 시그모이드 함수의 반환 값을 확률로 간주해 확률에 따라 분류를 결정한다는 것

-> 0과 1을 분류할 때 유용 (더 정확하게 분류)

## ex) 위스콘신 유방함 데이터로 암 여부 판단

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [3]:
from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression

In [22]:
# 데이터 불러오기
cancer = load_breast_cancer()

In [10]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

In [13]:
#정규분포도에 따라 예측 성능 영향을 받을 수 있으므로 표준 스케일링 적용 (평균0, 분산1)
scaler = StandardScaler()
data_scaled = scaler.fit_transform(cancer.data)

In [14]:
# 데이터 세트 분리
X_train, X_test, y_train, y_test = train_test_split(data_scaled, cancer.target, test_size=0.3, random_state=0)

In [15]:
from sklearn.metrics import accuracy_score, roc_auc_score

In [16]:
# 로지스틱 회귀를 이용해 학습 및 예측 수행
lr_clf = LogisticRegression()
lr_clf.fit(X_train, y_train)
lr_preds = lr_clf.predict(X_test)

In [17]:
# 정확도와 roc_auc 측정
print('accuracy:{:0.3f}'.format(accuracy_score(y_test, lr_preds)))
print('roc_auc: {:0.3f}'.format(roc_auc_score(y_test, lr_preds)))

accuracy:0.977
roc_auc: 0.972


In [18]:
from sklearn.model_selection import GridSearchCV

* 사이킷런 Logistc Regression 클래스의 주요 하이퍼 파라미터: Penalty , C

* penalty: 규제 유형 설정 (앞에서 공부한 릿지, 라쏘, 엘라스틱 부분)[ l1규제, l2규제][기본은 l2]

* C: 규제 강도를 조절하는 alpha값의 역수
* C가 작을 수록 규제 강도 큼

In [21]:
params = {'penalty': ['l2','l1'],
         'C':[0.01,0.1,1,1,5,10]}

# 그리드 서치를 통해 최적의 하이퍼 파라미터 찾기
grid_clf = GridSearchCV(lr_clf, param_grid=params, scoring='accuracy', cv=3)
grid_clf.fit(data_scaled, cancer.target)
print('최적 하이퍼 파라미터:{0}, 최적 평균 정확도:{1:.3f}'.format(grid_clf.best_params_, grid_clf.best_score_))

Traceback (most recent call last):
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 598, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 1306, in fit
    solver = _check_solver(self.solver, self.penalty, self.dual)
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 443, in _check_solver
    raise ValueError("Solver %s supports only 'l2' or 'none' penalties, "
ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

Traceback (most recent call last):
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 598, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 1306, in fit
    solver = _check_solver(self.solver, self.

Traceback (most recent call last):
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 598, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 1306, in fit
    solver = _check_solver(self.solver, self.penalty, self.dual)
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 443, in _check_solver
    raise ValueError("Solver %s supports only 'l2' or 'none' penalties, "
ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

Traceback (most recent call last):
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 598, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\82102\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 1306, in fit
    solver = _check_solver(self.solver, self.

최적 하이퍼 파라미터:{'C': 1, 'penalty': 'l2'}, 최적 평균 정확도:0.975
