## 로지스틱 회귀

`로지스틱 회귀(Rogistic Regression)`은 선형 회귀 방식을 분류에 적용한 알고리즘이다.

즉, 로지스틱 회귀는 분류에 사용되는 것이다.

로지스틱 회귀 역시 선형 회귀 계열인데, 회귀가 선형인가 비선형인가는 독립변수가 아닌 가중치(weight) 변수가 선형인지 아닌지를 따른다.

로지스틱 회귀가 선형 회귀와 다른 점은 학습을 통해 선형 함수와 회귀 최적선을 찾는 것이 아니라   
`시그모이드(Sigmoid)` 함수 최적선을 찾고 이 시그모이드 함수의 반환 값을 확률로 간주해 확률에 따라 분류를 결정한다는 것이다.

---

많은 자연, 사회 현상에서 특정 변수의 확률 값은 선형이 아니라 시그모이드 함수와 같이 S자 커브 형태를 가진다.

`시그모이드 함수의 정의` 는 

> y = 1 / (1 + e^x)

시그모이드 함수는 x값이 +, -로 아무리 커지거나 작아져도 y값은 항상 0과 1 사이 값을 반환한다.

x값이 커지면 1에 근사하며, 작아지면 0에 근사한다.


---

종양에 크기에 따라 악성 종양인지(Yes=1) 그렇지 않은지(No=0)을 회귀를 이용해 1과 0의 값으로 예측한다.

종양 크기를 X축, 악성 종양 여부를 Y축에 표시한다.




In [1]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression

In [2]:
cancer = load_breast_cancer()

In [3]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split

In [4]:
# StandardScaler()로 평균이 0, 분산 1인 데이터 분포도 변환
scaler = StandardScaler()
data_scaled = scaler.fit_transform(cancer.data)

X_train, X_test, y_train, y_test = train_test_split(data_scaled, cancer.target, test_size=0.3, random_state=0)

In [5]:
from sklearn.metrics import accuracy_score, roc_auc_score

# 로지스틱 회귀를 이용해 학습 및 예측 수행.
lr_clf = LogisticRegression()
lr_clf.fit(X_train, y_train)
lr_preds = lr_clf.predict(X_test)

# 정확도와 roc_auc 측정
print('accuracy: {0:.3f}'.format(accuracy_score(y_test, lr_preds)))
print('roc_auc: {0:.3f}'.format(roc_auc_score(y_test, lr_preds)))

accuracy: 0.977
roc_auc: 0.972



사이킷런 LogisticRegression 클래스의 주요 하이퍼 파라미터로 penalty와 C가 있다.

penalty는 `규제(Regularization)`의 유형을 설정하며    
'l2'로 설정 시 L2 규제를, 'l1'으로 설정 시 L1 규제를 뜻한다. 기본은 'l2'이다.

C는 규제 강도를 조절하는 `alpha` 값의 역수이다. 즉, C = 1 / alpha 

C 값이 작을수록 규제 강도가 크다. `GridSearchCV`를 이용해 위스콘신 데이터 세트에서 이 하이퍼 파라미터를 최적화한다.



In [6]:
from sklearn.model_selection import GridSearchCV

In [7]:
params = {'penalty':['l2', 'l1'], 'C':[0.01, 0.1, 1, 5, 10]}

In [8]:
grid_clf = GridSearchCV(lr_clf, param_grid=params, scoring='accuracy', cv=3)
grid_clf.fit(data_scaled, cancer.target)
print('최적 하이퍼 파라미터:{0}. 최적 평균 정확도:{1:.3f}'.format(grid_clf.best_params_, grid_clf.best_score_))

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.

ValueError: Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.



최적 하이퍼 파라미터:{'C': 1, 'penalty': 'l2'}. 최적 평균 정확도:0.975



로지스틱 회귀는 가볍고 빠르지만, 이진 분류 예측 성능도 뛰어나다.

이 때문에 로지스틱 회귀를 이진 분류의 기본 모델로 사용하는 경우가 많다.

또한 로지스틱 회귀는 희소한 데이터 세트 분류에도 뛰어난 성능을 보여 텍스트 분류에서도 자주 사용된다.

