# 로지스틱 회귀(Logistic Regression)

- 선형 회귀 방식을 **분류**에 적용한 알고리즘
  - 즉, 로지스틱 회귀는 분류에 사용된다.

* 선형 회귀와 로지스틱 회귀의 차이점
  - 선형 회귀는 선형 함수의 회귀 최적선을 찾는다.
  - 로지스틱 회귀는 **시그모이드(σ) 함수의 최적선**을 찾고, 시그모이드 함수의 반환 값을 **확률**로 간주하여 **확률에 따라 분류를 결정**한다.
  - 시그모이드 함수는 S자 곡선 형태로 그려진다.

## 로지스틱 회귀 예측
- 로지스틱 회귀는 주로 0과 1로 타겟값을 분류하는 이진 분류(binary logistic)에 사용된다.
  - 다중 분류에도 사용될 수 있다.
- 로지스틱 회귀에서 예측값은 예측 확률을 의미
- 예측 값(예측 확률)이 0.5 이상이면 1로, 0.5 이하이면 0으로 예측한다.
- 로지스틱 회귀의 예측 확률은 시그모이드 함수의 출력값으로 계산된다.

### 로지스틱 회귀의 선형 회귀식
- 시그모이드 함수식
$$
σ(x) = \frac{1}{1 + e^{-x}}
$$

- 단순 선형회귀의 회귀식이 $y = w_1x + w_0$일 경우, 로지스틱 회귀는 0과 1을 예측하기에 단순 회귀식을 적용하지 않고 $Odds(p)$을 통해 선형 회귀식에 확률을 적용한다.
  - 성공 확률 : $p$
  - 실패 확률 : $1 - p$

$$
Odds(p) = \frac{p}{1-p}
$$

- 로짓(Logit) 변환 수행 : 확률 $p$의 범위가 0과 1 사이이고, 선형 회귀의 반환값이 $-∞$와 $+∞$ 사이의 값에 대응하기 위해 로그 변환을 수행한 아래와 같은 선형 회귀를 적용한다.

$$
\log(Odds(p)) = \frac{p}{1-p}
$$

- 위 선형 회귀식을 데이터 값 $x$의 확률 $p$로 정리하면 다음과 같다.

$$
p(x) = \frac{1}{1 + e^{-(w_1x + w_0)}}
$$

- 로지스틱 회귀는 학습을 통해서 시그모이드 함수의 $w$를 최적화하여 예측하는 것이다.





## 사이킷런에서 로지스틱 회귀
- `LogisticRegression` 클래스로 구현
```python
from sklearn.linear_model import LogisticRegression
```

### 주요 하이퍼 파라미터
- `penalty` : 규제 유형 설정
  - `penalty=l2`
  - `penalty=l1`
- `C` : 규제 강도를 조절하는 $\alpha$의 역수
  - $C=\frac{1}{\alpha}$
  - C가 작을 수록 규제 강도가 커진다.
  - C가 커질 수록 규제 강도가 작아진다.
-`solver` : 회귀 계수 최적화를 위한 다양한 최적화(Optimization) 방식
  - `solver='lbfgs'` : 사이킷런 버전 0.22 부터 solver의 기본 설정값.
    - 메모리 공간을 절약할 수 있고 CPU 코어 수가 많다면 최적화를 병렬로 수행
  - `solver='liblinear'` : 사이킷런 버전 0.21 까지 solver의 기본 설정값
    - 다차원이고 작은 데이터 세트에서 효과적으로 동작
    - 국소 최적화(Local Minimum)에 이슈가 있다.
    - 병렬 최적화 불가능
  - `solver='newtown-cg'` : 좀 더 정교한 최적화 가능. 대용량 데이터에서 속도가 많이 느려진다.
  - `solver='sag'` : Stochastic Average Gradient로서 경사 하강법 기반의 최적화를 사용. 대용량의 데이터에서 빠르게 최적화 가능
  - `solver='saga'` : `'sag'`와 유사한 최적화 방식, L1 정규화를 가능하게 해준다.
  - 일반적으로 `'lbfgs'` 또는 `'libliner'`를 선택한다.


## 로지스틱 회귀 실습
- 유방암 데이터 세트 이용

In [1]:
# 불필요한 경고 메시지 삭제
import warnings
warnings.filterwarnings('ignore')

In [6]:
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

data = cancer.data
target = cancer.target
feature_names = cancer.feature_names
target_names = cancer.target_names

In [7]:
## 데이터 전처리 - 표준 스케일링으로 정규분포형태로 변환
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
data_scaled = scaler.fit_transform(data)

In [9]:
## 표준화한 피처 데이터를 판다스 DataFrame으로 변환
cancer_df = pd.DataFrame(data=data_scaled, columns=feature_names)
cancer_df['target'] = target
cancer_df.head()

Unnamed: 0,mean radius,mean texture,mean perimeter,mean area,mean smoothness,mean compactness,mean concavity,mean concave points,mean symmetry,mean fractal dimension,...,worst texture,worst perimeter,worst area,worst smoothness,worst compactness,worst concavity,worst concave points,worst symmetry,worst fractal dimension,target
0,1.097064,-2.073335,1.269934,0.984375,1.568466,3.283515,2.652874,2.532475,2.217515,2.255747,...,-1.359293,2.303601,2.001237,1.307686,2.616665,2.109526,2.296076,2.750622,1.937015,0
1,1.829821,-0.353632,1.685955,1.908708,-0.826962,-0.487072,-0.023846,0.548144,0.001392,-0.868652,...,-0.369203,1.535126,1.890489,-0.375612,-0.430444,-0.146749,1.087084,-0.24389,0.28119,0
2,1.579888,0.456187,1.566503,1.558884,0.94221,1.052926,1.363478,2.037231,0.939685,-0.398008,...,-0.023974,1.347475,1.456285,0.527407,1.082932,0.854974,1.955,1.152255,0.201391,0
3,-0.768909,0.253732,-0.592687,-0.764464,3.283553,3.402909,1.915897,1.451707,2.867383,4.910919,...,0.133984,-0.249939,-0.550021,3.394275,3.893397,1.989588,2.175786,6.046041,4.93501,0
4,1.750297,-1.151816,1.776573,1.826229,0.280372,0.53934,1.371011,1.428493,-0.00956,-0.56245,...,-1.46677,1.338539,1.220724,0.220556,-0.313395,0.613179,0.729259,-0.868353,-0.3971,0


In [10]:
## 데이터 분할
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    data_scaled,
    target,
    test_size=0.3,
    random_state=0
)

In [35]:
## 로지스틱 회귀 모델 객체 생성
from sklearn.linear_model import LogisticRegression
lr_clf = LogisticRegression() # solver='lbfgs' 기본값 상태

## 모델 학습 및 예측 수행
lr_clf.fit(X_train, y_train)
lr_preds = lr_clf.predict(X_test)

## 모델 예측 정확도 성능 확인
from sklearn.metrics import accuracy_score
print(f'[accuracy] : {accuracy_score(y_test, lr_preds):.3}')

[accuracy] : 0.977


In [32]:
## 로지스틱 회귀 모델의 solver 하이퍼파라미터 리스트
solvers = ['lbfgs', 'liblinear', 'newton-cg', 'sag', 'saga']

## 로지스틱 회귀 모델 객체 생성
from sklearn.linear_model import LogisticRegression

# 서로 다른 solver 값으로 LogisticRegression 학습 후 예측 성능 평가
for solver in solvers:
  lr_clf = LogisticRegression(solver=solver, max_iter=600) # solver를 지정해 최적화할 경우 상대적으로 많은 반복 횟수가 필요할 수 있기 때문에 max_iter=600으로 지정
  lr_clf.fit(X_train, y_train)
  lr_preds = lr_clf.predict(X_test)
  print(f'[solver] :{solver}, [accuracy] : {accuracy_score(y_test, lr_preds): .3}')

[solver] :lbfgs, [accuracy] :  0.977
[solver] :liblinear, [accuracy] :  0.982
[solver] :newton-cg, [accuracy] :  0.977
[solver] :sag, [accuracy] :  0.982
[solver] :saga, [accuracy] :  0.982


- liblinear, sag, saga의 경우 lbfgs, newton-cg 대비 정확도가 높아, 모델의 상대적인 성능 수치가 약간 높다.
- 데이터 세트가 워낙 작기 때문에 개별 solver별 성능 결과의 차이는 크게 의미있는 결과는 아니다.
- 다만 여러 데이터 세트에 적용을 해보아도 solver별 차이가 크지 않고, 전반적으로 liblinear 성능이 약간 높기 때문에 많이 사용한다.

In [37]:
## 그리드 서치로 최적의 하이퍼 파라미터 찾기
from sklearn.model_selection import GridSearchCV

# 하이퍼 파라미터 리스트
params={
    'solver':['liblinear', 'lbfgs'],
    'penalty':['l2', 'l1'],
    'C':[0.01, 0.1, 1, 5, 10]
}

# 로지스틱 회귀 모델 객체 생성
lr_clf = LogisticRegression()

# 그리드서치 적용
grid_clf = GridSearchCV(
    lr_clf,
    param_grid=params,
    scoring='accuracy',
    cv=3
)

grid_clf.fit(data_scaled, target)

print(f'최적의 하이퍼 파라미터 : {grid_clf.best_params_}')
print(f'최적 평균 정확도 : {grid_clf.best_score_:.3}')

최적의 하이퍼 파라미터 : {'C': 0.1, 'penalty': 'l2', 'solver': 'liblinear'}
최적 평균 정확도 : 0.979


- 그리드 서치를 이용해 최적의 하이퍼 파라미터를 찾아 평균 정확도가 0.979로 가장 좋은 성능을 나타내었다.

- 로지스틱 회귀는 가볍고 빠르지만, 이진 분류 예측 성능도 뛰어나서 이진 분류의 기본 모델로 사용하는 경우가 많다.
- 또한 희소한 데이터 세트 분류에도 뛰어난 성능을 보여, 텍스트 분류에서도 자주 사용된다.