In [1]:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
import sklearn.metrics as metrics
import math
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


# 로지스틱 회귀 (Logistic Regression)(분류)

* 로지스틱 회귀는 이름에 회귀라는 단어가 들어가지만, 가능한 클래스가 2개인 이진 분류를 위한 모델
* 로지스틱 회귀의 예측 함수 정의

\begin{equation}
\sigma(x) = \frac{1}{1 + e^{-x}} \\
\hat{y} = \sigma(b + w x) 
\end{equation}
\begin{equation}
\hat{y} = \sigma(b + w_1 x_1 + ... + w_p x_p)
\end{equation}

  + $\sigma$: 시그모이드 함수
  
* 로지스틱 회귀 모델은 선형 회귀 모델에 시그모이드 함수를 적용

* 로지스틱 회귀의 학습 목표는 다음과 같은 목적 함수를 최소화 하는 파라미터 $w$를 찾는 것

\begin{equation}
BinaryCrossEntropy = -\frac{1}{N}\sum_{i=1}^{N}y_i\log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i)
\end{equation}


In [2]:
#공부한시간, 출석일수( 0=불합격, 1=합격)
x_data = np.array( [[1,3],[2,2],[3,1],[4,6],[5,5],[6,4],])
y_data = np.array( [0,0,0,1,1,1])


In [4]:
model_logi = LogisticRegression()
model_logi.fit(x_data, y_data)

LogisticRegression()

In [6]:
model_logi.coef_ #공부한 시간 weight, 출석 weight 두개 나옴

array([[0.78341156, 0.78341156]])

In [8]:
model_logi.intercept_ # 절편

array([-5.48382067])

In [11]:
model_logi.predict_proba( [[6,6]]) # 1x2 matmul 2x1 
# 프로바 값으로 0일확률, 1일 확률이 나옴. 합격을 확률 98%

array([[0.01951014, 0.98048986]])

In [12]:
model_logi.predict([[6,6]]) # 합격이라는 뜻

array([1])

In [14]:
model_logi.predict_proba([[6,6]]).argmax( axis=1) # 가장 큰 값.

array([1], dtype=int64)

원리 설명

In [15]:
model_logi.predict([[6,6]]) # 합격이라는 뜻

array([1])

In [18]:
def sigmoid( z ):
    return 1/(1+math.e**-z)

In [20]:
w = model_logi.coef_.reshape(2,1)
w

array([[0.78341156],
       [0.78341156]])

In [22]:
z = np.matmul([[6,6]],w) + model_logi.intercept_ 
# = z, 여기까지가연속데이터 예측, linearregress에서는 여기까지
z

array([[3.9171181]])

In [23]:
sigmoid(z) # 시그모아 안에 넣어서 proba 합격할 확률 값과 같음.
# 6시간 공부하고 6시간 출석했을 때 합격률을 구해준 것.

array([[0.98048986]])

예제

1시간 공부, 1시간 출석, 6시간 공부, 5시간 출석한 학생의 합격유무를 예측하시오.

In [27]:
model_logi.predict([[1,1]])

array([0])

In [28]:
model_logi.predict([[6,5]])

array([1])

In [26]:
model_logi.predict_proba( [[1,1]])

array([[0.98048756, 0.01951244]])

In [25]:
model_logi.predict_proba( [[6,5]])

array([[0.04173811, 0.95826189]])

## 분류쪽에서는 단순히 정확도로 모델을 판단하진 않음. 오후에 이야기 할 것.

In [31]:
model_logi.score(x_data, y_data) # 여기서 말하는 score는 정확도
# 연속데이터에서는 결정계수

1.0

In [33]:
p = model_logi.predict(x_data) # 6x2 2x1 argmax한 것?
p

array([0, 0, 0, 1, 1, 1])

In [34]:
p == y_data # 실측값 ndarray객체라서 == 했을 때 true,true,true,false
# 100% 정확하다 (지금 문제에서는)
# 예측값과 실측값을 비교한 것. 
# 분류쪽에서는 단순히 정확도로 판단하진 않음. 오후에 이야기 할 것.

array([ True,  True,  True,  True,  True,  True])

In [35]:
(p == y_data).mean()

1.0

In [None]:
LogisticRegression() : SGDRegress, ridge, lasso, elasticnet

# Logistic파라미터

penalty : str, ‘l1’, ‘l2’, ‘elasticnet’ or ‘none’, optional (default=’l2’)

  l1: 맨하튼 거리, 오차 = 오차 + alpha * (|w1| + |w2|) <br>
  l2: 유클리디안 거리의 제곱, 오차 = 오차 + alpha * (W1^2 + w2^2)
  가중치 규제 (특성 수 줄이기, 과대적합 방지) <br>
  none 면 가중치 규제 미사용 <br>

  loss = loss + regularization strength X 가중치의 l1 혹은 l2 거리 (가중치 규제(과적합 방지))<br>
  가중치가 커지지 못하게 하기 (과적합 방지)<br>

C : float, optional (default=1.0)<br>
  alpha 의 역수<br>
  alpha 는 클수록 가중치 규제, 작을수록 정확하게 (과적합)<br>

  regularization strength(가중치 규제 항목에 곱해지는 값)의 역수 (과적합 방지)
  디폴트 1.0
  역수기 때문에 작을수록 과적합 방지


penalty : str, ‘l1’, ‘l2’, 
#### penalty:L1 혹은 L2 제약조건의 강도를 설정  

#### alpha: 높은 알파 값을 설정할 수록, 높은 제약조건을 설정하는 것

#### C: 
cost function의 C를 의미하는 것이며,
C의 경우에는 높은 C를 설정할 수록, 낮은 강도의 제약조건이 설정되고
낮은 C를 설정할 수록, 높은 강도의 제약조건이 설정

### solver : 
liblinear:L1제약조건, L2제약조건 두 가지를 모두 지원하며, 이것은 작은 데이터에 적합한 알고리즘. <br>
sag, saga: 이것을 확률적경사하강법을 기반으로 하기에 대용량 데이터에 적합한 알고이름이라고 하며, <br>
sag는 L1 제약조건만을 지원하고, saga는 L1, L2 제약조건 둘 다 지원함.

<div style="color:red">회귀알고리즘에서 ridge와 lasso와 계수를 다루는 방법이 유사하다고 보면 된다.
L1규제는 lasso처럼 계수를 0으로도 만들 수 있고,
L2규제는 ridge처럼 계수를 0으로 만들진 않지만 영향력이 작으면 0에 가까운 값을 만들어 회귀식을 구성하게 된다.
</div>

#### newton-cg, lbfgs (sag, saga)  이것은 멀티클래스의 분류 모델에 쓰는 것(다중분류)

현재까지는 이 중에서 lbfgs 알고리즘이 가장 성능이 좋다고 알려져 있고, newton-cg, lbfgs 도 L2제약조건만 지원함.<br>
결국 sag는 L1만 지원하고, newton-cg, saga, lbfgs 세 가지가 L2만 지원하고, <br>
liblinear, saga가 L1, L2 둘 다 지원<br>

#### penalty :  L1, L2 제약조건을 설정하는 하이퍼 파라미터이고, default는 L2
    
#### class_weight :데이터에 직접 가중치를 설정하여 학습의 강도를 다르게 할 수 있는 하이퍼 파라미터.


동영상 시청(7분)
https://www.youtube.com/watch?v=Xm2C_gTAl8c

