# 로지스틱 회귀 (Logistic Regression)

* 로지스틱 회귀는 이름에 회귀라는 단어가 들어가지만, 가능한 클래스가 2개인 이진 분류를 위한 모델
* 로지스틱 회귀의 예측 함수 정의

\begin{equation}
\sigma(x) = \frac{1}{1 + e^{-x}} \\
\hat{y} = \sigma(b + w x) 
\end{equation}
\begin{equation}
\hat{y} = \sigma(b + w_1 x_1 + ... + w_p x_p)
\end{equation}

  + $\sigma$: 시그모이드 함수
  
* 로지스틱 회귀 모델은 선형 회귀 모델에 시그모이드 함수를 적용

* 로지스틱 회귀의 학습 목표는 다음과 같은 목적 함수를 최소화 하는 파라미터 $w$를 찾는 것

\begin{equation}
BinaryCrossEntropy = -\frac{1}{N}\sum_{i=1}^{N}y_i\log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i)
\end{equation}


In [32]:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
import sklearn.metrics as metrics
import math
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib
from IPython.display import set_matplotlib_formats
set_matplotlib_formats('retina')
import warnings
warnings.simplefilter('ignore')

In [2]:
#공부한시간, 출석일수
x_data = np.array( [[1,3],[2,2],[3,1],[4,6],[5,5],[6,4],])
y_data = np.array( [0,0,0,1,1,1])

In [7]:
model_logi = LogisticRegression()
model_logi.fit(x_data, y_data)

LogisticRegression()

In [8]:
model_logi.coef_

array([[0.78341156, 0.78341156]])

In [9]:
model_logi.intercept_

array([-5.48382067])

In [10]:
model_logi.predict_proba([[6,6]])  # 1x2 2x1

array([[0.01951014, 0.98048986]])

In [12]:
model_logi.predict_proba([[6,6]]).argmax(axis=1)

array([1], dtype=int64)

In [13]:
model_logi.predict([[6,6]])

array([1])

In [14]:
def sigmoid(z):
    return 1/(1+math.e**-z)

In [15]:
w = model_logi.coef_.reshape(2, 1)
w

array([[0.78341156],
       [0.78341156]])

In [17]:
z = np.matmul([[6,6]], w) + model_logi.intercept_
z

array([[3.9171181]])

In [18]:
sigmoid(z)

array([[0.98048986]])

 연습문제  
   1시간 공부 1시간 출석, 6시간 공부하고 5시간 출석한 학생의 합격유무

In [21]:
print(model_logi.predict([[1, 1], [6, 5]]))
print(model_logi.predict_proba([[1, 1], [6, 5]]))

[0 1]
[[0.98048756 0.01951244]
 [0.04173811 0.95826189]]


In [22]:
z = np.matmul([[1,1], [6,5]], w) + model_logi.intercept_
z

array([[-3.91699754],
       [ 3.13370653]])

In [23]:
sigmoid(z)

array([[0.01951244],
       [0.95826189]])

### 분류에서는 단순히 정확도를 가지고 판단하지 않는다

In [24]:
model_logi.score(x_data, y_data)  # 정확도

1.0

In [26]:
p = model_logi.predict(x_data)  #6x2 2x1
p

array([0, 0, 0, 1, 1, 1])

In [27]:
(p == y_data).mean()

1.0

https://www.youtube.com/watch?v=Xm2C_gTAl8c

In [None]:
LogisticRegression() : SGDRegress, ridge, lasso, elasticnet

# logistic parameter

penalty : str, ‘l1’, ‘l2’, ‘elasticnet’ or ‘none’, optional (default=’l2’)

  l1: 맨하튼 거리, 오차 = 오차 + alpha * (|w1| + |w2|) <br>
  l2: 유클리디안 거리의 제곱, 오차 = 오차 + alpha * (W1^2 + w2^2)
  가중치 규제 (특성 수 줄이기, 과대적합 방지) <br>
  none 면 가중치 규제 미사용 <br>

  loss = loss + regularization strength X 가중치의 l1 혹은 l2 거리 (가중치 규제(과적합 방지))<br>
  가중치가 커지지 못하게 하기 (과적합 방지)<br>

C : float, optional (default=1.0)<br>
  alpha 의 역수<br>
  alpha 는 클수록 가중치 규제, 작을수록 정확하게 (과적합)<br>

  regularization strength(가중치 규제 항목에 곱해지는 값)의 역수 (과적합 방지)
  디폴트 1.0
  역수기 때문에 작을수록 과적합 방지


#### penalty:L1 혹은 L2 제약조건의 강도를 설정  

#### alpha: 높은 알파 값을 설정할 수록, 높은 제약조건을 설정하는 것

#### C: 
cost function의 C를 의미하는 것이며,
C의 경우에는 높은 C를 설정할 수록, 낮은 강도의 제약조건이 설정되고
낮은 C를 설정할 수록, 높은 강도의 제약조건이 설정

### solver : 
liblinear:L1제약조건, L2제약조건 두 가지를 모두 지원하며, 이것은 작은 데이터에 적합한 알고리즘. <br>
sag, saga: 이것을 확률적경사하강법을 기반으로 하기에 대용량 데이터에 적합한 알고이름이라고 하며, <br>
sag는 L1 제약조건만을 지원하고, saga는 L1, L2 제약조건 둘 다 지원함.

<div style="color:red">회귀알고리즘에서 ridge와 lasso와 계수를 다루는 방법이 유사하다고 보면 된다.
L1규제는 lasso처럼 계수를 0으로도 만들 수 있고,
L2규제는 ridge처럼 계수를 0으로 만들진 않지만 영향력이 작으면 0에 가까운 값을 만들어 회귀식을 구성하게 된다.
</div>

#### newton-cg, lbfgs (sag, saga)  이것은 멀티클래스의 분류 모델에 쓰는 것

현재까지는 이 중에서 lbfgs 알고리즘이 가장 성능이 좋다고 알려져 있고, newton-cg, lbfgs 도 L2제약조건만 지원함.<br>
결국 sag는 L1만 지원하고, newton-cg, saga, lbfgs 세 가지가 L2만 지원하고, <br>
liblinear, saga가 L1, L2 둘 다 지원<br>

#### penalty :  L1, L2 제약조건을 설정하는 하이퍼 파라미터이고, default는 L2
    
#### class_weight :데이터에 직접 가중치를 설정하여 학습의 강도를 다르게 할 수 있는 하이퍼 파라미터.


## Pima Indians Diabetes 연습문제

In [73]:
df = pd.read_csv('data5/pima-indians-diabetes.data.csv')
df

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,0.171,63,0
764,2,122,70,27,0,36.8,0.340,27,0
765,5,121,72,23,112,26.2,0.245,30,0
766,1,126,60,0,0,30.1,0.349,47,1


정보 1 : 과거 임신 횟수 (pregnant)

정보 2 : 포도당 부하 검사 2시간 후 공복 혈당 농도 (plasma)

정보 3 : 확장기 혈압 (pressure)

정보 4 : 삼두근 피부 주름 두께 (thickness)

정보 5 : 혈정 인슐린 (insulin)

정보 6 : 체질량 지수 (BMI)

정보 7 : 당뇨병 가족력 (pedigree)

정보 8 : 나이 (age)

​

클래스 : 당뇨( 1) , 당뇨가 아님 ( 0 )



### 학습셋과 테스트셋의  정확도
### test셋의 0번째 row 데이터로 당뇨병 유무 확인


In [74]:
x_data = df.iloc[:, :-1]
y_data = df.iloc[:, -1]

In [46]:
# 분류에서는 반드시 stratify 옵션을 줘야한다
# 0, 1 이 test, train에 골고루 분포되도록
x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, stratify=y_data)

In [75]:
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import make_pipeline

x_train, x_test, y_train, y_test = train_test_split(x_data, y_data, test_size=0.2, stratify=y_data)
model = make_pipeline(StandardScaler(), LogisticRegression())
model.fit(x_train, y_train)

print('train acc : ', model.score(x_train, y_train))
print('test acc : ', model.score(x_test, y_test))

print('결과 : ', model.predict(x_test.iloc[[0],:]))



train acc :  0.7768729641693811
test acc :  0.7402597402597403
결과 :  [0]


In [76]:
y_test.iloc[0]

0

In [77]:
p = model.predict(x_test)
p

array([0, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0,
       1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1,
       1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0,
       0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0],
      dtype=int64)

In [78]:
(p == y_test.values).mean()

0.7402597402597403