In [None]:
# 시그모이드 함수 통과시키고
# cost 함수가 로그

https://www.desmos.com/?lang=ko

# 로지스틱 회귀 (Logistic Regression)

* 로지스틱 회귀는 이름에 회귀라는 단어가 들어가지만, 가능한 클래스가 2개인 이진 분류를 위한 모델
* 로지스틱 회귀의 예측 함수 정의

\begin{equation}
\sigma(x) = \frac{1}{1 + e^{-x}} \\
\hat{y} = \sigma(b + w x) 
\end{equation}
\begin{equation}
\hat{y} = \sigma(b + w_1 x_1 + ... + w_p x_p)
\end{equation}

  + $\sigma$: 시그모이드 함수
  
* 로지스틱 회귀 모델은 선형 회귀 모델에 시그모이드 함수를 적용

* 로지스틱 회귀의 학습 목표는 다음과 같은 목적 함수를 최소화 하는 파라미터 $w$를 찾는 것

\begin{equation}
BinaryCrossEntropy = -\frac{1}{N}\sum_{i=1}^{N}y_i\log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i)
\end{equation}

## y * -np.log(hx) + (1 - y) * -np.log(1 - hx)

In [16]:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
import sklearn.metrics as metrics

import math
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [8]:
# 공부한 시간, 출석일수

x_data = np.array( [[1,3],[2,2],[3,1],[4,6],[5,5],[6,4]] )
y_data = np.array( [0,0,0,1,1,1] ) # 합불 # 피쳐는 매트릭스로 줘야 하지만 라벨은 안 그래도 됨!

In [9]:
model_logi = LogisticRegression()
model_logi.fit(x_data, y_data)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [10]:
# 다중 - 피쳐가 두 개

model_logi.coef_ # 기울기

array([[0.78341156, 0.78341156]])

In [11]:
model_logi.intercept_ # 절편

array([-5.48382067])

In [17]:
def sigmoid(z):
    return 1/(1+math.e**-z)

In [18]:
# 연속 데이터 예측은 여기서 끝남

z = np.matmul( [[6, 6]], model_logi.coef_.reshape(-1, 1)) + model_logi.intercept_
z

array([[3.9171181]])

In [19]:
# 로지스틱은 0아니면 1이니까 시그모이드 함수를 통과시킴!

sigmoid(z)

array([[0.98048986]])

- 로지스틱 메소드

In [12]:
model_logi.predict_proba([[6, 6]]) # 0일 확률이 0.02, 1일 확률이 0.98

array([[0.01951014, 0.98048986]])

In [21]:
model_logi.predict_proba([[6, 6]]).argmax(axis=1)

array([1], dtype=int64)

In [20]:
model_logi.predict([[6, 6]]) # 예측

array([1])

In [27]:
model_logi.predict([[1,1],[6, 6]])

# 불합격 / 합격

array([0, 1])

In [28]:
model_logi.predict_proba([[1,1],[6, 6]])

array([[0.98048756, 0.01951244],
       [0.01951014, 0.98048986]])

In [29]:
model_logi.predict_proba([[1,1],[6, 6]]).argmax(axis=1)

array([0, 1], dtype=int64)

In [26]:
model_logi.score(x_data, y_data) # 정확도 accuracy # 예측값과 실제 결과의 평균값

1.0

In [31]:
p = model_logi.predict(x_data) # 예측값
p

array([0, 0, 0, 1, 1, 1])

In [32]:
y_data

array([0, 0, 0, 1, 1, 1])

In [33]:
p == y_data

array([ True,  True,  True,  True,  True,  True])

In [34]:
(p == y_data).mean() # model_logi.score(x_data, y_data)

1.0

### 분류에서는 단순히 정확도를 가지고 판단하지 않는다!

# logistic 파라미터 (로지스틱은 학습에 의한 것!)

penalty : str, ‘l1’, ‘l2’, ‘elasticnet’ or ‘none’, optional (default=’l2’)

  l1: 맨하튼 거리, 오차 = 오차 + alpha * (|w1| + |w2|) <br>
  l2: 유클리디안 거리의 제곱, 오차 = 오차 + alpha * (W1^2 + w2^2)
  가중치 규제 (특성 수 줄이기, 과대적합 방지) <br>
  none 면 가중치 규제 미사용 <br>

  loss = loss + regularization strength X 가중치의 l1 혹은 l2 거리 (가중치 규제(과적합 방지))<br>
  가중치가 커지지 못하게 하기 (과적합 방지)<br>

C : float, optional (default=1.0)<br>
  alpha 의 역수<br>
  alpha 는 클수록 가중치 규제, 작을수록 정확하게 (과적합)<br>

  regularization strength(가중치 규제 항목에 곱해지는 값)의 역수 (과적합 방지)
  디폴트 1.0
  역수기 때문에 작을수록 과적합 방지

#### penalty:L1 혹은 L2 제약조건의 강도를 설정  

#### alpha: 높은 알파 값을 설정할 수록, 높은 제약조건을 설정하는 것

#### C: 
cost function의 C를 의미하는 것이며,
C의 경우에는 높은 C를 설정할 수록, 낮은 강도의 제약조건이 설정되고
낮은 C를 설정할 수록, 높은 강도의 제약조건이 설정

### solver : 
liblinear:L1제약조건, L2제약조건 두 가지를 모두 지원하며, 이것은 작은 데이터에 적합한 알고리즘. <br>
sag, saga: 이것을 확률적경사하강법을 기반으로 하기에 대용량 데이터에 적합한 알고이름이라고 하며, <br>
sag는 L1 제약조건만을 지원하고, saga는 L1, L2 제약조건 둘 다 지원함.

<div style="color:red">회귀알고리즘에서 ridge와 lasso와 계수를 다루는 방법이 유사하다고 보면 된다.
L1규제는 lasso처럼 계수를 0으로도 만들 수 있고,
L2규제는 ridge처럼 계수를 0으로 만들진 않지만 영향력이 작으면 0에 가까운 값을 만들어 회귀식을 구성하게 된다.
</div>

#### newton-cg, lbfgs (sag, saga)  이것은 멀티클래스의 분류 모델에 쓰는 것

현재까지는 이 중에서 lbfgs 알고리즘이 가장 성능이 좋다고 알려져 있고, newton-cg, lbfgs 도 L2제약조건만 지원함.<br>
결국 sag는 L1만 지원하고, newton-cg, saga, lbfgs 세 가지가 L2만 지원하고, <br>
liblinear, saga가 L1, L2 둘 다 지원<br>

#### penalty :  L1, L2 제약조건을 설정하는 하이퍼 파라미터이고, default는 L2
    
#### class_weight :데이터에 직접 가중치를 설정하여 학습의 강도를 다르게 할 수 있는 하이퍼 파라미터

# <연습문제>

In [36]:
df = pd.read_csv('../data5/pima-indians-diabetes.data.csv')
df.head(3)

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1


정보 1 : 과거 임신 횟수 (pregnant)

정보 2 : 포도당 부하 검사 2시간 후 공복 혈당 농도 (plasma)

정보 3 : 확장기 혈압 (pressure)

정보 4 : 삼두근 피부 주름 두께 (thickness)

정보 5 : 혈정 인슐린 (insulin)

정보 6 : 체질량 지수 (BMI)

정보 7 : 당뇨병 가족력 (pedigree)

정보 8 : 나이 (age)

​

클래스 : 당뇨( 1) , 당뇨가 아님 ( 0 )



### train, test 셋으로 나눈 후 
### 각각의 정확도를 구하시오.
### test셋의 0번째 row 데이터로 당뇨병 유무를 확인하시오.

In [68]:
from sklearn.pipeline import make_pipeline
from sklearn.preprocessing import StandardScaler

In [69]:
x_data = df.iloc[:, :8]
y_data = df.iloc[:, 8]

In [70]:
# 데이터셋 나누기
x_train, x_test, y_train, y_test=train_test_split(x_data, y_data, test_size=0.2, random_state=1, stratify=y_data)

# 분류에서는 stratify=y_data 을 꼭 줘야 함!!
# 1, 0 균형을 잡도록 하는 옵션

In [71]:
# 정규화 및 학습 파이프라인 설정
model_logistic = make_pipeline( StandardScaler(), LogisticRegression() )
model_logistic.fit(x_train, y_train)

Pipeline(memory=None,
         steps=[('standardscaler',
                 StandardScaler(copy=True, with_mean=True, with_std=True)),
                ('logisticregression',
                 LogisticRegression(C=1.0, class_weight=None, dual=False,
                                    fit_intercept=True, intercept_scaling=1,
                                    l1_ratio=None, max_iter=100,
                                    multi_class='auto', n_jobs=None,
                                    penalty='l2', random_state=None,
                                    solver='lbfgs', tol=0.0001, verbose=0,
                                    warm_start=False))],
         verbose=False)

In [72]:
# 각 데이터셋의 정확도 추출
print('학습데이터 accuracy: ',model_logistic.score(x_train,y_train))
print('테스트데이터 accuracy: ',model_logistic.score(x_test,y_test))

학습데이터 accuracy:  0.7752442996742671
테스트데이터 accuracy:  0.7792207792207793


In [73]:
# test셋의 0번째 row에 대한 예측값
model_logistic.predict([x_test.iloc[0,:]])

array([0], dtype=int64)

In [75]:
model_logistic.predict(x_test.iloc[[0]])

array([0], dtype=int64)