# 로지스틱 회귀 (Logistic Regression)

* 로지스틱 회귀는 이름에 회귀라는 단어가 들어가지만, 가능한 클래스가 2개인 이진 분류를 위한 모델
* 로지스틱 회귀의 예측 함수 정의

\begin{equation}
\sigma(x) = \frac{1}{1 + e^{-x}} \\
\hat{y} = \sigma(b + w x) 
\end{equation}
\begin{equation}
\hat{y} = \sigma(b + w_1 x_1 + ... + w_p x_p)
\end{equation}

  + $\sigma$: 시그모이드 함수
  
* 로지스틱 회귀 모델은 선형 회귀 모델에 시그모이드 함수를 적용

* 로지스틱 회귀의 학습 목표는 다음과 같은 목적 함수를 최소화 하는 파라미터 $w$를 찾는 것

\begin{equation}
BinaryCrossEntropy = -\frac{1}{N}\sum_{i=1}^{N}y_i\log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i)
\end{equation}

## y * -np.log(hx) + (1 - y) * -np.log(1 - hx)

In [15]:
from sklearn.datasets import make_classification
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.model_selection import cross_val_score
import sklearn.metrics as metrics
import math
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

In [8]:
#공부한시간, 출석일수
x_data = np.array( [[1,3],[2,2],[3,1],[4,6],[5,5],[6,4],])
y_data = np.array( [0,0,0,1,1,1])

In [9]:
model_logi = LogisticRegression()
model_logi.fit( x_data, y_data)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='auto', n_jobs=None, penalty='l2',
                   random_state=None, solver='lbfgs', tol=0.0001, verbose=0,
                   warm_start=False)

In [10]:
model_logi.coef_

array([[0.78341156, 0.78341156]])

In [11]:
model_logi.intercept_

array([-5.48382067])

In [16]:
def sigmoid( z ):
    return 1/(1+math.e**-z )

In [14]:
z = np.matmul( [ [6,6] ],model_logi.coef_.reshape(-1,1) )+model_logi.intercept_
z

array([[3.9171181]])

In [18]:
sigmoid( 3.9171181 )

0.9804898624198053

In [12]:
model_logi.predict_proba( [ [6,6] ] )

array([[0.01951014, 0.98048986]])

In [20]:
model_logi.predict_proba( [ [6,6] ] ).argmax( axis=1)

array([1], dtype=int64)

In [19]:
model_logi.predict([[6,6]])

array([1])

In [23]:
model_logi.predict([[1,1],[6,5]])

array([0, 1])

In [25]:
model_logi.predict_proba([[1,1],[6,5]]).argmax(axis=1)

array([0, 1], dtype=int64)

### 분류에서는 단순히 정확도를 가지고 판단하지않는다.

In [34]:
model_logi.score(x_data, y_data) #정확도 accuracy

1.0

In [30]:
x_data

array([[1, 3],
       [2, 2],
       [3, 1],
       [4, 6],
       [5, 5],
       [6, 4]])

In [28]:
p = model_logi.predict( x_data )
p

array([0, 0, 0, 1, 1, 1])

In [32]:
y_data

array([0, 0, 0, 1, 1, 1])

In [33]:
(p==y_data).mean()

array([ True,  True,  True,  True,  True,  True])