# 로지스틱 회귀 (Logistic Regression)

* 로지스틱 회귀는 이름에 회귀라는 단어가 들어가지만, 가능한 클래스가 2개인 이진 분류를 위한 모델 (다중도 가능은 하다 - Softmax)
* 로지스틱 회귀의 예측 함수 정의(이진 분류일 경우 sigmoid 함수 사용)

\begin{equation}
\sigma(x) = \frac{1}{1 + e^{-x}}
\end{equation}

\begin{equation}
\hat{y} = \sigma(w_0 + w_1 x_1 + ... + w_p x_p)
\end{equation}

  + $\sigma$: 시그모이드 함수
  
* 로지스틱 회귀 모델은 선형 회귀 모델에 시그모이드 함수를 적용

* 로지스틱 회귀의 학습 목표는 다음과 같은 목적 함수를 최소화 하는 파라미터 $w$를 찾는 것

\begin{equation}
BinaryCrossEntropy = -\frac{1}{N}\sum_{i=1}^{N}y_i\log(\hat{y}_i) + (1-y_i)\log(1-\hat{y}_i)
\end{equation}

### 오즈(odds)
- 성공(y=1)확률이 실패(y=0)확률에 비해 몇 배 더 높은가를 나타냄

\begin{equation}
오즈(odds) = \frac{P(사건 발생)}{P(사건 미발생)}
\end{equation}
- 예시 : 어떤 사건 A가 발생할 확률이 75%라면 오즈는 [0.75/0.25 = 3] 이다 즉 A에가 발생할 가능성이 그렇지 않을 가능성보다 3배 높다는 의미

### 로짓 변환(Logit Transformation)
- 확률을 오즈의 자연로그로 변환하는 과정

\begin{equation}
로짓(P) = log(odds) = log(\frac{P}{1-P})
\end{equation}
- 예시 : 어떤 사건 A에 대한 오즈를 로짓 변환하면 [로짓(0.75) = log3 (1.0986...)] 이다.
- 입력값 (P)의 범위가 [0,1] 일때(확률이기 때문에 0~1사이 값을 가지게 된다.) [-∞, ∞]를 출력함

### 로지스틱 함수(logistic function)
- 로짓 변환의 역함수로 해석가능
- 선형 회귀와 sigmoid함수의 결합이다
\begin{equation}
로짓(P) = log(odds) = log(\frac{P}{1-P}) = w_0+{w_1}{x_1}+{w_2}{x_2}+...+{w_D}{x_D} = {w^t}X
\end{equation}

\begin{equation}
로지스틱 함수 = p = f^{-1}({w^t}X) = \frac{P}{1-P} = e^{{w^t}X}
\end{equation}

\begin{equation}
>> P = e^{{w^t}X} - P(e^{{w^t}X}) = \frac{e^{{w^t}X}}{1+e^{{w^t}X}} = \frac{1}{1+e^{-{w^t}X}}
\end{equation}

\begin{equation}
sigmoid 함수 = \frac{1}{1+e^{-x}}
\end{equation}
- 따라서 sigmoid 함수의 x 자리에 wtX라는 선형 회귀 모델을 집어넣은 형태가 로지스틱 함수이다.

### 로지스틱 회귀 함수에 따른 분류

\begin{equation}
\frac{1}{1+e^{-{w^t}X}} 에서 {w^t}X의 값에 따라 1또는 0으로 분류된다.
\end{equation}

- wtX가 양수일 경우 : 1로 분류
- wtX가 음수일 경우 : 0으로 분류

![image.png](attachment:image.png)

## 로지스틱 회귀 예제

In [2]:
import numpy as np
import matplotlib.pyplot as plt

In [3]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.linear_model import LogisticRegression