# 로지스틱 회귀

## 선형 회귀 모델을 위한 데이터 변환
![image.png](attachment:image.png)
- 선형 회귀 모델은 일반적으로 피처와 타겟값 간에 **선형의 관계**가 있다고 가정하고 이러한 최적의 선형 함수를 찾아내 결과 값을 예측
- 선형 회귀 모델은 피처값과 타겟값의 분포가 **정규 분포 형태**를 선호

## 선형 회귀를 위한 데이터 변환 방법
- 타겟값 변환
    - 타겟값은 정규 분포 선호. 분포가 치우쳐져 있을 경우 주로 **로그변환**을 적용한다.
<br></br>
- 피처값 변환
    - 스케일링(Scaling)
        - 피처들에 대한 균일한 스케일링/정규화 적용.
        - StandardScaler를 이용하여 표준 정규 분포 형태 변환 또는 MinMaxScaler를 이용하여 최솟값0, 최댓값1로 변환
    - 다항 특성 변환
        - 스케일링/정규화 수행한 데이터 세트에 다시 다항 특성(Polynomial Feature)을 적용하여 변환
        - 모델 복잡도가 높아지고 서로 피처들 간 상관도가 높아져 과적합의 위험이 있음
    - 로그 변환
        - 왜도가 심한 중요 피처들에 대해서 **로그변환**을 적용.(일반적으로 많이 사용됨)


# 로지스틱 회귀

## 로지스틱 회귀 개요
![image.png](attachment:image.png)
- 로지스틱 회귀는 선형 회귀 방식을 분류에 적용한 알고리즘
- 로지스틱 회귀는 시그모이드 함수의 최적선을 찾고, 이 시그모이드 함수의 반환 값을 확률로 간주해 확률에 따라 분류를 결정하는 것

## 로지스틱 회귀 예측
- 로지스틱 회귀
    - 로지스틱 회귀는 주로 이진 분류(0과 1)에 사용됨(다중 클래스 분류도 적용될 수 있음)
    - 로지스틱 회귀에서 예측 값은 예측 확률을 의미하며, 예측 확률이 0.5이상이면 1로, 0,5 이하면 0으로 예측함
    - 로지스틱 회귀의 예측 확률은 시그모이드 함수의 출력값으로 계산됨
<br></br>
- 로지스틱 회귀의 과정
>단순 선형 회귀 : $y = w_1x + w_0$
    1. 로지스틱 회귀는 확률을 예측하므로 단순 회귀식에는 적용할 수 없음. 하지만 Odds(성공확률/실패확률)을 통해 선형 회귀식에 확률을 적용함.
        - $Odds(p) = p/(1-p)$
    2. Odds의 반환값에 로그변환을 수행하고 선형회귀를 적용함
        - $Log(Odds(p)) = w_1x+w_0$
    3. 해당식을 x의 확률 p로 정리함
        - $p(x) =  1/(1+e^{(-(w_1x+w_0))})$
<br></br>       
- **로지스틱 회귀는 학습을 통해 시그모이드 함수의 w를 최적화하여 예측하는 것**
<br></br>
- 로지스틱 회귀 특징
    - 가볍고 빠르며, 이진 분류 얘측 성능이 뛰어남
    - 희소한 데이터 세트 분류에서 성능이 좋아 텍스트 분류에 자주 사용됨