# Logistic Regression

## 회귀분석 

: 지도학습에서 데이터 변수들 간에 함수관계를 파악하여 통계적으로 추론하는 기술  
독립변수에 대한 종속변수값의 평균을 구하는것.  
<br/> 

![image](https://user-images.githubusercontent.com/54730375/139453226-b9f94762-1be5-447b-87f2-0246212ebff2.png)  

h() : 평균을 구하는 함수. "회귀 모델"  
Y : 종속변수
x : 독립변수(입력데이터)  
b : 중요도(가중치)  
회귀분석을 한다 -> h() 함수가 무엇인지 찾는 과정.

<br/> 
<br/> 
<br/>  

## 선형회귀의 문제점 

종속변수 Y 가 성공, 실패인 문제에 대해 예측 모델링을 한다고 가정.  
성공 = 1, 실패 = 0  
이를 Linear Regression으로 모델링 하면 Y의 범위가 맞지 않는 문제 발생.  

![image](https://user-images.githubusercontent.com/54730375/139454333-509c5f80-5e81-45dd-8ce2-9e58a770c195.png)  

<br/>
Y의 범위는 0~1 사이어야 하는데 연속형 확률변수를 모델링 하는 Linear Regression에서는 -∞ ~ ∞가 됨.
<br/>
<br/>

따라서 logit 변환을 통해 Y의 범위를 -∞ ~ ∞ 가 되도록 만들어줌. -> Logistic regression  

![image](https://user-images.githubusercontent.com/54730375/139470129-56ceef13-a034-4963-8e4c-1847a3ea8b1e.png)  


![image](https://user-images.githubusercontent.com/54730375/139469126-0361005b-c316-4954-83b1-d00fa49f6459.png)  

## 로짓이란?

![image](https://user-images.githubusercontent.com/54730375/139469725-55fb6281-c939-472e-bb81-2314f0d15a5c.png)  

![image](https://user-images.githubusercontent.com/54730375/139470204-83267717-71cf-4ca8-9ba2-585cea6db727.png)  


P 에 대한 수식이 시그모이드 함수와 같아짐.

![image](https://user-images.githubusercontent.com/54730375/139470383-3ab47bb6-7900-4e72-93a6-7337184780aa.png)  
## 시그모이드 그래프  


![image](https://user-images.githubusercontent.com/54730375/139470529-36bd124c-ec70-44fb-9435-28bacf50bf49.png)  

<br/>
<br/>

## 로지스틱 회귀모델  

![image](https://user-images.githubusercontent.com/54730375/139470489-e258d2a5-fa19-4ede-bfd2-e813bd529a9d.png)  

<br/>
<br/>  

# 코드  



In [None]:
import numpy as np

class LogisticRegression:
    def __init__(self, learning_rate=0.01, threshold=0.01, max_iterations=1000, fit_intercept=True, verbose=False):
        self._learning_rate = learning_rate  # 학습 계수
        self._max_iterations = max_iterations  # 반복 횟수
        self._threshold = threshold  # 학습 중단 계수
        self._fit_intercept = fit_intercept  # 절편 사용 여부를 결정
        self._verbose = verbose  # 중간 진행사항 출력 여부

    # 가중치 return
    def get_coeff(self):
        return self._W

    #  bias 추가
    def add_intercept(self, x_data):
        intercept = np.ones((x_data.shape[0], 1))
        return np.concatenate((intercept, x_data), axis=1)

    # 시그모이드 함수(로지스틱 함수)
    def sigmoid(self, z):
        return 1 / (1 + np.exp(-z))

    def cost(self, h, y): # 자연로그가 들어가므로 일반적인 오차공식 사용x
        return (-y * np.log(h) - (1 - y) * np.log(1 - h)).mean()

    def fit(self, x_data, y_data):
        num_examples, num_features = np.shape(x_data)

        if self._fit_intercept:
            x_data = self.add_intercept(x_data)

        # 가중치 설정
        self._W = np.zeros(x_data.shape[1]) # feature 수만큼

        for i in range(self._max_iterations):
            z = np.dot(x_data, self._W)
            hypothesis = self.sigmoid(z)

            # 실제값과 예측값의 차이
            diff = hypothesis - y_data

            # cost 함수
            cost = self.cost(hypothesis, y_data)

            # cost 함수의 편미분 : transposed X * diff / n
            gradient = np.dot(x_data.transpose(), diff) / num_examples

            # gradient에 따라 theta 업데이트
            self._W -= self._learning_rate * gradient

            # 판정 임계값에 다다르면 학습 중단
            if cost < self._threshold:
                return False

            # 100 iter 마다 cost 출력
            if (self._verbose == True and i % 100 == 0):
                print('cost :', cost)

    def predict_prob(self, x_data):
        if self._fit_intercept:
            x_data = self.add_intercept(x_data)

        return self.sigmoid(np.dot(x_data, self._W))

    def predict(self, x_data):
        # 0,1 에 대한 판정 임계값은 0.5 -> round 함수로 반올림
        return self.predict_prob(x_data).round()