# 기본 지도 학습 알고리즘들

## 4. 로지스틱 회귀 (Logistic Regression)

### 01. 분류 문제

회귀는 연속적인 값을 예측하는 걸 의미하고 분류는 정해진 몇 개의 값 중에서 예측하는 걸 의미한다. 이때 분류를 위해 각 결괏값에 숫자를 지정해준다. 예를 들어 스팸 이메일을 분류할 때는 일반 이메일에 0이라는 값을 부여하고 스팸 이메일에는 1이라는 값을 부여할 수 있다. 이때 분류 문제를 풀 때 선형 회귀를 잘 사용하지 않는데 예외적인 데이터 하나로 인해 모델이 민감하게 변하기 때문이다.

### 03. 로지스틱 회귀

선형 회귀는 분류에 있어 값에 대해 모델의 변화가 크기 때문에 분류를 할 때는 주로 로지스틱 회귀(Logistic Regression)를 사용한다. 로지스틱 회귀는 데이터에 가장 잘 맞는 시그모이드 함수를 찾는 방법을 의미한다. 이때 시그모이드 함수의 식은 아래와 같다.


$$
S(x) = \frac{1}{1+e^{-x}}
$$

시그모이드 함수는 무조건 0과 1 사이의 값을 반환한다. $x$가 음의 무한대로 발산하면 값은 0에 가까워지며 반대로 $x$가 양의 무한대로 발산하면 값은 1에 가까워진다. 이때 결과가 0과 1 사이라는 것은 이상치에 대한 영향을 적게 받기 때문에 분류에 적합하다는 걸 의미한다. 추가적으로 시그모이드 함수의 결괏값이 0과 1 사이의 연속적인 값이기 때문에 회귀라는 단어를 사용한다.

### 05. 로지스틱 회귀 가설 함수

로지스틱 회귀의 가설 함수는 아래와 같다.

$$
h_{\theta}(x) = \frac{1}{1+e^{-g_{\theta}(x)}}
$$

이때 $g_{\theta}(x)$ 값은 곧 선형 회귀의 가설 함수로 $\theta^{T}x$와 같기 때문에 로지스틱 회귀의 가설 함수를 다시 정의해보면 아래와 같다.

$$
h_{\theta}(x) = \frac{1}{1+e^{-\theta^{T}x}}
$$

$g_{\theta}(x)$ 함수는 일차 함수로 결괏값이 엄청 클 수도, 작을 수도 있다. 다시 말해 양의 무한대와 음의 무한대로 발산한다. 이때 시그모이드 함수를 사용하여 해당 결괏값을 0과 1 사이로 바꾼다.

### 08. 결정 경계

로지스틱 회귀 뿐만 아니라 분류를 하는 모든 문제에 있어 데이터를 분류하기 위해 사용하는 선을 결정 경계(Decision Boundary)라 한다.

### 09. 로그 손실

로지스틱 회귀의 손실 함수는 선형 회귀의 손실 함수인 평균 제곱 오차를 사용하지 않고 로그 손실(Log Loss, Cross Entropy)를 사용한다. 이를 식으로 표현하면 아래 이미지와 같다.

![로그 손실](./Images/1.png)

이때 $h_{\theta}(x)$값은 예측값, $y$값는 실제값을 의미하고 로그 손실 함수는 예측값이 실제값과 얼마나 괴리가 있는지 알려준다. 이때 로지스틱 회귀는 분류이고 가능한 경우는 0과 1로 이진 분류이기 때문에 두 개의 상황이 존재한다.

추가적으로 손실의 정도를 로그 함수로 결정하기 때문에 로그 손실이라 부른다.

### 11. 로지스틱 회귀 손실 함수

로지스틱 회귀에서 손실 함수는 아래 식과 같이 나타내는데 이는 위에서 알아본 로그 손실 식과 동일하다.

$$
loglos(h_{\theta}(x), y) = -ylog(h_{\theta}(x)) - (1-y)log(1-h_{\theta}(x)))
$$

이제 이렇게 구한 식에 대해 평균을 구하는 일반화된 식은 아래와 같다.

$$
J(\theta) = \frac{1}{m}\sum_{i=1}^{m}[logloss(h_{\theta}(x^{(i)}), y^{(i)})]
$$

로그 손실 함수를 통해 i번째 값에 대해 구하여 해당 결과를 모두 더해 평균을 내는 것이다. 다시 말해 모든 데이터의 로그 손실을 계산한 후 평균을 낸다. 이때 가설 함수는 $\theta$값에 따라 모델의 성능이 달라지기 때문에 손실 함수 또한 입력값으로 $\theta$값을 사용한다.

이렇게 구하게 된 로그 손실 함수를 앞서 구한 식으로 치환하면 결과는 아래와 같다.

$$
J(\theta) = \frac{1}{m}\sum_{i=1}^{m}[-ylog(h_{\theta}(x)) - (1-y)log(1-h_{\theta}(x)))]
$$

### 13. 로지스틱 회귀 경사 하강법

경사 하강법은 손실을 최소화하는 방법 중 하나로 로지스틱 회귀에서도 경사 하강법을 통해 손실을 최소화할 수 있다. 처음에 $\theta$값을 0 또는 임의로 설정한 뒤 해당 $\theta$값을 조율하면서 손실을 최소화하면 된다.

모든 $\theta$값에 대해 선형 회귀와 마찬가지로 편미분을 시행한 뒤 점점 그 값을 최소화하면 되는데 그 편미분 결과 자체는 선형 회귀의 것과 유사하다. 이때 가설 함수에만 차이가 존재하는데 선형 회귀 함수의 가설 함수는 일차 함수인데 로지스틱 회귀의 가설 함수는 시그모이드 함수이기 때문이다. 결과적으로 시그모이드 함수를 통해 모든 $\theta$값을 업데이트하여 손실을 최소화하면 된다.

### 16. 로지스틱 회귀 가정 함수 구현하기

```Python
import numpy as np


def sigmoid(x):
    return 1 / (1 + np.exp(-x))
    

def prediction(X, theta):
    return sigmoid(X@theta)

    
hours_studied = np.array(
    [0.2, 0.3, 0.7, 1, 1.3, 1.8, 2, 2.1, 2.2, 3, 4, 4.2, 4, 4.7, 5.0, 5.9]
)
gpa_rank = np.array(
    [0.9, 0.95, 0.8, 0.82, 0.7, 0.6, 0.55, 0.67, 0.4, 0.3, 0.2, 0.2, 0.15, 0.18, 0.15, 0.05]
)
number_of_tries = np.array(
    [1, 2, 2, 2, 4, 2, 2, 2, 3, 3, 3, 3, 2, 4, 1, 2]
)


X = np.array([
    np.ones(16),
    hours_studied,
    gpa_rank,
    number_of_tries
]).T
theta = [0.5, 0.3, -2, 0.2]  

prediction(X, theta)
```

### 17. 로지스틱 회귀 경사 하강법 구현하기

```Python
import numpy as np


def sigmoid(x):
    return 1 / (1 + np.exp(-x))
    

def prediction(X, theta):
    return sigmoid(X@theta)
    

def gradient_descent(X, theta, y, iterations, alpha):
    m = len(X)

    for _ in range(iterations):
        error = prediction(X, theta) - y
        theta = theta - alpha/m * (X.T@error)
            
    return theta
    

hours_studied = np.array(
    [0.2, 0.3, 0.7, 1, 1.3, 1.8, 2, 2.1, 2.2, 3, 4, 4.2, 4, 4.7, 5.0, 5.9]
)
gpa_rank = np.array(
    [0.9, 0.95, 0.8, 0.82, 0.7, 0.6, 0.55, 0.67, 0.4, 0.3, 0.2, 0.2, 0.15, 0.18, 0.15, 0.05]
)
number_of_tries = np.array(
    [1, 2, 2, 2, 4, 2, 2, 2, 3, 3, 3, 3, 2, 4, 1, 2]
)
passed = np.array([0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1])


X = np.array([
    np.ones(16),
    hours_studied,
    gpa_rank,
    number_of_tries
]).T
y = passed

theta = [0, 0, 0, 0]
theta = gradient_descent(X, theta, y, 300, 0.1)

theta
```

### 18. 분류가 3개 이상일 때

예를 들어 직장 메일, 친구 메일, 스팸 메일과 같이 세 개로 분류를 하고자 할 때 직장 메일과 기타 나머지 메일로 이진분류를 하는 가설 함수, 친구 메일과 기타 나머지 메일로 이진분류를 하는 가설 함수, 그리고 스팸 메일과 기타 나머지 메일로 이진분류를 하는 가설 함수를 각각 만든다. 그리고 하나의 데이터에 대해 각각의 가설 함수에 대한 결괏값을 구한 뒤 가장 정확도가 높은 가설 함수를 선택하게 되면 해당 메일로 분류가 된다.

![세 개 이상의 분류](./Images/2.png)

### 20. 로지스틱 회귀와 정규 방정식

로지스틱 회귀의 손실 함수 또한 Convex 함수이기 때문에 경사 하강법을 사용하여 최적의 $\theta$값을 구할 수 있는데 $\theta$값이 $\e$의 지수에 포함되어 있는 등 $\J$값에 대한 편미분 원소들이 선형식이 아니기 때문에 일차식만으로 표현할 수 없다. 따라서 단순 행렬 연산만으로 최소 지점을 찾아낼 수 없다. 이 부분이 앞서 선형 회귀의 경사 하강법과 로지스틱 회귀의 경사 하강법 차이다.

### 23. 로지스틱 회귀로 와인 종류 분류하기

```Python
# 23. 로지스틱 회귀로 와인 분류하기
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

import pandas as pd  


wine_data = datasets.load_wine()

X = pd.DataFrame(wine_data.data, columns=wine_data.feature_names)
y = pd.DataFrame(wine_data.target, columns=['Y/N'])


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5)
y_train = y_train.values.ravel()

logistic_model = LogisticRegression(solver="saga", max_iter=7500)
logistic_model.fit(X_train, y_train)

y_test_predict = logistic_model.predict(X_test)

score = logistic_model.score(X_test, y_test)
y_test_predict, score
```

In [3]:
# 16. 로지스틱 회귀 가정 함수 구현하기

import numpy as np


def sigmoid(x):
    return 1 / (1 + np.exp(-x))
    

def prediction(X, theta):
    return sigmoid(X@theta)

    
hours_studied = np.array(
    [0.2, 0.3, 0.7, 1, 1.3, 1.8, 2, 2.1, 2.2, 3, 4, 4.2, 4, 4.7, 5.0, 5.9]
)
gpa_rank = np.array(
    [0.9, 0.95, 0.8, 0.82, 0.7, 0.6, 0.55, 0.67, 0.4, 0.3, 0.2, 0.2, 0.15, 0.18, 0.15, 0.05]
)
number_of_tries = np.array(
    [1, 2, 2, 2, 4, 2, 2, 2, 3, 3, 3, 3, 2, 4, 1, 2]
)


X = np.array([
    np.ones(16),
    hours_studied,
    gpa_rank,
    number_of_tries
]).T
theta = [0.5, 0.3, -2, 0.2]  

prediction(X, theta)

array([0.26114999, 0.28699984, 0.37989357, 0.39174097, 0.57199613,
       0.55971365, 0.59868766, 0.54735762, 0.72312181, 0.80218389,
       0.86989153, 0.87653295, 0.85814894, 0.91293423, 0.86989153,
       0.9289057 ])

In [5]:
# 17. 로지스틱 회귀 경사 하강법 구현하기

import numpy as np


def sigmoid(x):
    return 1 / (1 + np.exp(-x))
    

def prediction(X, theta):
    return sigmoid(X@theta)
    

def gradient_descent(X, theta, y, iterations, alpha):
    m = len(X)

    for _ in range(iterations):
        error = prediction(X, theta) - y
        theta = theta - alpha/m * (X.T@error)
            
    return theta
    

hours_studied = np.array(
    [0.2, 0.3, 0.7, 1, 1.3, 1.8, 2, 2.1, 2.2, 3, 4, 4.2, 4, 4.7, 5.0, 5.9]
)
gpa_rank = np.array(
    [0.9, 0.95, 0.8, 0.82, 0.7, 0.6, 0.55, 0.67, 0.4, 0.3, 0.2, 0.2, 0.15, 0.18, 0.15, 0.05]
)
number_of_tries = np.array(
    [1, 2, 2, 2, 4, 2, 2, 2, 3, 3, 3, 3, 2, 4, 1, 2]
)
passed = np.array([0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1])


X = np.array([
    np.ones(16),
    hours_studied,
    gpa_rank,
    number_of_tries
]).T
y = passed

theta = [0, 0, 0, 0]
theta = gradient_descent(X, theta, y, 300, 0.1)

theta

array([-1.35280508,  1.61640725, -1.83666046, -0.60286277])

In [8]:
from sklearn.datasets import load_iris


iris_data = load_iris()
print(iris_data.DESCR)

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [9]:
import pandas as pd


X = pd.DataFrame(iris_data.data, columns=iris_data.feature_names)
X

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [10]:
Y = pd.DataFrame(iris_data.target, columns=["class"])
Y

Unnamed: 0,class
0,0
1,0
2,0
3,0
4,0
...,...
145,2
146,2
147,2
148,2


In [11]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression


X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=5)
Y_train = Y_train.values.ravel()

# solver 매개변수로 모델 최적화 때 사용하는 알고리즘과 max_iter 매개변수로 최대 반복 횟수를 전달한다.
# 이때 max_iter 매개변수에 전달하는 값만큼 전부 반복하지는 않고 그 전에도 충분히 최적화가 되었다고 판단하면 최적화를 중단한다.
# 추가적으로 학습률 알파값의 경우 자동으로 최적화가 되어 있다.
model = LogisticRegression(solver="saga", max_iter=2000)
model.fit(X_train, Y_train)

Y_predict = model.predict(X_test)
Y_predict

array([1, 2, 2, 0, 2, 1, 0, 2, 0, 1, 1, 2, 2, 2, 0, 0, 2, 2, 0, 0, 1, 2,
       0, 1, 1, 2, 1, 1, 1, 2])

In [12]:
# 모델 성능 평가
model.score(X_test, Y_test)

0.9666666666666667

In [17]:
# 23. 로지스틱 회귀로 와인 분류하기
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression

import pandas as pd  


wine_data = datasets.load_wine()

X = pd.DataFrame(wine_data.data, columns=wine_data.feature_names)
y = pd.DataFrame(wine_data.target, columns=['Y/N'])


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5)
y_train = y_train.values.ravel()

logistic_model = LogisticRegression(solver="saga", max_iter=7500)
logistic_model.fit(X_train, y_train)

y_test_predict = logistic_model.predict(X_test)

score = logistic_model.score(X_test, y_test)
y_test_predict, score

(array([0, 1, 0, 0, 2, 2, 0, 1, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 1, 0, 0,
        0, 1, 1, 1, 0, 1, 2, 0, 1, 1, 0, 0, 2, 2]),
 0.75)