<a href="https://colab.research.google.com/github/hongrolee/Python/blob/main/colab/%EA%B2%BD%EC%82%AC%ED%95%98%EA%B0%95%EB%B2%95_%EB%B0%8F_%EB%A1%9C%EC%A7%80%EC%8A%A4%ED%8B%B1_%ED%9A%8C%EA%B7%80_%EC%8B%A4%EC%8A%B5%EC%9A%A9.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## SetUp

In [2]:
import os
import numpy as np
import matplotlib
import matplotlib.pyplot as plt

# 일관된 출력을 위해 유사난수 초기화
np.random.seed(42)

plt.rcParams['axes.labelsize'] = 14
plt.rcParams['xtick.labelsize'] = 12
plt.rcParams['ytick.labelsize'] = 12
# sn.set()

# 폰트출력
plt.rcParams['font.family'] = 'serif'
plt.rcParams['font.serif'] = ['Times New Roman'] + plt.rcParams['font.serif']

# 구글 드라이브 연결
from google.colab import drive
drive.mount('/content/drive')

import warnings
warnings.filterwarnings(action='ignore')

MessageError: ignored

# **모델 훈련**

머신러닝 알고리즘이 어떻게 작동하는지 알고 있으면, 데이터 분석 목적에 맞는 적절한 모델 그리고 하이퍼파라미터를 빠르게 찾을 수 있음.

가장 간단한 모델인 선형 회귀(Linear Regression)에 대해 다음과 같이 두 가지 방법을 통해 알아본다.

> - 직접 계산할 수 있는 공식을 사용하여 Train Set에 가장 잘 맞는 파라미터를 구하는 방법
- 경사하강법(Gradient Descent)를 이용하여 반복적인 최적화 방식을 사용해 파라미터를 조금씩 수정하면서 비용함수(cost function)를 Train Set에 대해 최소화시키는 파라미터를 구하는 방법

## **1.경사 하강법**

경사 하강법에서 중요한 하이퍼파라미터는 **학습률**(learning rate, $\eta$)이다. 학습률이 너무 작으면 수렴하는데까지 시간이 오래걸리고, 학습률이 너무 크면 발산하게 된다. 보통 로그 스케일로 0.001($10^{-3}$), 0.001($10^{-2}$)와 같이 지정한다.

경사 하강법을 사용할 때는 반드시 모든 특성(feature)들이 같은 스케일을 가지도록 해야한다(Standard 또는 MinMax 등). 그렇지 않으면 학습시간이 오래걸리게 된다.

#### 1)경사하강법을 이용한 물고기 분류

In [None]:
# 데이터 읽어오기(fish_SGD.csv)


In [None]:
# input과 target 준비
# input  : 'Weight','Length','Diagonal','Height','Width'
# target : 'Species'


In [None]:
# Train Set 및 Test Set 분리


In [None]:
# 특성에 대한 표준화 적용(StandardScaler)


In [None]:
# 경사하강법을 이용한 학습 수행 (SGDClassifier)


In [None]:
# Train Set과 Test Set을 통한 성능 측정


In [None]:
# iteration 수행 (partial_fit)


In [None]:
# Train Set과 Test Set을 통한 성능 재측정


##### 에포크와 과대/과소적합
언제까지 iteration을 수행해야 적합할까?

In [None]:
# 반복문을 통해 성능 측정 결과 저장


In [None]:
# 측정결과를 그래프로 출력 후 분석


In [None]:
# 분석 결과에 따른 max_iter 파라미터 결정


In [None]:
# 최종 모델 성능 평가


In [None]:
# loss function 바꿔보기 (hinge)


### 2) 경사 하강법이란?

$$
\frac{\partial}{\partial w_j} MSE(\mathbf{W}) = \frac{2}{m} \sum_{i=1}^{m}{\left( \mathbf{W}^{T} \cdot \mathbf{x}_{i} - y_{i}\right)}x_{ij}
$$

$$
\nabla_{\mathbf{W}} \text{MSE}(\mathbf{W}) = \begin{bmatrix} \frac { \partial  }{ \partial w_{ i } } { MSE }(W) \\ \vdots \\ \frac { \partial  }{ \partial w_{ i } } { MSE }(W) \end{bmatrix} = \frac{2}{m} \mathbf{X}^{T} \cdot \left( \mathbf{X} \cdot \mathbf{W} - \mathbf{y} \right)
$$

#### 경사 하강법 Step

$$
\mathrm{W} \leftarrow \mathrm{W} - \eta \nabla_{\mathbf{W}} \text{MSE}(\mathbf{W}) \Longleftrightarrow
 \mathrm{W} \leftarrow \mathrm{W} - \eta \frac{\partial L}{\partial \mathrm{W}}
$$

In [None]:
import numpy as np

eta = 0.1  # learning rate
n_iterations = 1000
m = 100
weight = np.random.randn(2, 1)  # random init

X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

X_b = np.c_[np.ones((100, 1)), X]  # x0 = 1 추가

for step in range(n_iterations):
    gradients = 2/m * X_b.T.dot(X_b.dot(weight) - y)
    weight = weight - eta * gradients

    if (step+1) % 200 == 0:
        print('Step :{:04d}, weight = \n {}'.format(step+1, weight))

print('최종 결과값 : \n{}'.format(weight))

In [None]:
weight_path_bgd = []

def plot_gradient_descent(weight, eta, weight_path=None):
    m = len(X_b)
    plt.plot(X, y, "b.")
    n_iterations = 1000
    for iteration in range(n_iterations):
        if iteration < 10:
            y_predict = X_new_b.dot(weight)
            style = "b-" if iteration > 0 else "r--"
            plt.plot(X_new, y_predict, style)
        gradients = 2/m * X_b.T.dot(X_b.dot(weight) - y)
        weight = weight - eta * gradients
        if weight_path is not None:
            weight_path.append(weight)
    plt.xlabel("$x_1$", fontsize=18)
    plt.axis([0, 2, 0, 15])
    plt.title(r"$\eta = {}$".format(eta), fontsize=16)

In [None]:
import matplotlib.pyplot as plt

np.random.seed(42)
weight = np.random.randn(2,1)  # random initialization

plt.figure(figsize=(10,4))
plt.subplot(131); plot_gradient_descent(weight, eta=0.02)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.subplot(132); plot_gradient_descent(weight, eta=0.1, weight_path=weight_path_bgd)
plt.subplot(133); plot_gradient_descent(weight, eta=0.5)
plt.show()

### 3) 확률적 경사 하강법

경사 하강법의 가장 큰 문제는 매 스텝(step)에서 전체 Train Set을 사용해 Gradient Descent를 계산한다는 것이다. 따라서, Train Set가 커지면 학습이 매우 느려지게 된다.

이를 해결하기 위해, **확률적 경사 하강법**(Stochastic Gradient Descent)은 매 스텝에서 랜덤하게 하나의 데이터(샘플)을 선택해 Gradient Descent(GD)를 계산한다. 따라서, 전체 데이터를 이용해 GD를 계산하는 것보다 속도는 빠르지만 훨씬 불안정하다. 비용 함수(Loss Function)가 최소값에 수렴할 때까지 부드럽게 감소하지 않고, 위아래로 요동치면서 평균적으로 감소한다.

이처럼 비용 함수가 불규칙하게 요동치면서 감소할 경우 지역 최소값(local minimum)을 건너뛸 수 있는 가능성이 있기 때문에, SGD가 전역 최소값(global minimum)을 찾을 가능성이 높다. 하지만 이러한 무작위성은 지역 최소값을 탈출할 수 있지만, 전역 최소값에는 다다르지 못하는 경우가 있다. 이를 해결하기 위해 학습률(learning rate)을 점진적으로 감소 시키는 **learning rate decay** 기법을 사용한다.

learning rate decay(또는 learning rate schedule)는 학습을 시작할 때는 학습률을 크게하고, 점진적으로 학습률을 줄여 전역 최소값에 도달하게 하는 방법이다.

In [None]:
weight_path_sgd = []
m = len(X_b)
np.random.seed(42)

In [None]:
n_epochs = 50
t0, t1 = 5, 50

def learning_schedule(t):
    return t0 / (t + t1)

weight = np.random.randn(2, 1)  # random init

for epoch in range(n_epochs):
    for i in range(m):
        if epoch == 0 and i < 20:
            y_predict = X_new_b.dot(weight)
            style = 'b-' if i > 0 else 'r--'
            plt.plot(X_new, y_predict, style)

        random_index = np.random.randint(m)
        xi = X_b[random_index:random_index+1]
        yi = y[random_index:random_index+1]
        gradients = 2 * xi.T.dot(xi.dot(weight) - yi)
        eta - learning_schedule(epoch * m + i)
        weight = weight - eta * gradients
        weight_path_sgd.append(weight)

    if (epoch+1) % 10 == 0:
        print('Epoch :{:03d}, weight = \n {}'.format(epoch+1, weight))


plt.plot(X, y, "b.")
plt.xlabel("$x_1$", fontsize=18)
plt.ylabel("$y$", rotation=0, fontsize=18)
plt.axis([0, 2, 0, 15])
plt.show()

Scikit-Learn에서는 SGD방법을 이용한 Regression인 `SGDRegressor` 클래스가 있다.

In [None]:
from sklearn.linear_model import SGDRegressor

sgd_reg = SGDRegressor(max_iter=50, penalty=None, eta0=0.1, random_state=42)
sgd_reg.fit(X, y.ravel())

In [None]:
sgd_reg.intercept_, sgd_reg.coef_

### 4) 미니배치 경사 하강법

**미니배치 경사 하강법**(Mini-batch Gradient Descent)은 각 스텝에서 전체 Train Set을  미니배치(mini-batch), 즉 작은 데이터셋을 추출한 뒤 Gradient를 계산하는 방법이다. 미니배치 경사하강법의 장점은 행렬 연산에 최적화된 하드웨어, GPU에서 빠르게 수행되는 것이다.

미니배치 경사 하강법은 SGD에 비해 덜 불규칙하게 감소하지만, local minimum에 빠질 확률은 높은 경우가 있다.

In [None]:
weight_path_mgd = []

n_iterations = 100
minibatch_size = 20

np.random.seed(42)
weight = np.random.randn(2,1)  # random init

t0, t1 = 200, 1000
def learning_schedule(t):
    return t0 / (t + t1)

t = 0
for epoch in range(n_iterations):
    shuffled_indices = np.random.permutation(m)
    X_b_shuffled = X_b[shuffled_indices]
    y_shuffled = y[shuffled_indices]
    for i in range(0, m, minibatch_size):
        t += 1
        xi = X_b_shuffled[i:i+minibatch_size]
        yi = y_shuffled[i:i+minibatch_size]
        gradients = 2/minibatch_size * xi.T.dot(xi.dot(weight) - yi)
        eta = learning_schedule(t)
        weight = weight - eta * gradients
        weight_path_mgd.append(weight)

    if (epoch+1) % 10 == 0:
        print('Epoch :{:03d}, weight = \n {}'.format(epoch+1, weight))

In [None]:
weight_path_bgd = np.array(weight_path_bgd)
weight_path_sgd = np.array(weight_path_sgd)
weight_path_mgd = np.array(weight_path_mgd)

In [None]:
plt.figure(figsize=(7,4))
plt.plot(weight_path_sgd[:, 0], weight_path_sgd[:, 1], "r-s", linewidth=1, label="SGD")
plt.plot(weight_path_mgd[:, 0], weight_path_mgd[:, 1], "g-+", linewidth=2, label="Mini batch")
plt.plot(weight_path_bgd[:, 0], weight_path_bgd[:, 1], "b-o", linewidth=3, label="Batch")
plt.legend(loc="upper left", fontsize=16)
plt.xlabel(r"$\theta_0$", fontsize=20)
plt.ylabel(r"$\theta_1$   ", fontsize=20, rotation=0)
plt.axis([2.5, 4.5, 2.3, 3.9])
plt.show()

## **2.로지스틱 회귀 (Logistic Regression)**

로지스틱 회귀는 이진 분류 알고리즘 중 하나인 모델이다.

### 1)로지스틱 회귀로 물고기 분류해 보기

#### 데이터 준비하기

In [None]:
# 특성 input 데이터 가져오기 ('Weight','Length','Diagonal','Height','Width')


In [None]:
# target 데이터 가져오기('Species')


In [None]:
# Train Set 및 Test Set 데이터 분리하기


In [None]:
# 특성 표준화하기


#### <실습> 시그모이드 함수를 그래프로 출력해 보세요.
$$
\sigma(x) = \frac{1}{1 + \text{exp}(-x)}
$$

#### 로지스틱 회귀로 이진 분류 수행하기

In [None]:
# 'Bream' 와 'Smelt' 데이터 가져와 Train Set 만들기


In [None]:
# 로지스틱 회귀로 훈련시키기 (LogisticRegression)


In [None]:
# 결과 예측해 보기


In [None]:
# 확률 측정 (predict_proba())


In [None]:
# 어떤 것이 양성 클래스(1)인지 확인, Smelt가 양성


In [None]:
# coef_ 및 intercept_ 값 확인
# t = -0.404*(Weight) - 0.576*(Length) - 0.663*(Diagonal) - 1.013*(Height) -0.732*(Width) -2.161


In [None]:
# t 값 계산 (decision_function())


In [None]:
# t값을 시그모이드 함수에 적용하여 확률 계산, predict_proba()의 양성클래스 결과와 비교


#### 로지스틱 회귀로 다중 분류 수행하기

In [None]:
# LogisticRegression 적용 (C=규제(작을수록 큰 규제), max_iter=반복횟수))


In [None]:
# 성능 평가


In [None]:
# 예측


In [None]:
# 확률 출력


In [None]:
# 클래스 정보 출력하여 위 확률 정보와 비교


In [None]:
# 방정식 계수 도출(coef_.shape, intercept_.shape)


In [None]:
# z값 또는 t값 계산 (decision_function)


In [None]:
# 소프트맥스 함수 적용
# 여러개의 선형 방정식 출력값을 0~1로 압축하고 전체 합이 1이 되도록 만듦


### 2) 확률 추정

로지스틱 회귀는 선형 회귀(linear regression)과 같이 입력 특성(feature)의 가중치 합을 계산한 뒤 로지스틱 함수(sigmoid)를 적용해 출력값을 계산한다.

$$
\hat{p} = h_{w}(\mathbf{x}) = \sigma \left( \mathbf{W}^{T} \cdot \mathbf{x} \right)
$$

위의 식에서 $\sigma(\cdot)$이 바로 로지스틱(또는 로짓) 함수이며 0과 1사이의 값을 출력하는 **시그모이드 함수**(sigmoid function)이다.

$$
\sigma(x) = \frac{1}{1 + \text{exp}(-x)}
$$

로지스틱 회귀의 모델은 아래와 같이 할 수 있다. 하지만, 상황에 따라 임계값(threshold)를 조절해줄 수 있다.

$$
\hat{y} = \begin{cases} 0 \quad \hat{p} < 0.5 \\ 1 \quad \hat{p} \ge 0.5 \end{cases}
$$

In [None]:
t = np.linspace(-10, 10, 100)
sig = 1 / (1 + np.exp(-t))

plt.figure(figsize=(9, 3))
plt.plot([-10, 10], [0, 0], "k-")
plt.plot([-10, 10], [0.5, 0.5], "k:")
plt.plot([-10, 10], [1, 1], "k:")
plt.plot([0, 0], [-1.1, 1.1], "k-")
plt.plot(t, sig, "b-", linewidth=2, label=r"$\sigma(t) = \frac{1}{1 + e^{-t}}$")
plt.xlabel("t")
plt.legend(loc="upper left", fontsize=20)
plt.axis([-10, 10, -0.1, 1.1])
plt.show()

### 3) 훈련과 비용 함수

Logistic Regression의 학습 데이터 하나에 대한 **비용 함수**는 다음과 같다.

$$
c(\mathbf{W}) = \begin{cases} -\log{\left( \hat{p} \right)} \quad \text{if, }y=1 \\ -\log{\left(1-\hat{p}\right)} \quad \text{if, }y = 0 \end{cases}
$$
*   모델이 양성 샘플을 0에 가까운 확률로 추정하면 비용이 증가
*   모델이 음성 샘플을 1에 가까운 확률로 추정해도 비용이 증가
*   t가 0에 가까우면 -$log{(t)}$는 매우 커짐
*   t가 1에 가까우면 -$log{(t)}$는 0에 가까워짐



전체 Train Set에 대한 비용 함수는 모든 데이터에 대한 비용의 평균이며, 이것을 **로그 손실**(log loss)이라고 한다.

$$
J(\mathbf{W}) = - \frac{1}{m} \sum_{i=1}^{m}{\left[ y_{i} \log{\left( \hat{p}_i \right)} + \left( 1 - y_i \right) \log{\left( 1 - \hat{p}_i \right)} \right]}
$$
*   이 로그손실은 볼록 함수이므로 경사 하강법이 전역 최소값을 찾는 것을 보장(학습률이 너무 크지 않아야 함)



로그 손실을 $\mathbf{W}$로 미분하면 다음과 같다.

$$
\frac{\partial}{\partial w_j} = \frac{1}{m} \sum_{i=1}^{m}{\left( \sigma \left( \mathbf{W}^{T} \cdot \mathbf{x}_i \right) - \mathbf{y}_i \right)} x_{ij}
$$
*   각 샘플에 대한 예측오차를 계산하고 j번째 특성값을 곱해서 모든 특성 훈련 샘플에 대해 평균을 냅니다.
*   모든 편도함수를 포함한 그레디언트 벡터를 만들면 배치 경사하강법 알고리즘 사용도 가능

### 4) 결정 경계

로지스틱 회귀를 iris(붓꽃) 데이터 셋을 이용해 알아보자.

- sepal length: 꽃받침 길이
- sepal width: 꽃받침 너비
- petal length: 꽃잎 길이
- petal width: 꽃잎 너비

![](./images/iris.png)

In [None]:
from sklearn import datasets

iris = datasets.load_iris()
list(iris.keys())

In [None]:
iris

In [None]:
print(iris.DESCR)

In [None]:
import pandas as pd

In [None]:
iris_df = pd.DataFrame(iris['data'], columns=iris.feature_names)
iris_df.head()

In [None]:
iris_df.info()

In [None]:
iris_df.describe()

#### Petal width를 이용한 Verginca 종 분류기 구현

먼저 꽃잎의 너비를 이용해 iris 중에서 Verginca 종을 분류하는 분류기를 만들어 보자.

In [None]:
X = iris['data'][:, 3:]  # 꽃잎 너비
y = (iris['target'] == 2).astype(np.int)  # Verginica면 1 아니면 0

In [None]:
y

In [None]:
# LogisticRegression을 이용한 학습
from sklearn.linear_model import LogisticRegression

log_reg = LogisticRegression(random_state=42)
log_reg.fit(X, y)

In [None]:
# 확률 계산 (predict_proba)
X_new = np.linspace(0, 3, 1000).reshape(-1, 1)
y_proba = log_reg.predict_proba(X_new)
decision_boundary = X_new[y_proba[:, 1] >= 0.5][0]

In [None]:
y_proba

In [None]:
plt.figure(figsize=(8, 5))
plt.plot(X[y==0], y[y==0], "bs")
plt.plot(X[y==1], y[y==1], "r^")
plt.plot([decision_boundary, decision_boundary], [-1, 2], "k:", linewidth=2)
plt.plot(X_new, y_proba[:, 1], "r-", linewidth=2, label="Iris-Virginica")
plt.plot(X_new, y_proba[:, 0], "b--", linewidth=2, label="Not Iris-Virginica")
plt.text(decision_boundary+0.02, 0.15, "Decision Boundary", fontsize=14, color="k", ha="center")
plt.arrow(decision_boundary, 0.08, -0.3, 0, head_width=0.05, head_length=0.1, fc='b', ec='b')
plt.arrow(decision_boundary, 0.92, 0.3, 0, head_width=0.05, head_length=0.1, fc='r', ec='r')
plt.xlabel("Width of Petal (cm)", fontsize=14)
plt.ylabel("Probability", fontsize=14)
plt.legend(loc="center left", fontsize=14)
plt.axis([0, 3, -0.02, 1.02])
plt.show()

In [None]:
log_reg.predict([[1.7], [1.5]])

#### Petal width, Petal length를 이용한 Verginca 분류기 구현

In [None]:
X = iris["data"][:, (2, 3)]  # petal length, petal width
y = (iris["target"] == 2).astype(np.int)

log_reg = LogisticRegression(C=10**10, random_state=42)
log_reg.fit(X, y)

x0, x1 = np.meshgrid(
        np.linspace(2.9, 7, 500).reshape(-1, 1),
        np.linspace(0.8, 2.7, 200).reshape(-1, 1),
    )
X_new = np.c_[x0.ravel(), x1.ravel()]

y_proba = log_reg.predict_proba(X_new)

plt.figure(figsize=(10, 4))
plt.plot(X[y==0, 0], X[y==0, 1], "bs")
plt.plot(X[y==1, 0], X[y==1, 1], "g^")

zz = y_proba[:, 1].reshape(x0.shape)
contour = plt.contour(x0, x1, zz, cmap=plt.cm.brg)


left_right = np.array([2.9, 7])
boundary = -(log_reg.coef_[0][0] * left_right + log_reg.intercept_[0]) / log_reg.coef_[0][1]

plt.clabel(contour, inline=1, fontsize=12)
plt.plot(left_right, boundary, "k--", linewidth=3)
plt.text(3.5, 1.5, "non-Iris-Virginica", fontsize=14, color="b", ha="center")
plt.text(6.5, 2.3, "Iris-Virginica", fontsize=14, color="g", ha="center")
plt.xlabel("Length of Petal", fontsize=14)
plt.ylabel("Width of Petal", fontsize=14)
plt.axis([2.9, 7, 0.8, 2.7])
plt.show()

### 5) 소프트맥스 회귀 (Softmax Regression)

로지스틱 회귀 모델은 여러개의 이진 분류기를 만들지 않고, 다중 클래스(multinomial class) 분류에 적용할 수 있다. 이것을 **소프트맥스 회귀**(Softmax Regression) 또는 **다항 로지스틱 회귀**(Multinomial Logistic Regression)이라고 한다.

소프트맥스 회귀의 개념은 데이터 $x$에 대해 소프트맥스 회귀 모델이 각 클래스 $k$에 대한 점수(score) $S_k \left( x \right)$를 계산하고, 그 점수값에 **소프트맥스 함수**(softmax function)를 적용하여 각 클래스의 확률을 예측하는 모델이다.

$$
S_k \left( \mathbf{x} \right) = \left( \mathbf{W}_{k} \right)^{T} \cdot \mathbf{x}
$$

- $\mathbf{W}_{k}$ : 각 클래스별 가중치 파라미터 벡터

위의 식을 이용해 소프트 맥스 함수를 적용한 식은 다음과 같다.

$$
\hat{p}_k = \sigma \left( s(\mathbf{x}) \right)_k = \frac{ \text{exp} \left( S_k(\mathbf{x}) \right)}{\sum_{j=1}^{K}{\text{exp} \left( S_j (\mathbf{x}) \right)}}
$$

- $K$ : 클래스의 수
- $s(\mathbf{x})$ : 데이터 샘플 $\mathbf{x}$에 대한 각 클래스의 점수를 담고 있는 벡터
- $\sigma \left( S(\mathbf{x}) \right)_k$ : 샘플 $\mathbf{x}$에 대한 클래스 $k$에 속할 추정 확률 벡터

위의 식에서 추정된 확률 벡터 중 확률이 가장 높은 클래스로 분류가 된다. 이를 식으로 나타내면 다음과 같다.

$$
\hat{y} = \underset{k}{\text{arg}} \max{\sigma \left( S(\mathbf{x}) \right)_k} = \underset{k}{\text{arg}} \max{S_k(\mathbf{x})} = \underset{k}{\text{arg}} \max{\left( \mathbf{W_k}^{T} \cdot \mathbf{x}\right) }
$$

소프트맥스 회귀의 학습을 위한 손실함수(loss function)은 **크로스 엔트로피**(cross entropy)이며 다음과 같다.

$$
J(\mathbf{W}) = - \frac{1}{m} \sum_{i=1}^{m}{\sum_{k=1}^{K}{y_k^{(i)} \log{\left( \hat{p}_k^{(i)} \right)}}}
$$

- $i$번째 샘플에 대한 타겟 클래스가 $k$일 때, $y_k^{(i)}$가 1이고, 나머지는 0이 된다.

위의 손실함수에 대한 그래디언트 벡터는 다음과 같다.

$$
\nabla_{w^{(k)}} J(\mathbf{W}) = \frac{1}{m} \sum_{i=1}^{m}{\left( \hat{p}_k^{(i)} - y_k^{(i)} \right)\mathbf{x}^{(i)}}
$$

#### Scikit-Learn `LogisticRegression`을 이용해 Softmax Regression 사용하기

Scikit-Learn에서 [`LogisticRegression`](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LogisticRegression.html)은 셋 이상의 다중 클래스 분류에서는 기본적으로 일대다(OvA)를 디폴트 값으로 사용하지만, `multi_class`인자를 `multinomial`로 설정하면 Softmax Regression을 사용할 수 있다. 또한 `solver` 인자에 `lbfgs`로 지정해야한다.

In [None]:
X = iris["data"][:, (2, 3)]  # 꽃잎 길이, 꽃잎 너비
y = iris["target"]

softmax_reg = LogisticRegression(multi_class="multinomial",solver="lbfgs", C=10, random_state=42)
softmax_reg.fit(X, y)

In [None]:
x0, x1 = np.meshgrid(
        np.linspace(0, 8, 500).reshape(-1, 1),
        np.linspace(0, 3.5, 200).reshape(-1, 1),
    )
X_new = np.c_[x0.ravel(), x1.ravel()]


y_proba = softmax_reg.predict_proba(X_new)
y_predict = softmax_reg.predict(X_new)

zz1 = y_proba[:, 1].reshape(x0.shape)
zz = y_predict.reshape(x0.shape)

plt.figure(figsize=(10, 4))
plt.plot(X[y==2, 0], X[y==2, 1], "g^", label="Iris-Virginica")
plt.plot(X[y==1, 0], X[y==1, 1], "bs", label="Iris-Versicolor")
plt.plot(X[y==0, 0], X[y==0, 1], "yo", label="Iris-Setosa")

from matplotlib.colors import ListedColormap
custom_cmap = ListedColormap(['#fafab0','#9898ff','#a0faa0'])

plt.contourf(x0, x1, zz, cmap=custom_cmap)
contour = plt.contour(x0, x1, zz1, cmap=plt.cm.brg)
plt.clabel(contour, inline=1, fontsize=12)
plt.xlabel("Length of Petal", fontsize=14)
plt.ylabel("Width of Petal", fontsize=14)
plt.legend(loc="center left", fontsize=14)
plt.axis([0, 7, 0, 3.5])
plt.show()

In [None]:
softmax_reg.predict([[5, 2]])

In [None]:
softmax_reg.predict_proba([[5, 2]])

### Logistic Regression vs Softmax Regression


![](./images/logistic_regression_schematic.png)