# 다중 클래스 분류 (Multi-class Classification)

- **다중 클래스 분류** : 세 개 이상의 답 중 하나를 고르는 문제
- Ex) 대표적으로 4개의 특성(feature)을 통해 3개의 붓꽃 품종 중 어떤 품종인지 예측하는 문제가 있다.
    ```
    SepalLengthCm(x₁)   5.1     4.9     5.8         6.7         5.6
    SepalWidthCm(x₂)    3.5     3.0     2.6         3.0         2.8
    PetalLengthCm(x₃)   1.4     1.4     4.0         5.2         4.9
    PetalWidthCm(x₄)    0.2     0.2     1.2         2.3         2.0
    Species(y)          setosa  setosa  versicolor  virginica   virginica
    ```

## 로지스틱 회귀 (이진 분류)

- 로지스틱 회귀에서 sigmoid 함수는 예측값을 0과 1 사이 값으로 만든다.
- 스팸 메일 분류기를 예로 들면 출력이 0.75인 경우 스팸일 확률이 75%라는 뜻이고 아닐 확률이 25%라는 뜻이며 두 확률의 총합은 1이 된다.
![로지스틱 회귀](../img/SR1.png)
- 가설 : **H(X) = sigmoid(WX + B)**

## 소프트맥스 회귀

- 소프트맥스 회귀는 각 클래스(선택지)마다 소수 확률을 할당한다. 이는 각 선택지가 정답일 확률로 표현된다.
- 확률의 총 합은 1이 된다.
![소프트맥스 회귀](../img/SR2.png)
- 소프트맥스 회귀는 벡터의 모든 원소의 합이 1이 되도록 원소 값을 변환시키는 소프트맥스 함수를 사용한다.
- 가설 : **H(X) = softmax(WX + B)**

# 소프트맥스 함수 (Softmax function)

## 소프트맥스 함수의 이해

- k차원의 벡터에서 원소를 z, 클래스가 정답일 확률을 p로 나타낼 때, i번째 p
![수식](../img/SR3.png)

- k=3인 경우 3차원 벡터 z={z₁ z₂ z₃}를 입력 받은 소프트맥스 함수의 출력
![수식](../img/SR4.png)
- p₁, p₂, p₃은 각각 1, 2, 3번 클래스가 정답일 확률을 나타낸다.
- 확률은 각각 0과 1 사이의 값이며 총 합은 1이다.

- i가 1일때는 virginica, 2일때는 setosa, 3일때는 versicolor일 확률이라고 지정했을 경우의 식
![수식](../img/SR5.png)

## 그림을 통한 이해

![그림1](../img/SR6.png)
- 배치 크기가 1이라고 가정 (샘플 데이터를 1개씩 입력으로 받음)
- 위 예시에서 하나의 샘플 데이터는 4개의 독립변수 x를 가지며 이는 모델이 4차원 벡터를 입력으로 받음을 나타낸다.
- 소프트맥스 함수의 입력으로 사용되는 벡터는 분류하고자 하는 클래스의 개수이다. 즉, 입력받은 4차원 벡터는 **3차원 벡터로 변환** 해야 한다.

### 소프트 함수의 입력

![그림7](../img/SR7.png)
- 소프트맥스 함수의 입력 벡터 z의 차원수만큼 결과값이 나오도록 가중치 곱을 진행한다.
- 화살표는 12개(4*3)이며 전부 다른 가중치를 가지고, 학습 과정에서 점차 오차를 최소화하는 가중치로 값이 변경된다.

### 오차 계산 방법

- 소프트맥스 함수는 분류하고자하는 클래스 개수만큼의 차원을 가진 벡터를 출력하며 각 원소는 0과 1 사이의 값이다.
- 각 원소의 값은 특정 클래스가 정답일 확률을 나타낸다.
- 소프트맥스 회귀에서는 실제 값을 원-핫 벡터로 표현한다.
![그림3](../img/SR8.png)

![그림4](../img/SR9.png)
- 만약 실제값이 setosa([0 1 0]라면 에측값과 실제값의 오차가 0이 되는 경우는 소프트맥스 함수의 출력이 [0 1 0]이 되는 경우이다.
- 이 두 벡터의 오차를 계산하기 위해 소프트맥스 회귀의 비용함수로 **크로스 엔트로피 함수** 를 사용한다.

### 가중치 업데이트

![그림5](../img/SR10.png)
- 이제 오차로부터 가중치와 편향을 업데이트 한다.

- 입력을 특성의 수만큼 차원을 차진 입력 벡터 X라고 하고, 가중치 행렬을 W, 편향을 b라고 하였을 때 행렬연산
![그림6](../img/SR11.png)
- f:특성의 수, c:클래스의 개수