## Classification

반응변수가 질적 변수인 경우들이 많이 있다.

질적 변수들의 예:

\begin{align*}
&\textrm{eye color} \in \{ \textrm{brown}, \textrm{blue}, \textrm{green} \}  \\
&\textrm{email} \in \{\textrm{spam}, \textrm{ham} \} 
\end{align*}

질적 반응변수를 예측하는 분류 (classfication)에 대해 알아보자. 크게 두 가지 방법이 있다.

* 주어진 입력 변수 $X$에 대해 클래스를 결정하는 함수 $C(X)$를 찾는 방법  
* 입력 변수 $X$가 어떤 클래스에 속하는 확률을 구하는 방법

질적 반응 변수가 두 개의 클래스로 이루어진 경우 선형회귀 방법 또한 잘 작동한다. 하나의 클래스를 0으로 다른 하나를 1로 설정한다.

이는 나중에 살펴볼 linear discriminat analysis와 동치이다.

하지만, 클래스의 숫자가 늘어나면 선형회귀 방법은 적용하기 어렵다. 

예를 들어, 응급실에 환자가 도착한 경우, 증상에 따른 분류를 다음의 숫자들로 치환하여 선형회귀를 진행할 수 있다.

$$
    Y = 
\begin{cases}
    1, & \text{if stroke;} \\
    2, & \text{if drug overdose;} \\
    3, & \text{if epileptic seizure.}
\end{cases}
$$

하지만, 위 코딩은 $Y$에 순서 구조와 거리 구조를 강제하며, 이는 질적 변수의 특징이 아니다.

따라서 분류를 위해 특별히 고안된 방법들을 사용하는 것이 좋겠다.

### Logistic regression

balance라는 입력 변수를 이용하여 default의 여부를 예측하는 문제를 생각해 보자. Default에 대한 반응변수 $Y$는 다음과 같이 코딩한다.

$$
    Y = 
\begin{cases}
    0, & \text{if No;} \\
    1, & \text{if Yes.} 
\end{cases}
$$

주어진 $X$에 대해 default가 발생할 확률을 다음과 같이 표현하자.

$$ p(X) = \mathbb P (Y = 1 | X)$$

Logistic regression에서는 다음의 식을 가정한다.

$$ p(X) = \frac{e^{\beta_0 + \beta_1 X}}{1 + e^{\beta_0 + \beta_1 X}} $$

위와 같이 가정하면 $\beta$나 $X$의 값에 상관없이 $p(X)$는 항상 0과 1 사이의 값을 취한다.

또한, 위 식은 다음으로도 표현되며, $p(X)$의 log odds 혹은 logit transformation이라고도 불리운다.

$$ \log \left( \frac{p(X)}{1 - p(X)}\right)  = \beta_0 + \beta_1 X $$

### Maximum likelihood

관찰값 $\{x_i, y_i \}$가 주어졌을 때, logistic regression의 모수 $\beta_0, \beta_1$을 추정하기 위해, likelihood 함수를 정의하자.

$$ \ell (\beta_0, \beta_1) = \prod_{i:y_i=1} p(x_i) \prod_{i:y_i=0}(1-p(x_i)) $$

여기서 $p(x_i) = \frac{e^{\beta_0 + \beta_1 x_i}}{1 + e^{\beta_0 + \beta_1 x_i}}$ 이므로 위 식의 우변은 $\beta_0, \beta_1$의 함수이다.

추정량 $\hat \beta_0, \hat \beta_1$은 $\ell (\beta_0, \beta_1)$를 최대화하는 값들로 다음으로 표현된다.

$$ \hat \beta_0, \hat \beta_1 = \arg \max_{\beta_0, \beta_1} \ell (\beta_0, \beta_1) $$

$\hat \beta_0, \hat \beta_1$의 추정치가 결정되면 이를 이용하여 주어진 $X$에 대해 default 확률을 추정할 수 있다.

$$ \hat p(X) = \frac{e^{\hat \beta_0 + \hat \beta_1 X}}{1 + e^{\hat \beta_0 + \hat \beta_1 X}} $$

### 여러 입력변수로 확장

로지스틱 회귀는 자연스럽게 여러 입력변수를 가지는 모형으로도 확장 가능하다.

$$ \log \left( \frac{p(X)}{1 - p(X)}\right)  = \beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p  $$

혹은,

$$ p(X) = \frac{e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p}}{1 + e^{\beta_0 + \beta_1 X_1 + \cdots + \beta_p X_p}} $$


### 로지스틱 회귀의 gradient vector

앞서 공부한 경사하강법은 로지스틱 회귀방법에도 적용 가능하다.

훈련 샘플 하나에 대한 손실 함수를 다음으로 두자.

$$ c(\theta) = \left\{\begin{array}{lr}
        -\log(\hat p), & \text{if } y = 1\\
        -\log(1 - \hat p), & \text{if } y = 0\\
        \end{array}\right.
$$

이를 전체 샘플에 평균으로 적용하여 확장하면, 비용함수는
$$ J(\theta) = -\frac{1}{N} \sum_{i=1}^{N} \left[ y_i \log(\hat p_i) + (1 - y_i)\log(1-\hat p_i) \right]$$
이며, 여기서
$$ \hat p_i = \sigma(\theta \cdot x_i) = \frac{1}{1 + \exp( - \theta \cdot x_i)} = \frac{1}{1 + \exp( - \theta_0 - x_{i1} \theta_1 - \cdots -  x_{ip} \theta_p )}. $$

다음에 대해
$$ \sigma(t) = \frac{1}{1 + \exp(-t)} $$
미분은
$$ \frac{d}{d t}\sigma(t) = \sigma(t) (1 - \sigma(t))$$
와 같이 주어지므로, 비용함수의 편미분을 다음과 같이 계산할 수 있다.

\begin{align*}
\frac{\partial }{\partial \theta_j} J(\theta) &= -\frac{1}{N} \sum_{i=1}^{N} 
\left[ y_i  \frac{ \frac{\partial }{\partial \theta_j} \sigma(\theta \cdot x_i)}{\sigma(\theta \cdot x_i)} + (1 - y_i)  \frac{ \frac{\partial }{\partial \theta_j} \left\{ 1 - \sigma(\theta \cdot x_i) \right\} }{1 - \sigma(\theta \cdot x_i)} \right]\\
&= -\frac{1}{N} \sum_{i=1}^{N} 
\left[ y_i  \frac{\sigma(\theta \cdot x_i)(1 - \sigma(\theta \cdot x_i)) }{\sigma(\theta \cdot x_i)}x_{ij} + (1 - y_i)  \frac{ \sigma(\theta \cdot x_i)(1 - \sigma(\theta \cdot x_i)) } {1 - \sigma(\theta \cdot x_i)}x_{ij} \right] \\
&= - \frac{1}{N}  \sum_{i=1}^{N} \left[ y_i - \sigma(\theta \cdot x_i)) y_i - \sigma(\theta \cdot x_i) + \sigma(\theta \cdot x_i) y_i \right] x_{ij} \\
& = \frac{1}{N}  \sum_{i=1}^{N} \left[ \sigma(\theta \cdot x_i)) - y_i\right] x_{ij} \\
& = \frac{1}{N}  \mathbf x_j^T ( \sigma(\mathbf X \theta) - \mathbf y).
\end{align*}

따라서 비용함수의 gradient vector는
\begin{equation*}
\nabla_\theta J (\theta) =  \frac{1}{N} \mathbf X^T ( \sigma(\mathbf X \theta) - \mathbf y).
\end{equation*}

### 여러 클래스에 대한 모형

반응변수가 여러 클래스를 가질 때에도 확장 가능하다.

$$ \mathbb P (Y = k | X) = \frac{e^{\beta_{0k} + \beta_{1k} X_1 + \cdots + \beta_{pk} X_p}}{\sum_{\ell=1}^{K}e^{\beta_{0\ell} + \beta_{1\ell} X_1 + \cdots + \beta_{p\ell} X_p}} $$

총 $K$개의 식이 생성되지만, 실제로는 이 중 $K-1$개의 식이면 충분하다.

이를 multinomial regression 혹은 softmax regression이라고 부르기도 한다.

(여러 클래스를 가지는 경우 다음에 살펴볼 discriminant analysis를 사용하는 방법도 있다.)

소프트맥스 회귀의 경우도 그레디언트 벡터를 구할 수 있다.

$K$개의 클래스가 있다고 하자. 다시 말해, $ y_i \in \{ 1, \cdots, K \}$.

소프트맥스 함수는 다음과 같이 정의된다.

$$ \hat p_{i}^k =  P(y_i = k | x_i, \Theta ) = \frac{\exp(\theta^{(k)} \cdot x_i)}{\sum_{m=1}^{K} \exp(\theta^{(m)} \cdot x_i)} $$

여기서

$$\Theta = \begin{bmatrix} \theta^{(1)} & \theta^{(2)} & \cdots & \theta^{(K)} \end{bmatrix}$$

이다.


비용 함수에 대한 cross entropy는 

$$ J(\Theta) = -\frac{1}{N} \sum_{i=1}^{N} \sum_{\ell = 1}^{K} y_i^{(\ell)} \log \hat p_{i}^{(\ell)} $$

이며, 여기서

$$ y_i^{\ell} = \mathbb {I}_{\{ y_i=\ell \}}, $$

이고

$$ \hat p_{i}^{\ell} =  P(y_i = \ell | x_i, \Theta ).$$

$J$의 $\theta^{(k)}$에 대한 그레디언트 벡터는 

$$ \nabla_{\theta^{(k)}} J (\Theta) = \begin{bmatrix} \frac{\partial J(\Theta)}{\partial \theta_0^{k}} \\ \frac{\partial J(\Theta)}{\partial \theta_1^{k}} \\ \vdots \\ \frac{\partial J(\Theta)}{\partial \theta_p^{k}}  \end{bmatrix} = \frac{1}{N} \sum_{i=1}^{N} (\hat p_i^{(k)} - y_i^{(k)} ) x_i .$$

위 식을 유도하기 위해

\begin{align*}
\frac{\partial J(\Theta)}{\partial \theta_j^{(k)}}  &= -\frac{1}{N} \sum_{i=1}^{N} \sum_{\ell = 1}^{K} \frac{\partial}{\partial \theta_j^{(k)}}  y_i^{(\ell)} \log \hat p_{i}^{(\ell)} \\
&= -\frac{1}{N} \sum_{i=1}^{N} \sum_{\ell = 1}^{K} y_i^{(\ell)} \frac{\partial \log \hat p^{(\ell)}_i }{\partial p^{(\ell)}_i}  \frac{\partial p^{(\ell)}_i}{\partial a^{(k)}} \frac{\partial a^{(k)}}{\partial \theta_{j}^{(k)}}
\end{align*}

여기서

$$ a^{(k)} = \theta^{(k)} \cdot x_i $$ 

이고

$$ \frac{{\partial a^{(k)}}}{\partial \theta_{j}^k} = x_{ij}. $$

따라서

$$\frac{\partial J(\Theta)}{\partial \theta_j^{(k)}} = -\frac{1}{N} \sum_{i=1}^{N} \sum_{\ell = 1}^{K} \frac{y^{(\ell)}_i}{p^{(\ell)}_i}  \frac{\partial p^{(\ell)}_i}{\partial a^{(k)}}  x_{ij}.$$

또한, 만약 $\ell = k$ 이면,
$$ \frac{\partial p^{(\ell)}_i}{\partial a^{(k)}} = \frac{\partial p^{(\ell)}_i}{\partial a^{(\ell)}} = \frac{\partial}{\partial a^{(\ell)}} \frac{\exp(a^{(\ell)})}{\sum_{m=1}^{K} \exp(a^{(m)})} = \frac{\exp(a^{(\ell)})\sum_{m=1}^{K} \exp(a^{(m)}) -  \exp(a^{(\ell)}) \exp(a^{(\ell)})}{ (\sum_{m=1}^{K} \exp(a^{(m)}) )^2 } = p^{(\ell)}_i \left( 1 - p^{(\ell)}_i \right) $$
이고, 만약 $\ell \neq k$ 이면
$$ \frac{\partial p^{(\ell)}_i}{\partial a^{(k)}} = - \hat p^{(k)}_i p^{(\ell)}_i$$
이다.

그러므로,
\begin{align*}
\nabla_{\theta^{(k)}} J (\Theta) &= -\frac{1}{N} \sum_{i=1}^{N} \left( y_i^{(k)} (1 - \hat p_i^{(k)} )  - \sum_{\ell \neq k} \hat p_i^{(k)} y_i^{(\ell)} \right) x_{ij} \\
&=  -\frac{1}{N} \sum_{i=1}^{N} \left(y_i^{(k)} - \hat p_i^{(k)} (y_i^{(k)}  + \sum_{\ell \neq k} y_i^{(\ell)}) \right) x_{ij}  \\
& = \frac{1}{N} \sum_{i=1}^N (\hat p_i^{(k)} - y_i^{(k)} ) x_{ij}.
\end{align*}
이다.