# Problem Setting

\begin{aligned}
&\text{Given, }D = {(x_{1,i},x_{2,i},\dots,x_{M,i},y_i})_{i=1}^{i=n} \\
&\text{where, $y_i$는 각각의 datapoint의 클래스를 원핫인코딩한 벡터} \\ \\
&\text{Goal : x가 입력될 때, 어떤 범주(y값)에 속하는지 예측하는 모형 만들기}
\end{aligned}

# 가정
각각의 관측치에서 샘플$y_i$는 확률변수 $Y_i$의 realization(실현,실현된값)이다. 확률변수 $Y_i$는 관측치에 포함된 $x$를 조건으로 하는 카테고리분포를 따른다.<br>

\begin{aligned}
Y_i|x_{1,i},x_{2,i},\dots,x_{M,i} \sim \text{Cat}(y|x_{1,i},x_{2,i},\dots,x_{M,i};\mu_i) 
& = 
\begin{cases}
\mu_{1,i} \text{ if } y = (1,0,\dots,0,0) \\
\mu_{2,i} \text{ if } y = (0,1,\dots,0,0) \\
\quad\quad \vdots \\
\mu_{K,i} \text{ if } y = (0,0,\dots,0,1) \\ 
\end{cases} \\
&= \mu_{1,i}^{y_1}\mu_{2,i}^{y_2},\dots,\mu_{K,i}^{y_K} \\
&= \prod_{K=1}^{K}\mu_{K,i}y_{K,i} \\
\end{aligned}

\begin{aligned}
&\text{where, }\mu_i = {\mu_{1,i},\mu_{2,i},\dots,\mu_{K,i}} \\
&\mu_{1,i} = Pr(Y_i|x_{1,i},\dots,x_{M,i} = (1,0,\dots,0)) \\
&\mu_{2,i} = Pr(Y_i|x_{1,i},\dots,x_{M,i} = (0,1,\dots,0)) \\
&\quad \quad \quad \quad \quad \quad \quad \quad \vdots \\
&\mu_{K,i} = Pr(Y_i|x_{1,i},\dots,x_{M,i} = (0,0,\dots,0,1)) \\
\end{aligned}

# Multinomial Logistic Regression

카테고리 분포의 모수 $\mu_i$는 각각의 범주에 속할 확률이 모두 들어있다. 그러므로,모수 $\mu_i$를 추정하여 대응하는 확률이 가장 높은 클래스를 주어진 데이터가 속하는 범주로 한다.

## 유도

선형회귀,이항로지스틱회귀의 핵심아이디어는 추정하려는 모수를 독립변수와 가중치의 linear combination(또는 linearcombination이 포함된)으로 놓는 것이다. 다항로지스틱회귀도 마찬가지로 추정하려는 모수를 독립변수와 가중치의 linear combination이 포함된 놓는다. 다만 차이점은 모수가 이번에는 K개이기 때문에 가중치가 더 많이 필요하다.

1. 독립변수와 가중치의 linear combination이 K개의 모수를 표현하는 선형방정식을 만든다.
\begin{aligned}
&f(i,1) = w_{0,1}x_{0,i}+w_{1,1}x_{1,i} + w_{2,1}x_{2,i} + \dots \ + w_{M,1}x_{M,i} = W_1^TX_i\\
&f(i,2) = w_{0,2}x_{0,i}+w_{1,2}x_{1,i} + w_{2,2}x_{2,i} + \dots \ + w_{M,2}x_{M,i} = W_2^TX_i\\
&f(i,3) = w_{0,3}x_{0,i}+w_{1,3}x_{1,i} + w_{2,3}x_{2,i} + \dots \ + w_{M,3}x_{M,i} = W_3^TX_i\\
&\quad \quad \quad \quad \quad \quad \quad \quad \quad  \quad \vdots \\
&f(i,k) = w_{0,k}x_{0,i}+w_{1,k}x_{1,i} + w_{2,k}x_{2,i} + \dots +w_{m,k}x_{m,i} \dots + w_{M,k}x_{M,i} = W_k^TX_i {\text{ (임의의 k번째 항)}}\\ 
&\quad \quad \quad \quad \quad \quad \quad \quad \quad  \quad \vdots \\
&f(i,K-1) = w_{0,K}x_{0,i}+w_{1,K-1}x_{1,i} + w_{2,K-1}x_{2,i} + \dots \ + w_{M,K-1}x_{M,i} = W_{K-1}^TX_i \\ \\
&where,\\
&w_{m,k} : \text{$k$번째 모수를 표현하기위해 $m$번째 값과 곱해지는 가중치} \\
&x_{m,i} : \text{i-th 관측치의 $m$번째 독립변수의 값} \\
&X_i = [x_{0,i},x_{1,i},\dots,x_{M,i}]^{\text{T}}\text{ : i-th관측치의 feature vector(단,$x_{0,i}$ = 1)} \\
&W_k : [w_{0,k},w_{1,k},\dots,w_{M,k}]^{\text{T}}\text{ : 카테고리 분포의 임의의 k-th 모수$\mu_k$를 구하기 위한 가중치를 모아놓은 벡터} \\
\end{aligned}
<br>
마지막 모수$Pr(Y_i=1|x_1,\dots,x_K)$에 대한 가중치는 사용하지 않을 것이다. 확률의 합은 1이기 때문에 1-(나머지확률)하면 마지막 $K$번째 모수가 구해지기 때문이다.<br>

2. 좌변은 추정하고자 하는 값인 모수 $\mu$이어야 하므로 수정한다.
\begin{aligned}
&\mu_{1,i} = Pr(Y_i=(1,0,0,\dots,0)|X_i;W_1)\quad \\
&\quad\,\,\, = w_{0,1}x_{0,i}+w_{1,1}x_{1,i} + w_{2,1}x_{2,i} + \dots \ + w_{M,1}x_{M,i} = W_1^TX_i\\
&\mu_{2,i} = Pr(Y_i=(0,1,0,\dots,0)|X_i;W_2) = \\
&\quad\,\,\, = w_{0,2}x_{0,i}+w_{1,2}x_{1,i} + w_{2,2}x_{2,i} + \dots \ + w_{M,2}x_{M,i} = W_2^TX_i\\
&\mu_{3,i} = Pr(Y_i = (0,0,1,\dots,0)|X_i;W_2)) = \\
&\quad\,\,\, = w_{0,3}x_{0,i}+w_{1,3}x_{1,i} + w_{2,3}x_{2,i} + \dots \ + w_{M,3}x_{M,i} = W_3^TX_i\\
&\quad \quad \quad \quad \quad \quad \quad \quad \quad  \quad \quad \quad \quad \quad \quad \quad  \quad \vdots \\
&\mu_{k,i} = Pr(Y_i = (0,0,\dots,1_{k-th},\dots,0,0)|X_i;W_k)) \\ 
&\quad\,\,\,= w_{0,k}x_{0,i}+w_{1,k}x_{1,i} + w_{2,k}x_{2,i} + \dots +w_{m,k}x_{m,i} \dots + w_{M,k}x_{M,i} = W_k^TX_i {\text{ (임의의 k번째 항)}}\\  
&\quad \quad \quad \quad \quad \quad \quad \quad \quad  \quad \quad \quad \quad \quad \quad \quad  \quad \vdots \\
&\mu_{K-1,i} = Pr(Y_i = (0,0,0,\dots,1,0)|X_i;W_{K-1})) \\
&\quad\,\,\,= w_{0,K}x_{0,i}+w_{1,K-1}x_{1,i} + w_{2,K-1}x_{2,i} + \dots \ + w_{M,K-1}x_{M,i} = W_{K-1}^TX_i \\ \\
\end{aligned}

3. (3~4). OddsRatio비슷한 무언가  + Logit transform()
좌변을 Odds Ratio(비슷한 무언가,엄밀히 Odds Ratio는 아님) + Logit transform을 취하여 좌변이 우변과 같은 범위$\,[-\infty,\infty]$값을 가질 수 있도록 넓혀줍니다.
$$\text{ln}\frac{\mu_{k,i}}{Pr(Y_i = (0,\dots,0,1)|X_i)} = \text{ln}\frac{Pr(Y_i = (0,\dots,1_{k-th},0,\dots,0)|X_i;W_k)}{Pr(Y_i = (0,\dots,0,1)|X_i)} = \text{ln}W_k^TX_i$$
분모가 마지막 K번째 클래스에 대한 확률임을 유의!

4. 
