Permalink
Browse files

fix explain(thanks to shuyo)

  • Loading branch information...
1 parent 1fe30ef commit 2f705748c101254ded8ad70537e3306a2da0ec49 @herumi committed Sep 6, 2012
Showing with 15 additions and 14 deletions.
  1. +3 −3 prml4.tex
  2. +12 −11 prml5.tex
View
@@ -626,7 +626,7 @@ \section{Jensen
= f\left(\sum_{i=1}^{n+1} p_i x_i\right).
\end{eqnarray*}
-\section{多クラスロジスティック回帰}
+\section{多クラスロジスティック回帰}\label{takurasu}
多クラス分類の事後確率を
$$
p(C_k|\phi)=y_k(\phi)=\frac{\exp(a_k)}{\sum_j \exp(a_j)}, a_k=\trans{w_k}\phi
@@ -818,7 +818,7 @@ \section{
山が複数ある多峰的なときはどのモードを選ぶかでラプラス近似は異なる.
総的的にデータ数が多くなるとガウス分布に近づくので近似はよくなるが, ある点での近傍の情報しか利用していないため大域的な特徴がとらえられるとは限らない.
-\section{モデルの比較とBIC}
+\section{モデルの比較とBIC}\label{ch4_bic}
前節のラプラス近似を行うと正規化係数$Z$の近似も分かる. ガウス分布の特性から
\begin{eqnarray}\label{ch4_approx}
Z&=&\int f(z)\,dx \approx \int f(z_0) \exp\left(-\half\trans{(z-z_0)}A(z-z_0)\right)\,dx \nonumber\\
@@ -990,7 +990,7 @@ \section{
$$
よって$L=R$が示された.
-\section{ベイズロジスティック回帰}
+\section{ベイズロジスティック回帰}\label{ch4_bayes}
ベイズロジスティック回帰にラプラス近似を行ってみよう.
事前確率分布:$y_n=\sigma(\trans{w}\phi_n)$とおいて
View
@@ -146,15 +146,16 @@ \section{
&\approx& E(\hat{w}) + \trans{(w-\hat{w})}\left(\dif{x_i}E\right) + \half \trans{(w-\hat{w})}\left(\ddiff{x_i}{x_j}{E}\right)(w-\hat{w})\\
&=& E(\hat{w}) + \trans{(w-\hat{w})} (\nabla E) + \half \quads{H(E)}{(w-\hat{w})}
\end{eqnarray*}
-となる. $E(w)$$w=w^*$の付近で極小となるとすると, そこでの勾配$\nabla E$は0なので
+となる.
+$E(w)$$w=w^*$の付近で極小となるとすると, そこでの勾配$\nabla E$は0なので
$$
E(w) \approx E(w^*) + \half \quads{H(E)}{(w-w^*)}.
$$
$H(E)$は対称行列なので\ref{pos_sym_matrix}節の議論より対角化することで
$$
E(w) \approx E(w^*) + \half \sum_i \lambda_i y_i^2.
$$
-の形にできる. そして$E(w)$$w=w^*$の付近で極小となるのは$H(E) > 0$であることがわかる.
+の形にできる. そして$E(w)$$w=w^*$の付近で極小となるのは$H(E)>0$(正定値)であるときとわかる.
なお, $H(f)=\nabla^2 f = \nabla(\nabla f)$という表記をすることがある. 微分作用素$\nabla$を2回するので2乗の形をしている.
ただ$\nabla f$が縦ベクトルならもう一度$\nabla$をするときは結果が行列になるように,
@@ -311,19 +312,19 @@ \subsection{
$$
\subsection{ヘッセ行列の積の高速な計算}
-応用例では最終的に必要なものはヘッセ行列$H$そのもではなくあるベクトル$v$$H$の積であることが多い.
+応用例では最終的に必要なものはヘッセ行列$H$そのものではなくあるベクトル$v$$H$の積であることが多い.
直接$\trans{v}H=\trans{v}\nabla \nabla$を計算するための方法のために, 左半分だけを取り出して$\calRR{\cdot}=\trans{v}\nabla$という記法を導入する.
\ref{ch5_loc}節の終わりに書いたようにこの$\nabla$は入力が縦ベクトルなら転置を取ってから作用するとみなす.
なお, $v$に依存するものをあたかも依存しないかのように$\calRR{\cdot}$と書いてしまうのは筋がよいとは思わない.
-簡単な例を見てみよう. $y=f(x_1, x_2)$のとき
+簡単な例を見てみよう. 2変数関数$y=f(x_1, x_2)$について
$$
-\calRR{\cdot}=\trans{(v_1,v_2)}\nabla = \trans{(v_1,v_2)}\vvec{\dif{x_1}}{\dif{x_2}}.
+\calRR{\cdot}=(v_1,v_2)\nabla = (v_1,v_2)\vvec{\dif{x_1}}{\dif{x_2}}.
$$
よって
\begin{eqnarray*}
-\calRR{x_1}&=&\trans{(v_1,v_2)}\vvec{1}{0}=v_1,\\
-\calRR{x_2}&=&\trans{(v_1,v_2)}\vvec{0}{1}=v_2,
+\calRR{x_1}&=&(v_1,v_2)\vvec{1}{0}=v_1,\\
+\calRR{x_2}&=&(v_1,v_2)\vvec{0}{1}=v_2,
\end{eqnarray*}
これを, $\calRR{}$は入力値の$x_i$をその添え字に対応する$v_i$に置き換える作用と考えることにする.
$\calRR{}$$x_i$について明らかに線形, つまり
@@ -380,7 +381,7 @@ \section{
$$
p(w)=\prod_i p(w_i), \quad p(w_i)=\sum_{k=1}^M \pi_k \calN(w_i|\mu_k,\sigma_k^2).
$$
-正規化関数は
+正則化関数は
$$
\Omega(w)=-\log p(w)=-\sum_i\log\left(\sum_{k=1}^M \pi_k \calN(w_i|\mu_k,\sigma_k^2)\right).
$$
@@ -437,7 +438,7 @@ \section{
$$
\pi_j=\frac{\exp(\eta_j)}{\sum_k \exp(\eta_k)}
$$
-と補助変数$\eta_j$を用いて表すと式(\ref{ch4_mclass})より
+と補助変数$\eta_j$を用いて表すと\ref{takurasu}節式(\ref{ch4_mclass})より
$$
\diff{\eta_j}{\pi_k}=\pi_k(\delta_{kj}-\pi_j).
$$
@@ -553,7 +554,7 @@ \section{
$$
q(w|\calD)=\calN(w|\wmap,A^{-1}).
$$
-正規化項を求める式(\ref{ch4_approx})を使って
+正規化項を求める\ref{ch4_bic}節式(\ref{ch4_approx})を使って
\begin{eqnarray*}
\log p(\calD|\alpha)
&\approx& \log \left(p(\calD|\wmap)p(\wmap|\alpha)\sqrt{\frac{(2\pi)^W}{|A|}}\right)\\
@@ -589,7 +590,7 @@ \section{
$$
\sigma_a^2(x)=\trans{b}A^{-1}b(x)
$$
-予測分布は式(\ref{ch4_probit})の近似式を使って
+予測分布は\ref{ch4_bayes}節式(\ref{ch4_probit})の近似式を使って
$$
p(t=1|x,\calD)=\int \sigma(a)p(a|x,\calD)\,da
\approx \sigma(\kappa(\sigma_a^2)\amap(x)).

0 comments on commit 2f70574

Please sign in to comment.