julia_bayes_ml_suyama

reproducing figures in "Introduction to Machine Learning by Bayesian Inference" written by Suyama, Atsushi using JuliaLang.

(ISBN 9784061538320)

Environments

Julia: 1.3.1
- "LaTeXStrings" => v"1.0.3"
- "Combinatorics" => v"1.0.0"
- "Makie" => v"0.9.5"
- "IJulia" => v"1.20.2"
- "AbstractPlotting" => v"0.9.17"
- "Plots" => v"0.28.4"
- "Colors" => v"0.9.6"

Fig 2_1

2.1.5 Approximate calculation of expectation by sampling

Fig 2_2

2.2.1 Bernoulli distribution

Entropy of Bernoulli distribution

Fig 2_3

2.2.2 Binomial distribution

Julia Tips

layout of divided figures

l = @layout [a; b c]
a = bar(...)
b = bar(...)
c = bar(...)
plot(a,b,c, layout=l)

Fig 2_4

2.2.4 Multinomial distribution

Julia tips

3D barplot

Makie.jl provides 3d scatter function as meshscatter. 3d barplot can be obtained from meshscatter like below.

using Makie
using AbstractPlotting

markersize = Vec3f0.(1,1, -vec(mplot))

Here, 1x1 tile on scatterring point is extended down to (x,y) plane by typing -1 * z_value (in this case; vec(mplot)). Then, we get "bars"!

layout

Makie layout is used for displaying three bargraph. Both an entire region in the figure or a sub-region containing each barplot are called "scene" We can define the size of resion (see script).

Once scenes are defined. We can overwrite each one by calling plot function like this.

meshgrid!(scene1, ...)

Fig 2.6

2.2.5 Poison distribution

$\textup{Poi}(x|\lambda) = \frac{\lambda^{x}}{x !} e^{-\lambda}$

Fig 2.7

Beta distribution

beta distribution

$\textup{Beta}(\mu|\a,b) = C_B(a,b)\mu^{(a-1)})(1-\mu)^{(b-1)}$

gamma function

$C_B(a,b) = \frac{\Gamma (a+b)}{\Gamma(a)\Gamma(b)}$

Fig 2.8

2.3.2 Dirichlet distribution

dirichlet distribution

$\textup{Dir}(\pi|\alpha)= C_D(\alpha)\prod_{k=1}^{K}\pi_k^{\alpha_k-1}$

where

$C_D(\alpha)=\frac{\Gamma (\sum_{k=1}^{K}\alpha_k )}{\prod_{k=1}^{K}\Gamma(\alpha_k)}$

$\Gamma(\cdot )$ is Gamma function.

Julia tips

If you want to omit the color bar in a plot. Use legend=:none option in plot function.

legend=:none

Fig 2.9

2.3.3 Gamma distribution

gamma distribution

$\textup{Gam}(\lambda|a,b)=C_G(a,b)\lambda^{a-1}e^{-b\lambda}$

where

$C_G(a,b)=\frac{b^a}{\Gamma(a)}$

Fig 2.10

2.3.4 One-dimensional Gaussian distribution

1D Gaussian distribution

$\mathcal{N}(x|\mu,\sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\textup{exp}\left \{ -\frac{(x-\mu)^2}{2\sigma^2} \right \}$

Fig 2.11

2.3.4 One-dimensional Gaussian distribution

Kullback-Laibler divergence

$\begin{align*} \textup{KL}\left [ q(x)||p(x)) \right ] &= -\int q(x)\,\textup{ln}\frac{p(x)}{q(x)}dx \\ &= \left \langle \textup{ln}\,q(x) \right \rangle_{q(x)} - \left \langle \textup{ln}\,p(x) \right \rangle_{q(x)} \end{align*}$

KL divergence for 1D Gaussian distribution

$\textup{KL}\left [ q(x)||p(x)) \right ] = \frac{1}{2}\left \{ \frac{(\mu - \hat{\mu})^2+\hat{\sigma}^2}{\sigma^2} + \textup{ln}\frac{\sigma^2}{\hat{\sigma}^2}-1 \right \}$

Fig 2.12

2.3.2 Multivariate Gaussian distribution

Multivariate Gaussian distribution

$\mathcal{N}(x|\mu,\Sigma)=\frac{1}{\sqrt{(2\pi)^D\left | \Sigma \right |}}\textup{exp}\left \{ -\frac{1}{2}(x-\mu)^\top \Sigma^{-1}(x-\mu) \right \}$

Fig 2.13

2.3.6 Wishart distribution

Wishart distribution

$\mathcal{W}(\Lambda|\nu, \textbf{W})=C_\mathcal{W}(\nu,\textbf{W})\left | \Lambda \right |^\frac{\nu-D-1}{2}\textup{exp}\left \{ -\frac{1}{2}\textup{Tr}(\textbf{W}^{-1}\Lambda ) \right \}$

Fig.3.3

3.2 Learning and prediction of descrete probability distribution

3.2.1 Learning and prediction of Bernouli distribution

Consider Bernouli destribution on a binary variablble x.

$x \in \{0,1\}$

$p(x|\mu)=\textup{Bern}(x|\mu)$

Here, we want to learn the parameter µ. Thus we set Beta distribution as a prior distribution over µ.

$p(\mu)=\textup{Beta}(\mu|a,b)$

According to sampling (observation of N data points), posterior distribution about the parameter (µ) can be expressed as a beta distribution with new hyperparameters.

$p(\mu|\mathbf{X})=\textup{Beta}(\mu|\hat{a},\hat{b})$

where

$\hat{a} = \sum_{n=1}^{N}x_n+a$

$\hat{b} = N - \sum_{n=1}^{N}x_n+b$

Fig.3.4

Learning and prediction of 1-D Gaussian distribution

Precision (lambda) is unknown.

$p(\lambda|x_*)= \textup{Gam}(\lambda|\frac{1}{2}+a,b(x_*))$

where

$b(x_*)=\frac{1}{2}(x_*-\mu)^2+b$

Logarithmic form of predictive distribution is expressed below,

$\textup{ln}\,p(x_*)=-\frac{2a+1}{2}\textup{ln}\{1+\frac{1}{2b}(x_*-\mu)^2\}+ \textup{const.}$

and alike to (logarithmic form of) Student's t distribution

Fig.3.6 & 3.7

3.5 Linear Regression

3.5.1 model creation

$y_n=\textbf{w}^\top \textbf{x}_{n}+\epsilon_n$

$\epsilon_n\sim \mathcal{N}(\epsilon_n|0,\lambda^{-1})$

$p(y_n|\textbf{x}_n,\textbf{w})=\mathcal{N}(y_n|\textbf{w}^\top\textbf{x}_n,\lambda^{-1})$

$p(\textbf{w})=\mathcal{N}(\textbf{w}|\textbf{m}, \mathbf{\Lambda}^{-1})$

Fig.3.6 sampling of 3rd order function from pre-trained model

Fig 3.7 sampling of synthesized data (y_n) from the function.

Fig.3.8

Calculation of posterior distribution and predictive distribution

poterior distribution of parameter w in linear regression model

$p(\mathbf{w}|\mathbf{Y},\mathbf{X})=\mathcal{N}(\mathbf{w}|\hat{\mathbf{m}},\hat{\mathbf{\Lambda}}^{-1})$

where

$\mathbf{\hat{\Lambda}}=\lambda\sum_{n=1}^{N}x_nx_n^{\top}+\mathbf{\Lambda}$

$\mathbf{\hat{m}}=\mathbf{\hat{\Lambda}}^{-1}(\lambda\sum_{n=1}^{N}y_nx_n^{\top}+\mathbf{\Lambda m})$

predictive distribution

$p(y_*|\mathbf{x}_*)=\mathcal{N}(y_*|\mu_*,\lambda_*^{-1})$

where

$\mu_*=\mathbf{m}^{\top}\mathbf{x}_*$

$\lambda_*^{-1}=\lambda^{-1}+\mathbf{x}_*^{\top}\mathbf{\Lambda}^{-1}\mathbf{x}_*$

Fig 3.9

Comparison between models

marginal likelihood

$\textup{ln}p(\mathbf{Y}|\mathbf{X})==\frac{1}{2}\{\sum_{n=1}^{N}(\lambda y_n^2 - \textup{ln}\lambda+\textup{ln}2\pi)+\mathbf{m}^{\top}\mathbf{\Lambda}\mathbf{m}-\textup{ln}|\mathbf{\Lambda}| - \hat{\mathbf{m}}^{\top}\hat{\mathbf{\Lambda}}\hat{\mathbf{m}}+\textup{ln}|\hat{\mathbf{\Lambda}}|\}$

Fig 3.10

Comparison between models

Fig 3.11

Comparison between models

Fig 4.1 & 4.2

The reason to adapt mixture model

A single Gaussian distribution cannot represent sample distributions with multi classes (culsters).

Similary, a polynominal linear regression curve cannot fit to two trends. When M (polynominal dimension) is 4, the fitted curve shows average values between two trends. When M is 30, the curve goes back and forth between two trends. We should assume multiple (two) regresion functions in such data trends.

Fig 4.4

Gibbs sampling

$\begin{align*} z_1^{(i)} &\sim& p(z_1 | z_2^{(i-1)}) \\ z_2^{(i)} &\sim& p(z_1 | z_1^{(i)}) \\ \end{align}$

Name		Name	Last commit message	Last commit date
Latest commit History 98 Commits
ch2		ch2
ch3		ch3
ch4		ch4
.gitignore		.gitignore
README.md		README.md

triwave33/julia_bayes_ml_suyama

Folders and files

Latest commit

History

Repository files navigation

julia_bayes_ml_suyama

Environments

Fig 2_1

2.1.5 Approximate calculation of expectation by sampling

Fig 2_2

2.2.1 Bernoulli distribution

Entropy of Bernoulli distribution

Fig 2_3

2.2.2 Binomial distribution

Julia Tips

Fig 2_4

2.2.4 Multinomial distribution

Julia tips

Fig 2.6

2.2.5 Poison distribution

Fig 2.7

Beta distribution

beta distribution

gamma function

Fig 2.8

2.3.2 Dirichlet distribution

dirichlet distribution

Julia tips

Fig 2.9

2.3.3 Gamma distribution

gamma distribution

Fig 2.10

2.3.4 One-dimensional Gaussian distribution

1D Gaussian distribution

Fig 2.11

2.3.4 One-dimensional Gaussian distribution

Kullback-Laibler divergence

KL divergence for 1D Gaussian distribution

Fig 2.12

2.3.2 Multivariate Gaussian distribution

Multivariate Gaussian distribution

Fig 2.13

2.3.6 Wishart distribution

Wishart distribution

Fig.3.3

3.2 Learning and prediction of descrete probability distribution

3.2.1 Learning and prediction of Bernouli distribution

Fig.3.4

Learning and prediction of 1-D Gaussian distribution

Fig.3.6 & 3.7

3.5 Linear Regression

3.5.1 model creation

Fig.3.8

Calculation of posterior distribution and predictive distribution

poterior distribution of parameter w in linear regression model

predictive distribution

Fig 3.9

Comparison between models

marginal likelihood

Fig 3.10

Comparison between models

Fig 3.11

Comparison between models

Fig 4.1 & 4.2

The reason to adapt mixture model

Fig 4.4

Gibbs sampling

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages