# Wpowadzenie do deep learning w bibliotece Flux.jl

## Wstęp

- [Flux](http://fluxml.ai/) jest biblioteką Julii przeznaczoną do tworzenia modeli uczenia maszynowego.
- Jest w całości oparta na Julii, przez co trywialne jest jej modyfikowanie i dostosowywanie do swoich potrzeb. 
- Możliwe jest przy tym wykorzystanie wewnątrz modeli składni, funkcji i makr Julii.
- Przy czym tworzenie całkiem złożonych standardowych modeli jest intuicyjne i szybkie, zazwyczaj zajmują one jedynie kilka linijek.

## Przykład

Na dzisiejszych zajęciach skupimy się na przykładzie sieci MLP służącej do rozpoznawania odręcznie pisanych cyfr w zbiorze MNIST. Kod źródłowy dostępny jest [tutaj](https://github.com/FluxML/model-zoo/tree/master/vision/mnist).



### Implementacja

In [1]:
using Flux, Flux.Data.MNIST, Statistics, LinearAlgebra, Images
using Flux: onehotbatch, onecold, crossentropy, throttle, Tracker
using Base.Iterators: repeated
# using CuArrays

Pierwszym krokiem jest oczywiście odpowiednie przygotowanie danych na których będziemy pracowali:

In [None]:
# Classify MNIST digits with a simple multi-layer-perceptron

imgs = MNIST.images();

In [None]:
Gray.(imgs[1])

In [None]:
# Stack images into one large batch
X = hcat(float.(reshape.(imgs, :))...) |> gpu;

In [None]:
labels = MNIST.labels()
# One-hot-encode the labels
Y = onehotbatch(labels, 0:9) |> gpu;

i zbiór testowy:

In [None]:
tX = hcat(float.(reshape.(MNIST.images(:test), :))...) |> gpu;
tY = onehotbatch(MNIST.labels(:test), 0:9) |> gpu;

####  Definiowanie modelu

Gdy dane są już gotowe kolejnym krokiem jest odpowiednie zdefiniowanie modelu na którym będziemy pracować. 

Zacznijmy od ręcznego zdefiniowania prostej warstwy sieci z sigmoidalną funkcją aktywacji:

In [None]:
W = rand(4, 8)
b = rand(4)

In [None]:
layer₁(x) = 1.0 ./ (1.0.+exp.(-W*x - b))

In [None]:
x = rand(8)
layer₁(x)

Gdybyśmy chcieli wyuczyć ten model we Fluxie to powyższa definicja regresji logistycznej nam wystarczy - musimy jedynie zadeklerować <tt>W</tt> i <tt>b</tt> jako trenowalne parametry:

In [None]:
using Flux.Tracker

W = param(W)
b = param(b)

Oczywiście pracując na Fluxie nie musimy deklarować wszystkiego ręcznie, dostarcza on najpopularniejsze [funkcje aktywacji](http://fluxml.ai/Flux.jl/stable/models/layers.html#Activation-Functions-1), które możemy wykorzystać w naszym modelu:

In [None]:
layer₂(x) = σ.(W * x .+ b)

In [None]:
layer₂(x)

Analogicznie nie ma konieczności definiowania [warstw modelu](http://fluxml.ai/Flux.jl/stable/models/layers.html#Basic-Layers-1) ręcznie:

In [None]:
layer₃ = Dense(8,4,σ)

In [None]:
layer₃(x)

Przy czym gdy żadna z dostarczonych razem z Fluxem definicji warstwy nam nie odpowiada możemy w banalny sposób zadeklarować własną:

In [None]:
struct Affine
  W
  b
end

Affine(in::Integer, out::Integer) =
  Affine(param(randn(out, in)), param(randn(out)))

# Overload call, so the object can be used as a function
(m::Affine)(x) = m.W * x .+ m.b

a = Affine(10, 5)

a(rand(10)) # => 5-element vector

Gdy chcemy móc w pełni wykorzystać wszystkie przydatne funkcje Fluxa musimy jeszcze skorzystać z makra <tt>treelike</tt>:

In [None]:
Flux.@treelike Affine

Chcąc zbudować model z więcej niż jedną warstwą musimy go odpowiednio zdefiniować.

In [None]:
Layer₁ = Dense(28^2, 32, relu)
Layer₂ = Dense(32, 10)
Layer₃ = softmax

In [None]:
m₁ = Chain(Layer₁ , Layer₂, Layer₃) |> gpu

Funkcja <tt>Chain</tt> pozwala łączyć w łancuchy dowolne funkcje w Julii:

In [None]:
chain = Chain(x -> x^2, x-> -x);

In [None]:
chain(5)

albo też:

In [None]:
m₂(x) = Layer₃(Layer₂(Layer₁(x)))

lub jako złożenie funkcji:

In [None]:
m₃(x) = Layer₁ ∘ Layer₂ ∘ Layer₃  

czy też:

In [None]:
m₄(x) = Layer₁(x) |> Layer₂  |> Layer₃ 

Mając już gotową definicję modelu możemy przejść do kolejnego punktu - wyboru funkcji celu i regularyzacji modelu.

#### Funkcja straty, regularyzacja

Tak jak poprzednio funkcję straty możemy zdefiniować samodzielnie:

In [None]:
model = Dense(5,2)

x, y = rand(5), rand(2);

In [None]:
loss(ŷ, y) = sum((ŷ.- y).^2)/ length(y)

In [None]:
loss(model(x), y) 

Wykorzystać [jedną z zaimplementowanych we Fluxie:](https://github.com/FluxML/Flux.jl/blob/8f73dc6e148eedd11463571a0a8215fd87e7e05b/src/layers/stateless.jl)

In [None]:
Flux.mse(model(x),y)

Podobnie [regularyzacja](http://fluxml.ai/Flux.jl/stable/models/regularisation.html) jest dość [intuicyjna](http://fluxml.ai/Flux.jl/stable/models/layers.html#Normalisation-and-Regularisation-1):

In [None]:
penalty() =  norm(model.W) + norm(model.b)
loss(ŷ,y) = Flux.mse(ŷ,y) + penalty()

In [None]:
loss(model(x),y)

lub nawet prościej:

In [None]:
loss(ŷ,y) = Flux.mse(ŷ,y) + sum(norm,params(model))

In [None]:
loss(model(x),y)

Inne metody regularyzacji mogą być [zaimplementowane jako warstwy:](http://fluxml.ai/Flux.jl/stable/models/layers.html#Normalisation-and-Regularisation-1)

In [None]:
model = Chain(Dense(28^2, 32, relu),
    Dropout(0.1),
Dense(32, 10),
BatchNorm(64, relu),
softmax)

W budowanym modelu funkcja straty wyglądać będzie następująco:

In [None]:
loss(x, y) = crossentropy(m₁(x), y)

#### Uczenie modelu

Po zdefiniowaniu modelu i funkcji celu możemy przystąpić do trenowania sieci.

Podstawowym elementem pozwalającym uczyć modele jest odpowiedni algorytm liczący gradienty. We Fluxie implementacja wygląda następująco:

In [None]:
f(x) = 3x^2 + 2x + 1

# df/dx = 6x + 2
df(x) = Tracker.gradient(f, x)[1]

df(2) # 14.0 (tracked)

# d²f/dx² = 6
d2f(x) = Tracker.gradient(df, x)[1]

d2f(2) # 6.0 (tracked)

Gdy funkcja ma wiele zmiennych wagi możemy przechowywać jako kolekcję i w ten sposób przekazywać do funkcji 

In [None]:
W = param(2) # 2.0 (tracked)
b = param(3) # 3.0 (tracked)

f(x) = W * x + b

par = Flux.Params([W, b])
grads = Tracker.gradient(() -> f(4), par)

grads[W] # 4.0
grads[b] # 1.0

Zdefiniujmy prosty gradient:

In [None]:
function simple_grad!(ps, η = .0001)
  for w in ps
    w.data .-= w.grad .* η
    w.grad .= 0
  end
end

Możliwe jest też zdefiniowanie [własnego algorytmu liczącego gradient](http://fluxml.ai/Flux.jl/stable/internals/tracker.html#Custom-Gradients-1) i przekazanie go do modelu - wszystkie metody, które mogliśmy dotychczas wykorzystać nadal będą działaly.

Własnoręczne definiowanie procesu optymalizacji nie jest konieczne, można wykorzystać [gotowy algorytm](http://fluxml.ai/Flux.jl/stable/training/optimisers.html) zaimplementowany we Fluxie:

In [None]:
opt = ADAM(params(m₁))

Zdefiniujmy prostą pętlę kontrolującą uczenie:

In [None]:
i = 1
while true
  back!(loss(model(x),y))
  max(maximum(abs.(W.grad)), abs(b.grad[1])) > 0.001 || break
  update!((W, b))
  i += 1
end

Flux jest zdolny do kontrolowania całej procedury uczenia, nie musimy robić tego samodzielnie. Służy do tego funkcja <tt>train!</tt>:

In [None]:
Flux.train!(objective, data, opt)

Warto jednak zaznaczyć, że pozwala ona na uczenie jedynie przez pojedynczą epokę. Aby móc kontynuować proces uczenia dalej musimy w odpowiedni sposób przystować dane z których korzystamy:

In [None]:
dataset = repeated((X, Y), 200)

albo skorzystać z makra <tt>@epochs</tt>:

In [None]:
Flux.@epochs 2 println("hello")

Pozwala ona też na definiowanie wywołań, które pozwolą nam kontrolować przebieg uczenia.



In [None]:
evalcb = () -> @show(loss(tX, tY))

Po omówieniu wszystkich elementów składowych biblioteki możemy złożyć naszą sieć w całość:

In [None]:
imgs = MNIST.images()
# Stack images into one large batch
X = hcat(float.(reshape.(imgs, :))...) |> gpu

labels = MNIST.labels()
# One-hot-encode the labels
Y = onehotbatch(labels, 0:9) |> gpu

# Test set 
tX = hcat(float.(reshape.(MNIST.images(:test), :))...) |> gpu
tY = onehotbatch(MNIST.labels(:test), 0:9) |> gpu


m = Chain(
  Dense(28^2, 32, relu),
  Dense(32, 10),
  softmax) |> gpu

loss(x, y) = crossentropy(m(x), y)

accuracy(x, y) = mean(onecold(m(x)) .== onecold(y))

dataset = repeated((X, Y), 200)
evalcb = () -> @show(accuracy(tX, tY))
opt = ADAM(params(m))

Flux.train!(loss, dataset, opt, cb = throttle(evalcb, 10))

println("training set accuracy: $(accuracy(X, Y))")

println("test set accuracy: $(accuracy(tX, tY))")

Oczywiście taka sieć może liczyć się strasznie długo. Ten proces można przyśpieszyć za pomocą wbudowanym w Julię wsparciu [obliczeń na GPU](http://fluxml.ai/Flux.jl/stable/gpu.html).

## Alternatywy

Flux nie jest jedyną biblioteką, która umożliwia budowanie modeli uczenia maszynowego w Julii. Poniżej wymienionych jest kilka alternatywnych możliwości:

- [Knet.jl](https://github.com/denizyuret/Knet.jl)
- [MXnet.jl](https://github.com/dmlc/MXNet.jl)
- [TensorFlow.jl](https://github.com/malmaud/TensorFlow.jl)