
---
<big><big><big><big><big><big>Sieci neuronowe 2018/19</big></big></big></big></big></big>

---
<big><big><big><big><big>Model Hopfielda</big></big></big></big></big>

---

In [None]:
%%javascript
$.getScript('https://kmahelona.github.io/ipython_notebook_goodies/ipython_notebook_toc.js')

In [1]:
# -*- coding: utf-8 -*-

import numpy as np
import pandas as pd

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns
from mpl_toolkits.mplot3d import Axes3D
from matplotlib import cm
from matplotlib.ticker import LinearLocator, FormatStrFormatter

plt.style.use("fivethirtyeight")

#from bokeh.io import gridplot, output_file, show
#from bokeh.plotting import figure, output_notebook
#from bkcharts import Scatter

import random

In [None]:
output_notebook()

In [2]:
sns.set(font_scale=2.0)

Image inclusion
<img src="nn_figures/" width="100%">

# Model Hopfielda
<img src="../nn_figures/hopfield-round.png" width="51%" align="right">
1. $N$ neuronów

  * symetryczne połączenia $w_{ij}=w_{ji}$
  * __brak__ połączeń neuronów samych ze sobą
  
  $$w_{ii}=0$$
  * nieliniowa progowa funkcja aktywacji
  $$\begin{align*}
  x(v_{i})=\left\{\begin{array}{rl}
           +1&v_{i}\geq{}0\\
           -1&v_{i}<0
           \end{array}
  \right.\hskip3em v_{i}=&\sum_{j}w_{ij}x_{j}
  \end{align*}
  $$

2. __tryby aktualizacji__
  * __synchroniczny__
    1. __równoczesne__ obliczenie wartości $v_k$ dla __wszystkich__ neuronów
    2. aktualizacja stanów
  * __asynchroniczny__
    1. wybór neuronu 
      * losowy, w ustalonej kolejności, itp.
      * kolejność __nie związana__ z obliczonymi aktywacjami
    2. obliczenie aktywacji tego neuronu
  * model Hopfielda nakłada dodatkowe ograniczenie na aktualizacje
3. __uczenie__ jest jednokrokowe
$$w_{ij}=\frac{1}{N}\sum_k x_i^kx_j^k$$
gdzie $i, j$ są indeksami w wektorze, a $k$ indeksami przykładów
  * $w_{ii}=0$

## Funkcja energii modelu Hopfielda
$$E(x)=-\frac{1}{2}\sum_{i}\sum_{j}w_{ij}x_{i}x_{j}-\sum_{i}h_{i}x_{i}$$
gdzie $h_i$ jest __progiem__ (bias) neuronu $x_i$
1. ograniczenie dla uczenia: stan modelu może się zmieniać __tylko wtedy__ gdy poziom energii się __zmniejsza__
  1. wybrany $k$-ty neuron (tryb asynchroniczny)
  2. $v_{k}=\sum_{j}w_{kj}x_{j}-h_{k}$
  3. $x'_k=sgn(v_k)$
  4. $x=x'\;\longrightarrow\;E(x')=E(x)$
  5. $x\neq x'$
  6. $$\begin{align*}
     E(x)-E(x')&=\left(-\sum_{j}w_{kj}x_{k}x_{j}-h_{k}x_{k}\right)-\left(-             \sum_{j}w_{kj}x'_{k}x'_{j}-h_{k} x'_ { k } \right)\\
     &=-(x_{k}-x'_{k})\left(\sum_{j}w_{kj}x_{j}-h_{k}\right)\\
     &=-(x_{k}-x'_{k})v_{k}
     \end{align*}$$
  7. aktywacja neuronu $x_k$ zmieni się __tylko__ wtedy, gdy __zmieni__ się wartość $v_k$
  $$\begin{align*}
  sgn(v_{k})&\neq{}sgn(x_{k})\\
  sgn(v_{k})&\neq{}sgn(-x'_{k})
  \end{align*}$$
  8. jeśli $(x_k-x'_k)>0\,\longrightarrow\,E(x)-E(x')>0$
  9. wartość energii __maleje__ jeśli zmienia się stan
    * ponieważ liczba stanów jest ograniczona, to energia musi osiągnąć minimum!
2. funkcja energii definiuje __baseny atrakcji__
  * baseny atrakcji powinny być związane z pamięciami fundamentalnymi
  * ponieważ funkcja jest zdefiniowana dla $I$-neuronowej sieci o __binarnych__ aktywacjach, baseny atrakcji stanu odpowiadają __rogom__ $I$-wymiarowej hiperkostki

## Zbieżność
$$
E(x;w)=-\frac{1}{2}\sum_{i}\sum_{j}w_{ij}x_{i}x_{j}-\sum_{i}h_{i}x_{i}
$$
1. Funkcja energii jest dla $v_{i}=\sum_{j}w_{ij}x_{j}$ oraz $x_{i}=\tanh(v_{i})$ funkcją __Lyapunova__ systemu dynamicznego
  * Funkcja E(x) jest f. Lyapunova jeśli ma ciągłe pochodne, $E(\bar{x})=0$ oraz $E(x)>0$ w pewnym małym otoczeniu punktu stabilności $\widehat{x}$
  * Stan równowagi $\bar{x}$ jest stabilny jeśli w małym otoczeniu $\bar{x}$ pochodna funkcji Lyapunowa ze względu na czas jest ujemnie określona
  <img src="../nn_figures/hopfield-map1.pdf" width="80%"> [McKay]
    * niewielkie różnice (tu nawet do 11) prowadzą do stanów stabilnych
    * niektóre też prowadzą do stanów stabilnych, ale __różnych__ od zapamiętywanych
      * "_negatywy_" stanów pamiętanych są także stabilne ([m] jest negatywem innego stanu stabilnego [l])
    * stanami stabilnymi są często także kombinacje pamięci oryginalnych
2. jeśli dla systemu istnieje funkcja Lyapunova, to jego przestrzeń stanów jest podzielona na baseny atrakcji
3. jeśli funkcja energii (Lyapunowa) jest wypukła dla każdego $v_{i}$, to sieć Hopfielda __zawsze__ będzie zbieżna do jakiegoś stabilnego punktu stałego
4. istnienie funkcji Lyapunova zależy od symetryczności wag, braku sprzężenia zwrotnego, oraz asynchronicznego trybu aktywacji
5. Usunięcie wag z modelu powoduje zawężenie basenów atrakcji
<img src="../nn_figures/hopfield-map3.pdf" width="80%"> [McKay]
5. Pamięć modelu jest ograniczona i próba zapamiętania zbyt dużej liczby wzorców kończy się zwykle utworzeniem tylko kilku stanów sztucznych (ang. spurious)
<img src="../nn_figures/hopfield-map2.pdf" width="75%"> [McKay]

## Czy można zapamietać więcej wektorów?
1. można poprawiać zapamiętywane wektory
  * wektory powinny być bardziej ortogonalne
2. więcej wektorów niż zapamiętywane jest stabilne
  * stany odwrotne do zapamiętywanych są stabilne
  * stabilne mogą być także także mieszaniny stanów
3. silnie zaburzona siec także będzie działać
4. im więcej zapamiętamy stanów, tym jakość odtwarzania bedzie niższa

## Pojemność sieci Hopfielda
> uwaga notacja $x_i^{(m)}$: 
>
> indeks dolny $i$ to indeks neuronu w modelu, 
>
> indeks górny $(m)$ to indeks przykładu ze zbioru uczącego

1. aktywacja i wagi dla wzorca $x^{(n)}$
$$\begin{align}
v_{i}=&\sum_{j}w_{ij}x_{j}^{(n)}\\
w_{ij}=&x_{i}^{(n)}x_{j}^{(n)}+\sum_{m\neq{}n}x_{i}^{(m)}x_{j}^{(m)}\\
v_{i}=&\sum_{j\neq{}i}x_{i}^{(n)}x_{j}^{(n)}x_{j}^{(n)}
+\sum_{j\neq{}i}\sum_{m\neq{}n}x_{i}^{(m)}x_{j}^{(m)}x_{j}^{(n)}\\
=&(N-1)\,x_{i}^{(n)}+\sum_{j\neq{}i}\sum_{m\neq{}n}x_{i}^{(m)}x_{j}^{(m)}x_{j}^{(n)}
\end{align}$$
2. pierwszy składnik jest $N-1$ razy większy od oczekiwanej wartości $x_{i}^{(n)}$ (dla przykładu $n$)
3. __szum__ ma wartość rzędu $(N-1)(K-1)$ razy losowe wartości $x_{i}^{(m)}x_{j}^{(m)}x_{j}^{(n)}$ (dla $K$ wzorców)
5. to losowe wartości o średniej $0$ i wariancji $1$
6. $v_{i}$ ma średnią $(N-1)x_{i}^{(n)}$ oraz wariancję $(N-1)(K-1)$
7. jakie jest prawdopodobieństwo, że sieć w stanie $x^{(n)}$ będzie stabilna?
  * ustawiamy sieć w stanie pamięci $x^{(n)}$
  * jaka jest szansa, że i-ty bit zmieni swój stan w pierwszej iteracji?
  
    * aby neuron nie zmienił stanu, jego wartość oczekiwana powinna wynosić $(I-1)x_i$
      * $I$ to liczba nauronów
      * średnia rozkładu na rysunku (na osi poziomej aktywacje, załóżmy, że dodatnia)
    * prawdopodobieństwo, że stan się zmieni, odpowiada powierzchni gdzie zmienia znak
    * jeśli będziemy pamiętać $N\simeq 0.18I$, to z $1\%$ szansą jeden bit będzie niestabilny przy pierwszej iteracji
8. stany przejściowe w pamięci Hopfielda
  * prosta analiza mówi ile neuronów może być niestabilnych w pierwszej iteracji 
    * następne mogą zmienić sytuację
    * niestabilność pierwszego może pociągnąć następne
  <img src="../nn_figures/hopfield-capacity.pdf" width="100%">
  * w $N/I=0.138$ zachodzi gwałtowna nieciągłość: poniżej większość stanów pożądanych jest stablina z niewielką liczbą zamienionych bitów
    * rysunek pokazuje prawdopodobieństwo stabilności pamięci zasadniczych
  * jeśli $N/I$ przekracza $0.138$, to istnieją tylko stany fałszywe (tzw. stany szkła spinowego)
  * tuż poniżej $0.138$ liczba zamienionych bitów jest rzędu $1.6\%$
  * dla $N/I\,\in\,(0,0.138))$ istnieją stabilne stany blisko stanów zapamiętanych
  * dla $N/I\in(0,0.05)$ stany stabilne związane ze stanami żądanymi mają niższe energie niż stany fałszywe szkła spinowego
  * dla $N/I\in(0.05,0.138)$ stany szkła spinowego dominują i niektóre mają niższą energię niż stany pożądane
  * dla $N/I\in(0.0.03)$ istnieją pewne dodatkowe stany mieszane których energia nie jest niższa od stanów pożądanych
  * pojemność może być poprawiona kosztem mniejszych basenów atrakcji


## Poprawianie pojemności
1. dla każdego wzorca, jeśli wszystkie poza $i$-tym neuronem odpowiadają wzorcowi $x^{n}$, to ustaw wagi tak, by $x_{i}=x_{i}^{n}$
2. optymalizuj $G(W)$
$$G(W)=-\sum_{i}\sum_{n}t_{i}^{(n)}\ln{}y_{i}^{(n)}+(1-t_{i}^{(n)})\ln{}(1-y_{i}^{(n)})$$
gdzie $t_{i}^{(n)}=1$ jeśli $x_{i}^{(n)}=1$, w przeciwnym wypadku $t_{i}^{(n)}=0$,
oraz $y_{i}^{(n)}=1/(1+\exp(-v_{i}^{(n)}))$
3. procedura optymalizacji
  * inicjalizuj wagi na $W=X^{T}X$ ($X$ -- macierz przykładów)
  * poprawiaj
    1. $w_{ii}=0\;\forall\,i$
    2. $y=\sigma(xW)$ aktywacje
    3. obliczenie błędów $e=t-y$
    4. gradienty $gw=x^{T}e$ ($gw$ to macierz dla wszystkich przykładów)
    5. $gw=gw+gw^{T}$ dla symetryzacji
    6. poprawa wag $w=w+\eta(gw - \alpha{}w)$
4. to pozwala by więcej wzorców było stabilnymi stanami


## Model Hopfielda dla problemu TSP
<img src="../nn_figures/hopfield-tsp.pdf" width="90%"> [McKay]
1. Problem NP-zupełny
1. opis rozwiązania jako macierz
  * każdy wiersz odpowiada miastu
  * kolumna kolejności w której miasto zostanie odwiedzone
    * naturalnie po jednej jedynce w każdym wierszu/kolumnie
  * ujemne wagi między neuronami w kolumnie/wierszu wymuszają __poprawność__ rozwiązania
    * wystarczająco wysokie
  * ujemne wagi między miastem w pozycji odwiedzenia a innymi miastami w pozycjach poprzedniej/następnej wymuszają __optymalność__ rozwiązania
    * proporcjonalne do odległości
2. problem z poprawnym określeniem wag
  * zbyt duże wartości bezwzględne znajdą rozwiązanie poprawne, ale dalekie od optymalnego
  * zbyt małe mogą znaleźć rozwiązania niepoprawne