# Zaporedja

## Skriti Markovi modeli

Skriti markov model (ang. <i>Hidden Markov model</i> - HMM) je generativni model, ki ponazarja zaporedje diskretnih podatkov. Je razširitev Markovih verig (ang. <i>Markov chain</i>), na način da so opazovane spremenljivke odvisne od trenutnega skritega stanja.

Denimo, da opazujemo mete kovanca, ki jih izvaja druga oseba. Na voljo ima dva kovanca: pošten (<b>F</b> - fair) in utežen (<b>L</b> - loaded). Pri vsakem metu lahko opazujemo le izid (<b>o</b> ali <b>-</b>), ne pa tudi kovanca. Skriti Markov model je zapis tovrstnega problema, s poljubnim končnim številom tako <i>skritih stanj</i> in kot tudi <i>opazovanih spremenljivk</i> (abecede). 

Primer zaporedja skritih stanj in opazovanih spremenljivk:

    S: FFFFFFLLLLLFFFFFLLLLFFFFLL...
    X: -o-o-ooooo-o--o-ooo-oo-ooo...

Celoten model je podan z naborom verjetnosti. Te predstavljajo parametre modela.

Verjenosto opazovanih spremenljivk $X$ v koraku $i$ glede trenutno stanje $S$:


$$ P(X_i=o \ | \ S_i = F) = \frac{1}{2},\ P(X_i = - \ | \ S_i=F) = \frac{1}{2}$$

$$ P(X_i=o \ | \ S_i = L) = \frac{19}{20},\ P(X_i=- \ | \ S_i=L) = \frac{1}{20}$$

Za vsako skrito stanje je torej definirana verjetnostna porazdelitev opazovanih spremenljivk.


V praktičnih primerih uporabe HMM se stanja ohranjajo. Verjetnost ohranitve stanja je torej navadno večja od zamenjave stanja. Verjetnosti prehodov podajajo drugo skupino parametrov.

$$ P(S_{i+1}=F | S_{i}=F) = \frac{19}{20},\ P(S_{i+1}=L | S_{i}=F) = \frac{1}{20} $$

$$ P(S_{i+1}=L | S_{i}=L) = \frac{19}{20},\ P(S_{i+1}=F | S_{i}=L) = \frac{1}{20} $$


Navadno definiramo tudi začetne verjetnosti skritih stanj (verjetnost v koraku $i=0$): 

$$ P(S_0 = F) = \frac{1}{2}, \ P(S_0 = L) = \frac{1}{2} $$


<br/>
<br/>
Tako definiran model uporabljamo za praktične naloge, kot so:
* <b>generiranje zaporedij iz danega modela,</b>


* <b>učenje parametrov modela iz danih podatkov:</b>
    * <b>podana so skrita stanja in opazovane spremenljivke (štetje pojavitev)</b>
    * podane so samo opazovanje spremenljivke in število skritih stanj (algoritem Baum-Welch)


* napoved skritih stanj za dano zaporedje opazovanih spremeljivk pri danem modelu (algoritma Viterbi ter Posterior-decoding) 


Primeri praktičnih problemov, ki jih rešujemo z uporabo Skritih Markovih modelov:
* prepoznavanje in generiranje govora,
* strojno prevajanje,
* prepoznavanje pisave,
* segmentacija besedil (prepoznavanje besednih vrst),
* analiza biološki zaporedij (iskanje genov, poravnava zaporedij),
* kriptoanaliza,
* ...


Model lahko zapišemo s slovarjem slovarjev. Na primer, za metanje kovancev:

<img src="../slike/hmm-loaded-coin.jpg" width=400></img>

In [1]:
# Transition matrix
T = {"F": {"F": 0.95, "L": 0.05},
     "L": {"F": 0.05, "L": 0.95}}

# Emission matrix
E = {"F": {"o": 0.5, "-": 0.5},
     "L": {"o": 0.95, "-": 0.05}}
start = "F"

### Generiranje zaporedij

<font color="green"><b>Naredi sam/a.</b></font> Zapiši funkcijo `generate_hmm_sequence`, ki sprejme skriti Markov model in vrne zaporedje dolžine n (skrito in vidno zaporedje).

Še prej zapišite funkcijo `weighted_choice`, ki na podlagi uteži (v vrednosti) naključno izbere vrednost (v ključu slovarja).

In [2]:
import random
random.seed(42)

def weighted_choice(weighted_items):
    """Random choice given the list of elements and their weights
        example weighted_items: {"F": 0.95, "L": 0.05}
    """
    
    pass

Zdaj pa funkcijo generate_hmm_sequence:

In [3]:
def generate_hmm_sequence(h, T, E, n):
    """
    h: given start state,
    T: transition probabilities
    E: emission probabilities
    n: sequence length
    
    return:
        hidden_sequence
        observable_sequence 
    """
    pass

Rešitev lahko pogledate v 208-1.ipynb.

In [4]:
%run '208-1.ipynb'

Generiraj nekaj zaporedij različnih dolžin.

In [5]:
list(generate_hmm_sequence('F', T, E, 5))

[('F', '-'), ('F', 'o'), ('F', '-'), ('F', '-'), ('F', 'o')]

In [6]:
list(generate_hmm_sequence('F', T, E, 20))

[('F', 'o'),
 ('F', '-'),
 ('F', 'o'),
 ('F', '-'),
 ('F', '-'),
 ('F', 'o'),
 ('F', '-'),
 ('F', 'o'),
 ('L', 'o'),
 ('L', 'o'),
 ('L', 'o'),
 ('L', 'o'),
 ('L', '-'),
 ('L', 'o'),
 ('L', 'o'),
 ('L', 'o'),
 ('L', 'o'),
 ('L', 'o'),
 ('L', 'o'),
 ('L', 'o')]

Model poskusite uporabiti tudi na primeru goljufive igralnice. Kovanec smo zamenjali z igralno kocko, ki vrača vrednosti 1-6.

<img src="../slike/hmm-loaded-dice.jpg" width=300></img>

In [7]:
# Alphabet
A = ["1", "2", "3", "4", "5", "6"]

# Emission probabilities
E = {"F": {a: 1/6. for a in A},
     "L": {a: 1/10. if a != "6" else 0.5 for a in A}}

# Transition probabilities
T =  {0:  {0: 0, "F": 0.5, "L": 0.5},
     "F": {0: 0, "F": 0.95, "L": 0.05},
     "L": {0: 0, "F": 0.1, "L": 0.9}}
start = "F"

In [8]:
list(generate_hmm_sequence('F', T, E, 5))

[('F', '4'), ('F', '3'), ('F', '2'), ('F', '4'), ('F', '2')]

In [9]:
list(generate_hmm_sequence('F', T, E, 20))

[('F', '5'),
 ('F', '3'),
 ('L', '6'),
 ('L', '6'),
 ('L', '6'),
 ('L', '1'),
 ('L', '3'),
 ('L', '6'),
 ('L', '4'),
 ('L', '4'),
 ('L', '5'),
 ('L', '3'),
 ('L', '3'),
 ('L', '6'),
 ('L', '3'),
 ('L', '6'),
 ('F', '1'),
 ('F', '4'),
 ('F', '3'),
 ('F', '3')]

### Učenje parametrov modela iz podatkov

Napišite funkcijo `learn_hmm`, ki bo sprejela vidno in skrito zaporedje, ter vrnila parametre skritega Markovega modela (slovarja `T` in `E`).

In [10]:
from collections import Counter

def normalize(dic, eps=1e-8):
    """
    Normalize probabilities of items in a dictionary `dic`.
    Correct probabilities with a small constant to prevent probability 0.
    
    dic = {"o": 90, "-": 10}
    
    return 
        dic = {"o": 0.9, "-": 0.1}
    """
    pass


def learn_hmm(h, x):
    """
    h: hidden sequence
    x: observable sequence
    """
    
    return T, E

Rešitev lahko pogledate v 212-1.ipynb.

In [None]:
%run '212-1.ipynb'

In [12]:
n = 40
h, x = zip(*list(generate_hmm_sequence('F', T, E, n)))

In [13]:
# Estimated parameters from data
T_est, E_est = learn_hmm(h, x)

In [14]:
T_est

{'F': {'F': 0.9714285714285714, 'L': 0.02857142857142857},
 'L': {'L': 0.75, 'F': 0.25}}

In [15]:
E_est

{'F': {'4': 0.19444444444444445,
  '2': 0.2777777777777778,
  '5': 0.1111111111111111,
  '6': 0.19444444444444445,
  '3': 0.08333333333333333,
  '1': 0.1388888888888889},
 'L': {'4': 0.25, '6': 0.75}}

Primerjamo z dejanskimi:

In [16]:
T

{0: {0: 0, 'F': 0.5, 'L': 0.5},
 'F': {0: 0, 'F': 0.95, 'L': 0.05},
 'L': {0: 0, 'F': 0.1, 'L': 0.9}}

In [17]:
E

{'F': {'1': 0.16666666666666666,
  '2': 0.16666666666666666,
  '3': 0.16666666666666666,
  '4': 0.16666666666666666,
  '5': 0.16666666666666666,
  '6': 0.16666666666666666},
 'L': {'1': 0.1, '2': 0.1, '3': 0.1, '4': 0.1, '5': 0.1, '6': 0.5}}

### Viterbijev algoritem

Algoritem za iskanje najverjetnejšega zaporedja skritih stanj (Viterbi).

Zaporedja, s katerimi delamo, so lahko zelo dolga. Množenje (majhnih) verjetnosti nas lahko hitro privede do napake *underflow*. Težavi se izognemo tako, da namesto množenja verjetnosti, seštevamo logaritme verjetnosti.

In [18]:
import math
def logmv(a):
    min_val = 0.0000000001
    return math.log(max(a, min_val))

def viterbi_log(s, hmm):
    t, e = hmm

    # seznam skritih stanj
    zh = set()
    for h, tmpd in e.items():
        zh.add(h)
    zh = [0] + list(zh)

    # Create table V
    V = [{} for i in range(len(s)+1)]
    ptr = [{} for i in range(len(s)+1)]

    # Initialize i = 0; V(0, 0) = 1; V(k, 0) = 0 for k > 0
    for k in zh:
        V[0][k] = logmv(0.0) #t[0][k]*e[k][s[0]]
    V[0][0] = logmv(1.0)

    # for 1 = 1 : n, compute
    for i in range(1, len(s)+1):
        for l in zh:
            vals = [(V[i-1][k] + logmv(t[k].get(l, 0.0)), k) for k in zh]
            max_val, max_k = max(vals)
            V[i][l] = logmv(e.get(l, {}).get(s[i-1], 0.0)) + max_val
            ptr[i][l] = max_k

    # trace back
    pi = []
    pi_L = max([(V[-1][k], k) for k in zh])[1]
    pi.append(pi_L)

    for p in ptr[-1:1:-1]:
        pi.append(p[pi[-1]])

    pi.reverse()
    return V, zh, ptr, "".join(pi)

Pokliči funkcijo, ki za dano zaporedje x in za dani model (T in E) vrne najbolj verjetno skrito pot (h_najv).

Primerjaj jo z dejansko skrito potjo.

In [19]:
# Alphabet
A = ["1", "2", "3", "4", "5", "6"]

# Emission probabilities
E = {"F": {a: 1/6. for a in A},
     "L": {a: 1/10. if a != "6" else 0.5 for a in A}}

# Transition probabilities
T =  {0:  {0: 0, "F": 0.5, "L": 0.5},
     "F": {0: 0, "F": 0.95, "L": 0.05},
     "L": {0: 0, "F": 0.1, "L": 0.9}}


hmm = (T, E)
#s = "1233516266666666666663561253612365611213231524112666666666611666666666612"

random.seed(442)
skrito, vidno = zip(*generate_hmm_sequence('L', T, E, 71))
skrito = "".join(skrito)
vidno = "".join(vidno)

_, _, _, napoved = viterbi_log(vidno, hmm)

print(vidno)
print(skrito)
print(napoved)

45566136665146615666563566616442422355531235335565614221243666641166634
LLLLLLLLLLLLLLLLLLLLLLLLLLLLLLFFFFFFFFFFFFFFFFFFFFFFFFFFFFLLLLLLLLLLLLL
LLLLLLLLLLLLLLLLLLLLLLLLLLLLLFFFFFFFFFFFFFFFFFFFFFFFFFFFFFFLLLLLLLLLLLL


Izračunaj delež ujemanja:

In [20]:
sum(pi == pj for pi, pj in zip(skrito, napoved))/len(skrito)

0.971830985915493