# Hidden Markov Models



S - словарь наблюдаемых переменных

H - словарь скрытых переменных

A - матрица перехода

B - матрица эмиссионных вероятностей

p - начальные вероятности

D - последовательность наблюдаемых переменных

In [20]:
S = {'A': 0, 'T': 1, 'C': 2, 'G': 3}
A = [[0.9, 0.1],[0.1, 0.9]] # 2x2
B = [[0.3, 0.3, 0.2, 0.2],[0.2, 0.2, 0.3, 0.3]] # 2x4
p = [0.5, 0.5]
D = ['A', 'C', 'G', 'T', 'A', 'T', 'G', 'C', 'C', 'A', 'A', 'A', 'T', 'T', 'T', 'A','A', 'T', 'T', 'A','A']

## Viterbi
v_k(i)- вероятность того, что наиболее вероятный путь проходит через состояние k в наблюдени i
(берется максимум вероятности)

In [6]:
def Viterbi(A, B, p, D):
    V = [[0]*len(p) for i in range(len(D))] # Массив для хранения наиболее вероятных путей
    T = [0]*len(D) # Массив для хранения направлений перехода
    for s in range(len(p)):
        V[0][s] = p[s]*B[s][S[D[0]]]
    max_start = max(V[0])
    for s in range(len(p)):
        if V[0][s] == max_start:
            T[0] = s
            break
        
    for n in range(1, len(D)):
        for t in range(len(p)):
            V[n][t] = max( V[n-1][s]*A[s][t]*B[t][S[D[n]]] for s in range(len(p)) )
            for s in range(len(p)):
                #T[n][t]=argmax_s (V[n − 1, s] ∗ A[s, t])
                if V[n-1][s]*A[s][t]*B[t][S[D[n]]] == V[n][t]:
                    T[n] = s
                    break
                    
    #S = argmax s (V [N, s])
    return T#, Ss


In [7]:
Viterbi(A, B, p, D)

[0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 0, 0]

### E.coli K-12
[link ko FastA](https://www.ncbi.nlm.nih.gov/nuccore/NC_000913.3?report=fasta)

In [8]:
from Bio import SeqIO

for seq_record in SeqIO.parse("E.coli K-12.fasta", "fasta"):
    print(seq_record.id)
    print(repr(seq_record.seq))
    print(len(seq_record))
    D = seq_record.seq[1:1000]

E.
Seq('AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAG...GTA', SingleLetterAlphabet())
4639211


In [9]:
print(D)


GCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGCTTCTGAACTGGTTACCTGCCGTGAGTAAATTAAAATTTTATTGACTTAGGTCACTAAATACTTTAACCAATATAGGCATAGCGCACAGACAGATAAAAATTACAGAGTACACAACATCCATGAAACGCATTAGCACCACCATTACCACCACCATCACCATTACCACAGGTAACGGTGCGGGCTGACGCGTACAGGAAACACAGAAAAAAGCCCGCACCTGACAGTGCGGGCTTTTTTTTTCGACCAAAGGTAACGAGGTAACAACCATGCGAGTGTTGAAGTTCGGCGGTACATCAGTGGCAAATGCAGAACGTTTTCTGCGTGTTGCCGATATTCTGGAAAGCAATGCCAGGCAGGGGCAGGTGGCCACCGTCCTCTCTGCCCCCGCCAAAATCACCAACCACCTGGTGGCGATGATTGAAAAAACCATTAGCGGCCAGGATGCTTTACCCAATATCAGCGATGCCGAACGTATTTTTGCCGAACTTTTGACGGGACTCGCCGCCGCCCAGCCGGGGTTCCCGCTGGCGCAATTGAAAACTTTCGTCGATCAGGAATTTGCCCAAATAAAACATGTCCTGCATGGCATTAGTTTGTTGGGGCAGTGCCCGGATAGCATCAACGCTGCGCTGATTTGCCGTGGCGAGAAAATGTCGATCGCCATTATGGCCGGCGTATTAGAAGCGCGCGGTCACAACGTTACTGTTATCGATCCGGTCGAAAAACTGCTGGCAGTGGGGCATTACCTCGAATCTACCGTCGATATTGCTGAGTCCACCCGCCGTATTGCGGCAAGCCGCATTCCGGCTGATCACATGGTGCTGATGGCAGGTTTCACCGCCGGTAATGAAAAAGGCGAACTGGTGGTGCTTGGACGCAACGGTTCCGACTACTCTGCTGCGGTGCTGGCTGCCTGTTTACGCGCCGATT


In [10]:
Viterbi(A, B, p, D)

[1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 0,
 1,
 0,
 1,
 0,
 1,
 0,
 1,
 0,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 0,
 0,
 0,
 0,
 1,
 1,
 1,
 0,
 1,
 0,
 0,
 1,
 0,
 1,
 0,
 0,
 1,
 0,
 0,
 1,
 1,
 1,
 0,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 0,
 0,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,
 1,


## Forward
F_k(i)- вероятность наблюдаемого пути проходит через состояние k в наблюдени i
(берется сумма вероятностей)

In [23]:
def Forward(A, B, p, D):
    F = [[0]*len(p) for i in range(len(D))] # Массив для хранения наиболее вероятных путей
    P = [0]*len(D) # Массив для хранения суммарных вероятностей
    for s in range(len(p)):
        F[0][s] = p[s]*B[s][S[D[0]]]
    P[0] = sum(F[0][s] for s in range(len(p)))
        
    for n in range(1, len(D)):
        for t in range(len(p)):
            F[n][t] = sum( F[n-1][s]*A[s][t] for s in range(len(p)) )
            F[n][t] *= B[t][S[D[n]]]                            
        P[n] = sum (F[n][t] for t in range(len(p)))
            
    return F#,p

In [24]:
Forward(A, B, p, D)

[[0.15, 0.1],
 [0.029000000000000005, 0.0315],
 [0.005850000000000001, 0.009375],
 [0.0018607500000000004, 0.0018045000000000003],
 [0.0005565375000000001, 0.00036202500000000014],
 [0.00016112587500000005, 7.629525000000003e-05],
 [3.052856250000001e-05, 2.5433493750000008e-05],
 [6.003811125000003e-06, 7.782900187500002e-06],
 [1.2363440062500006e-06, 2.281497384375001e-06],
 [4.022578032187502e-07, 4.353964093125002e-07],
 [1.2167149914843756e-07, 8.641650974062506e-08],
 [3.5443800062296896e-08, 1.7988401736281266e-08],
 [1.01094780689086e-08, 3.946788313776566e-09],
 [2.8479627280186192e-09, 9.126114578579539e-10],
 [7.963282803007658e-10, 2.2122931697480409e-10],
 [2.216455151904509e-10, 5.5747842661480054e-11],
 [6.151672438126615e-11, 1.4467521982875428e-11],
 [1.7043541242428122e-11, 3.8344884445429005e-12],
 [4.716790788791879e-12, 1.0310787448662844e-12],
 [1.304465875319796e-12, 2.7992998985176883e-13],
 [3.60603686031898e-13, 7.647671567971431e-14]]