## Скривени Марковљеви модели у биоинформатици

... (резиме)

# Садржај<a id="par:toc"></a>

1. [Увод](#par:uvod)
2. [Мотивација](#par:mot)  
   2.1. [Погађање фенотипа](#par:fen)  
   2.2. [Потрага за генима](#par:gen1)  
   2.3. [Коцкање са јакузама](#par:jak)  
   2.4. [Додатни проблеми](#par:dod)
3. [Моделовање](#par:mod)  
   3.1 [Дефиниција модела](#par:def)  
   3.2 [Могућности модела](#par:mog)  
   3.3 [Надградња дефиниције](#par:nad)  
   3.4 [Витербијев алгоритам](#par:vit)  
   3.5 [Алгоритам „напред”](#par:nap)
4. [Биолошки значај](#par:bio)  
   4.1 [Гени – два стања](#par:gen2)  
   4.2 [Гени – више стања](#par:gen3)  
   4.3 [Профилни модели](#par:prof1)  
   4.4 [Рад са профилима](#par:prof2)
5. [Учење модела](#par:uch)
6. [Закључак](#par:zak)

# Глава 1 – Увод [⮭]<a id="par:uvod"></a>

[⮭]: #par:toc

Биоинформатика је интердисциплинарна област која се бави применом рачунарских технологија у области биологије и сродних наука, са нагласком на разумевању биолошких података. Кључна особина јој је управо поменута мултидисциплинарност, која је илустрована [дијаграмом](https://www.classtools.net/Venn/202107-QTgda5) са слике [1.1].

[1.1]: #fig:venn

<figure><img src="../slike/bioinformatika.png" width="50%" id="fig:venn" /><figcaption style="text-align: center;"><b>Слика 1.1</b>: Венов дијаграм интердисциплинарности</figcaption></figure>

Овако представљена, биоинформатика је заправо спој статистике, рачунарства и биологије – сва три истовремено – по чему надилази
појединачне спојеве: биостатистику, науку о подацима и рачунарску биологију. Конкретно, статистички (математички) апаратат служи за рад са подацима, рачунарске технологије тај апарат чине употребљивијим, док биологија даје потребно доменско знање (разумевање) за рад са биолошким и сродним подацима. Иако се може рећи да је биоинформатика, у савременом смислу представљеном приказаним дијаграмом, релативно млада наука, брзо је постала [популарна](https://genomejigsaw.wordpress.com/2015/09/27/faq/) и многи су јој посветили [пажњу](https://algotech.netlify.app/blog/bio-intro/) или се њоме [баве](http://www.bioinfo.ufpr.br/en/a-guide-for-students.html).

Међу познатим личностима из овога домена издвајају се научници Филип Компо (*Phillip Compeau*) и Павел Певзнер (*Pavel Pevzner*), аутори књиге [*Bioinformatics Algorithms: An Active Learning Approach*](https://www.bioinformaticsalgorithms.org/). Прво издање књиге изашло је 2014. године, а друго већ наредне, у два тома. Актуелно, треће издање, издато је 2018. године, у једном тому. Захваљујући динамичном и активном приступу биолошким проблемима и њиховим информатичким решењима, као и многим додатним материјалима за учење, књига се користи као уџбеник на више од сто светских факултета. Међу њима је и Математички факултет Универзитета у Београду, односно на њему доступни мастер курс [Увод у биоинформатику](http://www.bioinformatika.matf.bg.ac.rs/), а делови књиге користе се и у настави повезаног мастер и докторског курса Истраживање података у биоинформатици.

Актуелна иницијатива на нивоу курса Увод у биоинформатику јесте израда електронског уџбеника, заснованог на поменутој књизи. Идеја је да заинтересовани студенти као мастер рад обраде по једно поглавље књиге, при чему обрада укључује писање текста на српском језику, али и имплементацију и евентуалну визуелизацију свих или макар већине пратећих алгоритама. Овај рад настао је управо у склопу представљене иницијативе, међу првима.

Уџбеник кроз једанаест глава обрађује разне теме које су занимљиве у оквиру биоинформатике: почетак репликације (алгоритамско загревање), генске мотиве (рандомизовани алгоритми), асемблирање генома (графовски алгоритми), секвенцирање антибиотика/пептида (алгоритми грубе силе), поређење и поравнање геномских секвенци (динамичко програмирање), блокове синтеније (комбинаторни алгоритми), филогенију (еволутивна стабла), груписање гена (кластеровање), проналажење шаблона (префиксна и суфиксна стабла), откривање гена и мутација секвенце (скривени Марковљеви модели), напредно секвенцирање пептида (рачунарска протеомика). Циљ овог рада је обрада десетог поглавља, заснованог на скривеним Марковљевим моделима.

[Скривени Марковљев модел](http://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf) (у наставку углавном скраћено *HMM*, према
енгл. *Hidden Markov Model*), укратко, представља статистички модел који се састоји из следећих елемената: скривених стања ($x_i$), опсервација ($y_i$), вероватноћа прелаза ($a_{ij}$), полазних ($\pi_i$) и излазних вероватноћа ($b_{ij}$), по [примеру](https://commons.wikimedia.org/wiki/File:HiddenMarkovModel.png) са слике [1.2]. *HMM* се тако може схватити као коначни аутомат, при чему стања задржавају уобичајено значење, док вероватноће прелаза описују колико се често неки прелаз реализује. Полазне вероватноће одређују почетно стање. Овакав аутомат допуњује се идејом да свако стање са одређеном излазном вероватноћом емитује (приказује) неку опсервацију. Штавише, најчешће су само опажања и позната у раду са *HMM*, док се позадински низ стања погађа („предвиђа”), па се управо зато стања и модели називају скривеним.

[1.2]: #fig:hmm

<figure><img src="../slike/hmm.png" width="50%" id="fig:hmm" /><figcaption style="text-align: center;"><b>Слика 1.2</b>: Једноставан пример скривеног Марковљевог модела</figcaption></figure>

У претходном пасусу су, наравно, скривени Марковљеви модели представљени само концептуално. У наставку су, међутим, они постепено уведени, заједно са мотивацијом за њихову употребу у виду примена на биолошке проблеме. Према идеји електронског уџбеника, излагање прати књигу *Bioinformatics Algorithms: An Active Learning Approach*, а имплементирани су сви пратећи алгоритми. Резултујућа [лекција](https://github.com/matfija/HMM-u-bioinformatici) са *Python* кодовима, у виду *Jupyter* свеске, доступна је на *GitHub*-у.

# Глава 2 – Мотивација [⮭]<a id="par:mot"></a>

[⮭]: #par:toc

У овој глави изложена је мотивација за употребу скривених Марковљевих модела у биоинформатици. Конкретно, представљена су два важна биолошка проблема која се њима могу решити и пратећи појмови из домена, као и једна историјски мотивисана вероватносна мозгалица. Ова глава, дакле, покрива прву петину обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно следеће поднаслове: *Classifying the HIV Phenotype*, *Gambling with Yakuza*, *Two Coins up the Dealer’s Sleeve*, *Finding CG-Islands*, као и највећи део додатка из *Detours*.

## 2.1 Погађање фенотипа [⮭]<a id="par:fen"></a>

[⮭]: #par:mot

ХИВ је вирус хумане имунодефицијенције, један од најпознатијих вируса, који заражава људе широм света. Својим дугорочним деловањем доводи до смртоносног синдрома стечене имунодефицијенције, познатијег као сида или *AIDS*. Мада поједини аутори распрострањеност ХИВ-а називају пандемијом, Светска здравствена организација означава је као [„глобалну епидемију”](https://www.who.int/teams/global-hiv-hepatitis-and-stis-programmes/hiv/strategic-information/hiv-data-and-statistics).

Постојање ХИВ-а званично је потврђено почетком осамдесетих година двадесетог века, мада се претпоставља да је са примата на људе прешао знатно раније. Недуго по овом открићу, тачније 1984, из америчког Министарства здравља и услуга становништву најављено је да ће вакцина бити доступна кроз наредне две године. Готова вакцина, међутим, ни данас није доступна, а многи покушаји су отказани након што се испоставило да кандидати чак повећавају ризик од инфекције код појединих испитаника.

Антивирусне вакцине најчешће се праве од површинских протеина вируса на који се циља, у нади да ће имунски систем, након вакцине, у контакту са живим вирусом знатно брже препознати протеине омотача вируса као стране и уништити их пре него што се вирус намножи у телу. ХИВ је, међутим, карактеристичан по томе што врло брзо мутира, па су његови протеини изузетно варијабилни и није лако могуће научити имунски систем да исправно одреагује на све мутације. Штавише, може се десити да имунитет научи да исправно реагује само на једну варијанту вируса, а да реакција нема ефекта на остале варијанте. Овакав имунитет је лошији од имунитета који ништа не зна о вирусу, пошто не покушава да научи ништа ново, што је разлог већ поменуте ситуације да су код неких испитаника вакцине кандитати повећали ризик од заразе. Да ствар буде гора, ХИВ брзо мутира и унутар једне особе, тако да је разлика у узорцима узетих од различитих пацијената увек значајна.

Када се све узме у обзир, као обећавајућа замисао за дизајн свеобухватне вакцине намеће се следећа идеја: идентификовати неки пептид који садржи најмање варијабилне делове површинских протеина свих познатих сојева ХИВ-а и искористити га као основу вакцине. Ни то, међутим, није решење, пошто ХИВ има још једну незгодну способност: уме да се сакрије процесом гликозилације. Наиме, протеини омотача су махом гликопротеини, што значи да се након превођења за њих могу закачити многобројни гликански (шећерни) ланци. Овим процесом долази до стварања густог гликанског штита, који омета имунски систем у препознавању вируса. Све досад изнето утиче на немогућност прављења прикладне вакцине у скоријем времену.

Чак и ван контекста вакцине, мутације ХИВ-а прилично су занимљиве за разматрање. Конкретно, илустративно је бавити се *env* геном, чија је стопа мутације 1–2 % по нуклеотиду годишње. Овај ген кодира два релативно кратка гликопротеина који заједно граде шиљак (спајк) омотача, део вируса задужен за улазак у људске ћелије. Мање важан део шиљка је гликопротеин *gp41* (∼ 345 аминокиселина), док је важнији гликопротеин *gp120* (∼ 480 аминокиселина). О варијабилности другог говори чињеница да на нивоу једног пацијента, у кратком року, скоро половина аминокиселина буде измењена позадинским мутацијама одговарајућег гена, као да је сасвим други протеин.

Проблематика је још занимљивија када се, поред генотипа вируса, разматра и његов фенотип. На примеру ХИВ-а, након уласка у људску ћелију, гликопротеини омотача код неких изолата могу да изазову спајање заражене ћелије са суседним ћелијама. Резултат тога је синцицијум – нефункционална вишеједарна ћелијска (цитоплазматична) маса са заједничком ћелијском мембраном. Према тој могућности сваки конкретни вирус може се означити као изолат који ствара синцицијум или као изолат који га не ствара. Прва група се тим процесом знатно брже умножава, што даље значи да је опаснија и агресивнија, јер уласком у само једну ћелију убија многе друге у суседству. Одређивање тачног генотипа и погађање фенотипа важно је како би се пацијенту преписао најприкладнији коктел антивирусних лекова.

Испоставља се да је примарна структура гликопротеина *gp120* важан суштински генотипски предиктор фенотипа ХИВ-а. Наиме, узимајући у обзир само низ аминокиселина које чине *gp120*, може се направити једноставан класификатор који погађа да ли проучавани изолат ствара синцицијум или не. Конкретно, научник Жан Жак де Јонг је 1992. анализирао вишеструко поравнање такозване *V3* петље, издвојеног региона у оквиру *gp120*, и формулисао [правило 11/25](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC240176/pdf/jvirol00042-0547.pdf). Према том правилу, сој ХИВ-а највероватније ствара синцицијум уколико му се на 11. или 25. позицији у *V3* петљи налазе аминокиселине аргинин (*R*) или лизин (*K*).

In [1]:
# Функција која предвиђа фенотип ХИВ-а
def hiv_sincicijum(v3_petlja):
    # Приказ улазне V3 петље
    print('V3 петља:', v3_petlja)
    
    # Издвајање 11. позиције
    p11 = v3_petlja[10]
    print('Позиција 11:', 6*' ', p11)
    
    # Издвајање 25. позиције
    p25 = v3_petlja[24]
    print('Позиција 25:', 20*' ', p25)
    
    # Провера критичних аминокиселина
    return p11 == 'R' or p25 == 'K'

In [2]:
# Пример вишеструког поравнања V3 петље из уџбеника
hiv_profil = ['CMRPGNNTRKSIHMGPGKAFYATGDIIGDIRQAHC',
              'CMRPGNNTRKSIHMGPGRAFYATGDIIGDTRQAHC',
              'CMRPGNNTRKSIHIGPGRAFYATGDIIGDIRQAHC',
              'CMRPGNNTRKSIHIGPGRAFYTTGDIIGDIRQAHC',
              'CTRPNNNTRKGISIGPGRAFIAARKIIGDIRQAHC',
              'CTRPNNYTRKGISIGPGRAFIAARKIIGDIRQAHC',
              'CTRPNNNTRKGIRMGPGRAFIAARKIIGDIRQAHC',
              'CVRPNNYTRKRIGIGPGRTVFATKQIIGNIRQAHC',
              'CTRPSNNTRKSIPVGPGKALYATGAIIGNIRQAHC',
              'CTRPNNHTRKSINIGPGRAFYATGEIIGDIRQAHC',
              'CTRPNNNTRKSINIGPGRAFYATGEIIGDIRQAHC',
              'CTRPNNNTRKSIHIGPGRAFYTTGEIIGDIRQAHC',
              'CTRPNNNTRKSINIGPGRAFYTTGEIIGNIRQAHC',
              'CIRPNNNTRGSIHIGPGRAFYATGDIIGEIRKAHC',
              'CIRPNN-TRRSIHIGPGRAFYATGDIIGEIRKAHC',
              'CTRPGSTTRRHIHIGPGRAFYATGNILGSIRKAHC',
              'CTRPGSTTRRHIHIGPGRAFYATGNI-GSIRKAHC',
              'CTGPGSTTRRHIHIGPGRAFYATGNIHG-IRKGHC',
              'CMRPGNNTRRRIHIGPGRAFYATGNI-GNIRKAHC',
              'CMRPGTTTRRRIHIGPGRAFYATGNI-GNIRKAHC']

In [3]:
# Предвиђање фенотипа сваког члана поравнања
for hiv in hiv_profil:
    # Извлачење резултата из дефинисане функције
    sincicijum = hiv_sincicijum(hiv)
    
    # Закључивање о изолату на основу резултата
    print('Закључак: вероватно', 'јесте' if sincicijum
          else 'није', 'агресиван фенотип', end='\n\n')

V3 петља: CMRPGNNTRKSIHMGPGKAFYATGDIIGDIRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CMRPGNNTRKSIHMGPGRAFYATGDIIGDTRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CMRPGNNTRKSIHIGPGRAFYATGDIIGDIRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CMRPGNNTRKSIHIGPGRAFYTTGDIIGDIRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CTRPNNNTRKGISIGPGRAFIAARKIIGDIRQAHC
Позиција 11:        G
Позиција 25:                      K
Закључак: вероватно јесте агресиван фенотип

V3 петља: CTRPNNYTRKGISIGPGRAFIAARKIIGDIRQAHC
Позиција 11:        G
Позиција 25:                      K
Закључак: вероватно јесте агресиван фенотип

V3 петља: CTRPNNNTRKGIRMGPGRAFIAARKIIGDIRQAHC
Позиција 11:        G
Позиција 25:                      K
Закључ

Пример [мотива](https://weblogo.berkeley.edu/) *V3* петље дат је на слици [2.1]. Приметно је да су управо 11. и 25. позиција међу најваријабилнијим, те да удео критичних *R* и *K* на њима није претерано велик. Наравно, на фенотип утичу и многе друге позиције унутар *gp120* и других протеина.

[2.1]: #fig:motif

<figure><img src="../slike/motif.png" width="50%" id="fig:motif" /><figcaption style="text-align: center;"><b>Слика 2.1</b>: Мотив <i>V3</i> петље из уџбеника</figcaption></figure>

За крај и поенту уводног излагања о ХИВ-у, остаје неразрешен још један веома значајан проблем. Како би се уопште разматрало предвиђање фенотипа на основу примарне структуре *gp120*, неопходно је прво доћи до прецизног вишеструког поравнања различитих секвенци аминокиселина. Прво, поравнање мора бити хируршки прецизно, јер нпр. само једна грешка доводи до погрешног податка која вредност је на 11. и 25. позицији *V3* петље. Следеће, неопходно је адекватно обрадити инсерције и делеције, што су врло честе мутације ХИВ-а у многим регионима генома. На крају, потребно је на прави начин оценити квалитет поравнања, нпр. коришћењем различитих матрица скора за сваку појединачну позицију. Ово је донекле могуће урадити коришћењем техника представљених у петом поглављу (*Chapter 5: How Do We Compare DNA Sequences? – Dynamic Programming*), али уз два главна проблема: алгоритми динамичког програмирања су велике сложености и са мање слободе код скорова, а притом не пресликавају најбоље суштину биолошког проблема класификације фенотипа у алгоритамски проблем (недостају кораци након поравнања). Постоји, дакле, потреба за новом формулацијом која обухвата све што је потребно за статистички потковано поравнање секвенци.

## 2.2 Потрага за генима [⮭]<a id="par:gen1"></a>

[⮭]: #par:mot

Познато је да геном чини тек мали део ДНК секвенце. Другим речима, ДНК добрим делом не кодира протеине. Стога је један од важних биолошких проблема управо проналажење места на којима се гени налазе. Прецизније, тражи се место где њихово преписивање (транскрипција) започиње.

Почетком двадесетог века, Фибус Левин открио је да ДНК чине [четири нуклеотида](https://pubs.acs.org/doi/10.1021/ja01920a010), чији су главни део азотне базе: аденин (*A*), цитозин (*C*), гуанин (*G*) и тимин (*T*). У то време, међутим, није била позната тачна структура наследног материјала, штo је [двострука завојница](http://dosequis.colorado.edu/Courses/MethodsLogic/papers/WatsonCrick1953.pdf), коју су пола века касније открили Вотсон и Крик. Левин је, стога, сматрао да ДНК носи информације једнаке било којој четворословној азбуци, а додатно и да је удео сваког од четири нуклеотида једнак. Занимљивост је да овај упрошћени модел одговара стању у савременој биоинформатици – ДНК се углавном и посматра као секвенца нуклеотида, односно ниска над азбуком {*A*, *C*, *G*, *T*}.

Открићем тачне структуре допуњена је теза о једнаком уделу нуклеотида. Како су нуклеотиди на супротним ланцима упарени, њихов удео јесте врло сличан када се посматра целокупна ДНК. То, међутим, није случај када се посматра само један ланац, што је уобичајено у генетици и биоинформатици. Примера ради, удео гуанина и цитозина, који чине један базни пар, код људи је 42 %, што је ипак статистички значајно мање од пола. На вишем нивоу гранулације, у случају да се посматрају само по две суседне базе, испоставља се да динуклеотиди *CC*, *CG*, *GC*, *GG* узимају сасвим различите уделе. Конкретно, иако би се очекивало да, под претпоставком равномерне расподеле, сваки од њих узима удео 4–5 %, динуклетид *CG* чини само 1 % људског генома. Све ово значи да је ДНК секвенца ипак нешто даље од случајне.

Поставља се питање зашто је удео *CG* тако мали. Одговор, међутим, није комплексан, поготову ако се додатно примети да је удео *TG* нешто виши од очекиваног, а посебно у регионима у којима је удео *CG* изразито мали. Разлог томе лежи у метилацији, најчешћој измени која природно настаје унутар ДНК. Поједини нуклеотиди, наиме, могу бити нестабилни, па се на њих лако накачи метил група ($CH_3$). Међу најнестабилнијим управо је цитозин иза ког следи гуанин, дакле *C* из *CG*. Метиловани цитозин даље се често спонтано деаминује у тимин, чиме динуклеотид *CG* лако постаје *TG*. Свеукупни резултат је да се *CG* глобално појављује веома ретко, а *TG* нешто чешће.

Метилација мења експресију суседних гена. Експресија оних гена чији су нуклеотиди у великој мери метиловани често је потиснута. Иако је сам процес метилације важан у току ћелијске диференцијације – доприноси неповратној специјализацији матичних ћелија -- она углавном није пожељна у каснијем добу. Хиперметилација гена повезана је са различитим врстама рака. Стога је метилација врло ретка око гена, што значи да је на тим местима *CG* знатно чешће. Овакви делови ДНК називају се *CG* острвима или *CpG* местима. Разлика у уделу динуклеотида у некодирајућим и регионима богатим генима дата је кроз табелу [2.1], која је дата директно у наставку. Удео *CG* наглашен је црвеном бојом.

[2.1]: #tab:cg

<figure>
<figcaption style="text-align: center;"><b>Табела 2.1</b>: Удео динуклеотида у једном ланцу људског <i>X</i> хромозома – лево у регионима <i>CG</i> острва, а десно ван њих</figcaption>
<table id="tab:cg">
<thead>
<tr class="header">
<th style="text-align: center;"></th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">A</th>
<th style="text-align: center;">C</th>
<th style="text-align: center;">G</th>
<th style="text-align: center;">T</th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">A</th>
<th style="text-align: center;">C</th>
<th style="text-align: center;">G</th>
<th style="text-align: center;">T</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">A</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,053</td>
<td style="text-align: center;">0,079</td>
<td style="text-align: center;">0,127</td>
<td style="text-align: center;">0,036</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,087</td>
<td style="text-align: center;">0,058</td>
<td style="text-align: center;">0,084</td>
<td style="text-align: center;">0,061</td>
</tr>
<tr class="even">
<td style="text-align: center;">C</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,037</td>
<td style="text-align: center;">0,058</td>
<td style="text-align: center;"><span style="color: red">0,058</span></td>
<td style="text-align: center;">0,041</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,067</td>
<td style="text-align: center;">0,063</td>
<td style="text-align: center;"><span style="color: red">0,017</span></td>
<td style="text-align: center;">0,063</td>
</tr>
<tr class="odd">
<td style="text-align: center;">G</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,035</td>
<td style="text-align: center;">0,075</td>
<td style="text-align: center;">0,081</td>
<td style="text-align: center;">0,026</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,053</td>
<td style="text-align: center;">0,053</td>
<td style="text-align: center;">0,063</td>
<td style="text-align: center;">0,042</td>
</tr>
<tr class="even">
<td style="text-align: center;">T</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,024</td>
<td style="text-align: center;">0,105</td>
<td style="text-align: center;">0,115</td>
<td style="text-align: center;">0,050</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,051</td>
<td style="text-align: center;">0,070</td>
<td style="text-align: center;">0,084</td>
<td style="text-align: center;">0,084</td>
</tr>
</tbody>
</table>
</figure>

In [4]:
# Мапа вероватноћа у CpG местима према претходној табели
p_cg    = {'AA': .053, 'AC': .079, 'AG': .127, 'AT': .036,
           'CA': .037, 'CC': .058, 'CG': .058, 'CT': .041,
           'GA': .035, 'GC': .075, 'GG': .081, 'GT': .026,
           'TA': .024, 'TC': .105, 'TG': .115, 'TT': .050}

In [5]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
print('Укупна вероватноћа код CG места:', sum(p_cg.values()))

Укупна вероватноћа код CG места: 0.9999999999999999


In [6]:
# Мапа вероватноћа ван CpG места према претходној табели
p_nekod = {'AA': .087, 'AC': .058, 'AG': .084, 'AT': .061,
           'CA': .067, 'CC': .063, 'CG': .017, 'CT': .063,
           'GA': .053, 'GC': .053, 'GG': .063, 'GT': .042,
           'TA': .051, 'TC': .070, 'TG': .084, 'TT': .084}

In [7]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
print('Укупна вероватноћа код осталих места:', sum(p_nekod.values()))

Укупна вероватноћа код осталих места: 1.0


Закључак је, дакле, да се проблем потраге за генима може свести на проналажење *CG* острва. Наиван приступ потрази је употреба клизећег прозора. Узима се прозор фиксне величине и помера кроз ДНК секвенцу. Прозори (позиције прозора) са натпросечним уделом *CG* јесу кандидати за *CG* острва. Остаје, међутим, питање како одредити добру величину прозора, али и шта радити када преклапајући прозори (клизећи прозори који садрже исте поднизове) нуде различиту класификацију подниза. И овде би корисније било статистички потковано решење, које би отклонило наведене недоумице.

In [8]:
# Пример ДНК секвенце са презентације
dnk = 'ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT'

# Ознаке где је CG острво (+), а где није (-)
cg  = '-------++++++++++------------------------'

In [9]:
# Да ли је вероватније да је прозор CG острво или не
def udeo_ostrvo(prozor):
    # Почетне јединичне вероватноће
    cg = 1
    nekod = 1
    
    # Одређивање величине прозора
    k = len(prozor)
    
    # Пролазак кроз све динуклеотидне потпрозоре
    for i in range(k-1):
        # Одређивање текућег динуклеотида
        p = prozor[i:i+2]
        
        # Ажурирање вероватноћа множењем
        cg    *= p_cg[p]
        nekod *= p_nekod[p]
    
    # Одређивање веће вероватноће
    return cg > nekod

In [10]:
# Пример прозора дужине k=10
prozori = ['ATTTCTTCTC', # познато да није
           'CTCGTCGACG', # познато да јесте
           'CTAATTTCTT'] # познато да није

# Предвиђање да ли је CG острво
for prozor in prozori:
    ostrvo = udeo_ostrvo(prozor)
    
    # Закључивање о прозору на основу резултата
    print(prozor, 'вероватно', 'јесте' if
          ostrvo else 'није', 'CG острво')

ATTTCTTCTC вероватно није CG острво
CTCGTCGACG вероватно јесте CG острво
CTAATTTCTT вероватно није CG острво


In [11]:
# Анотација свих прозора дужине k
def cg_prozor(dnk, k, cg_ostrvo):
    # Приказ улазне ДНК секвенце
    print(dnk)
    
    # Одређивање величине секвенце
    n = len(dnk)
    
    # Иницијализација низа предлога
    predlog = ''
    
    # Пролазак кроз све прозоре
    for i in range(n-k+1):
        # Одређивање текућег прозора
        prozor = dnk[i:i+k]
        
        # Испис довољног броја празнина за поравнање
        if i < (n-k+1)/2:
            print(i    *' ', '\r' if not i else '', sep='', end='')
        else:
            print((i-4)*' ', sep='', end='')
        
        # Израчунавање да ли је прозор CG острво
        ostrvo = cg_ostrvo(prozor)
        
        # Један од начина за ажурирање предлога
        predlog = predlog + ('+' if ostrvo else '-')
        
        # Извештавање о предлогу знаком + или -
        if i < (n-k+1)/2:
            print(prozor, f'({predlog[-1]})')
        else:
            print(f'({predlog[-1]})', prozor)
    
    # Допуњавање предлога на оба краја
    predlog = (k-1)//2 * predlog[0] + \
              predlog + \
              (k-1)//2 * predlog[-1]
    
    # Приказ улазне ДНК секвенце
    print(dnk)
    
    # Приказ коначног предлога ознака
    print(predlog)
    
    # Враћање предлога позиваоцу
    return predlog

In [12]:
# Одабир величине прозора (како?)
k = 5

# Дохватање резултата мотивационог примера
proz1 = cg_prozor(dnk, k, udeo_ostrvo)

ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT
ATTTC (-)
 TTTCT (-)
  TTCTT (-)
   TCTTC (-)
    CTTCT (-)
     TTCTC (-)
      TCTCG (+)
       CTCGT (+)
        TCGTC (+)
         CGTCG (+)
          GTCGA (+)
           TCGAC (+)
            CGACG (+)
             GACGC (+)
              ACGCT (+)
               CGCTA (+)
                GCTAA (-)
                 CTAAT (-)
                  TAATT (-)
               (-) AATTT
                (-) ATTTC
                 (-) TTTCT
                  (-) TTCTT
                   (-) TCTTG
                    (-) CTTGG
                     (-) TTGGA
                      (-) TGGAA
                       (-) GGAAA
                        (-) GAAAT
                         (-) AAATA
                          (-) AATAT
                           (-) ATATC
                            (-) TATCA
                             (-) ATCAT
                              (-) TCATT
                               (-) CATTA
                                (-)

In [13]:
# Поређење познатог и добијеног острва;
# врло су слични, што је фино постигнуће
print('Секвенца:', dnk)
print('Познато: ', cg)
print('Добијено:', proz1)

Секвенца: ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT
Познато:  -------++++++++++------------------------
Добијено: --------++++++++++-----------------------


Остаје, међутим, питање како одредити добру величину прозора, али и шта тачно радити када преклапајући прозори нуде различиту класификацију подниза. Једна наизглед добра *ad hoc* идеја дата је у коду, али би и овде добро дошло статистички потковано решење.

## 2.3 Коцкање са јакузама [⮭]<a id="par:jak"></a>

[⮭]: #par:mot

Јакузе су припадници истоимене криминалне организације, традиционалног синдиката организованог криминала. Савремене јакузе потичу од јапанских [путујућих коцкара](https://www.polygon.com/2017/3/10/14848222/learning-japanese-board-game-culture-from-yakuza-0), који су били распрострањени у осамнаестом веку. Једна од најпознатијих игара коју су путујући коцкари организовали у својим импровизованим коцкарницама био је чо-хан (јап. 丁半, *chō-han*), у дословном преводу „пар-непар”. Игра је сасвим једноставна – претеча јакуза (крупије) баца две коцкице, док се играчи кладе да ли ће збир бити паран или непаран. Игра је такође поштена – једнако се остварују оба исхода парности.

До занимљивог тренутка долази када се из било ког разлога осетно више играча опклади на један од два могућа резултата. Тада би имало смисла да похлепни крупије, у жељи да заради (он узима проценат зараде победника), баца отежане коцкице, које ће са већом вероватноћом дати резултат који је добио мање опклада. Једноставности ради, уместо чо-хана је у наставку разматрана нешто простија игра бацања новчића. У њој крупије баца новчић, а играчи се кладе да ли ће пасти писмо или глава. Она је знатно лакша за анализу, а суштина је иста и доводи до статистички поткованог решења у претходним поднасловима изложених биолошких и сродних проблема.

Крупијева превара у овом случају могла би бити употреба отежаног новчића, код кога исходи нису равномерно расподељени. Нека је познато да крупије има два новчића: један праведан и један отежан тако да на главу пада трипут чешће него на писмо. Циљ је за одређени низ исхода одредити да ли је настао бацањем праведног или отежаног новчића. Пажљивијом анализом проблема, испоставља се да је питање вара ли крупије лоше формулисано. Наиме, оба новчића могу да произведу било који низ исхода, па тако нпр. и отежани новчић може константно да пада на писмо. Иако дефинитивно није могуће са сигурношћу утврдити који је новчић коришћен, могуће је нешто слично и често довољно добро – одредити који је вероватније коришћен.

Конкретно, нека је упитни новчић бачен одређени број пута, при чему је добијен низ исхода. Вероватноће исхода ($H$ од енгл. *heads* – глава и $T$ од енгл. *tails* – писмо) код праведног ($F$ од енгл. *fair* – фер) и отежаног ($B$ од енгл. *biased* – пристрасан) новчића могу се исказати следећим формулама: $$P\{H | F\} = P\{T | F\} = \frac{1}{2},$$ $$P\{H | B\} = \frac{3}{4}, P\{T | B\} = \frac{1}{4}.$$

In [14]:
# Мапа вероватноћа код фер новчића
F = {'H': 1/2, 'T': 1/2}

# Мапа вероватноћа код пристрасног новчића
B = {'H': 3/4, 'T': 1/4}

# Заједничка мапа условних вероватноћа
P = {'F': F, 'B': B}

Како су бацања независни догађаји – претходни исходи ни на који начин не утичу на наредне – вероватноћа да $n$ бацања произведе низ исхода $x = x_1...x_n$, од којих је пало $k$ глава, јесте производ појединачних вероватноћа: $$P\{x\} = \prod_{i=1}^n P\{x_i\} = P\{H\}^k \cdot P\{T\}^{n-k}.$$

In [15]:
# Функција за рачунање вероватноће исхода код било каквог новчића
def p_ops(P, n, k):
    return P['H'] ** k * P['T'] ** (n-k)

In [16]:
# Неки прости примери са рачунањем вероватноћа исхода код било каквог новчића
# (по жељи, могуће је баратати директно разломцима, помоћу подула fractions)
print('Вероватноћа да једном падне глава у једном бацању праведног новчића:', p_ops(F, 1, 1), '(1/2)')
print('Вероватноћа да ниједном не падне глава у три бацања праведног новчића:', p_ops(F, 3, 0), '(1/8)')
print('Вероватноћа да једном падне глава у једном бацању отежаног новчића:', p_ops(B, 1, 1), '(3/4)')
print('Вероватноћа да ниједном не падне глава у три бацања отежаног новчића:', p_ops(B, 3, 0), '(1/64)')

Вероватноћа да једном падне глава у једном бацању праведног новчића: 0.5 (1/2)
Вероватноћа да ниједном не падне глава у три бацања праведног новчића: 0.125 (1/8)
Вероватноћа да једном падне глава у једном бацању отежаног новчића: 0.75 (3/4)
Вероватноћа да ниједном не падне глава у три бацања отежаног новчића: 0.015625 (1/64)


Због тога вероватноћа сваког низа исхода код праведног новчића износи: $$P\{x | F\} = \left(\frac{1}{2}\right)^k \left(\frac{1}{2}\right)^{n-k} = \frac{1}{2^n}.$$

In [17]:
# Функција за рачунање вероватноће исхода код праведнод новчића
def p_pravedan(n, k=None):
    return 1 / 2**n

In [18]:
# Неки прости примери са вероватноћама исхода код праведнод новчића
print('Вероватноћа да једном падне глава у једном бацању праведног новчића:', p_pravedan(1, 1), '(1/2)')
print('Вероватноћа да ниједном не падне глава у три бацања праведног новчића:', p_pravedan(3), '(1/8)')

Вероватноћа да једном падне глава у једном бацању праведног новчића: 0.5 (1/2)
Вероватноћа да ниједном не падне глава у три бацања праведног новчића: 0.125 (1/8)


С друге стране, вероватноћа низа исхода код отежаног новчића је: $$P\{x | B\} = \left(\frac{3}{4}\right)^k \left(\frac{1}{4}\right)^{n-k} = \frac{3^k}{4^n}.$$

In [19]:
# Функција за рачунање вероватноће исхода код отежаног новчића
def p_otezan(n, k):
    return 3**k / 4**n

In [20]:
# Неки прости примери са вероватноћама исхода код отежаног новчића
print('Вероватноћа да једном падне глава у једном бацању отежаног новчића:', p_otezan(1, 1), '(3/4)')
print('Вероватноћа да ниједном не падне глава у три бацања отежаног новчића:', p_otezan(3, 0), '(1/64)')

Вероватноћа да једном падне глава у једном бацању отежаног новчића: 0.75 (3/4)
Вероватноћа да ниједном не падне глава у три бацања отежаног новчића: 0.015625 (1/64)


Уколико је $P\{x | F\} > P\{x | B\}$, онда је вероватније да је крупије бацао праведни новчић, док је у случају $P\{x | F\} < P\{x | B\}$ бацао отежани.

In [21]:
# Функција за предвиђање праведности новчића
def pravednost(n, k):
    # Вероватноћа исхода ако је бацан праведни
    pf = p_pravedan(n)
    
    # Вероватноћа исхода ако је бацан отежани
    pb = p_otezan(n, k)
    
    # Коначно поређење добијених вероватноћа
    return pf > pb

In [22]:
# Неколико малих примера могућих исхода
primeri = [(1, 1), (2, 1), (2, 2)]

# Закључивање о новчићу на основу примера
for n, k in primeri:
    print(f'Ако је бацања {n}, од чега глава {k}, новчић вероватно',
          'није' if pravednost(n, k) else 'јесте', 'отежан.')

Ако је бацања 1, од чега глава 1, новчић вероватно јесте отежан.
Ако је бацања 2, од чега глава 1, новчић вероватно није отежан.
Ако је бацања 2, од чега глава 2, новчић вероватно јесте отежан.


Занимљиво је напоменути да ипак није лако израчунати бројеве $1/2^n$ и $3^k/4^n$ за велико $n$. Они су тада изразито мали, па је питање да ли би били добро представљени у рачунару, те да ли њихово поређење даје тачан резултат.

In [23]:
# Покушај рада са нешто већим бројем бацања
try:
    print('Вероватноћа да само писма падају у десет хиљада бацања праведног новчића:', p_pravedan(1e4))
    print('Вероватноћа да само писма падају у десет хиљада бацања бацања отежаног новчића:', p_otezan(1e4, 0))
# Обавештавање позиваоца о неуспеху у рачуну
except Exception as e:
    print('Испаљен је изузетак:', e)

Испаљен је изузетак: (34, 'Result too large')


Стога се израчунава логаритамски однос вероватноћа, који у конкретном случају износи: $$\log_2\left(\frac{P\{x | F\}}{P\{x | B\}}\right) = \log_2\left(\frac{2^n}{3^k}\right) = n - k\log_23.$$

In [24]:
# Библиотека за рад са логаритмима
from numpy import log2

In [25]:
# Рачунање логаритамског односа новчића
def log_odnos(n, k):
    return n - k * log2(3)

Овај број се већ без проблема израчунава и представља у рачунару. Конкретно, нека је $n = 100$ (сто бацања), а $k = 63$ (нешто већи удео глава).

In [26]:
# Предложени број бацања
n = 100

# Предложени број глава
k = 63

Тада је логаритамски однос приближно једнак 0,15.

In [27]:
# Израчунавање логаритамског односа примера
print(f'Логаритамски однос за n = {n} и k = {k}:', log_odnos(100, 63))

Логаритамски однос за n = 100 и k = 63: 0.14736245456717256


Позитивна вредност $\log(x/y)$ значи да је $x/y > 1$, односно $x > y$ у случају ненегативних вероватноћа. Ово значи да је већа вероватноћа да је крупије бацао праведни новчић, иако је $k = 63$ интуитивно и по апсолутној вредности ближе $3/4 \cdot 100 = 75$ него $1/2 \cdot 100 = 50$. Негативан логаритамски однос довео би до супротног закључка.

In [28]:
# Друга функција за предвиђање праведности новчића
def log_pravednost(n, k):
    return n > k * log2(3)

In [29]:
# Израчунавање логаритамског односа примера
print(f'Ако је бацања {n}, од чега глава {k}, новчић вероватно',
      'није' if log_pravednost(n, k) else 'јесте', 'отежан.')

Ако је бацања 100, од чега глава 63, новчић вероватно није отежан.


Алтернативно, како је неопходно одредити само знак израза $n - k \log_23$, то се може учинити поређењем $n$ и $k\log_23$ (пример изнад), односно $k/n =$ 0,63 и $1/\log_23 \approx$ 0,6309 након дељења *k* са обе стране (пример испод). Лева страна је мања, па је однос позитиван.

In [30]:
# Трећа функција за предвиђање праведности новчића
def div_log_pravednost(n, k):
    return k/n < 1/log2(3)

In [31]:
# Израчунавање логаритамског односа примера
print(f'Ако је бацања {n}, од чега глава {k}, новчић вероватно',
      'није' if div_log_pravednost(n, k) else 'јесте', 'отежан.')

Ако је бацања 100, од чега глава 63, новчић вероватно није отежан.


Сада се без икаквих проблема може вратити великим примерима који претходно нису били израчунљиви.

In [32]:
# Нешто веће величине проблема
velicine = [int(10e4), int(10e6), int(10e9), int(10e12)]

# Израчунавање логаритамског односа примера
for n in velicine:
    print('Ако само једно писмо падне у', n, 'бацања, новчић вероватно',
          'није' if div_log_pravednost(n, n-1) else 'јесте', 'отежан.')

Ако само једно писмо падне у 100000 бацања, новчић вероватно јесте отежан.
Ако само једно писмо падне у 10000000 бацања, новчић вероватно јесте отежан.
Ако само једно писмо падне у 10000000000 бацања, новчић вероватно јесте отежан.
Ако само једно писмо падне у 10000000000000 бацања, новчић вероватно јесте отежан.


Изложени вероватносни модел игре пада у воду када се узме у обзир могућност да крупије наизменично баца праведни и отежани новчић. Наиме, искусни преварант могао би да смањи сумњу да користи отежани новчић тако што би га понекад – додуше, ретко, како не би био ухваћен – заменио са праведним, и тако укруг. Поставља се питање како само на основу низа исхода и евентуално познате вероватноће промене новчића након сваког бацања одредити када је бачен праведни, а када отежани новчић. И овога пута, одговор може бити само несигурног типа – који новчић је када вероватније коришћен.

Слично као код проблема проналажења *CG* острва, потребно је на неки начин различите секвенце новчића упоредити и одредити која је бољи одговор на постављено питање. И овде би наивно решење подразумевало употребу клизајућег прозора који би пролазио кроз све поднизове бацања. На нивоу прозора могли би се рачунати логаритамски односи, према којима би се даље одредило порекло прозора – позитиван однос сугерише да је прозор настао бацањем праведног новчића и супротно. Овакав приступ занемарује тачну вероватноћу замене новчића, мада имплицитно узима у обзир да је она мала.

In [33]:
# Одређивање да ли је прозор праведан
def pravedan_prozor(prozor):
    # Број бацања је величина прозора
    n = len(prozor)
    
    # Број глава је број исхода H
    k = prozor.count('H')
    
    # Коначно одређивање праведности
    return div_log_pravednost(n, k)

In [34]:
# Неколико малих примера могућих исхода
prozori = ['HHHTH', 'THHHT']

# Закључивање о прозорима из примера
for prozor in prozori:
    print('Прозор', prozor, 'вероватно', 'јесте' if
          pravedan_prozor(prozor) else 'није', 'праведан.')

Прозор HHHTH вероватно није праведан.
Прозор THHHT вероватно јесте праведан.


In [35]:
# Анотација свих прозора дужине k
def kockarnica_prozor(ishodi, k):
    # Приказ улазне секвенце исхода
    print(ishodi)
    
    # Одређивање дужине секвенце
    n = len(ishodi)
    
    # Пролазак кроз све прозоре
    for i in range(n-k+1):
        # Одређивање текућег прозора
        prozor = ishodi[i:i+k]
        
        # Испис довољног броја празнина за поравнање
        print(i*' ', '\r' if not i else '', sep='', end='')
        
        # Израчунавање да ли је прозор праведан
        pravedan = pravedan_prozor(prozor)
        
        # Извештавање о резултату знаком новчића
        print(k * ('F' if pravedan else 'B'))
    
    # Приказ улазне секвенце исхода
    print(ishodi)

In [36]:
# Одабир величине прозора (како?)
k = 5

# Пример низа исхода са презентације
x = 'HHHTHTHHHT'

# Одређивање праведности свих поднизова
kockarnica_prozor(x, k)

HHHTHTHHHT
BBBBB
 FFFFF
  FFFFF
   FFFFF
    BBBBB
     FFFFF
HHHTHTHHHT


Остају, међутим, већ поменути проблеми са прозорским приступом: како одредити добру величину прозора, као и шта радити када преклапајући прозори нуде различиту класификацију подниза. Примера ради, ако крупије наизменично баца два претходно описана новчића, а добијени низ исхода је $x = HHHHHTTHHHTTTTT$, онда прозор $x_1...x_{10} = HHHHHTTHHH$ има негативан логаритамски однос, док је однос преклапајућег прозора $x_6...x_{15} = TTHHHTTTTT$ позитиван. Није јасно како одлучити који је новчић бацан у пресеку $x_6...x_{10} = TTHHH$, односно у ком тренутку је тачно дошло до замене новчића, те да ли је замене уопште и било или је крупије поштен.

In [37]:
# Величина прозора из претходног примера
k = 10

# Низ исхода из претходног примера из књиге
x = 'HHHHHTTHHHTTTTT'

# Одређивање праведности свих поднизова
kockarnica_prozor(x, k)

HHHHHTTHHHTTTTT
BBBBBBBBBB
 BBBBBBBBBB
  FFFFFFFFFF
   FFFFFFFFFF
    FFFFFFFFFF
     FFFFFFFFFF
HHHHHTTHHHTTTTT


Још једном је јасно да би најбоље било осмислити статистички потковано решење за све досад изложене проблеме. То је и учињено у следећем поглављу, баш са претходно изложеним бацањем новчића као прилично једноставним, али ипак сасвим интуитивним мотивационим примером.

## 2.4 Додатни проблеми [⮭]<a id="par:dod"></a>

[⮭]: #par:mot

Досад су изложена два биолошка проблема за која је закључено да би добро било осмислити статистички потковано решење: погађање фенотипа и потрага за генима. Први се своди на класификацију геномске секвенце (нпр. ХИВ-а) на основу познатих могућих исхода и њихових примера. Други се своди на откривање *CG* острва, региона ДНК са високим уделом динуклеотида *CG*. Иако су ово два конкретна проблема из домена биологије, јасно је да би се жељено решење могло применити и на мноштво других сличних проблема, што укључује последњи мотивациони пример са бацањем новчића.

Приметно је да је секвенцијалност главна особина података са којима се ради при решавању претходно описаних проблема. Први проблем стога се заправо лако уопштава на проблем класификације било каквих секвенцијалних података, под условом да се сличност мери на основу измена које одговарају мутацијама које настају у геному, што су супституције, инсерције и делеције. Други проблем му је сличан, с тим што класификује (заправо групише – кластерује) поднизове једне секвенце. Кад се све узме у обзир, испоставља се да би жељено решење [истовремено](https://hal-paris1.archives-ouvertes.fr/hal-00994165/document) било корисно како за проблеме надгледаног, тако и ненадгледаног машинског учења над секвенцијалним подацима.

Овакво решење могло би се аналогно користити за додељивање новооткривених протеина некој постојећој [фамилији](https://bmcgenomics.biomedcentral.com/track/pdf/10.1186/s12864-016-3097-0.pdf) (класификација), моделовање и препознавање људског понашања, гестова, рукописа и [говора](https://mi.eng.cam.ac.uk/~mjfg/mjfg_NOW.pdf) (класификација), обраду звука и [сигнала](https://www.researchgate.net/profile/Bernadette-Dorizzi/publication/6872005_ECG_Signal_Analysis_through_Hidden_Markov_Models/links/54aab7730cf25c4c472f4941/ECG-Signal-Analysis-through-Hidden-Markov-Models.pdf) (класификација и кластеровање) или одређивање [врсте речи](https://www.mygreatlearning.com/blog/pos-tagging/) у тексту. Домен примене је чак и моделовање тока [пандемије *COVID-19*](https://github.com/matfija/COVID-u-Srbiji) засновано на најосновнијим подацима, чији се пример резултата у случају Републике Србије може видети на слици [2.2], док се детаљније информације о моделима могу добити увидом у цитирани рад.

[2.2]: #fig:covid

<figure><img src="../slike/covid.png" width="55%" id="fig:covid" /><figcaption style="text-align: center;"><b>Слика 2.2</b>: Моделовање епидемије <i>COVID-19</i> у Србији</figcaption></figure>

Досад је више пута наговештено да су добар избор скривени Марковљеви модели (енгл. *Hidden Markov Model, HMM*). Ваља, међутим, напоменути да се многи наведени проблеми још ефектније решавају својеврсним проширењима *HMM*-а, попут [условних случајних поља](http://personales.upv.es/prosso/resources/PonomarevaEtAl_RANLP07.pdf) (енгл. *Conditional Random Field, CRF*), или комбинацијом са другим техникама као што су [вештачке неуронске мреже](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.50.1857&rep=rep1&type=pdf) (енгл. *Artificial Neural Network, ANN*).

# Глава 3 – Моделовање [⮭]<a id="par:mod"></a>

[⮭]: #par:toc

Након мотивације, у овој глави су дефинисани скривени Марковљеви модели, као предложено решење свих досад изложених проблема. Поред дефиниције, на примеру бацања новчића (непоштене коцкарнице) приказано је како се тачно проблеми моделују помоћу *HMM*, те како се на основу тог модела може одговорити на нека важна питања. Ова глава, дакле, покрива другу петину обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно следеће поднаслове: *Hidden Markov Models*, *The Decoding Problem*, *Finding the Most Likely Outcome of an HMM*, као и преостали део теоријског додатка из *Detours*.

## 3.1 Дефиниција модела [⮭]<a id="par:def"></a>

[⮭]: #par:mod

Како би се лакше конструисао општи свих досадашњих проблема, а посебно бацања новчића, крупије се, уместо као особа, може схватити као примитивна машина – аутомат. Структура аутомата за почетак није важна, али његово деловање јесте. Аутомат је секвенцијалне природе, те оперише кроз низ корака. У сваком кораку је у неком приватном стању, које означава који новчић је заправо бачен (конкретно *F* и *B*), при чему јавно приказује исход бацања тог новчића (конкретно *H* и *T*). Стање је, дакле, непознато, па се другачије назива скривеним стањем. И стања и опажања погодно је апстраховати симболима, нпр. баш карактерима, како је и учињено.

У сваком кораку, аутомат доноси две одлуке: у које скривено стање прећи (да ли га променити) и који симбол емитовати у том новом стању. Испоставља се да се обе одлуке могу донети у потпуности стохастички, што би значило да је добијен жељени статистички потковани модел проблема. Заиста, прва одлука може се донети тако што се случајно одабере *F* или *B* као почетно стање (нпр. баш равномерно, са једнаким вероватноћама 1/2), а надаље се у сваком кораку стање мења са неком малом вероватноћом (нпр. 1/10), док се са знатно већом преосталом (нпр. 9/10) остаје у истом стању. Друга одлука доноси се на основу прве и већ познатих вероватносних особина новчића – нпр. вероватноћа емитовања *H* једнака је 1/2 у стању *F*, а 3/4 у стању *B*.

Претходно изложени аутомат заправо одговара дуго најављиваном појму скривених Марковљевих модела. *HMM* се традиционално представља као статистички модел који се састоји из следећих основних елемената:
- скривених стања $x_i$ – свако стање из скупа $x$ има индекс $i$,
- опажања, опсервација, емисија, приказа, исхода, симбола $y_i$,
- полазних вероватноћа $\pi_i$ – колико је често $x_i$ почетно стање,
- вероватноћа прелаза $a_{ij}$ – колико се често из $x_i$ прелази у $x_j$,
- излазних вероватноћа $b_{ij}$ – колико се често у стању $x_i$ емитује $y_j$.

Пример који одговара оваквој дефиницији дат је на слици [1.2]. Наравно, подразумева се да су познати број стања $n$ (тако заправо $x = \{x_1, ..., x_n\}$, $\pi = \{\pi_1, ..., \pi_n\}$ и $a = \{a_{ij}\}_{1 \leq i, j \leq n}$) и број могућих опсервација $m$ (тако заправо $y = \{y_1, ..., y_m\}$ и $b = \{b_{ij}\}_{1 \leq i \leq n, 1 \leq j \leq m}$) као помоћни елементи сваког *HMM*. Како су сви скупови коначни, прецизније се говори о дискретним (мултиномијалним) *HMM*, мада је иначе могуће моделовати разне [непрекидне](https://people.eecs.berkeley.edu/~jordan/courses/281A-fall04/lectures/lec-10-26.pdf) расподеле.

[1.2]: #fig:hmm

In [38]:
# Класа која представља скривени Марковљев модел
class HMM:
    # Конструкција HMM на основу петорке
    def __init__(hmm, x, y, pi, a, b):
        # Памћење низа скривених стања
        hmm.x = x
        
        # Одређивање броја скривених стања
        hmm.n = len(x)
        
        # Памћење низа могућих опажања
        hmm.y = y
        
        # Одређивање броја различитих опажања
        hmm.m = len(y)
        
        # Памћење низа полазних вероватноћа
        hmm.pi = pi
        
        # Памћење матрице вероватноћа прелаза
        hmm.a = a
        
        # Памћење матрице излазних вероватноћа
        hmm.b = b

Како би овакав модел био у потпуности статистички заснован и смислен, обично се захтева да се све појединачне вероватноће сабирају у јединицу: $$\sum_{i=1}^n \pi_i = 1,$$ $$(\forall i \in \{1, ..., n\}) \sum_{j=1}^m a_{ij} = 1,$$ $$(\forall i \in \{1, ..., n\}) \sum_{j=1}^m b_{ij} = 1.$$ Постоје, међутим, изузеци који су детаљније обрађени у наставку, када се говори о важним надградњама појма скривених Марковљевих модела.

In [39]:
# Рад са рачунским грешкама
def blisko(x, y):
    # Мала апсолутна разлика
    return abs(x-y) < 1e-3

In [40]:
# Неки примери релативно сличних бројева
primeri = [(3*.1, .3), (.5, 1/2), (1, 1.1)]

# Извештавање о блискости бројева из примера
for x, y in primeri:
    print('Бројеви', x, 'и', y, 'јесу' if blisko(x, y) else 'нису', 'блиски.')

Бројеви 0.30000000000000004 и 0.3 јесу блиски.
Бројеви 0.5 и 0.5 јесу блиски.
Бројеви 1 и 1.1 нису блиски.


In [41]:
# Провера испуњава ли HMM вероватносне услове
def proveri(hmm):
    # Сумирање полазних вероватноћа
    polazne = sum(hmm.pi)
    
    # Провера полазних вероватноћа
    if not blisko(polazne, 1):
        return False
    
    # Пролазак кроз свако скривено стање
    for i in range(hmm.n):
        # Сумирање вероватноћа прелаза
        prelazi = sum(hmm.a[i])
        
        # Провера вероватноћа прелаза
        if not blisko(prelazi, 1):
            return False
        
        # Сумирање излазних вероватноћа
        emisije = sum(hmm.b[i])
        
        # Провера излазних вероватноћа
        if not blisko(emisije, 1):
            return False
    
    # Све провере су прошле
    return True

У овом тренутку је такође значајно нагласити да аутори Компо и Певзнер у уџбенику *Bioinformatics Algorithms* користе нешто другачију нотацију, верну енглеском језику. Наиме, они скуп $x$ означавају као $States$, скуп $y$ као $\Sigma$, матрицу $a_{ij}$ као $transition_{l, k}$, а матрицу $b_{ij}$ као $emission_l(b)$. Такође, потребу за скупом полазних вероватноћа – који је заправо опционалан, о чему ће бити речи касније – уводе тек касније, па је *HMM* код њих у основи уређена четворка уместо петорка. Овде је ипак одлучено да се користи познатија нотација, како би читаоцима била лакша употреба повезане литературе. Штавише, *HMM* се у литератури често дефинише још простије, као уређена тројка $\{a, b, \pi\}$, односно $\{A, B, \pi\}$ ако се користе велика слова. Стварно, скупови $x$ и $y$ просто се могу заменити индексима, познатим из наведене тројке.

На основу већ разматране слике [1.2], познато је да се *HMM* може илустровати *HMM* дијаграмом. Ради се о графу чији су чворови стања и опсервације, а гране вероватноће преласка и емисије. Стил је у суштини произвољан, мада се на слици примећује разлика у значењу графичких елемената. Стања су приказана кружним, а емисије квадратним чворовима. Вероватноће преласка исписане су изнад грана, а излазне вероватноће на самим гранама. Прелази и емисије нулте вероватноће (нпр. прелаз са $x_1$ на $x_3$ или на самог себе) нису ни приказани. Други стилови могу приказати све гране, а емисије и вероватноће емисија означити испрекиданим линијама. Независно од стила, *HMM* једнозначно одређује структуру свога дијаграма, а важи и обрнуто.

[1.2]: #fig:hmm

Сада је могуће искористити *HMM* за прецизно моделовање мотивационог проблема бацања коцкице у непоштеној коцкарници. У конкретном случају, изложеном на почетку поднаслова, уређена петорка изгледа овако:
- скривена стања $x = \{F, B\}$ – нпр. $x_1 = F$ и $x_2 = B$,
- опсервације $y = \{H, T\}$ – нпр. $y_1 = H$ и $y_2 = T$,
- полазне вероватноће $\pi = \left\{\dfrac{1}{2}, \dfrac{1}{2}\right\}$ – нпр. $\pi_1 = P\{x_1\} = P\{F\} = \dfrac{1}{2}$,
- преласци $a = \left(\begin{matrix}\dfrac{9}{10} & \dfrac{1}{10}\\ \dfrac{1}{10} & \dfrac{9}{10}\end{matrix}\right)$ – нпр. $a_{12} = P\{x_1 \mapsto x_2\} = P\{F \mapsto B\} = \dfrac{1}{10}$,
- емисије $b = \left(\begin{matrix}\dfrac{1}{2} & \dfrac{1}{2}\\ \dfrac{3}{4} & \dfrac{1}{4}\end{matrix}\right)$ – нпр. $b_{21} = P\{y_1 | x_2\} = P\{H | B\} = \dfrac{3}{4}$.

In [42]:
# Скривена стања непоштене коцкарнице
x = ['F', 'B']

# Могућа опажања непоштене коцкарнице
y = ['H', 'T']

# Низ полазних вероватноћа непоштене коцкарнице
pi = [1/2, 1/2]

# Матрица прелаза непоштене коцкарнице
a = [[9/10, 1/10],
     [1/10, 9/10]]

# Матрица емисија непоштене коцкарнице
b = [[1/2, 1/2],
     [3/4, 1/4]]

In [43]:
# HMM непоштене коцкарнице
kockarnica = HMM(x, y, pi, a, b)

In [44]:
# Провера модела непоштене коцкарнице
print('Модел', 'јесте' if proveri(kockarnica) else 'није', 'коректан.')

Модел јесте коректан.


Одговарајући дијаграм приказан је на слици [3.1] и пружа исте информације. Служи се истим стилом као претходно описани граф, с тим што додатно испрекидано приказује замишљено полазно стање, што је новина на слици.

[3.1]: #fig:kock

<figure><img src="../slike/kockarnica.png" width="35%" id="fig:kock" /><figcaption style="text-align: center;"><b>Слика 3.1</b>: Скривени Марковљев модел бацања новчића</figcaption></figure>

Историјски гледано, појам *HMM* увели су Ленард Баум и сарадници кроз низ [статистичких радова](https://projecteuclid.org/journalArticle/Download?urlId=10.1214%2Faoms%2F1177699147) објављених у другој половини шездесетих година двадесетог века. *HMM* је надградња појма Марковљевих ланаца (енгл. *Markov Chain, MC*), који су у суштини *HMM* без емисија. Ради се, дакле, о уобичајеном стохастичком аутомату, који се састоји из стања и вероватноћа прелаза. *MC* је почетком века [формулисао](http://sciences.amisbnf.org/fr/livre/rasprostranenie-zakona-bolshih-chisel-na-velichiny-zavisyashchie-drug-ot-druga) руски статистичар Андреј Марков, по коме су и названи, како би моделовао Марковљеве процесе – стохастичке промене стања такве да тренутно стање зависи искључиво од претходног. Прва практична примена *HMM* била је препознавање говора, док је биолошка примена почела 1986, Бишоповим и Томпсоновим [поравнањем ДНК](https://pubmed.ncbi.nlm.nih.gov/3641921/).

## 3.2 Могућности модела [⮭]<a id="par:mog"></a>

[⮭]: #par:mod

Могуће је дефинисати појам скривеног пута $p = p_1...p_k$ као низ $k$ стања кроз која *HMM* пролази, а да притом емитује секвенцу опсервација $o = o_1...o_k$. Примера ради, може бити да је низ видљивих исхода $o = THTHHHTHTTH$, а позадински низ скривених стања $p = FFFBBBBBFFF$. Главна идеја је анализирати у ком су односу $p$ и $o$, те са којом се вероватноћом реализују.

In [45]:
# Пример скривеног пута из уџбеника
p_knjiga = 'FFFBBBBBFFF'

# Пример секвенце опсервација из уџбеника
o_knjiga = 'THTHHHTHTTH'

Уз излагање *HMM* за бацање новчића у непоштеној коцкарници, дати су примери значења чланова петорке, који донекле наговештавају могућности скривених Марковљевих модела. Прво, напоменуто је да полазне вероватноће заправо представљају вероватноћу да се у првом кораку ушло у неко стање. Другим речима, то су заправо вероватноће $P\{p\}$ свих могућих једночланих низова скривених стања. Друго, имплицирано је да матрица емисија складишти маргиналну расподелу емисија при познатом стању. То су условне вероватноће $P\{o | p\}$ исхода при једночланом низу скривених стања.

Могуће је, дакле, директно из дефиниције *HMM* израчунати вероватноће  $P\{p\}$ и $P\{o | p\}$ за $k = 1$, и то као $P\{x_i\} = \pi_i$, односно $P\{y_j | x_i\} = b_{ij}$. Према познатој формули условне вероватноће, важи $P\{p, o\} = P\{p\} P\{o | p\}$, па је и та вероватноћа тривијално позната за путеве јединичне дужине, као $P\{x_i, y_j\} = \pi_i b_{ij}$. Реч је о заједничкој вероватноћи да *HMM* пролази кроз низ стања $p$, а да притом емитује управо секвенцу опсервација $o$.

Према уобичајеним принципима, могуће је приметити следеће: $\sum_p \sum_o P\{p, o\} = 1$. Наиме, када се саберу вероватноће свих могућих комбинација низа опажања и скривених путева одређене дужине $k$, добија се јединица, што значи да је покривен цео простор догађаја у *HMM*. Из ове дводимензионалне (заједничке) расподеле путева и емисија могу се без проблема извести маргиналне (појединачне) расподеле путева $P\{p\} = \sum_o P\{p, o\}$ и симбола $P\{o\} = \sum_p P\{p, o\}$.

Подсећања ради, оригинални циљ код непоштене коцкарнице био је пронаћи највероватнији низ стања (бачених новчића) за познати низ опсервација (исхода), што је управо максимална вредност $P\{p, o\}$ по свим $p$ за познато $o$. Претходно опште постављен задатак проналаска највероватнијег низа бацања на основу анализе исхода постаје сасвим конкретан статистички проблем – на основу емитоване ниске симбола $o$ одредити највероватнију секвенцу скривених стања $p$. У наставку је показано како је то заправо могуће урадити.

За почетак, важно је формално дефинисати проблем. Пример наивне формулације дат је проблемом [0]. За њу и њој сличне је, међутим, већ закључено да у суштини нису смислене. Зато је и уведен појам *HMM*.

[0]: #prob:kock

<blockquote id="prob:kock">

<b>Проблем 0</b>: Непоштена коцкарница<br>
<i>На основу низа исхода бацања новчића, одредити када крупије у непоштеној коцкарници користи који од два могућа новчића.</i><br>
<b>Улаз</b>: низ $o = o_1...o_k$ исхода ($H$ и $T$) бацања два новчића ($F$ и $B$).<br>
<b>Излаз</b>: низ $p = p_1...p_k$ новчића такав да је $o_i$ резултат бацања $p_i$.

</blockquote>

Добра формулација преко појма *HMM* дата је кроз проблем [1]. Управо је она детаљно обрађена у наставку овог поглавља, као његов централни део.

[1]: #prob:dekod

<blockquote id="prob:dekod">

<b>Проблем 1</b>: Декодирање приказа<br>
<i>Пронаћи оптимални пут кроз HMM ако је емитована ниска $o$.</i><br>
<b>Улаз</b>: ниска $o = o_1...o_k$ и <i>HMM</i>$\{a, b, \pi\}$ који ју је емитовао.<br>
<b>Излаз</b>: скривени пут $p$ који максимизује вероватноћу $P\{p, o\}$ над свим могућим путевима, дакле $\operatorname*{argmax}_p P\{p, o\}$ за улазно $o$.

</blockquote>

Прва идеја јесте исцрпна претрага простора догађаја над маргиналном расподелом $P\{p, o\}$ за познато $o$. Стога се формулише нови проблем [2].

[2]: #prob:putishod

<blockquote id="prob:putishod">

<b>Проблем 2</b>: Вероватноћа пута и исхода<br>
<i>Израчунати вероватноћу путa и опажања у HMM.</i><br>
<b>Улаз</b>: скривени пут $p = p_1...p_k$ кроз <i>HMM</i>$\{a, b, \pi\}$ и ниска $o = o_1...o_k$ која је тим проласком емитована.<br>
<b>Излаз</b>: заједничка вероватноћа пута и исхода $P\{p, o\}$.

</blockquote>

Како је $P\{p, o\} = P\{p\} P\{o | p\}$, тако је најпогодније независно израчунати $P\{p\}$ и $P\{o | p\}$ за сваки од $n^k$ скривених путева. Број путева (такође и ниски симбола) дужине $k$ у *HMM* са $n$ могућих стања иначе је експоненцијалан зато што се одабир сваког своди на варијације – уређене изборе са понављањем.

Први потпроблем је израчунавање вероватноће пута, што се може формализовати проблемом [3]. Он је у наставку решен у виду једне формуле.

[3]: #prob:put

<blockquote id="prob:put">

<b>Проблем 3</b>: <a href="http://rosalind.info/problems/ba10a/">Вероватноћа скривеног пута</a><br>
<i>Израчунати вероватноћу скривеног пута $p$ кроз HMM.</i><br>
<b>Улаз</b>: скривени пут $p = p_1...p_k$ кроз <i>HMM</i>$\{a, b, \pi\}$.<br>
<b>Излаз</b>: вероватноћа улазног пута $P\{p\}$.

</blockquote>

Први елемент $P\{p\}$, дакле, представља вероватноћу скривеног пута $p$, односно вероватноћу да *HMM* прође кроз низ стања $p$. Већ је показано да за једночлане путеве важи $P\{x_i\} = \pi_i$. Вишечлани путеви заправо почињу једночланим, а онда се проширују користећи стохастичке прелазе. Стога је $P\{p_1p_2...p_{k-1}p_k\} = P\{p_1\}P\{p_1 \mapsto p_2\}...P\{p_{k-1} \mapsto p_k\}$. Објашњено је већ и да је $P\{x_i \mapsto x_j\} = a_{ij}$, па се свеукупно вероватноћа пута може израчунати као: $$P\{p\} = P\{p_1\} \prod_{i=2}^k P\{p_{i-1} \mapsto p_i\} = \pi_{ind(p_1)} \prod_{i=2}^k a_{ind(p_{i-1}), ind(p_i)}.$$

In [46]:
# Одређивање индекса стања на путу
def ind(x_y, p_o):
    return x_y.index(p_o)

In [47]:
# Пример одређивања индекса
print(f'У нисци ABC, карактер B је на {ind("ABC", "B")+1}. позицији.')

У нисци ABC, карактер B је на 2. позицији.


In [48]:
# Вероватноћа скривеног пута
def p_puta(hmm, p):
    # Почетна јединична вероватноћа
    vrv = 1
    
    # Одређивање дужине пута
    k = len(p)
    
    # Празан пут је почетне вероватноће
    if not k: return vrv
    
    # Мапирање свих стања у индексе
    p = [ind(hmm.x, p[i]) for i in range(k)]
    
    # Множење са почетном вероватноћом
    vrv *= hmm.pi[p[0]]
    
    # Множење вероватноћама прелаза
    for i in range(1, k):
        vrv *= hmm.a[p[i-1]][p[i]]
    
    # Враћање резултата
    return vrv

In [49]:
# Вероватноћа пута из уџбеника
print(f'Вероватноћа пута {p_knjiga}:', p_puta(kockarnica, p_knjiga))

Вероватноћа пута FFFBBBBBFFF: 0.002152336050000001


In [50]:
# Основни пример параметара са ROSALIND
x = ['A', 'B']
pi = [1/2, 1/2]
a = [[.194, .806],
     [.273, .727]]

# Основни пример пута са ROSALIND
p = 'AABBBAABABAAAABBBBAABBABABBBAABBAAAABABAABBABABBAB'

# Модел према изложеном примеру
rosalind = HMM(x, [], pi, a, [])

# Вероватноћа пута из примера
print(f'Вероватноћа пута {p}:', p_puta(rosalind, p))

Вероватноћа пута AABBBAABABAAAABBBBAABBABABBBAABBAAAABABAABBABABBAB: 5.017328653175628e-19


In [51]:
# Додатни пример параметара са ROSALIND
x = ['A', 'B']
pi = [1/2, 1/2]
a = [[.863, .137],
     [.511, .489]]

# Додатни пример пута са ROSALIND
p = 'BBABBBABBAABABABBBAABBBBAAABABABAAAABBBBBAABBABABB'

# Модел према изложеном примеру
rosalind = HMM(x, [], pi, a, [])

# Вероватноћа пута из примера
print(f'Вероватноћа пута {p}:', p_puta(rosalind, p))

Вероватноћа пута BBABBBABBAABABABBBAABBBBAAABABABAAAABBBBBAABBABABB: 3.2623333190410896e-21


Други потпроблем је израчунавање вероватноће исхода при познатом путу, што се може формализовати као [4]. И то се решава само једном формулом.

[4]: #prob:ishod

<blockquote id="prob:ishod">

<b>Проблем 4</b>: <a href="http://rosalind.info/problems/ba10b/">Вероватноћа исхода на путу</a><br>
<i>Израчунати вероватноћу приказа $o$ на путу $p$ кроз HMM.</i><br>
<b>Улаз</b>: скривени пут $p = p_1...p_k$ кроз <i>HMM</i>$\{a, b, \pi\}$ и ниска $o = o_1...o_k$ која је тим проласком емитована.<br>
<b>Излаз</b>: условна вероватноћа приказа на путу $P\{o | p\}$.

</blockquote>

Други елемент $P\{o | p\}$, дакле, представља вероватноћу да *HMM* емитује ниску $o$ при проласку кроз низ стања $p$. Већ је показано да за једночлане путеве важи $P\{y_j | x_i\} = b_{ij}$. Код вишечланих нема разлике, пошто је пут фиксиран и само се прате опсервације. Стога је $P\{o_1...o_k | p_1...p_k\} = P\{o_1 | p_1\}...P\{o_k | p_k\}$. Свеукупно се вероватноћа пута може израчунати као: $$P\{o | p\} = \prod_{i=1}^k P\{o_i | p_i\} = \prod_{i=1}^k b_{ind(p_i), ind(o_i)}.$$

In [52]:
# Вероватноћа исхода на путу
def p_ops_na_putu(hmm, p, o):
    # Почетна јединична вероватноћа
    vrv = 1
    
    # Одређивање дужине пута
    k = len(p)
    
    # Мапирање свих стања у индексе
    p = [ind(hmm.x, p[i]) for i in range(k)]
    o = [ind(hmm.y, o[i]) for i in range(k)]
    
    # Множење излазним вероватноћама
    for i in range(k):
        vrv *= hmm.b[p[i]][o[i]]
    
    # Враћање резултата
    return vrv

In [53]:
# Вероватноћа исхода на путу
print(f'Вероватноћа исхода {o_knjiga} на путу {p_knjiga}:',
      p_ops_na_putu(kockarnica, p_knjiga, o_knjiga))

Вероватноћа исхода THTHHHTHTTH на путу FFFBBBBBFFF: 0.0012359619140625


In [54]:
# Основни пример параметара са ROSALIND
x = ['A', 'B']
y = ['x', 'y', 'z']
pi = [1/2, 1/2]
b = [[.612, .314, .074],
     [.346, .317, .336]]

# Основни пример пута и исхода са ROSALIND
p = 'BBBAAABABABBBBBBAAAAAABAAAABABABBBBBABAABABABABBBB'
o = 'xxyzyxzzxzxyxyyzxxzzxxyyxxyxyzzxxyzyzxzxxyxyyzxxzx'

# Модел према изложеном примеру
rosalind = HMM(x, y, pi, [], b)

# Вероватноћа исхода на путу из примера
print(f'Вероватноћа исхода {o} на путу\n {p}:',
      p_ops_na_putu(rosalind, p, o))

Вероватноћа исхода xxyzyxzzxzxyxyyzxxzzxxyyxxyxyzzxxyzyzxzxxyxyyzxxzx на путу
 BBBAAABABABBBBBBAAAAAABAAAABABABBBBBABAABABABABBBB: 1.9315707089321372e-28


In [55]:
# Додатни пример параметара са ROSALIND
x = ['A', 'B']
y = ['x', 'y', 'z']
pi = [1/2, 1/2]
b = [[.093, .581, .325],
     [.77 , .21 , .02 ]]

# Додатни пример пута и исхода са ROSALIND
p = 'BAABBAABAABAAABAABBABBAAABBBABBAAAABAAAABBAAABABAA'
o = 'zyyyxzxzyyzxyxxyyzyzzxyxyxxxxzxzxzxxzyzzzzyyxzxxxy'

# Модел према изложеном примеру
rosalind = HMM(x, y, pi, [], b)

# Вероватноћа исхода на путу из примера
print(f'Вероватноћа исхода {o} на путу\n {p}:',
      p_ops_na_putu(rosalind, p, o))

Вероватноћа исхода zyyyxzxzyyzxyxxyyzyzzxyxyxxxxzxzxzxxzyzzzzyyxzxxxy на путу
 BAABBAABAABAAABAABBABBAAABBBABBAAAABAAAABBAAABABAA: 3.4231648217695625e-35


## 3.3 Надградња дефиниције [⮭]<a id="par:nad"></a>

[⮭]: #par:mod

Пре коначног решавања проблема декодирања, у дигресији која следи допуњена је дефиниција скривених Марковљевих модела, што доприноси једноставнијем раду са њима. Наиме, како би претходне формуле биле лакше за комбиновање и конкретну имплементацију, корисно је на следећи начин надградити *HMM* и сродне појмове попут скривеног пута и низа опсервација:
- уводи се експлицитно почетно стање $x_0 = \pi$ уместо одвојених полазних вероватноћа $\pi$, чиме свако $\pi_i$ постаје део матрице прелаза $a_{0i}$,
- почетно стање се увек подразумева, као нулти члан скривеног пута, па тако свако $p = p_1...p_k$ постаје $p = p_0p_1...p_k$, и то тако да је $p_0 = x_0$,
- уводи се нулта емисија $y_0$, што је заправо празан карактер, чиме се дозвољава да стања буду тиха и не емитују ништа, као почетно стање,
- матрице $a_{ij}$ и $b_{ij}$ постају мапе $a_{x_i, x_j}$ и $b_{x_i, y_j}$, што знатно олакшава рад, а исто важи и за низ $\pi_i$, ако се чува (прослеђује), који постаје мапа $\pi_{x_i}$; у вези са тим, из мапа се може прочитати скуп скривених стања и опсервација, чиме се *HMM* дефинитивно своди на тројку $\{a, b, \pi\}$.

In [56]:
# Нова класа која представља скривени Марковљев модел
class HMM:
    # Конструкција HMM на основу тројке
    def __init__(hmm, a, b, pi):
        # Памћење мапе вероватноћа прелаза
        hmm.a = a
        
        # Памћење мапе излазних вероватноћа
        hmm.b = b
        
        # Памћење мапе полазних вероватноћа
        hmm.a['π'] = pi

In [57]:
# Мапа прелаза непоштене коцкарнице
a = {'F': {'F': 9/10, 'B': 1/10},
     'B': {'F': 1/10, 'B': 9/10}}

# Мапа емисија непоштене коцкарнице;
# већ је дефинисана у мотивацији
b = P

# Мапа полазних вероватноћа непоштене коцкарнице
pi = {'F': 1/2, 'B': 1/2}

In [58]:
# HMM непоштене коцкарнице
kockarnica = HMM(a, b, pi)

Оваква допуна свој пун потенцијал показује у напреднијим применама, мада је и њен почетни допринос незанемарљив. Формуле сада постају: $$P\{p\} = \pi_{p_1} \prod_{i=2}^k a_{p_{i-1}, p_i} = \prod_{i=1}^k a_{p_{i-1}, p_i},$$

In [59]:
# Вероватноћа скривеног пута
def p_puta(hmm, p):
    # Почетна јединична вероватноћа
    vrv = 1
    
    # Одређивање дужине пута
    k = len(p)
    
    # Празан пут је почетне вероватноће
    if not k: return vrv
    
    # Додавање почетног стања
    p = p + 'π'
    
    # Множење вероватноћама прелаза
    for i in range(k):
        vrv *= hmm.a[p[i-1]][p[i]]
    
    # Враћање резултата
    return vrv

In [60]:
# Вероватноћа пута из уџбеника
print(f'Вероватноћа пута {p_knjiga}:', p_puta(kockarnica, p_knjiga))

Вероватноћа пута FFFBBBBBFFF: 0.002152336050000001


$$P\{o | p\} = \prod_{i=1}^k b_{p_i, o_i}.$$

In [61]:
# Вероватноћа исхода на путу
def p_ops_na_putu(hmm, p, o):
    # Почетна јединична вероватноћа
    vrv = 1
    
    # Одређивање дужине пута
    k = len(p)
    
    # Множење излазним вероватноћама
    for i in range(k):
        vrv *= hmm.b[p[i]][o[i]]
    
    # Враћање резултата
    return vrv

In [62]:
# Вероватноћа исхода на путу
print(f'Вероватноћа исхода {o_knjiga} на путу {p_knjiga}:',
      p_ops_na_putu(kockarnica, p_knjiga, o_knjiga))

Вероватноћа исхода THTHHHTHTTH на путу FFFBBBBBFFF: 0.0012359619140625


Заједничка формула вероватноће проласка кроз пут $p$ и приказа $o$ јесте: $$P\{p, o\} = P\{p\} P\{o | p\} = \prod_{i=1}^k a_{p_{i-1}, p_i} \prod_{i=1}^k b_{p_i, o_i} = \prod_{i=1}^k a_{p_{i-1}, p_i} \cdot b_{p_i, o_i}.$$ Интуитивно, заједнички догађај заправо представља низ независних догађаја прелаза и емисија, па је зато $P\{p, o\} = a_{p_0, p_1} b_{p_1, o_1} ... a_{p_{k-1}, p_k} b_{p_k, o_k}$, дакле прелаз из почетног стања у $p_1$, па емисија $o_1$ у $p_1$, затим прелаз из $p_1$ у $p_2$, и тако даље.

In [63]:
# Заједничка вероватноћа пута и исхода
def p_puta_i_ops(hmm, p, o):
    # Почетна јединична вероватноћа
    vrv = 1
    
    # Одређивање дужине пута
    k = len(p)
    
    # Додавање почетног стања
    p = p + 'π'
    
    # Множење вероватноћама
    for i in range(k):
        vrv *= hmm.a[p[i-1]][p[i]] * hmm.b[p[i]][o[i]]
    
    # Враћање резултата
    return vrv

In [64]:
# Заједничка вероватноћа пута и исхода
print(f'Заједничка вероватноћа пута {p_knjiga} и исхода {o_knjiga}:',
      p_puta_i_ops(kockarnica, p_knjiga, o_knjiga))

# Провера обичним множењем
print('Једнак резултат добија се и обичним множењем два потпроблема:',
      p_puta(kockarnica, p_knjiga) * p_ops_na_putu(kockarnica, p_knjiga, o_knjiga))

Заједничка вероватноћа пута FFFBBBBBFFF и исхода THTHHHTHTTH: 2.6602053840637223e-06
Једнак резултат добија се и обичним множењем два потпроблема: 2.660205384063722e-06


Све ове формуле дају елегантан начин рачунања само уз помоћ $a$ и $b$.

Ваља поменути још неке важне надградње *HMM*, које су у стварности често применљивије од основне верзије:
- опсервације $y$ могу представљати бесконачан скуп; то дозвољава моделовање емисија извучених из непрекидних расподела (досад су разматране дискретне) и тада се мапа вероватноћа $b_{ij}$ посматра као мапа расподела $b_i$, која складишти расподеле (густине расподела) емисија стања $x_i$,
- само нека стања се означавају као завршна или се уводи експлицитно завршно стање $x_{n+1} = \omega$, што је посебно важно за проблем декодирања,
- уместо нестабилних правих вероватноћа користе се логаритамске вероватноће, што ублажава рачунске грешке, мада усложњава алгоритме.

Пожељно је усвојити и последњу надградњу, након које формуле постају (подсетник на правило – логаритам производа је збир логаритама): $$P_{\log}\{p\} = \log P\{p\} = \log \pi_{p_1} + \sum_{i=2}^k \log a_{p_{i-1}, p_i} = \sum_{i=1}^k \log a_{p_{i-1}, p_i},$$ $$P_{\log}\{o | p\} = \log P\{o | p\} = \sum_{i=1}^k \log b_{p_i, o_i},$$ $$P_{\log}\{p, o\} = \log P\{p, o\} = \sum_{i=1}^k (\log a_{p_{i-1}, p_i} + \log b_{p_i, o_i}).$$

In [65]:
# Библиотека за рад са логаритмима
from numpy import log, exp

In [66]:
# Лог-вероватноћа скривеног пута
def log_p_puta(hmm, p):
    # Додавање почетног стања
    p = p + 'π'
    
    # Сабирање вероватноћа прелаза
    return sum(log(hmm.a[p[i-1]][p[i]]) for i in range(len(p)-1))

In [67]:
# Лог-вероватноћа пута из уџбеника
p_log_puta = log_p_puta(kockarnica, p_knjiga)

# Вероватноћа пута из уџбеника
print(f'Вероватноћа пута {p_knjiga}: e^{p_log_puta} =', exp(p_log_puta))

Вероватноћа пута FFFBBBBBFFF: e^-6.141201491810646 = 0.002152336050000002


In [68]:
# Лог-вероватноћа исхода на путу
def log_p_ops_na_putu(hmm, p, o):
    # Сабирање излазних вероватноћа
    return sum(log(hmm.b[p[i]][o[i]]) for i in range(len(p)))

In [69]:
# Лог-вероватноћа исхода на путу
p_log_ops = log_p_ops_na_putu(kockarnica, p_knjiga, o_knjiga)

# Вероватноћа исхода на путу
print(f'Вероватноћа исхода {o_knjiga} на путу {p_knjiga}:',
      f'e^{p_log_ops} =', exp(p_log_ops))

Вероватноћа исхода THTHHHTHTTH на путу FFFBBBBBFFF: e^-6.6959057342866855 = 0.0012359619140625009


In [70]:
# Заједничка лог-вероватноћа пута и исхода
def log_p_puta_i_ops(hmm, p, o):
    # Додавање почетног стања
    p = p + 'π'
    
    # Сабирање вероватноћа
    return sum(log(hmm.a[p[i-1]][p[i]]) + log(hmm.b[p[i]][o[i]]) for i in range(len(p)-1))

In [71]:
# Заједничка лог-вероватноћа исхода на путу
p_log_puta_i_ops = log_p_puta_i_ops(kockarnica, p_knjiga, o_knjiga)

# Заједничка вероватноћа пута и исхода
print(f'Заједничка вероватноћа пута {p_knjiga} и исхода {o_knjiga}:',
      f'e^{p_log_puta_i_ops} =', exp(p_log_puta_i_ops))

# Провера обичним множењем
print('Једнак резултат добија се и обичним сабирањем два потпроблема:',
      f'e^{p_log_puta + p_log_ops} =', exp(p_log_puta + p_log_ops))

Заједничка вероватноћа пута FFFBBBBBFFF и исхода THTHHHTHTTH: e^-12.837107226097334 = 2.660205384063718e-06
Једнак резултат добија се и обичним сабирањем два потпроблема: e^-12.83710722609733 = 2.660205384063728e-06


Заправо је најефикасније директно радити са логаритамским вероватноћама, односно све вероватноће одмах логаритмовати, укључујући улазне из мапа $a$ и $b$. На тај начин, логаритам се, као рачунарски скупа функција, израчунава само једном, а не сваки пут изнова када је неопходно одредити жељену вероватноћу. Под овом претпоставком, формуле су лакше за запис и рачун: $$P_{\log}\{p\} = \pi_{\log, p_1} + \sum_{i=2}^k a_{\log, p_{i-1}, p_i} = \sum_{i=1}^k a_{\log, p_{i-1}, p_i},$$ $$P_{\log}\{o | p\} = \sum_{i=1}^k b_{\log, p_i, o_i},$$ $$P_{\log}\{p, o\} = \sum_{i=1}^k (a_{\log, p_{i-1}, p_i} + b_{\log, p_i, o_i}).$$

In [72]:
# Лог-вероватноћа скривеног пута
def log_p_puta(hmm, p):
    # Додавање почетног стања
    p = p + 'π'
    
    # Сабирање вероватноћа прелаза
    return sum(hmm.a_log[p[i-1]][p[i]] for i in range(len(p)-1))

In [73]:
# Лог-вероватноћа исхода на путу
def log_p_ops_na_putu(hmm, p, o):
    # Сабирање излазних вероватноћа
    return sum(hmm.b_log[p[i]][o[i]] for i in range(len(p)))

In [74]:
# Заједничка лог-вероватноћа пута и исхода
def log_p_puta_i_ops(hmm, p, o):
    # Додавање почетног стања
    p = p + 'π'
    
    # Сабирање вероватноћа
    return sum(hmm.a_log[p[i-1]][p[i]] + hmm.b_log[p[i]][o[i]] for i in range(len(p)-1))

Надграђени *HMM* сада се може свести на једноставну уређену двојку:
- мапа логаритамских вероватоћа прелаза $a_{\log, x_i, x_j}$,
- мапа логаритамских излазних вероватноћа $b_{\log, x_i, y_j}$.

За конструкцију оваквог објекта треба имати оригинално $a$ и $b$, као и $\pi$, па се зато ипак, интуиције ради, *HMM* и даље званично сматра уређеном тројком $\{a, b, \pi\}$, а не интерно коришћеном трансформисаном двојком $\{a_{\log}, b_{\log}\}$. Погодно је запамтити и следеће помоћне елементе модела:
- скуп скривених стања $x$ и њихов број $n$,
- скуп могућих емисија $y$ и њихов број $m$,
- мапу логаритамских полазних вероватноћа $\pi_{\log}$,
- оригиналне вредности у мапама $a, b, \pi$.

In [75]:
# Коначна класа која представља скривени Марковљев модел
class HMM:
    # Конструкција HMM на основу тројке
    def __init__(hmm, a, b, pi):
        # Памћење свих улазних мапа
        hmm.a = a
        hmm.b = b
        hmm.pi = pi
        
        # Памћење мапе полазних вероватноћа
        hmm.a['π'] = pi
        
        # Одређивање листе и броја стања
        hmm.x = list(a)
        hmm.x.remove('π')
        hmm.n = len(hmm.x)
        
        # Одређивање листе и броја опажања
        hmm.y = list(b[hmm.x[0]])
        hmm.m = len(hmm.y)
        
        # Мапе свих лог-вероватноћа
        hmm.pi_log = {xi: log(pi[xi]) for xi in hmm.x}
        hmm.a_log  = {xi: {xj: log(a[xi][xj]) for xj in hmm.x} for xi in hmm.x}
        hmm.b_log  = {xi: {yj: log(b[xi][yj]) for yj in hmm.y} for xi in hmm.x}
        
        # Прелази са полазним лог-вероватноћама
        hmm.a_log['π'] = hmm.pi_log

In [76]:
# HMM непоштене коцкарнице
kockarnica = HMM(a, b, pi)

Надграђени *HMM* моделује непоштену коцкарницу на следећи начин:
- прелази $a_{\log} = \begin{matrix} & \begin{matrix} F & B \end{matrix} \\ \begin{matrix} \pi \\ F \\ B \end{matrix} & \left(\begin{matrix} \log\dfrac{1}{2} & \log\dfrac{1}{2} \\ \log\dfrac{9}{10} & \log\dfrac{1}{10} \\ \log\dfrac{1}{10} & \log\dfrac{9}{10} \end{matrix}\right) \end{matrix}$ – нпр. $a_{\log, F, B} = P_{\log}\{F \mapsto B\} = \log\dfrac{1}{10}$,
- емисије $b_{\log} = \begin{matrix} & \begin{matrix} H & T \end{matrix} \\ \begin{matrix} F \\ B \end{matrix} & \left(\begin{matrix} \log\dfrac{1}{2} & \log\dfrac{1}{2} \\ \log\dfrac{3}{4} & \log\dfrac{1}{4} \end{matrix}\right) \end{matrix}$ – нпр. $b_{\log, B, H} = P_{\log}\{H |B\} = \log\dfrac{3}{4}$.

In [77]:
# Приказ свих атрибута коцкарнице; посебно форматирање како би био леп испис свега
for attr in dir(kockarnica):
    if not attr.startswith('__'):
        if attr == 'a_log':
            tekst = str(getattr(kockarnica, attr))
            print(attr, '  =', tekst[:len(tekst)//2+3], '\n         ', tekst[len(tekst)//2+3:])
        elif attr == 'b_log':
            tekst = str(getattr(kockarnica, attr))
            print(attr, '  =', tekst[:len(tekst)//2], '\n         ', tekst[len(tekst)//2:])
        else:
            print(attr, ' '*(6-len(attr)), '=', getattr(kockarnica, attr))

a       = {'F': {'F': 0.9, 'B': 0.1}, 'B': {'F': 0.1, 'B': 0.9}, 'π': {'F': 0.5, 'B': 0.5}}
a_log   = {'F': {'F': -0.10536051565782628, 'B': -2.3025850929940455}, 'B': {'F': -2.3025850929940455, 
           'B': -0.10536051565782628}, 'π': {'F': -0.6931471805599453, 'B': -0.6931471805599453}}
b       = {'F': {'H': 0.5, 'T': 0.5}, 'B': {'H': 0.75, 'T': 0.25}}
b_log   = {'F': {'H': -0.6931471805599453, 'T': -0.6931471805599453}, 
           'B': {'H': -0.2876820724517809, 'T': -1.3862943611198906}}
m       = 2
n       = 2
pi      = {'F': 0.5, 'B': 0.5}
pi_log  = {'F': -0.6931471805599453, 'B': -0.6931471805599453}
x       = ['F', 'B']
y       = ['H', 'T']


In [78]:
# Лог-вероватноћа пута из уџбеника
p_log_puta = log_p_puta(kockarnica, p_knjiga)

# Приказ резултата функције
print(f'Вероватноћа пута {p_knjiga}: e^{p_log_puta} =', exp(p_log_puta))

Вероватноћа пута FFFBBBBBFFF: e^-6.141201491810646 = 0.002152336050000002


In [79]:
# Лог-вероватноћа исхода на путу
p_log_ops = log_p_ops_na_putu(kockarnica, p_knjiga, o_knjiga)

# Приказ резултата функције
print(f'Вероватноћа исхода {o_knjiga} на путу {p_knjiga}:',
      f'e^{p_log_ops} =', exp(p_log_ops))

Вероватноћа исхода THTHHHTHTTH на путу FFFBBBBBFFF: e^-6.6959057342866855 = 0.0012359619140625009


In [80]:
# Заједничка лог-вероватноћа пута и исхода
p_log_puta_i_ops = log_p_puta_i_ops(kockarnica, p_knjiga, o_knjiga)

# Приказ резултата функције
print(f'Заједничка вероватноћа пута {p_knjiga} и исхода {o_knjiga}:',
      f'e^{p_log_puta_i_ops} =', exp(p_log_puta_i_ops))

# Провера поклапања обичним сабирањем
print('Једнак резултат добија се и обичним сабирањем два потпроблема:',
      f'e^{p_log_puta + p_log_ops} =', exp(p_log_puta + p_log_ops))

Заједничка вероватноћа пута FFFBBBBBFFF и исхода THTHHHTHTTH: e^-12.837107226097334 = 2.660205384063718e-06
Једнак резултат добија се и обичним сабирањем два потпроблема: e^-12.83710722609733 = 2.660205384063728e-06


## 3.4 Витербијев алгоритам [⮭]<a id="par:vit"></a>

[⮭]: #par:mod

Одређивањем формуле $P\{p, o\}$ за путеве произвољне дужине, могуће је приступити проблему максимизације. Како је већ предложено, наивна идеја исцрпне претраге састоји се од генерисања сваког од $n^k$ скривених путева $p$, израчунавања $P\{p, o\}$ за познати низ приказа $o$, и на крају одабира пута који представља $\operatorname*{argmax}_p P\{p, o\} = \operatorname*{argmax}_p P\{p | o\}$. Овиме се добро моделује условна расподела скривених путева при познатим опажањима.

In [81]:
# Сви путеви одређене дужине
def svi_putevi(hmm, k, p=None, i=0):
    # Иницијализација празног пута
    if not p:
        p = [''] * k
    
    # Емитовање пута ако је готов
    if i == k:
        yield ''.join(p)
    else:
        # Постављање свих могућих стања
        for xi in hmm.x:
            p[i] = xi
            
            # Емитовање свих потпутева
            yield from svi_putevi(hmm, k, p, i+1)

In [82]:
# Сви двочлани путеви у коцкарници
print('Сви двочлани путеви у коцкарници:', [*svi_putevi(kockarnica, 2)])

Сви двочлани путеви у коцкарници: ['FF', 'FB', 'BF', 'BB']


In [83]:
# Декодирање грубом силом
def naivno_dekodiranje(hmm, o, logg=False):
    # Одређивање дужине пута
    k = len(o)
    
    # Иницијализација оптималног пута
    p_opt = ''
    p_p_opt = float('-inf') if logg else 0
    
    # Рачунање вероватноће сваког пута
    for p in svi_putevi(hmm, k):
        p_po = log_p_puta_i_ops(hmm, p, o) if\
         logg else p_puta_i_ops(hmm, p, o)
        
        # Ажурирање оптималног ако треба
        if p_po > p_p_opt:
            p_opt = p
            p_p_opt = p_po
    
    # Враћање оптималног пута
    return p_p_opt, p_opt

In [84]:
# Највероватнији пут примера из уџбеника
print('Исход', o_knjiga, 'највероватније је настао на путу:',
      naivno_dekodiranje(kockarnica, o_knjiga))

Исход THTHHHTHTTH највероватније је настао на путу: (8.51265722900391e-05, 'FFFFFFFFFFF')


Логаритам је монотона трансформација, тако да се задатак максимизације не мења ни када се посматрају стабилније вредности $P_{\log}\{p, o\}$.

In [85]:
# Највероватнији пут примера из уџбеника
print('Исход', o_knjiga, 'највероватније је настао на путу:',
      naivno_dekodiranje(kockarnica, o_knjiga, True))

Исход THTHHHTHTTH највероватније је настао на путу: (-9.371371323297605, 'FFFFFFFFFFF')


Из изведене формуле је очигледно да је за свако израчунавање заједничке вероватноће потребно $O(k)$ корака, па је укупна временска сложеност наивног приступа $O(n^k k)$, што је релативно прихватљиво за кратке скривене путеве и мали број стања.

Путеви су, међутим, често врло дугачки, а *HMM* имају велики број скривених стања, те наивни приступ није прихватљив у општем случају. Стога је инжењер електротехнике Ендру Витерби 1967. предложио ефикасније решење, засновано на посебном [Витербијевом графу](https://www.asc.ohio-state.edu/goel.1//STAT825/PAPERS/viterbiErrBnds.pdf). Он се може схватити као врста Менхетн графа, појма који је представљен у петом поглављу уџбеника (*Chapter 5: How Do We Compare DNA Sequences? – Dynamic Programming*), а код ког је задатак оптимизација тежине пута од полазног до циљног (завршног) чвора. Осмишљен је на основу основног [временског својства](https://commons.wikimedia.org/wiki/File:Hmm_temporal_bayesian_net.svg) сваког Марковљевог модела, представљеног на слици [3.2].

[3.2]: #fig:vreme

<figure><img src="../slike/vreme.png" width="55%" id="fig:vreme" /><figcaption style="text-align: center;"><b>Слика 3.2</b>: Ток времена код скривених Марковљевих модела</figcaption></figure>

Сваки *HMM*, наиме, моделује један Марковљев процес, што је поменуто при дефиницији. Последица је да тренутно стање зависи искључиво од претходног на путу и ниједног другог – мапа $a$ моделује $p_{t-1} \mapsto p_t$, у ознакама са слике $x(t-1) \mapsto x(t)$. Исто тако, опсервација зависи искључиво од текућег стања – мапа  $b$ моделује $p_t \mapsto o_t$, у ознакама са слике $x(t) \mapsto y(t)$. Стога се *HMM* понекад дефинише и нешто другачије, као уређени пар $\{X, Y\}$, где је $X$ систем који се моделује, а $Y$ процес чије понашање директно зависи од $X$.

Прецизније, $X$ је Марковљев процес са неопсервабилним („скривеним”) стањима ($x$ из дефиниције), а циљ модела је да се нешто о том процесу сазна на основу опажања ($y$ из дефиниције) процеса $Y$, чије је понашање видљиво. Притом, условна расподела $Y$ (на слици конкретна вредност $y(t)$, а у низу опсервација приказ $o_t$) у неком временском тренутку $t$ (индекс низа) зависи искључиво од стања $X$ у том истом тренутку (на слици конкретна вредност $x(t)$, а на скривеном путу стање $p_t$). Приметно је да је ова дефиниција у суштини једнака претходно изложеним, с тим што је математички напреднија – углавном је теже разумети торку апстрактних статистичких процеса него једноставних структура попут скупова, низова, матрица и мапа. На конкретном примеру непоштене коцкарнице, $X$ је процес одабира (замене) новчића, а $Y$ процес бацања новчића, односно добијања исхода тог бацања.

Свеукупно, описано временско својство оправдава употребу Витербијевог графа, чији је пример за проблем непоштене коцкарнице дат на слици [3.3]. Граф се састоји из мреже (матрице) чворова чија основа има $n$ редова и $k$ колона. Свака колона састоји се од низа чворова који представљају сва скривена стања у тренутку $t$. Из сваког чвора у колони $t-1$ усмерена је по једна грана у сваки чвор из колоне $t$, на основу чињенице да се из сваког стања у тренутку $t-1$ може прећи у било које стање у тренутку $t$. Поред ове основе, мрежа има и два посебна чвора – извор (експлицитно почетно стање) и понор (експлицитно завршно стање). Замисао овакве мреже је да истовремено моделује све скривене путеве дужине $k$ кроз *HMM* са $n$ скривених стања.

[3.3]: #fig:kockvit

<figure><img src="../slike/kock_graf.png" width="65%" id="fig:kockvit" /><figcaption style="text-align: center;"><b>Слика 3.3</b>: Витербијев граф непоштене коцкарнице</figcaption></figure>

Стварно, различитих путева од извора до понора има тачно $n^k$, и сваки одговара једном скривеном путу у *HMM*. Остаје још питање како отежати гране Витербијевог графа, након чега се он може искористити за проблем максимизације кумулативне тежине у понору. То је заправо основни проблем над сваким Менхетн графом, који се може решити алгортмима из петог поглавља.

За стицање интуиције у вези са моћи Витербијевог графа, корисно је увести проблем [5]. Задатак је пронаћи највероватнији скривени пут дужине $k$.

[5]: #prob:maxput

<blockquote id="prob:maxput">

<b>Проблем 5</b>: Највероватнији скривени пут<br>
<i>Израчунати највероватнији скривени пут $p$ кроз HMM.</i><br>
<b>Улаз</b>: дужина $k$ скривеног пута кроз <i>HMM</i>$\{a, b, \pi\}$.<br>
<b>Излаз</b>: највероватнији скривени пут $p_{opt} = p_1...p_k$.

</blockquote>

Наивно решење проблема своди се на већ разматрану исцрпну претрагу простора скривених путева, којих је $n^k$. Вероватноћа сваког пута рачуна се у $O(k)$ корака, па је временска сложеност експоненцијална $O(n^k k)$.

In [86]:
# Највероватнији пут грубом силом
def naivni_opt_put(hmm, k, logg=False):
    # Иницијализација оптималног пута
    p_opt = ''
    p_p_opt = float('-inf') if logg else 0
    
    # Рачунање вероватноће сваког пута
    for p in svi_putevi(hmm, k):
        p_po = log_p_puta(hmm, p) if\
         logg else p_puta(hmm, p)
        
        # Ажурирање оптималног ако треба
        if p_po > p_p_opt:
            p_opt = p
            p_p_opt = p_po
    
    # Враћање оптималног пута
    return p_p_opt, p_opt

In [87]:
# Неколико примера броја бацања
bacanja = [0, 1, 3, 5]

# Највероватнији пут са k бацања
for k in bacanja:
    print(f'Ако је бацања {k}, највероватнији пут је:', naivni_opt_put(
          kockarnica, k), 'тј. log =', naivni_opt_put(kockarnica, k, True)[0])

Ако је бацања 0, највероватнији пут је: (1, '') тј. log = 0
Ако је бацања 1, највероватнији пут је: (0.5, 'F') тј. log = -0.6931471805599453
Ако је бацања 3, највероватнији пут је: (0.405, 'FFF') тј. log = -0.9038682118755978
Ако је бацања 5, највероватнији пут је: (0.32805000000000006, 'FFFFF') тј. log = -1.1145892431912505


Ипак, могуће је искористити Витербијев граф како би се постигло знатно побољшање. Нека је мрежа чворова представљена мапом $s$, таквом да $s_{x_i, t}$ складишти неки податак о чвору (стању) $x_i$ у тренутку $t$. Оваква структура погодна је за свођење полазног проблема на проблем динамичког програмирања. Како је крајњи циљ максимизација вероватноће пута, нека $s_{x_i, t}$ заправо складишти вероватноћу оптималног пута дужине $t$ који се завршава у стању $x_i$. Очигледно, за путеве јединичне дужине, односно у тренутку $t=1$, важи: $$s_{x_i, 1} = P\{x_i\} = \pi_{x_i} = a_{\pi, x_i}.$$

Испоставља се да се и остале тежине могу узети из мапе прелаза, што важи због темпоралног својства Марковљевих процеса. Како свако стање зависи искључиво од првог претходног, тако се и вероватноћа нејединичног пута максимизује тако што се размотре сва могућа претходна стања, односно за једно стање краћи путеви. Тако важи следећа рекурентна формула: $$s_{x_i, t} = \max_j \{s_{x_j, t-1} \cdot a_{x_j, x_i}\},$$ $$P\{p_{opt}\} = \max_p P\{p\} = \max_j \{s_{x_j, k}\}.$$

In [88]:
# Највероватнији пут Витербијем
def viterbi_put_p(hmm, k):
    # Специјалан празан пут
    if not k: return 1
    
    # Иницијализација (π)
    s = {xi: [hmm.pi[xi]] for xi in hmm.x}
    
    # Итерација (максимуми)
    for t in range(1, k):
        for xi in hmm.x:
            s[xi].append(max(s[xj][t-1] * hmm.a[xj][xi] for xj in hmm.x))
    
    # Терминација (максимум)
    return max(s[xj][k-1] for xj in hmm.x)

In [89]:
# Највероватнији пут са k бацања
for k in bacanja:
    p_viterbi = viterbi_put_p(kockarnica, k)
    
    # Извештавање о резултату
    print(f'Ако је бацања {k}, највероватнији пут је:',
          p_viterbi, f'({int(200*p_viterbi)}/200)')

Ако је бацања 0, највероватнији пут је: 1 (200/200)
Ако је бацања 1, највероватнији пут је: 0.5 (100/200)
Ако је бацања 3, највероватнији пут је: 0.405 (81/200)
Ако је бацања 5, највероватнији пут је: 0.32805000000000006 (65/200)


In [90]:
# Највероватнији пут Витербијем са путоказима
def viterbi_put(hmm, k):
    # Специјалан празан пут
    if not k: return 1, ''
    
    # Иницијализација скорова
    s = {xi: [hmm.pi[xi]] for xi in hmm.x}
    
    # Иницијализација путоказа
    p = {xi: [xi, ''] for xi in hmm.x}
    
    # Пролаз кроз време
    for t in range(1, k):
        # Пролаз кроз скривена стања
        for xi in hmm.x:
            # Одабир првог као оптималног
            x_opt = hmm.x[0]
            sx_opt = s[x_opt][t-1] * hmm.a[x_opt][xi]
            
            # Пролаз кроз остала стања
            for j in range(1, hmm.n):
                xj = hmm.x[j]
                sxi = s[xj][t-1] * hmm.a[xj][xi]
                
                # Одабир новог оптималног стања
                if sxi > sx_opt:
                    sx_opt = sxi
                    x_opt = xj
            
            # Додавање оптималног скора
            s[xi].append(sx_opt)
            
            # Додавање одговарајућег путоказа
            p[xi][1] = p[x_opt][0] + xi
        
        # Ажурирање свих путоказа
        for xi in hmm.x:
            p[xi][0] = p[xi][1]
        
    # Терминација алгоритма; опет
    # одабир првог као оптималног
    x_opt = hmm.x[0]
    sx_opt = s[x_opt][k-1]
    
    # Пролаз кроз остала стања
    for j in range(1, hmm.n):
        xj = hmm.x[j]
        sxj = s[xj][k-1]
        
        # Одабир новог оптималног стања
        if sxj > sx_opt:
            sx_opt = sxj
            x_opt = xj
    
    # Враћање оптималног пута
    return sx_opt, p[x_opt][0]

Слика [3.4] приказује како Витербијев граф моделује три бацања у непоштеном казину. Конкретно су гране отежане вероватноћама прелаза, па граф моделује и максимизује $P\{p\}$. Највероватнији пут наглашен је црвеном бојом.

[3.4]: #fig:tribac

<figure><img src="../slike/tri_bacanja.png" width="55%" id="fig:tribac" /><figcaption style="text-align: center;"><b>Слика 3.4</b>: Максимизација $P\{p\}$ са три бацања</figcaption></figure>

In [91]:
# Највероватнији пут са k бацања
for k in bacanja:
    p_viterbi = viterbi_put(kockarnica, k)
    
    # Извештавање о резултату
    print(f'Ако је бацања {k}, највероватнији пут је:',
          p_viterbi[1], f'({p_viterbi[0]}, {int(200*p_viterbi[0])}/200)')

Ако је бацања 0, највероватнији пут је:  (1, 200/200)
Ако је бацања 1, највероватнији пут је: F (0.5, 100/200)
Ако је бацања 3, највероватнији пут је: FFF (0.405, 81/200)
Ако је бацања 5, највероватнији пут је: FFFFF (0.32805000000000006, 65/200)


Наравно, проблеми са рачуном се решавају логаритамском трансформацијом: $$s_{\log, x_i, 1} = P_{\log}\{x_i\} = \pi_{\log, x_i} = a_{\log, \pi, x_i},$$ $$s_{\log, x_i, t} = \max_j \{s_{\log, x_j, t-1} + a_{\log, x_j, x_i}\},$$ $$P_{\log}\{p_{opt}\} = \max_p P_{\log}\{p\} = \max_j \{s_{\log, x_j, k}\}.$$ Ова верзија је боља и због тога што су Менхетн алгоритми адитивни по природи, односно засновани су на сабирању, а не множењу вредности.

In [92]:
# Највероватнији пут Витербијем
def log_viterbi_put_p(hmm, k):
    # Специјалан празан пут
    if not k: return 0
    
    # Иницијализација (π)
    s_log = {xi: [hmm.pi_log[xi]] for xi in hmm.x}
    
    # Итерација (максимуми)
    for t in range(1, k):
        for xi in hmm.x:
            s_log[xi].append(max(s_log[xj][t-1] + hmm.a_log[xj][xi] for xj in hmm.x))
    
    # Терминација (максимум)
    return max(s_log[xj][k-1] for xj in hmm.x)

In [93]:
# Највероватнији пут са k бацања
for k in bacanja:
    p_viterbi = log_viterbi_put_p(kockarnica, k)
    
    # Извештавање о резултату
    print(f'Ако је бацања {k}, највероватнији пут је:',
          f'e^{p_viterbi}', '=', exp(p_viterbi))

Ако је бацања 0, највероватнији пут је: e^0 = 1.0
Ако је бацања 1, највероватнији пут је: e^-0.6931471805599453 = 0.5
Ако је бацања 3, највероватнији пут је: e^-0.9038682118755978 = 0.405
Ако је бацања 5, највероватнији пут је: e^-1.1145892431912505 = 0.32805


In [94]:
# Највероватнији пут Витербијем са путоказима
def log_viterbi_put(hmm, k):
    # Специјалан празан пут
    if not k: return 0, ''
    
    # Иницијализација скорова
    s_log = {xi: [hmm.pi_log[xi]] for xi in hmm.x}
    
    # Иницијализација путоказа
    p = {xi: [xi, ''] for xi in hmm.x}
    
    # Пролаз кроз време
    for t in range(1, k):
        # Пролаз кроз скривена стања
        for xi in hmm.x:
            # Одабир првог као оптималног
            x_opt = hmm.x[0]
            sx_opt = s_log[x_opt][t-1] + hmm.a_log[x_opt][xi]
            
            # Пролаз кроз остала стања
            for j in range(1, hmm.n):
                xj = hmm.x[j]
                sxi = s_log[xj][t-1] + hmm.a_log[xj][xi]
                
                # Одабир новог оптималног стања
                if sxi > sx_opt:
                    sx_opt = sxi
                    x_opt = xj
            
            # Додавање оптималног скора
            s_log[xi].append(sx_opt)
            
            # Додавање одговарајућег путоказа
            p[xi][1] = p[x_opt][0] + xi
        
        # Ажурирање свих путоказа
        for xi in hmm.x:
            p[xi][0] = p[xi][1]
        
    # Терминација алгоритма; опет
    # одабир првог као оптималног
    x_opt = hmm.x[0]
    sx_opt = s_log[x_opt][k-1]
    
    # Пролаз кроз остала стања
    for j in range(1, hmm.n):
        xj = hmm.x[j]
        sxj = s_log[xj][k-1]
        
        # Одабир новог оптималног стања
        if sxj > sx_opt:
            sx_opt = sxj
            x_opt = xj
    
    # Враћање оптималног пута
    return sx_opt, p[x_opt][0]

In [95]:
# Највероватнији пут са k бацања
for k in bacanja:
    p_viterbi = log_viterbi_put(kockarnica, k)
    
    # Извештавање о резултату
    print(f'Ако је бацања {k}, највероватнији пут је:',
          p_viterbi[1], f'({p_viterbi[0]})')

Ако је бацања 0, највероватнији пут је:  (0)
Ако је бацања 1, највероватнији пут је: F (-0.6931471805599453)
Ако је бацања 3, највероватнији пут је: FFF (-0.9038682118755978)
Ако је бацања 5, највероватнији пут је: FFFFF (-1.1145892431912505)


Општи облик ове рекурентне релације заправо је заснован на тежинама грана $\tau$, где мапа облика $\tau_{x_i, x_j, t}$ означава тежину гране из чвора $x_i$ ка $x_j$ у тренутку $t$, укључујући експлицитни почетни извор $\pi$ и завршни понор $\omega$. Оне су у конкретном случају биле логаритми вероватноћа преласка или саме вероватноће, као на слици, у ком случају се множи уместо сабира: $$s_{x_i, 1} = \tau_{\pi, x_i},$$ $$s_{x_i, t} = \max_j \{s_{x_j, t-1} + \tau_{x_j, x_i, t}\},$$ $$P_{opt} = \max_j \{s_{x_j, k} + \tau_{x_j, \omega}\}.$$

In [96]:
# Максимизација вредности у понору Витербијевог графа;
# једноставна верзија без путоказа ради демонстрације
def viterbi_graf(x, tau, k):
    # Специјалан празан пут
    if not k: return 0
    
    # Иницијализација (π)
    s = {xi: [tau('π', xi)] for xi in x}
    
    # Итерација (максимуми)
    for t in range(1, k):
        for xi in x:
            s[xi].append(max(s[xj][t-1] + tau(xj, xi, t) for xj in x))
    
    # Терминација (максимум)
    return max(s[xj][k-1] + tau(xj, 'ω') for xj in x)

In [97]:
# Функција (уместо мапе) тежина код коцкарнице
def tau_putevi(xi, xj, t=None):
    # Тежине завршног стања су јединичне вероватноће
    if xj == 'ω':
        return 0 # log(1)
    
    # Тежине између осталих стања су вероватноће прелаза
    return kockarnica.a_log[xi][xj]

In [98]:
# Највероватнији пут са k бацања
for k in bacanja:
    p_viterbi = viterbi_graf(kockarnica.x, tau_putevi, k)
    
    # Извештавање о резултату
    print(f'Ако је бацања {k}, највероватнији пут је:', p_viterbi)

Ако је бацања 0, највероватнији пут је: 0
Ако је бацања 1, највероватнији пут је: -0.6931471805599453
Ако је бацања 3, највероватнији пут је: -0.9038682118755978
Ако је бацања 5, највероватнији пут је: -1.1145892431912505


Како је моделовано $P\{p\}$, тако се може моделовати и $P\{p, o\}$ за фиксирано $o$. У првом случају, важило је $\tau_{x_i, x_j, t} = \tau_{x_i, x_j} = a_{x_i, x_j}$, док је у другом нешто сложеније $\tau_{x_i, x_j, t} = a_{x_i, x_j} \cdot b_{x_j, o_t}$, дакле вероватноћа догађаја да *HMM* пређе из стања $x_i$ у стање $x_j$, након чега емитује симбол $o_t$. Формуле су сада: $$s_{x_i, 1} = \pi_{x_i} \cdot b_{x_i, o_1} = a_{\pi, x_i} \cdot b_{x_i, o_1},$$ $$s_{x_i, t} = \max_j \{s_{x_j, t-1} \cdot a_{x_j, x_i} \cdot b_{x_i, o_t}\},$$ $$P\{p_{opt}, o\} = \max_p P\{p, o\} = \max_j \{s_{x_j, k}\}.$$

In [99]:
# Декодирање Витербијем; одмах је
# имплементирана пуна верзија
def viterbi_dekodiranje(hmm, o):
    # Одређивање дужине пута
    k = len(o)
    
    # Специјалан празан пут
    if not k: return 1, ''
    
    # Иницијализација скорова
    s = {xi: [hmm.pi[xi] * hmm.b[xi][o[0]]] for xi in hmm.x}
    
    # Иницијализација путоказа
    p = {xi: [xi, ''] for xi in hmm.x}
    
    # Пролаз кроз време
    for t in range(1, k):
        # Пролаз кроз скривена стања
        for xi in hmm.x:
            # Одабир првог као оптималног
            x_opt = hmm.x[0]
            sx_opt = s[x_opt][t-1] * hmm.a[x_opt][xi] * hmm.b[xi][o[t]]
            
            # Пролаз кроз остала стања
            for j in range(1, hmm.n):
                xj = hmm.x[j]
                sxi = s[xj][t-1] * hmm.a[xj][xi] * hmm.b[xi][o[t]]
                
                # Одабир новог оптималног стања
                if sxi > sx_opt:
                    sx_opt = sxi
                    x_opt = xj
            
            # Додавање оптималног скора
            s[xi].append(sx_opt)
            
            # Додавање одговарајућег путоказа
            p[xi][1] = p[x_opt][0] + xi
        
        # Ажурирање свих путоказа
        for xi in hmm.x:
            p[xi][0] = p[xi][1]
        
    # Терминација алгоритма; опет
    # одабир првог као оптималног
    x_opt = hmm.x[0]
    sx_opt = s[x_opt][k-1]
    
    # Пролаз кроз остала стања
    for j in range(1, hmm.n):
        xj = hmm.x[j]
        sxj = s[xj][k-1]
        
        # Одабир новог оптималног стања
        if sxj > sx_opt:
            sx_opt = sxj
            x_opt = xj
    
    # Враћање оптималног пута
    return sx_opt, p[x_opt][0]

In [100]:
# Највероватнији пут примера из уџбеника
print('Исход', o_knjiga, 'највероватније је настао на путу:',
      viterbi_dekodiranje(kockarnica, o_knjiga))

Исход THTHHHTHTTH највероватније је настао на путу: (8.51265722900391e-05, 'FFFFFFFFFFF')


Логаритамске верзије се изводе аналогно, па се не наводе као можда сувишне.

In [101]:
# Декодирање Витербијем; одмах је
# имплементирана пуна верзија
def log_viterbi_dekodiranje(hmm, o):
    # Одређивање дужине пута
    k = len(o)
    
    # Специјалан празан пут
    if not k: return 0, ''
    
    # Иницијализација скорова
    s_log = {xi: [hmm.pi_log[xi] + hmm.b_log[xi][o[0]]] for xi in hmm.x}
    
    # Иницијализација путоказа
    p = {xi: [xi, ''] for xi in hmm.x}
    
    # Пролаз кроз време
    for t in range(1, k):
        # Пролаз кроз скривена стања
        for xi in hmm.x:
            # Одабир првог као оптималног
            x_opt = hmm.x[0]
            sx_opt = s_log[x_opt][t-1] + hmm.a_log[x_opt][xi] + hmm.b_log[xi][o[t]]
            
            # Пролаз кроз остала стања
            for j in range(1, hmm.n):
                xj = hmm.x[j]
                sxi = s_log[xj][t-1] + hmm.a_log[xj][xi] + hmm.b_log[xi][o[t]]
                
                # Одабир новог оптималног стања
                if sxi > sx_opt:
                    sx_opt = sxi
                    x_opt = xj
            
            # Додавање оптималног скора
            s_log[xi].append(sx_opt)
            
            # Додавање одговарајућег путоказа
            p[xi][1] = p[x_opt][0] + xi
        
        # Ажурирање свих путоказа
        for xi in hmm.x:
            p[xi][0] = p[xi][1]
        
    # Терминација алгоритма; опет
    # одабир првог као оптималног
    x_opt = hmm.x[0]
    sx_opt = s_log[x_opt][k-1]
    
    # Пролаз кроз остала стања
    for j in range(1, hmm.n):
        xj = hmm.x[j]
        sxj = s_log[xj][k-1]
        
        # Одабир новог оптималног стања
        if sxj > sx_opt:
            sx_opt = sxj
            x_opt = xj
    
    # Враћање оптималног пута
    return sx_opt, p[x_opt][0]

In [102]:
# Највероватнији пут примера из уџбеника
print('Исход', o_knjiga, 'највероватније је настао на путу:',
      log_viterbi_dekodiranje(kockarnica, o_knjiga))

Исход THTHHHTHTTH највероватније је настао на путу: (-9.371371323297605, 'FFFFFFFFFFF')


In [103]:
# Основни пример параметара са ROSALIND
a = {'A': {'A': .641, 'B': .359},
     'B': {'A': .729, 'B': .271}}
b = {'A': {'x': .117, 'y': .691, 'z': .192},
     'B': {'x': .097, 'y': .42 , 'z': .483}}
pi = {'A': 1/2, 'B': 1/2}

# Основни пример опажања са ROSALIND
o = 'xyxzzxyxyy'

# Модел према изложеном примеру
rosalind = HMM(a, b, pi)

# Вероватноћа пута из примера
print(f'Ако је опажено {o},', 'највероватнији пут је:',
      log_viterbi_dekodiranje(rosalind, o)[1])

# Проба и наивног алгоритма
print(f'Ако је опажено {o},', 'највероватнији пут је:',
      naivno_dekodiranje(rosalind, o)[1])

Ако је опажено xyxzzxyxyy, највероватнији пут је: AAABBAAAAA
Ако је опажено xyxzzxyxyy, највероватнији пут је: AAABBAAAAA


In [104]:
# Додатни пример параметара са ROSALIND
a = {'A': {'A': .634, 'B': .366},
     'B': {'A': .387, 'B': .613}}
b = {'A': {'x': .532, 'y': .226, 'z': .251},
     'B': {'x': .457, 'y': .192, 'z': .351}}
pi = {'A': 1/2, 'B': 1/2}

# Додатни пример опажања са ROSALIND
o = 'zxxxxyzzxyxyxyzxzzxzzzyzzxxxzxxyyyzxyxzyxyxyzyyyyzzyyyyzzxzxzyzzzzyxzxxxyxxxxyyzyyzyyyxzzzzyzxyzzyyy'

# Модел према изложеном примеру
rosalind = HMM(a, b, pi)

# Вероватноћа пута из примера
print(f'Ако је опажено {o},\n', 'највероватнији пут је:',
      log_viterbi_dekodiranje(rosalind, o)[1])

Ако је опажено zxxxxyzzxyxyxyzxzzxzzzyzzxxxzxxyyyzxyxzyxyxyzyyyyzzyyyyzzxzxzyzzzzyxzxxxyxxxxyyzyyzyyyxzzzzyzxyzzyyy,
 највероватнији пут је: AAAAAAAAAAAAAABBBBBBBBBBBAAAAAAAAAAAAAAAAAAAAAAAAAAAAAABBBBBBBBBBBAAAAAAAAAAAAAAAAAAAAABBBBBBBBBBAAA


Када се говори о проблему максимизације, могуће је моделовати и $P\{o | p\}$, с тим што за то није неопходан Витербијев граф. Поставка [6] је у наставку.

[6]: #prob:maxpops

<blockquote id="prob:maxpops">

<b>Проблем 6</b>: Највероватније опсервације на путу<br>
<i>Израчунати највероватнији низ емисија на путу $p$ кроз HMM.</i><br>
<b>Улаз</b>: скривени пут $p = p_1...p_k$ кроз <i>HMM</i>$\{a, b, \pi\}$.<br>
<b>Излаз</b>: највероватнија опажања $o_{opt} = o_1...o_k$ на путу $p$.

</blockquote>

Формула максималне вероватноће је једноставна, по свакој опсервацији: $$P\{o_{opt} | p\} = \prod_{i=1}^k \max_j b_{p_i, y_j}.$$

In [105]:
# Највероватније опажање на путу
def opt_ops_na_putu(hmm, p):
    # Одређивање дужине пута
    k = len(p)
    
    # Иницијализација опсервација
    o = ''
    p_o = 1
    
    # Пролаз кроз свако стање
    for i in range(k):
        # Одабир првог као оптималног
        y_opt = hmm.y[0]
        p_opt = hmm.b[p[i]][y_opt]
        
        # Пролаз кроз остала стања
        for j in range(1, hmm.m):
            yj = hmm.y[j]
            pj = hmm.b[p[i]][y_opt]
            
            # Одабир новог оптималног стања 
            if pj > p_opt:
                p_opt = pj
                y_opt = y_j
        
        # Додавање оптималтног опажања
        o = o + y_opt
        p_o *= p_opt
    
    # Враћање оптималног опажања
    return p_o, o

In [106]:
# Највероватније опажање на путу из уџбеника
print(f'Највероватније опажање на путу {p_knjiga}:',
      opt_ops_na_putu(kockarnica, p_knjiga))

Највероватније опажање на путу FFFBBBBBFFF: (0.0037078857421875, 'HHHHHHHHHHH')


Претходно изложени систем рада са *HMM*, заснован на Витербијевом графу и динамичком програмирању назива се [Витербијев алгоритам](http://rosalind.info/problems/ba10c/), посебно када се примењује на декодирање – проблем [1]. Изведеним рекурентним формулама још само треба додати систем путоказа, што је урађено у коду, како би поред вероватноће оптималног пута могао бити добијен (реконструисан) и сам пут.

[1]: #prob:dekod

Важна предност Витербијевог алгоритма је његова сложеност. Основна мрежа графа има $nk$ чворова и $n^2 (k-1)$ грана (из свих $n$ стања ка свим $n$ стањима у $k-1$ временском прелазу), чему се додају још два додатна чвора и $2n$ грана повезаних са тим чворовима. Израчунавање иде по чворовима, користећи гране, тако да је укупна временска и просторна сложеност $O(n^2 k)$ уколико би се користио експлицитни граф. Ово је временски знатно боље од наивних $O(n^k k)$, али је просторно захтевније, јер наивни приступ захтева само $O(k)$ помоћног простора. Ради се о уобичајеном компромису између времена и простора, када алгоритам за бржи рад захтева више меморије.

У многим случајевима је, међутим, граф довољно само замислити, а у раду користити искључиво мапу $s$ и путоказе, а не и тежине $\tau$, што за собом повлачи нешто бољу просторну сложеност $O(nk)$. Ово важи код декодирања, јер су тежине (гране) већ похрањене у мапама $a$ и $b$. Други начин побољшања је ако се $\tau$ представи као функција уместо мапа, што је такође могуће код проблема декодирања, јер тежине не зависе од временског тренутка. Додатно, уколико је довољно добити само максималну вероватноћу, а не и сам пут, не треба чувати путоказе, а мапу $s$ могуће је свести на два низа који се наизменично попуњавају, чиме се просторна сложеност своди на $O(n)$.

In [107]:
# Највероватнији пут Витербијем
def viterbi_put_lite(hmm, k):
    # Специјалан празан пут
    if not k: return 1
    
    # Иницијализација (π)
    s = {xi: [hmm.pi[xi], None] for xi in hmm.x}
    
    # Итерација (максимуми)
    for t in range(1, k):
        for xi in hmm.x:
            s[xi][1] = max(s[xj][0] * hmm.a[xj][xi] for xj in hmm.x)
        
        # Преписовање низа
        for xi in hmm.x:
            s[xi][0] = s[xi][1]
    
    # Терминација (максимум)
    return max(s[xj][0] for xj in hmm.x)

In [108]:
# Највероватнији пут са k бацања
for k in bacanja:
    p_viterbi = viterbi_put_lite(kockarnica, k)
    
    # Извештавање о резултату
    print(f'Ако је бацања {k}, највероватнији пут је:',
          p_viterbi, f'({int(200*p_viterbi)}/200)')

Ако је бацања 0, највероватнији пут је: 1 (200/200)
Ако је бацања 1, највероватнији пут је: 0.5 (100/200)
Ако је бацања 3, највероватнији пут је: 0.405 (81/200)
Ако је бацања 5, највероватнији пут је: 0.32805000000000006 (65/200)


У пракси је могуће постићи још бољу сложеност. Наиме, многи *HMM* имају забрањене прелазе између неких стања. Таква ситуација веома је честа, а приказана је још на уводној слици [1.2]. Могуће је без проблема уклонити гране Витербијевог графа које одговарају таквим прелазима, што знатно смањује време извршавања алгоритма. Посебно занимљиви могу бити недозвољени прелази који укључују извор и понор. На тај начин се може онемогућити да неко стање буде полазно или завршно, што често има биолошки смисао, о чему ће бити речи на познатом примеру профилних модела протеина.

[1.2]: #fig:hmm

## 3.5 Алгоритам „напред” [⮭]<a id="par:nap"></a>

[⮭]: #par:mod

Сваки *HMM*, подсећања ради, може се схватити као уређени пар два процеса – скривеног Марковљевог који се очитава скривеним путем $p$ и опсервабилног зависног који се очитава низом емисија $o$. Цела идеја *HMM* јесте детаљно статистички потковано моделовање тих процеса и њиховог односа.

Досад је било речи о појединачној расподели $P\{p\}$, условној $P\{o | p\}$ и заједничкој $P\{p, o\}$. Како је код последњег подразумевано да је позната ниска $o$, тиме је заправо моделована и условна расподела $P\{p | o\}$. Могуће је моделовати и појединачну расподелу $P\{o\}$, која је једина преостала како би модел био комплетиран. Основни задатак из овог домена дат је кроз проблем [7]. Потребно је израчунати вероватноћу да *HMM* емитује неку ниску дужине $k$.

[7]: #prob:ops

<blockquote id="prob:ops">

<b>Проблем 7</b>: <a href="http://rosalind.info/problems/ba10d/">Вероватноћа опсервација</a><br>
<i>Израчунати вероватноћу приказа $o$ у HMM.</i><br>
<b>Улаз</b>: низ опажања $o = o_1...o_k$ у <i>HMM</i>$\{a, b, \pi\}$.<br>
<b>Излаз</b>: вероватноћа улазног низа опажања $P\{o\}$.

</blockquote>

Још једном, наивни приступ састоји се од генерисања свих $n^k$ путева и сумирања вероватноћа на њима, према раније изложеној маргинализацији $P\{o\} = \sum_p P\{p, o\}$.

In [109]:
# Библиотека за сумирање логаритама;
# објашњење је у наставку поднаслова
from scipy.special import logsumexp as lse

In [110]:
# Вероватноћа опажања грубом силом
def naivni_p_ops(hmm, o, logg=False):
    # Иницијализација вероватноће
    p_o = float('-inf') if logg else 0
    
    # Одређивање дужине пута
    k = len(o)
    
    # Додавање вероватноће сваког пута
    for p in svi_putevi(hmm, k):
        p_o = lse([p_o, log_p_puta_i_ops(hmm, p, o)]) if\
          logg else p_o + p_puta_i_ops(hmm, p, o)
    
    # Враћање коначног збира
    return p_o

In [111]:
# Вероватноћа опсервација из уџбеника
print(f'Вероватноћа исхода {o_knjiga}:', naivni_p_ops(kockarnica, o_knjiga))

Вероватноћа исхода THTHHHTHTTH: 0.00034577010353654546


In [112]:
# Лог-вероватноћа опсервација из уџбеника
print(f'Лог-вероватноћа исхода {o_knjiga}:', naivni_p_ops(kockarnica, o_knjiga, True))

Лог-вероватноћа исхода THTHHHTHTTH: -7.9697364443909


Занимљиво је, међутим, приметити да је ова маргинализација врло слична садржају мапе $s$ код Витербијевог алгоритма, која у понору израчунава $P\{p_{opt}, o\} = \max_p P\{p, o\}$. Једина разлика је у примењеном оператору – да ли је сума или максимум. Ово није случајно, јер је идеја обе формуле обилазак свих скривених путева кроз *HMM* истовремено.

Свукупно, сасвим је оправдано увести нову мапу $f$ (од енгл. *forward* – напред), надахнуту претходном $s$ (од енгл. *score* – скор), такву да елемент $f_{x_i, t}$ складишти вероватноћу префикса опажања дужине $t$ (подниз $o_1...o_t$), насталог на скривеном путу који завршава стањем $x_i$. Одатле су формуле: $$f_{x_i, 1} = \pi_{x_i} \cdot b_{x_i, o_1} = a_{\pi, x_i} \cdot b_{x_i, o_1},$$ $$f_{x_i, t} = \sum_j f_{x_j, t-1} \cdot a_{x_j, x_i} \cdot b_{x_i, o_t},$$ $$P\{o\} = \sum_j f_{x_j, k}.$$

In [113]:
# Вероватноћа опсервација Витербијем
def forward(hmm, o):
    # Одређивање дужине пута
    k = len(o)
    
    # Специјалан празан пут
    if not k: return 1
    
    # Иницијализација (π)
    f = {xi: [hmm.pi[xi] * hmm.b[xi][o[0]]] for xi in hmm.x}
    
    # Итерација (суме)
    for t in range(1, k):
        for xi in hmm.x:
            f[xi].append(sum(f[xj][t-1] * hmm.a[xj][xi] * hmm.b[xi][o[t]] for xj in hmm.x))
    
    # Терминација (сума)
    return sum(f[xj][k-1] for xj in hmm.x)

In [114]:
# Вероватноћа опсервација из уџбеника
print(f'Вероватноћа исхода {o_knjiga}:', forward(kockarnica, o_knjiga))

Вероватноћа исхода THTHHHTHTTH: 0.0003457701035365463


In [115]:
# Основни пример параметара са ROSALIND
a = {'A': {'A': .303, 'B': .697},
     'B': {'A': .831, 'B': .169}}
b = {'A': {'x': .533, 'y': .065, 'z': .402},
     'B': {'x': .342, 'y': .334, 'z': .324}}
pi = {'A': 1/2, 'B': 1/2}

# Основни пример опажања са ROSALIND
o = 'xzyyzzyzyy'

# Модел према изложеном примеру
rosalind = HMM(a, b, pi)

# Вероватноћа опсервација из примера
print(f'Вероватноћа исхода {o}:', forward(rosalind, o))

# Проба и наивног алгоритма
print(f'Вероватноћа исхода {o}:', naivni_p_ops(rosalind, o))

Вероватноћа исхода xzyyzzyzyy: 1.1005510319694851e-06
Вероватноћа исхода xzyyzzyzyy: 1.1005510319694877e-06


In [116]:
# Додатни пример параметара са ROSALIND
a = {'A': {'A': .994, 'B': .006},
     'B': {'A': .563, 'B': .437}}
b = {'A': {'x': .55 , 'y': .276, 'z': .174},
     'B': {'x': .311, 'y': .368, 'z': .321}}
pi = {'A': 1/2, 'B': 1/2}

# Додатни пример опажања са ROSALIND
o = 'zxxxzyyxyzyxyyxzzxzyyxzzxyxxzyzzyzyzzyxxyzxxzyxxzxxyzzzzzzzxyzyxzzyxzzyzxyyyyyxzzzyzxxyyyzxyyxyzyyxz'

# Модел према изложеном примеру
rosalind = HMM(a, b, pi)

# Вероватноћа опсервација из примера
print('Вероватноћа исхода', o[:len(o)//2], '\n',
      f'{o[len(o)//2:]}:', forward(rosalind, o))

Вероватноћа исхода zxxxzyyxyzyxyyxzzxzyyxzzxyxxzyzzyzyzzyxxyzxxzyxxzx 
 xyzzzzzzzxyzyxzzyxzzyzxyyyyyxzzzyzxxyyyzxyyxyzyyxz: 4.0821070838067285e-55


Као и досад, логаритамске верзије производе мењају збировима. Овога пута има и један додатак: сума се мења посебним оператором $\operatorname{logsumexp}_j f(j)$, који моделује сабирање у логаритамском домену – апроксимира $\log \sum_j e^{f(j)}$.

In [117]:
# Лог-вероватноћа опсервација Витербијем
def log_forward(hmm, o):
    # Одређивање дужине пута
    k = len(o)
    
    # Специјалан празан пут
    if not k: return 0
    
    # Иницијализација (π)
    f_log = {xi: [hmm.pi_log[xi] + hmm.b_log[xi][o[0]]] for xi in hmm.x}
    
    # Итерација (суме)
    for t in range(1, k):
        for xi in hmm.x:
            f_log[xi].append(lse([f_log[xj][t-1] + hmm.a_log[xj][xi] + hmm.b_log[xi][o[t]] for xj in hmm.x]))
    
    # Терминација (сума)
    return lse([f_log[xj][k-1] for xj in hmm.x])

In [118]:
# Лог-вероватноћа опсервација из уџбеника
print(f'Лог-вероватноћа исхода {o_knjiga}:', log_forward(kockarnica, o_knjiga))

Лог-вероватноћа исхода THTHHHTHTTH: -7.969736444390883


У наставку, ваља поменути и сродан проблем одређивања највероватнијег исхода, односно $o_{opt} = \operatorname{argmax}_o P\{o\}$. Формулација је дата проблемом [8].

[8]: #prob:maxops

<blockquote id="prob:maxops">

<b>Проблем 8</b>: Највероватније опсервације<br>
<i>Израчунати највероватнији низ емисија у HMM.</i><br>
<b>Улаз</b>: дужина $k$ пута кроз <i>HMM</i>$\{a, b, \pi\}$.<br>
<b>Излаз</b>: највероватнија опажања $o_{opt} = o_1...o_k$.

</blockquote>

И овде је наивно решење сувише неефикасно. Штавише, лошије је сложености од досадашњих $O(n^k k)$, јер је сада потребно генерисати и сваки могући низ опсервација. Сложеност исцрпне претраге стога је $O(n^k m^k k)$. Нешто боља сложеност добија се ако се не генеришу сви путеви, јер се свако од укупно $m^k$ опажања може оценити већ изложеним алгоритмом „напред”. Тада је свеукупна сложеност $O(n^2 m^k k)$ и једино је та верзија имплементирана у наставку.

In [119]:
# Сва опажања одређене дужине
def sve_ops(hmm, k, o=None, i=0):
    # Иницијализација празног опажања
    if not o:
        o = [''] * k
    
    # Емитовање опажања ако је готово
    if i == k:
        yield ''.join(o)
    else:
        # Постављање свих могућих симбола
        for yi in hmm.y:
            o[i] = yi
            
            # Емитовање свих подопажања
            yield from sve_ops(hmm, k, o, i+1)

In [120]:
# Сва двочлана опажања у коцкарници
print('Сва двочлана опажања у коцкарници:', [*sve_ops(kockarnica, 2)])

Сва двочлана опажања у коцкарници: ['HH', 'HT', 'TH', 'TT']


In [121]:
# Оптимално опажање грубом силом
def naivna_opt_ops(hmm, k, logg=False):
    # Иницијализација оптималне емисије
    o_opt = ''
    p_opt = float('-inf') if logg else 0
    
    # Рачунање вероватноће сваке емисије
    for o in sve_ops(hmm, k):
        p_o = log_forward(hmm, o) if\
        logg else forward(hmm, o)
        
        # Ажурирање оптималне ако треба
        if p_o > p_opt:
            p_opt = p_o
            o_opt = o
    
    # Враћање оптималног опажања
    return p_opt, o_opt

In [122]:
# Оптимално опажање са k бацања
for k in bacanja:
    print(f'Ако је бацања {k}, највероватнија опажања су:', naivna_opt_ops(
          kockarnica, k), 'тј. log =', naivna_opt_ops(kockarnica, k, True)[0])

Ако је бацања 0, највероватнија опажања су: (1, '') тј. log = 0
Ако је бацања 1, највероватнија опажања су: (0.625, 'H') тј. log = -0.4700036292457356
Ако је бацања 3, највероватнија опажања су: (0.26601562500000003, 'HHH') тј. log = -1.3242002313240955
Ако је бацања 5, највероватнија опажања су: (0.12081665039062502, 'HHHHH') тј. log = -2.1134811686202255


Напредно решење може се конструисати помоћу тродимензионе верзије Витербијевог графа (предлог аутора Певзнера), где нову димензију чине све могуће опсервације по моделу. Сада је идеја применом оба оператора заредом успешно максимизовати суму $\max_o \sum_p P\{p, o\} = P\{o_{opt}\}$.

Алтернативни поглед на ствари подразумева остајање у дводимензионом простору – замисао је да из сваког од $n$ стања (такође и почетног $\pi$) ка свим $n$ стањима у $k-1$ временском прелазу иде по $m$ грана, по једна за сваку могућу опсервацију. Тиме гране Витербијевог (мулти)графа више не моделују само прелазе из једног стања у друго, већ успут и емисије. Тежине се одабирају тако да осликавају вероватноћу промене стања, а затим емитовања симбола представљеног граном. Сваки пут од извора до понора сада није само скривени пут $p$, већ пут $p$ (чворови) са придруженим опажањима $o$ (гране). Максимални збир добија се максимизирањем сума између нивоа. Сложеност је у том случају $O(n^2 m k)$, а формуле (логаритамске су аналогне): $$f_{x_i, 1} = \max_k \{\pi_{x_i} \cdot b_{x_i, y_k}\} = \max_k \{a_{\pi, x_i} \cdot b_{x_i, y_k}\},$$ $$f_{x_i, t} = \max_k \sum_j f_{x_j, t-1} \cdot a_{x_j, x_i} \cdot b_{x_i, y_k},$$ $$P\{o_{opt}\} = \max_o P\{o\} = \sum_j f_{x_j, k}.$$

In [123]:
# Оптимално опажање Витербијем; једноставна
# верзија без путоказа ради демонстрације
def forward_opt(hmm, k):
    # Специјалан празан пут
    if not k: return 1
    
    # Иницијализација (π)
    f = {xi: [max(hmm.pi[xi] * hmm.b[xi][yk] for yk in hmm.y)] for xi in hmm.x}
    
    # Итерација (макс-суме)
    for t in range(1, k):
        for xi in hmm.x:
            f[xi].append(max(sum(f[xj][t-1] * hmm.a[xj][xi] * hmm.b[xi][yk] for xj in hmm.x) for yk in hmm.y))
    
    # Терминација (сума)
    return sum(f[xj][k-1] for xj in hmm.x)

In [124]:
# Оптимално опажање са k бацања
for k in bacanja:
    print(f'Ако је бацања {k}, највероватнија опажања су:', forward_opt(kockarnica, k))

Ако је бацања 0, највероватнија опажања су: 1
Ако је бацања 1, највероватнија опажања су: 0.625
Ако је бацања 3, највероватнија опажања су: 0.26601562500000003
Ако је бацања 5, највероватнија опажања су: 0.12081665039062502


Заменом суме максимумом у претходним формулама, добија се највероватнији пар скривеног пута дужине $k$ и на њему емитоване ниске симбола. То је решење проблема [9], сличног досад разматранима.

[9]: #prob:maxpo

<blockquote id="prob:maxpo">

<b>Проблем 9</b>: Највероватнији скривени пут и опсервације<br>
<i>Израчунати највероватнији пут и опажања у HMM.</i><br>
<b>Улаз</b>: дужина $k$ пута кроз <i>HMM</i>$\{a, b, \pi\}$.<br>
<b>Излаз</b>: највероватнија комбинација пута $p$ и опажања $o$.

</blockquote>

То је, дакле, $\max P\{p, o\}$, што је исплативије од $n^k m^k$ или $n^2 m^k$ наивних покушаја из наставка.

In [125]:
# Оптимални пар пута и опажања грубом силом
def naivni_opt_po(hmm, k, logg=False):
    # Иницијализација оптимални параметара
    p_opt = ''
    o_opt = ''
    p_po = float('-inf') if logg else 0
    
    # Рачунање вероватноће сваког пара
    for o in sve_ops(hmm, k):
        p_pio, p = log_viterbi_dekodiranje(hmm, o) \
           if logg else viterbi_dekodiranje(hmm,o)
        
        # Ажурирање оптималног ако треба
        if p_pio > p_po:
            p_po = p_pio
            p_opt = p
            o_opt = o
    
    # Враћање оптималног пута
    return p_po, p_opt, o_opt

In [126]:
# Оптимални пар пута и опажања са k бацања
for k in bacanja:
    print(f'Ако је бацања {k}, највероватнији догађај је:', naivni_opt_po(kockarnica, k))

Ако је бацања 0, највероватнији догађај је: (1, '', '')
Ако је бацања 1, највероватнији догађај је: (0.375, 'B', 'H')
Ако је бацања 3, највероватнији догађај је: (0.17085937500000004, 'BBB', 'HHH')
Ако је бацања 5, највероватнији догађај је: (0.07784780273437501, 'BBBBB', 'HHHHH')


In [127]:
# Оптимални пар пута и опажања са k бацања
for k in bacanja:
    print(f'Ако је бацања {k}, највероватнији догађај је:', naivni_opt_po(kockarnica, k, True))

Ако је бацања 0, највероватнији догађај је: (0, '', '')
Ако је бацања 1, највероватнији догађај је: (-0.9808292530117262, 'B', 'H')
Ако је бацања 3, највероватнији догађај је: (-1.7669144292309404, 'BBB', 'HHH')
Ако је бацања 5, највероватнији догађај је: (-2.5529996054501547, 'BBBBB', 'HHHHH')


Формуле коришћене у коду у наставку су (и овде су логаритамске верзије аналогне, па се не наводе као сувишне): $$f_{x_i, 1} = \max_k \{\pi_{x_i} \cdot b_{x_i, y_k}\} = \max_k \{a_{\pi, x_i} \cdot b_{x_i, y_k}\},$$ $$f_{x_i, t} = \max_{j, k} \{f_{x_j, t-1} \cdot a_{x_j, x_i} \cdot b_{x_i, y_k}\},$$ $$\max P\{p, o\} = \max_j \{f_{x_j, k}\}.$$

In [128]:
# Оптимални пар пута и опажања Витербијем;
# верзија без путоказа ради демонстрације
def forward_po(hmm, k):
    # Специјалан празан пут
    if not k: return 1
    
    # Иницијализација (π)
    f = {xi: [max(hmm.pi[xi] * hmm.b[xi][yk] for yk in hmm.y)] for xi in hmm.x}
    
    # Итерација (максимум)
    for t in range(1, k):
        for xi in hmm.x:
            f[xi].append(max(max(f[xj][t-1] * hmm.a[xj][xi] * hmm.b[xi][yk] for xj in hmm.x) for yk in hmm.y))
    
    # Терминација (сума)
    return max(f[xj][k-1] for xj in hmm.x)

In [129]:
# Оптимални пар пута и опажања са k бацања
for k in bacanja:
    print(f'Ако је бацања {k}, највероватнији догађај је:', forward_po(kockarnica, k))

Ако је бацања 0, највероватнији догађај је: 1
Ако је бацања 1, највероватнији догађај је: 0.375
Ако је бацања 3, највероватнији догађај је: 0.17085937500000004
Ако је бацања 5, највероватнији догађај је: 0.07784780273437501


Комплетности ради, могу се формално представити и проблеми [10] и [11], којима се експлицитно израчунава $P\{p | o\}$ и $\max_p P\{p | o\}$ за познато $o$.

[10]: #prob:putpri
[11]: #prob:maxputpri

<blockquote id="prob:putpri">

<b>Проблем 10</b>: Вероватноћа пута при исходу<br>
<i>Израчунати вероватноћу пута $p$ кроз HMM ако је опажено $o$.</i><br>
<b>Улаз</b>: ниска $o = o_1...o_k$ коју је емитовао <i>HMM</i>$\{a, b, \pi\}$ и скривени пут $p = p_1...p_k$ кроз који је прошао.<br>
<b>Излаз</b>: условна вероватноћа пута при приказу $P\{p | o\}$.

</blockquote>

Сама вероватноћа пута ако је опажена нека секвенца емисија може се израчунати преко формуле условне вероватноће. Решење је, дакле: $$P\{p | o\} = \frac{P\{p, o\}}{P\{o\}}.$$ Главнина оваквог приступа је израчунавање вероватноће исхода, тако да је сложеност $O(n^2 k)$. Наивни приступ би, као и досад, узео $O(n^k k)$ времена.

In [130]:
# Вероватноћа пута при опажању
def p_puta_pri_ops(hmm, p, o):
    # Заједничка вероватноћа пута и опажања
    p_po = p_puta_i_ops(hmm, p, o)
    
    # Вероватноћа опажања кроз сваки пут
    p_o = forward(hmm, o)
    
    # Условна вероватноћа као резултат дељења
    return p_po / p_o

In [131]:
# Вероватноћа пута при опсервацији из уџбеника
print(f'Вероватноћа пута {p_knjiga} при исходу {o_knjiga}:',
      p_puta_pri_ops(kockarnica, p_knjiga, o_knjiga))

Вероватноћа пута FFFBBBBBFFF при исходу THTHHHTHTTH: 0.007693566785719953


<blockquote id="prob:maxputpri">

<b>Проблем 11</b>: Највероватнији пут при исходу<br>
<i>Израчунати највероватнији пут $p$ кроз HMM ако је опажено $o$.</i><br>
<b>Улаз</b>: ниска $o = o_1...o_k$ коју је емитовао <i>HMM</i>$\{a, b, \pi\}$.<br>
<b>Излаз</b>: највероватнију пут $p_{opt} = p_1...p_k$ ако је опажено $o$.

</blockquote>

Максимизација је још једноставнија, када се примети раније поменуто $\operatorname*{argmax}_p P\{p, o\} = \operatorname*{argmax}_p P\{p | o\}$ за познато $o$. Ово значи да је довољно искористити решење проблема [1], уз прикладно скалирање вероватноће.

[1]: #prob:dekod

In [132]:
# Највероватнији пут при опажању
def opt_put_pri_ops(hmm, o):
    # Заједничка вероватноћа пута и опажања
    p_po, p = viterbi_dekodiranje(hmm, o)
    
    # Вероватноћа опажања кроз сваки пут
    p_o = forward(hmm, o)
    
    # Условна вероватноћа као резултат дељења
    return p_po / p_o, p

In [133]:
# Највероватнији пут примера из уџбеника
print('Исход', o_knjiga, 'највероватније је настао на путу:',
      opt_put_pri_ops(kockarnica, o_knjiga))

Исход THTHHHTHTTH највероватније је настао на путу: (0.24619413714303848, 'FFFFFFFFFFF')


Сада је познато како Витербијевим графом моделовати и максимизовати сваку од критичних вероватноћа $P\{p\}$, $P\{o\}$, $P\{p, o\}$, $P\{p | o\}$ и $P\{o | p\}$, чиме је модел комплетиран, барем што се тиче његове описне стране (остаје учење). Досадашња постигнућа модела сумирана су табелом [3.1], која следи.

[3.1]: #tab:hmm

<figure>
<figcaption style="text-align: center;"><b>Табела 3.1</b>: Могућности скривених Марковљевих модела</figcaption>
<table id="tab:hmm">
<tbody>
<tr class="odd">
<td style="text-align: center;" colspan="4">Проблем – алгоритам</td>
<td style="text-align: center;" colspan="2">Сложеност</td>
</tr>
<tr class="even">
<td style="width: 10%; text-align: center;">Број</td>
<td style="width: 10%; text-align: center;">Улаз</td>
<td style="width: 20%; text-align: center;">Циљ</td>
<td style="width: 10%; text-align: center;">Вредност</td>
<td style="width: 10%; text-align: center;">Наивни</td>
<td style="width: 10%; text-align: center;">Напредни</td>
</tr>
<tr class="odd">
<td style="text-align: center;"><a href="#prob:dekod" data-reference-type="ref" data-reference="prob:dekod">[1]</a></td>
<td style="text-align: center;">\(o_k\)</td>
<td style="text-align: center;">\(\operatorname*{(arg)max}_p\)</td>
<td style="text-align: center;">\(P\{p, o\}\)</td>
<td style="text-align: center;">\(O(n^k k)\)</td>
<td style="text-align: center;">\(O(n^2 k)\)</td>
</tr>
<tr class="even">
<td style="text-align: center;"><a href="#prob:putishod" data-reference-type="ref" data-reference="prob:putishod">[2]</a></td>
<td style="text-align: center;">\(p_k\), \(o_k\)</td>
<td style="text-align: center;">–</td>
<td style="text-align: center;">\(P\{p, o\}\)</td>
<td style="text-align: center;">\(O(k)\)</td>
<td style="text-align: center;">–</td>
</tr>
<tr class="odd">
<td style="text-align: center;"><a href="#prob:put" data-reference-type="ref" data-reference="prob:put">[3]</a></td>
<td style="text-align: center;">\(p_k\)</td>
<td style="text-align: center;">–</td>
<td style="text-align: center;">\(P\{p\}\)</td>
<td style="text-align: center;">\(O(k)\)</td>
<td style="text-align: center;">–</td>
</tr>
<tr class="even">
<td style="text-align: center;"><a href="#prob:ishod" data-reference-type="ref" data-reference="prob:ishod">[4]</a></td>
<td style="text-align: center;">\(p_k\), \(o_k\)</td>
<td style="text-align: center;">–</td>
<td style="text-align: center;">\(P\{o | p\}\)</td>
<td style="text-align: center;">\(O(k)\)</td>
<td style="text-align: center;">–</td>
</tr>
<tr class="odd">
<td style="text-align: center;"><a href="#prob:maxput" data-reference-type="ref" data-reference="prob:maxput">[5]</a></td>
<td style="text-align: center;">\(k\)</td>
<td style="text-align: center;">\(\operatorname*{(arg)max}_p\)</td>
<td style="text-align: center;">\(P\{p\}\)</td>
<td style="text-align: center;">\(O(n^k k)\)</td>
<td style="text-align: center;">\(O(n^2 k)\)</td>
</tr>
<tr class="even">
<td style="text-align: center;"><a href="#prob:maxpops" data-reference-type="ref" data-reference="prob:maxpops">[6]</a></td>
<td style="text-align: center;">\(p_k\)</td>
<td style="text-align: center;">\(\operatorname*{(arg)max}_o\)</td>
<td style="text-align: center;">\(P\{o | p\}\)</td>
<td style="text-align: center;">\(O(m^k k)\)</td>
<td style="text-align: center;">\(O(m k)\)</td>
</tr>
<tr class="odd">
<td style="text-align: center;"><a href="#prob:ops" data-reference-type="ref" data-reference="prob:ops">[7]</a></td>
<td style="text-align: center;">\(o_k\)</td>
<td style="text-align: center;">–</td>
<td style="text-align: center;">\(P\{o\}\)</td>
<td style="text-align: center;">\(O(n^k k)\)</td>
<td style="text-align: center;">\(O(n^2 k)\)</td>
</tr>
<tr class="even">
<td style="text-align: center;"><a href="#prob:maxops" data-reference-type="ref" data-reference="prob:maxops">[8]</a></td>
<td style="text-align: center;">\(k\)</td>
<td style="text-align: center;">\(\operatorname*{(arg)max}_o\)</td>
<td style="text-align: center;">\(P\{o\}\)</td>
<td style="text-align: center;">\(O(n^k m^k k)\) <br> \(O(n^2 m^k k)\)</td>
<td style="text-align: center;">\(O(n^2 m k)\)</td>
</tr>
<tr class="odd">
<td style="text-align: center;"><a href="#prob:maxpo" data-reference-type="ref" data-reference="prob:maxpo">[9]</a></td>
<td style="text-align: center;">\(k\)</td>
<td style="text-align: center;">\(\operatorname*{(arg)max}_{p, o}\)</td>
<td style="text-align: center;">\(P\{p, o\}\)</td>
<td style="text-align: center;">\(O(n^k m^k k)\) <br> \(O(n^2 m^k k)\)</td>
<td style="text-align: center;">\(O(n^2 m k)\)</td>
</tr>
<tr class="even">
<td style="text-align: center;"><a href="#prob:putpri" data-reference-type="ref" data-reference="prob:putpri">[10]</a></td>
<td style="text-align: center;">\(p_k\), \(o_k\)</td>
<td style="text-align: center;">–</td>
<td style="text-align: center;">\(P\{p | o\}\)</td>
<td style="text-align: center;">\(O(n^k k)\)</td>
<td style="text-align: center;">\(O(n^2 k)\)</td>
</tr>
<tr class="odd">
<td style="text-align: center;"><a href="#prob:maxputpri" data-reference-type="ref" data-reference="prob:maxputpri">[11]</a></td>
<td style="text-align: center;">\(o_k\)</td>
<td style="text-align: center;">\(\operatorname*{(arg)max}_p\)</td>
<td style="text-align: center;">\(P\{p | o\}\)</td>
<td style="text-align: center;">\(O(n^{2k} k)\) <br> \(O(n^k k)\)</td>
<td style="text-align: center;">\(O(n^2 k)\)</td>
</tr>
</tbody>
</table>
</figure>

# Глава 4 – Биолошки значај [⮭]<a id="par:bio"></a>

[⮭]: #par:toc

Након дефинисања скривених Марковљевих модела, описа њихове примене и алгоритама који дају одговоре на важна питања у вези са моделованим проблемом, ред је да се непосредно опише биолошки значај *HMM*, односно њихова примена у досад изложеним биоинформатичким проблемима. Конкретно, глава која следи бави се потрагом за генима, односно откривањем *CG* острва помоћу *HMM*, као и употребом профилних *HMM* за решавање проблема попут откривања фенотипа ХИВ-а. Она, дакле, покрива трећу и четврту петину обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно поднаслове *Profile HMMs for Sequence Alignment* и *Classifying proteins with profile HMMs*.

## 4.1 Гени – два стања [⮭]<a id="par:gen2"></a>

[⮭]: #par:bio

У уводном делу, посвећеном мотивацији, дискутовано је о проналажењу места на којима се гени налазе, односно где њихово преписивање (транскрипција) започиње. Објашњено је зашто је удео динуклеотида *CG* мали у некодирајућим регионима ДНК, а нешто већи у кодирајућим, те како има смисла ту чињеницу искористити за откривање такозваних *CG* острва (*CpG* места), што су региони богати генима. Имплементиран је и наиван приступ решавању овог проблема, заснован на клизећем прозору, али су уз њега остале неразјашњене важне недоумице: како одредити добру величину прозора, као и шта тачно радити када преклапајући прозори нуде различиту класификацију подниза.

Сада је циљ доћи до прецизног, једнозначног и статистички поткованог решења употребом одговарајућег скривеног Марковљевог модела. Замисао је у суштини једноставна – улазни низ нуклеотида посматра се као секвенца опажања коју треба декодирати. Другим речима, за сваки карактер ниске са улаза потребно је одредити да ли је вероватније настао као емисија *CG* острва или не, што је заправо позадински скривени процес. Стога важи следеће:
- скривена стања $x = \{+, -\}$ – јесте *CG* острво или није,
- опсервације $y = \{A, C, G, T\}$ – азбука ДНК нуклеотида.

In [134]:
# Скривена стања код CG острва
x = ['+', '-']

# Могућа опажања код CG острва
y = ['A', 'C', 'G', 'T']

Скупови скривених стања и могућих опажања се, дакле, лако одређују, па чак и веома личе на разматрани мотивациони проблем непоштене коцкарнице. Наиме, такође су присутна два стања, мада опсервација има нешто више. Свеукупно, проблем се може апстраховати неком врстом коцкарнице, у којој крупије мења две различито отежане четворостране коцкице. Уопштени дијаграм (без вероватноћа) оваквог модела приказан је на слици [4.1].

[4.1]: #fig:cg_graf

<figure><img src="../slike/cg_graf.png" width="35%" id="fig:cg_graf" /><figcaption style="text-align: center;"><b>Слика 4.1</b>: Скривени модел <i>CG</i> острва са два стања</figcaption></figure>

Остаје још одредити све битне вероватноће. За овај део задатка погодује применити прави биоинформатички приступ. Подсећања ради, биоинформатика је у уводу дефинисана као интердисциплинарна област која се бави применом рачунарских технологија у области биологије и сродних наука, са нагласком на разумевању биолошких података. Наведено је да статистички (математички) апаратат служи за рад са подацима, рачунарске технологије тај апарат чине употребљивијим, док биологија даје потребно доменско знање (разумевање) за рад са биолошким и сродним подацима. Управо је то овде и примењено – статистика (математика) дефинише појам *HMM*, а рачунарске технологије (конкретно *Python* и *Jupyter*) ефикасно га имплементирају.

Потребно је још консултовати се са биологијом, а овде заправо и генетиком, како би се адекватно одредили параметри модела. За почетак, треба приметити да се може добити фактички било какав исечак ДНК секвенце. Другим речима, не постоји гаранција да ће почетни регион бити кодирајући или не, тако да је најсигурније равномерно расподелити почетна стања:
- полазне вероватноће $\pi = \begin{matrix} \begin{matrix} + \\ - \end{matrix} & \left(\begin{matrix} 0.5 \\ 0.5 \end{matrix}\right) \end{matrix}$ – равномеран почетак.

In [135]:
# Полазне вероватноће код CG острва
pi = {'+': .5, '-': .5}

Даље, питање је колико често долази до промене стања. Одговор је да се то дешава веома ретко, с тим што мањи део секвенце представља *CG* острво, тако да је нешто већа шанса да дође до напуштања *CG* острва, него уласка у њега. Свеукупно, могла би се одабрати мапа прелаза попут следеће:
- прелази $a = \begin{matrix} & \begin{matrix} + & - \end{matrix} \\ \begin{matrix} + \\ - \end{matrix} & \left(\begin{matrix} 0,98 & 0,02 \\ 0,01 & 0,99 \end{matrix}\right) \end{matrix}$ – мала могућност промене.

In [136]:
# Мапа прелаза код CG острва
a1 = {'+': {'+': .98, '-': .02},
      '-': {'+': .01, '-': .99}}

За крај, остаје најтеже питање: како моделовати вероватноће опажања. Постоје разни приступи, а један од њих заснован је на емпиријским подацима. Примера ради, уколико се трага за генима у људском *X* хромозому, могу се апроксимирати вероватноће нуклеотида на основу вероватноћа динуклеотида из таблице [2.1].

[2.1]: #tab:cg

In [137]:
# Библиотека за Декартов производ
from itertools import product

In [138]:
# Вероватноћа нуклеотида према динуклеотидима
def p_nuk(p_dinuk):
    # Иницијализација нултих вероватноћа
    p = {yi: 0 for yi in y}
    
    # Пролазак кроз све динуклеотиде
    for n1, n2 in product(y, y):
        
        # Издвајање вероватноће динуклеотида
        p_12 = p_dinuk[f'{n1}{n2}']
        
        # Дељење вероватноће нуклеотидима
        p[n1] += p_12 / 2
        p[n2] += p_12 / 2
    
    # Враћање заокруженог резултата
    return {yi: round(p[yi], 4) for yi in y}

In [139]:
# Вероватноћа нуклеотида у CpG местима
b_cg = p_nuk(p_cg)

# Вероватноћа нуклеотида ван CpG места
b_nekod = p_nuk(p_nekod)

# Мапа емисија код CG острва
b1 = {'+': b_cg, '-': b_nekod}

Резултат тога је следећа мапа вероватноћа опсервација:
- емисије $b = \begin{matrix} & \begin{matrix} A & C & G & T \end{matrix} \\ \begin{matrix} + \\ - \end{matrix} & \left(\begin{matrix} 0,222 & 0,2555 & 0,299 & 0,2235 \\ 0,274 & 0,227 & 0,2295 & 0,2695 \end{matrix}\right) \end{matrix}$ – емпиријски.

Очекивано, нешто је већи удео цитозина и гуанина у кодирајућим регионима. Важи и супротно – нешто је већи удео аденина и тимина у некодирајућим регионима *X* хромозома, што је такође очекивана повезана појава.

In [140]:
# Декодирање улазне ДНК секвенце
def cg_dekod(hmm, dnk):
    rez = log_viterbi_dekodiranje(hmm, dnk)
    
    # Филтрирање ознака острва
    rez = rez[0], ''.join(filter(lambda c: c in x, rez[1]))
    
    # Извештавање о резултату
    print('Највероватнији скривени пут за', dnk, '\n'
          if isinstance(dnk, str) else '', 'је:', rez)
    
    # Враћање резултата
    return rez

In [141]:
# Прављење модела за CG острва
cg_hmm1 = HMM(a1, b1, pi)

# Декодирање улазне ДНК секвенце
rez_hmm1 = cg_dekod(cg_hmm1, dnk)

Највероватнији скривени пут за ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT 
 је: (-56.86449967544977, '-----------------------------------------')


Овакав модел, међутим, није успешан јер су вероватноће тако постављене да није могуће препознати мала *CG* острва. Приликом декодирања, закључак ће за сваку малу секвенцу бити да је највероватније цела (не)кодирајућа, из једноставног разлога што је свака промена стања веома скупа, а удео нуклеотида није толико различит. Стога се може добити побољшање уколико се вероватноће прелаза мало приближе, а емисија мало више удаље.

То се може учинити тако што се, за почетак, вероватноће промене стања поставе на нешто већу једну десетину. Ако је \textit{HMM} у некодирајућем стању, може се претпоставити да је расподела нуклеотида равномерна – сваки се емитује са могућношћу једне четвртине. У супротном, сматра се да се цитозин и гуанин приказују четири пута чешће. Резултујуће вероватноће сада су:
- прелази $a = \begin{matrix} & \begin{matrix} + & - \end{matrix} \\ \begin{matrix} + \\ - \end{matrix} & \left(\begin{matrix} 0,9 & 0,1 \\ 0,1 & 0,9 \end{matrix}\right) \end{matrix}$ – већа могућност промене,
- емисије $b = \begin{matrix} & \begin{matrix} A & C & G & T \end{matrix} \\ \begin{matrix} + \\ - \end{matrix} & \left(\begin{matrix} 0,1 & 0,4 & 0,4 & 0,1 \\ 0,25 & 0,25 & 0,25 & 0,25 \end{matrix}\right) \end{matrix}$ – поправљено.

In [142]:
# Нова мапа прелаза код CG острва
a2 = {'+': {'+': .9, '-': .1},
      '-': {'+': .1, '-': .9}}

# Нова мапа емисија код CG острва
b2 = {'+': {'A': .1 , 'C': .4 , 'G': .4 , 'T': .1 },
      '-': {'A': .25, 'C': .25, 'G': .25, 'T': .25}}

In [143]:
# Прављење модела за CG острва
cg_hmm2 = HMM(a2, b2, pi)

# Декодирање улазне ДНК секвенце
rez_hmm2 = cg_dekod(cg_hmm2, dnk)

Највероватнији скривени пут за ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT 
 је: (-61.74563661278848, '-----------------------------------------')


In [144]:
# Примена и алгоритма „напред”
print('Вероватноћа опажања', dnk, 'је:', log_forward(cg_hmm2, dnk))

Вероватноћа опажања ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT је: -60.06801112843964


Нажалост, ни овај модел није ништа бољи. Параметри су, иначе, преузети са примера употребе библиотеке *pomegranate* ([документација](https://pomegranate.readthedocs.io/en/latest/) и [*GitHub*](https://github.com/jmschrei/pomegranate)), па је добар тренутак за кратку дигресију о њој. У питању је модул програмског језика *Python* који омогућује рад са многим пробабилистичким моделима, што поред скривених Марковљевих модела укључује и Марковљеве ланце, Бајесове и Марковљеве мреже (случајна поља), графове фактора и уопштене мешовите моделе.

Када је у питању рад са *HMM*, од досад обрађених проблема решени су само декодирање (Витербијев алгоритам) и вероватноћа опажања (алгоритам „напред”), те је модул с те стране минималистички. Ипак, добра страна је што су имплементирана сва изнесена проширења дефиниције (логаритамске вероватноће, непрекидне расподеле, експлицитно почетно и завршно стање итд.), а омогућено је и нешто прилично оригинално – итеративно моделовање. Наиме, модел се у *pomegranate* не прави прослеђивањем готових низова, матрица или мапа, већ део по део, тако што се прво направе жељене расподеле емисија, затим стања са тим расподелама, затим прелази између стања, након чега се финализује топологија модела. Имплементирано је и учење модела, о чему ће у раду бити касније речи. У коду електронског уџбеника решена је потрага за генима и помоћу овог модула, а резултати су, наравно, једнаки.

In [145]:
# Библиотека за рад са HMM
from pomegranate import DiscreteDistribution, State, HiddenMarkovModel

In [146]:
# Прављење празног HMM за итеративно моделовање
cg_pom = HiddenMarkovModel('CG острва')

In [147]:
# Расподела емисија у CpG местима
plus  = DiscreteDistribution(b2['+'])

# Расподела емисија ван CpG места
minus = DiscreteDistribution(b2['-'])

In [148]:
# Стање које представља CG острва
plus  = State(plus,  name='+')

# Стање које представља остало
minus = State(minus, name='-')

In [149]:
# Додавање направљених стања у модел
cg_pom.add_states(plus, minus)

In [150]:
# Полазне вероватноће стања
cg_pom.add_transition(cg_pom.start, minus, pi['+'])
cg_pom.add_transition(cg_pom.start, minus, pi['-'])

In [151]:
# Вероватноће преласка
cg_pom.add_transition(plus,  plus,  a2['+']['+'])
cg_pom.add_transition(plus,  minus, a2['+']['-'])
cg_pom.add_transition(minus, plus,  a2['-']['+'])
cg_pom.add_transition(minus, minus, a2['-']['-'])

In [152]:
# Финализација топологије модела
cg_pom.bake()

In [153]:
# Дохватање пута на основу резултата
def pom_put(pom_vit):
    return ''.join(state.name for _, state in pom_vit[1:])

In [154]:
# Декодирање улазне ДНК секвенце
def pom_dekod(hmm, dnk):
    vit = hmm.viterbi([*dnk])
    
    # Издвајање форматираног резултата
    rez = vit[0], pom_put(vit[1])
    
    # Извештавање о резултату; напомена: pomegranate
    # не скалира вероватноће према почетном стању,
    # па је добијена вероватноћа двапут већа
    print('Највероватнији скривени пут за', dnk, '\n', 'је:', rez)
    
    # Враћање резултата
    return rez

In [155]:
# Декодирање улазне ДНК секвенце
rez_pom = pom_dekod(cg_pom, dnk)

Највероватнији скривени пут за ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT 
 је: (-61.05248943222853, '-----------------------------------------')


In [156]:
# Примена и алгоритма „напред”; напомена: pomegranate
# не скалира вероватноће према почетном стању,
# па је добијена вероватноћа двапут већа
print('Вероватноћа опажања', dnk, 'је:', cg_pom.log_probability(dnk))

Вероватноћа опажања ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT је: -59.453505765534175


Још један познати модул језика *Python* за рад са *HMM* јесте *hmmlearn* ([документација](https://hmmlearn.readthedocs.io/en/latest/) и [*GitHub*](https://github.com/hmmlearn/hmmlearn)). Имплементира дискретне (мултиномијалне), Гаусове (расподеле емисија су нормалне) и мешовите (емисије потичу из мешавине нормалних расподела) скривене Марковљеве моделе. Попут претходне, и ова библиотека имплементира само Витербијев и алгоритам „напред”, као решења најважнијих проблема код *HMM*. Такође подржава учење параметара модела. С друге стране, ради искључиво са матрицама параметара, па тако мултиномијални модел сасвим одговара основној дефиницији *HMM*, без икаквих надградњи. Чак су стања и емисије у потпуности апстраховани индексима. Стога је једноставна за рад и брзо добијање резултата. И она је у коду електронског уџбеника примењена у потрази за генима, још једном са истим резултатима.

In [157]:
# Библиотека за рад са HMM
from hmmlearn.hmm import MultinomialHMM

In [158]:
# Модел са два скривена стања
cg_hmml = MultinomialHMM(n_components=2)

In [159]:
# Полазне вероватноће стања
cg_hmml.startprob_ = [pi[xi] for xi in x]

In [160]:
# Матрица преласка између стања
cg_hmml.transmat_ = [[a2[xi][xj] for xj in x] for xi in x]

In [161]:
# Матрица вероватноћа опсервација
cg_hmml.emissionprob_ = [[b2[xi][yj] for yj in y] for xi in x]

In [162]:
# Дохватање пута на основу резултата
def hmml_put(hmml_vit):
    return ''.join(x[i] for i in hmml_vit)

In [163]:
# Декодирање улазне ДНК секвенце
def hmml_dekod(hmm, dnk):
    vit = hmm.decode([[ind(y, n)] for n in dnk])
    
    # Издвајање форматираног резултата
    rez = vit[0], hmml_put(vit[1])
    
    # Извештавање о резултату
    print('Највероватнији скривени пут за', dnk, '\n', 'је:', rez)
    
    # Враћање резултата
    return rez

In [164]:
# Декодирање улазне ДНК секвенце
rez_hmml = hmml_dekod(cg_hmml, dnk)

Највероватнији скривени пут за ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT 
 је: (-61.74563661278848, '-----------------------------------------')


In [165]:
# Примена и алгоритма „напред”
print('Вероватноћа опажања', dnk, 'је:',
      cg_hmml.score([[ind(y, n)] for n in dnk]))

Вероватноћа опажања ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT је: -60.068011128439636


Није лош тренутак да се помене досад занемарена чињеница да су *HMM* генеративни модели. Не само што служе за опис појава које моделују, већ могу у потпуности да их опонашају. Оваква могућност је важна карактеристика сваког модела који је има. Већ је разматрано како се могу добити скривени путеви, опажања или комбинација који максимизују неку вероватноћу. Сада се испоставља да је још једноставније могуће добити произвољан скривени пут и опсервацију на њему. Скривени пут жељене дужине генерише се на основу почетних вероватноћа и мапе преласка, а исход на путу помоћу мапе емисија. Претходни модел за откривање гена тако се може искористити за генерисање вештачке ДНК секвенце, која задовољава тај статистички опис ДНК. Она, наиме, у појединим деловима садржи *CG* острва и тиме се чини природнијом од случајно генерисане, што је додатна корист од *HMM*.

In [166]:
# Дужина пута у узорку
k = 10

# Семе псеудослучајности
seme = 0

In [167]:
# Библиотека за псеудослучајност
from numpy.random import seed, choice

In [168]:
# Узорковање на основу модела
def uzorkuj(hmm, k, seme=None):
    # Враћање празног пута ако треба
    if not k: return '', ''
    
    # Иницијализација генератора случајности
    seed(seme)
    
    # Одабир првог скривеног стања
    p = choice(hmm.x, p=[*hmm.pi.values()])
    
    # Одабир првог опажања у стању
    o = choice(hmm.y, p=[*hmm.b[p[-1]].values()])
    
    # Итерација жељени број пута
    for _ in range(1, k):
        # Одабир наредног скривеног стања
        p = p + choice(hmm.x, p=[*hmm.a[p[-1]].values()])
        
        # Одабир наредне опсервације
        o = o + choice(hmm.y, p=[*hmm.b[p[-1]].values()])
    
    # Враћање направљеног пута
    return p, o

In [169]:
# Узорковање на основу модела
print(f'Узорак дужине {k}:', uzorkuj(cg_hmm2, k, seme))

Узорак дужине 10: ('-------+++', 'GGGTCGTAGG')


In [170]:
# Библиотека за рад са упозорењима
from warnings import catch_warnings, simplefilter

In [171]:
# Дохватање пута на основу резултата
def pom_put2(pom_samp):
    return ''.join(state.name for state in pom_samp[1:])

In [172]:
# Узорковање на основу модела
def pom_uzorkuj(hmm_pom, k, seme=None):
    # Враћање празног пута ако треба
    if not k: return '', ''
    
    # Занемаривање небитног упозорења
    with catch_warnings():
        simplefilter('ignore')
        
        # Дохватање узорка жељене дужине
        pom_sample = hmm_pom.sample(length=k, path=True,
                                    random_state=seme)
    
    # Издвајање скривеног пута из узорка
    p = pom_put2(pom_sample[1])
    
    # Издвајање низа опажања из узорка
    o = ''.join(pom_sample[0])
    
    # Враћање направљеног пута
    return p, o

In [173]:
# Узорковање на основу модела
print(f'Узорак дужине {k}:', pom_uzorkuj(cg_pom, k, seme))

Узорак дужине 10: ('-------+++', 'GGGTCGTAGG')


In [174]:
# Дохватање исхода на основу резултата
def hmml_ops(hmml_samp):
    return ''.join(y[i[0]] for i in hmml_samp)

In [175]:
# Узорковање на основу модела
def hmml_uzorkuj(hmm_hmml, k, seme=None):
    # Враћање празног пута ако треба
    if not k: return '', ''
    
    # Дохватање узорка жељене дужине
    hmml_sample = hmm_hmml.sample(n_samples=k,
                                  random_state=seme)
    
    # Издвајање скривеног пута из узорка
    p = hmml_put(hmml_sample[1])
    
    # Издвајање низа опажања из узорка
    o = hmml_ops(hmml_sample[0])
    
    # Враћање направљеног пута
    return p, o

In [176]:
# Узорковање на основу модела
print(f'Узорак дужине {k}:', hmml_uzorkuj(cg_hmml, k, seme))

Узорак дужине 10: ('-------+++', 'GGGTCGTAGG')


Што се тиче самог модела, остаје проблем што су досадашња оба покушаја била неуспела. Трећа идеја могло би бити додатно повећавање вероватноће промене стања. Мала повећања не би променила резултат, док би већа изврнула смисао *CpG* места – острвом би се прогласио сваки цитозин и гуанин. Ово није необично и иде уз чињеницу да ова употреба *HMM* спада под домен ненадгледаног учења, где модел по самосталној процени групише поднизове улазне секвенце. То значи да се лако могу добити неочекивани или незадовољавајући резултати, попут једноставне поделе према текућем карактеру.

In [177]:
# Нова мапа прелаза код CG острва
a3 = {'+': {'+': .55, '-': .45},
      '-': {'+': .45, '-': .55}}

In [178]:
# Прављење модела за CG острва
cg_hmm3 = HMM(a3, b2, pi)

# Декодирање улазне ДНК секвенце
rez_hmm3 = cg_dekod(cg_hmm3, dnk)

Највероватнији скривени пут за ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT 
 је: (-78.54537996390007, '----+--+-++-++-+++------+--++------+-----')


Следећа идеја настоји да ово превазиђе тако што укључује већи број опажања. Наиме, могуће је ДНК секвенцу схватити као низ динуклеотида уместо самих нуклеотида, као код прозорског приступа. Сада важи следеће:
- опсервације $y = \{A, C, G, T\} \times \{A, C, G, T\}$ – азбука динуклеотида.

In [179]:
# Нови низ опажања код CG острва
y4 = [''.join(yy) for yy in product(y, y)]

Може се дорадити и мапа прелаза, док се мапа емисија узима према табели [2.1], која управо непосредно табелира вероватноће динуклеотида. Овај приступ даје засад најбоље резултате, који се могу видети у коду лекције.

[2.1]: #tab:cg

In [180]:
# Библиотека за бржи рад са прозорима
from more_itertools import windowed

In [181]:
# Нова мапа прелаза код CG острва
a4 = {'+': {'+': .7 , '-': .3 },
      '-': {'+': .35, '-': .65}}

# Нова мапа емисија код CG острва
b4 = {'+': p_cg, '-': p_nekod}

In [182]:
# Прављење модела за CG острва
cg_hmm4 = HMM(a4, b4, pi)

# Динуклеотиди као прозори ниске
proz = ['AA', *map(''.join, windowed(dnk, 2))]

# Декодирање улазне ДНК секвенце
rez_hmm4 = cg_dekod(cg_hmm4, proz)

Највероватнији скривени пут за ['AA', 'AT', 'TT', 'TT', 'TC', 'CT', 'TT', 'TC', 'CT', 'TC', 'CG', 'GT', 'TC', 'CG', 'GA', 'AC', 'CG', 'GC', 'CT', 'TA', 'AA', 'AT', 'TT', 'TT', 'TC', 'CT', 'TT', 'TG', 'GG', 'GA', 'AA', 'AA', 'AT', 'TA', 'AT', 'TC', 'CA', 'AT', 'TT', 'TA', 'AT']  је: (-129.17252081006288, '-------+++++++++++-----------------------')


## 4.2 Гени – више стања [⮭]<a id="par:gen3"></a>

[⮭]: #par:bio

Како је већ напоменуто, сви досадашњи модели су по структури подсећали на непоштени казино – имали су два стања која се ретко мењају и углавном четири опсервације, мада је најбољи резултат добијен при последњем покушају, са чак шеснаест различитих динуклеотидних емисија. Алтернативна идеја увођењу већег броја исхода јесте увођење већег броја стања, што се најчешће реализује кроз два приступа, који су представљени у наставку.

Први приступ је врло популаран и основни је пример на многим универзитетским курсевима који [обрађују](https://web.stanford.edu/class/stats366/exs/HMM1.html) [скривене](https://software-ab.informatik.uni-tuebingen.de/download/public/GBi-2020-Script.pdf) [Марковљеве](https://bio.libretexts.org/@go/page/40962) [моделе](http://www.cs.tau.ac.il/~rshamir/algmb/98/scribe/pdf/lec06.pdf). Разматран је ранијих година и на вежбама из Увода у биоинформатику, у оквиру којег је овај рад настао. Полазна идеја је да се *CG* острва и региони ван њих могу моделовати као два одвојена Марковљева ланца (подсећања ради, у питању су *HMM* без емисија, а скраћено се називају *MC*). Стања ланаца су јавна (то јест, нису скривена), пошто верно прате ДНК секвенцу коју моделују, и одговарају азбуци нуклеотида, па се могу представити сликом [4.2].

[4.2]: #fig:cg_lanac

<figure><img src="../slike/cg_lanac.png" width="30%" id="fig:cg_lanac" /><figcaption style="text-align: center;"><b>Слика 4.2</b>: Марковљев ланац за моделовање ДНК секвенце</figcaption></figure>

Одговарајуће матрице прелаза могу се одредити емпиријским путем, дакле обрадом секвенци за које је познато јесу ли *CG* острва или не. Уобичајено се узимају вредности из табеле [4.1], које су унапред припремљене (израчунате).

[4.1]: #tab:cg_lanac

<figure>
<figcaption style="text-align: center;"><b>Табела 4.1</b>: Вероватноћа прелаза између нуклеотида једне секвенце – лево у регионима <i>CG</i> острва, а десно ван њих</figcaption>
<table id="tab:cg_lanac">
<thead>
<tr class="header">
<th style="text-align: center;"></th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">A</th>
<th style="text-align: center;">C</th>
<th style="text-align: center;">G</th>
<th style="text-align: center;">T</th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">A</th>
<th style="text-align: center;">C</th>
<th style="text-align: center;">G</th>
<th style="text-align: center;">T</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">A</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,180</td>
<td style="text-align: center;">0,274</td>
<td style="text-align: center;">0,426</td>
<td style="text-align: center;">0,120</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,300</td>
<td style="text-align: center;">0,205</td>
<td style="text-align: center;">0,285</td>
<td style="text-align: center;">0,210</td>
</tr>
<tr class="even">
<td style="text-align: center;">C</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,171</td>
<td style="text-align: center;">0,367</td>
<td style="text-align: center;">0,274</td>
<td style="text-align: center;">0,188</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,322</td>
<td style="text-align: center;">0,298</td>
<td style="text-align: center;">0,078</td>
<td style="text-align: center;">0,302</td>
</tr>
<tr class="odd">
<td style="text-align: center;">G</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,161</td>
<td style="text-align: center;">0,339</td>
<td style="text-align: center;">0,375</td>
<td style="text-align: center;">0,125</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,248</td>
<td style="text-align: center;">0,246</td>
<td style="text-align: center;">0,298</td>
<td style="text-align: center;">0,208</td>
</tr>
<tr class="even">
<td style="text-align: center;">T</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,079</td>
<td style="text-align: center;">0,355</td>
<td style="text-align: center;">0,384</td>
<td style="text-align: center;">0,182</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,177</td>
<td style="text-align: center;">0,239</td>
<td style="text-align: center;">0,292</td>
<td style="text-align: center;">0,292</td>
</tr>
</tbody>
</table>
</figure>

In [183]:
# Мапа прелаза у CpG местима према претходној табели
a_cg    = {'A': {'A': .180, 'C': .274, 'G': .426, 'T': .120},
           'C': {'A': .171, 'C': .367, 'G': .274, 'T': .188},
           'G': {'A': .161, 'C': .339, 'G': .375, 'T': .125},
           'T': {'A': .079, 'C': .355, 'G': .384, 'T': .182}}

In [184]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
for n in y: print('Вероватноћа из', n, 'је', sum(a_cg[n].values()))

Вероватноћа из A је 1.0
Вероватноћа из C је 1.0
Вероватноћа из G је 1.0
Вероватноћа из T је 1.0


In [185]:
# Мапа прелаза ван CpG места према претходној табели
a_nekod = {'A': {'A': .300, 'C': .205, 'G': .285, 'T': .210},
           'C': {'A': .322, 'C': .298, 'G': .078, 'T': .302},
           'G': {'A': .248, 'C': .246, 'G': .298, 'T': .208},
           'T': {'A': .177, 'C': .239, 'G': .292, 'T': .292}}

In [186]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
for n in y: print('Вероватноћа из', n, 'је', sum(a_nekod[n].values()))

Вероватноћа из A је 1.0
Вероватноћа из C је 1.0
Вероватноћа из G је 1.0
Вероватноћа из T је 1.0


Аналогно прозорском приступу заснованом на динуклеотидном садржају секвенце и табели [2.1], могуће је помоћу *MC* за сваки подниз одредити да ли је већа вероватноћа да јесте *CG* острво или да није. Бројчана сагласност се за оба *MC* може израчунати већ имплементираним алгоритмом за одређивање вероватноће пута кроз *HMM*, као решење проблема [3]. Одабир припадности пада на ланац са већом вероватноћом.

[2.1]: #tab:cg
[3]: #prob:put

In [187]:
# Класа која представља Марковљев ланац
class MC:
    # Конструкција MC на основу мапе прелаза
    def __init__(mc, a):
        # Памћење мапе вероватноћа прелаза
        mc.a = a
        
        # Одређивање листе и броја стања
        mc.x = list(a)
        mc.n = len(mc.x)
        
        # Памћење мапе полазних вероватноћа
        mc.a['π'] = {xi: 1/mc.n for xi in mc.x}

In [188]:
# Марковљев ланац кодирајућих региона
mc_cg    = MC(a_cg)

In [189]:
# Марковљев ланац некодирајућих региона
mc_nekod = MC(a_nekod)

In [190]:
# Да ли је вероватније да је прозор CG острво или не
def mc_ostrvo(prozor):    
    # Одређивање веће вероватноће
    return p_puta(mc_cg, prozor) > \
           p_puta(mc_nekod, prozor)

In [191]:
# Пример прозора дужине k=10
prozori = ['ATTTCTTCTC', # познато да није
           'CTCGTCGACG', # познато да јесте
           'CTAATTTCTT'] # познато да није

# Предвиђање да ли је CG острво
for prozor in prozori:
    ostrvo = mc_ostrvo(prozor)
    
    # Закључивање о прозору на основу резултата
    print(prozor, 'вероватно', 'јесте' if
          ostrvo else 'није', 'CG острво')

ATTTCTTCTC вероватно није CG острво
CTCGTCGACG вероватно јесте CG острво
CTAATTTCTT вероватно није CG острво


In [192]:
# Одабир величине прозора (како?)
k = 5

# Дохватање резултата мотивационог примера
proz2 = cg_prozor(dnk, k, mc_ostrvo)

ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT
ATTTC (-)
 TTTCT (-)
  TTCTT (-)
   TCTTC (-)
    CTTCT (-)
     TTCTC (-)
      TCTCG (+)
       CTCGT (+)
        TCGTC (+)
         CGTCG (+)
          GTCGA (+)
           TCGAC (+)
            CGACG (+)
             GACGC (+)
              ACGCT (+)
               CGCTA (+)
                GCTAA (-)
                 CTAAT (-)
                  TAATT (-)
               (-) AATTT
                (-) ATTTC
                 (-) TTTCT
                  (-) TTCTT
                   (-) TCTTG
                    (-) CTTGG
                     (-) TTGGA
                      (-) TGGAA
                       (-) GGAAA
                        (-) GAAAT
                         (-) AAATA
                          (-) AATAT
                           (-) ATATC
                            (-) TATCA
                             (-) ATCAT
                              (-) TCATT
                               (-) CATTA
                                (-)

Резултати су једнаки као у првом покушају, а остају нерешени проблеми прозорског приступа: како одредити добру величину прозора и како разрешити сукобе настале преклапањем прозора.

Као решење, предлаже се спајање ова два ланца у један. Резултујући *MC* дат је на слици [4.3]. Он сада има осам стања, за сваки пар нуклеотида и припадности *CG* острву. Једноставности ради, пошто укупно има $8^2 = 64$ прелаза, приказани су само нови, док се стари (слика [4.2]) подразумевају.

[4.2]: #fig:cg_lanac
[4.3]: #fig:cg_lanci

<figure><img src="../slike/cg_lanci.png" width="40%" id="fig:cg_lanci" /><figcaption style="text-align: center;"><b>Слика 4.3</b>: Спојени ланци за моделовање <i>CG</i> острва</figcaption></figure>

In [193]:
# Нови скуп скривених стања
x5 = [*map(''.join, product(y, x))]

Пре свега, неопходно је одредити нову, заједничку матрицу преласка. За то се треба подсетити већ поменутог доменског биолошког знања, према коме је мало вероватан прелазак из кодирајућег у некодирајуће стање (нпр. само 2 %), а још мање вероватно обрнуто (нпр. тек 1 %). Нове вероватноће могу се добити скалирањем старих, нпр. на начин представљен табелом [4.2].

[4.2]: #tab:cg_hmm1

<figure>
<figcaption style="text-align: center;"><b>Табела 4.2</b>: Вероватноћа прелаза унутар <i>CG</i> острва</figcaption>
<table id="tab:cg_hmm1">
<thead>
<tr class="header">
<th style="text-align: center;"></th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">\(A^+\)</th>
<th style="text-align: center;">\(C^+\)</th>
<th style="text-align: center;">\(G^+\)</th>
<th style="text-align: center;">\(T^+\)</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">\(A^+\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,180p</td>
<td style="text-align: center;">0,274p</td>
<td style="text-align: center;">0,426p</td>
<td style="text-align: center;">0,120p</td>
</tr>
<tr class="even">
<td style="text-align: center;">\(C^+\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,171p</td>
<td style="text-align: center;">0,367p</td>
<td style="text-align: center;">0,274p</td>
<td style="text-align: center;">0,188p</td>
</tr>
<tr class="odd">
<td style="text-align: center;">\(G^+\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,161p</td>
<td style="text-align: center;">0,339p</td>
<td style="text-align: center;">0,375p</td>
<td style="text-align: center;">0,125p</td>
</tr>
<tr class="even">
<td style="text-align: center;">\(T^+\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,079p</td>
<td style="text-align: center;">0,355p</td>
<td style="text-align: center;">0,384p</td>
<td style="text-align: center;">0,182p</td>
</tr>
</tbody>
<thead>
<tr class="header">
<th style="text-align: center;"></th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">\(A^-\)</th>
<th style="text-align: center;">\(C^-\)</th>
<th style="text-align: center;">\(G^-\)</th>
<th style="text-align: center;">\(T^-\)</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">\(A^+\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,180(1-p)</td>
<td style="text-align: center;">0,274(1-p)</td>
<td style="text-align: center;">0,426(1-p)</td>
<td style="text-align: center;">0,120(1-p)</td>
</tr>
<tr class="even">
<td style="text-align: center;">\(C^+\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,171(1-p)</td>
<td style="text-align: center;">0,367(1-p)</td>
<td style="text-align: center;">0,274(1-p)</td>
<td style="text-align: center;">0,188(1-p)</td>
</tr>
<tr class="odd">
<td style="text-align: center;">\(G^+\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,161(1-p)</td>
<td style="text-align: center;">0,339(1-p)</td>
<td style="text-align: center;">0,375(1-p)</td>
<td style="text-align: center;">0,125(1-p)</td>
</tr>
<tr class="even">
<td style="text-align: center;">\(T^+\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,079(1-p)</td>
<td style="text-align: center;">0,355(1-p)</td>
<td style="text-align: center;">0,384(1-p)</td>
<td style="text-align: center;">0,182(1-p)</td>
</tr>
</tbody>
</table>
</figure>

In [194]:
# Вероватноћа останка унутар острва
p = .7 # најбоља одраније

# Вероватноћа останка ван острва
q = .65 # најбоља одраније

In [195]:
# Празна мапа преласка новог модела
a5 = {}

# Пролазак кроз све нуклеотиде
for n in y:
    # Прелази унутар острва
    a5[f'{n}+']      = {f'{m}+':    a_cg[n][m]*p     for m in y}
    
    # Изласци из острва
    a5[f'{n}+'].update({f'{m}-':    a_cg[n][m]*(1-p) for m in y})
    
    # Прелази ван острва
    a5[f'{n}-']      = {f'{m}-': a_nekod[n][m]*q     for m in y}
    
    # Уласци у острва
    a5[f'{n}-'].update({f'{m}+': a_nekod[n][m]*(1-q) for m in y})

# Заоктруживање резултата за крај
a5 = {x: {y: round(a5[x][y], 4) for y in a5[x]} for x in a5}

In [196]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
for n in x5: print('Вероватноћа из', n, 'је', sum(a5[n].values()))

Вероватноћа из A+ је 1.0
Вероватноћа из A- је 0.9999000000000001
Вероватноћа из C+ је 1.0
Вероватноћа из C- је 1.0
Вероватноћа из G+ је 1.0000000000000002
Вероватноћа из G- је 1.0
Вероватноћа из T+ је 1.0
Вероватноћа из T- је 0.9997999999999998


Идеја је, дакле, расподелити вероватноће претходних прелаза унутар *CG* острва типа $P\{N \mapsto M\}$ на две нове типа $P\{N^+ \mapsto M^+\} = p P\{N \mapsto M\}$ и $P\{N^+ \mapsto M^-\} = (1-p) P\{N \mapsto M\}$, где $p$ представља вероватноћу останка унутар острва, нпр. $p = 98 \%$. Аналогно томе, вероватноће претходних прелаза ван *CG* острва типа $P\{N \mapsto M\}$ могу се расподелити на две нове типа $P\{N^- \mapsto M^-\} = q P\{N \mapsto M\}$ и $P\{N^- \mapsto M^+\} = (1-q) P\{N \mapsto M\}$, где $q$ представља вероватноћу останка ван острва, нпр. $q = 99 \%$. Алтернативна је равномерно расподелити вероватноће промене стања, као у табели [4.3].

[4.3]: #tab:cg_hmm2

<figure>
<figcaption style="text-align: center;"><b>Табела 4.3</b>: Вероватноћа прелаза ван <i>CG</i> острва</figcaption>
<table id="tab:cg_hmm2">
<thead>
<tr class="header">
<th style="text-align: center;"></th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">\(A^-\)</th>
<th style="text-align: center;">\(C^-\)</th>
<th style="text-align: center;">\(G^-\)</th>
<th style="text-align: center;">\(T^-\)</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">\(A^-\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,300q</td>
<td style="text-align: center;">0,205q</td>
<td style="text-align: center;">0,285q</td>
<td style="text-align: center;">0,210q</td>
</tr>
<tr class="even">
<td style="text-align: center;">\(C^-\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,322q</td>
<td style="text-align: center;">0,298q</td>
<td style="text-align: center;">0,078q</td>
<td style="text-align: center;">0,302q</td>
</tr>
<tr class="odd">
<td style="text-align: center;">\(G^-\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,248q</td>
<td style="text-align: center;">0,246q</td>
<td style="text-align: center;">0,298q</td>
<td style="text-align: center;">0,208q</td>
</tr>
<tr class="even">
<td style="text-align: center;">\(T^-\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,177q</td>
<td style="text-align: center;">0,239q</td>
<td style="text-align: center;">0,292q</td>
<td style="text-align: center;">0,292q</td>
</tr>
</tbody>
<thead>
<tr class="header">
<th style="text-align: center;"></th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">\(A^+\)</th>
<th style="text-align: center;">\(C^+\)</th>
<th style="text-align: center;">\(G^+\)</th>
<th style="text-align: center;">\(T^+\)</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">\(A^-\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
</tr>
<tr class="even">
<td style="text-align: center;">\(C^-\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
</tr>
<tr class="odd">
<td style="text-align: center;">\(G^-\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
</tr>
<tr class="even">
<td style="text-align: center;">\(T^-\)</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
<td style="text-align: center;">(1-q)/4</td>
</tr>
</tbody>
</table>
</figure>

In [197]:
# Празна мапа преласка новог модела
a6 = {}

# Пролазак кроз све нуклеотиде
for n in y:
    # Прелази унутар острва
    a6[f'{n}+']      = {f'{m}+':    a_cg[n][m]*p for m in y}
    
    # Изласци из острва
    a6[f'{n}+'].update({f'{m}-':      (1-p)/4    for m in y})
    
    # Прелази ван острва
    a6[f'{n}-']      = {f'{m}-': a_nekod[n][m]*q for m in y}
    
    # Уласци у острва
    a6[f'{n}-'].update({f'{m}+':     (1-q)/4     for m in y})

# Заоктруживање резултата за крај
a6 = {x: {y: round(a6[x][y], 4) for y in a6[x]} for x in a6}

In [198]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
for n in x5: print('Вероватноћа из', n, 'је', sum(a6[n].values()))

Вероватноћа из A+ је 0.9999999999999998
Вероватноћа из A- је 1.0000000000000002
Вероватноћа из C+ је 0.9999999999999998
Вероватноћа из C- је 1.0
Вероватноћа из G+ је 0.9999999999999999
Вероватноћа из G- је 1.0
Вероватноћа из T+ је 0.9999999999999998
Вероватноћа из T- је 0.9999


Сада се спојени Марковљев ланац може и мора надградити у скривени Марковљев модел. Наиме, два одвојена *MC* имала су смисла без унапређења, јер су имала само четири суштински јавна стања, која одговарају нуклеотидима из опажене секвенце. Нових осам стања је, међутим, по природи скривено, јер опажањем секвенце није познато у ком је модел стању, као у непоштеној коцкарници и другим моделима. Примера ради, већ за једночлани исход $G$ није јасно да ли је настао у стању $G^+$ или $G^-$. Ниска дужине $k$ може настати на $2^k$ различитих непознатих путева, који су стога скривени.

Већ је имплицирано да симбол $N$ може приказати само стање типа $N^+$ и $N^-$. Важи и обрнуто, јер новоуведено стање $N^\sigma$ управо и означава појаву симбола $N$ у старом стању $\sigma$. Ово се може схватити и као својеврсни образац пројектовања (узорак, шаблон) када је у питању рад са *MC* и *HMM*. Свеукупна последица је да је мапа емисија врло једноставна (такорећи дегенерисана) – свако стање са јединичном вероватноћом емитује одговарајући симбол.

In [199]:
# Мапа емисија новог модела
b5 = {n: {m: int(m == n[0]) for m in y} for n in x5}

Слика [4.4] приказује коначан дијаграм овог модела, са изостављеним многобројним вероватноћама прелаза и наглашеним вероватноћама емисија.

[4.4]: #fig:cg_stanja

<figure><img src="../slike/cg_stanja.png" width="40%" id="fig:cg_stanja" /><figcaption style="text-align: center;"><b>Слика 4.4</b>: Нова структура модела <i>CG</i> острва</figcaption></figure>

Што се тиче почетних вероватноћа, могу се узети емпиријске вредности засноване на узорку или пак равномерне могућности 1/8.

In [200]:
# Емпиријске почетне вероватноће новог модела
pi5 = {'A+': .0725, 'C+': .1638, 'G+': .1788, 'T+': .0755,
       'A-': .1322, 'C-': .1267, 'G-': .1226, 'T-': .1279}

# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
print('Укупна вероватнћа емпиријских почетака:', sum(pi5.values()))

# Равномерне почетне вероватноће новог модела
pi6 = {n: 1/8 for n in x5}

Укупна вероватнћа емпиријских почетака: 1.0


Кад се све сабере:
- опсервације $y = \{A, C, G, T\}$ – азбука ДНК нуклеотида,
- скривена стања $x = y \times \{+, -\}$ – Декартов производ симбола,
- полазне вероватноће $\pi = \dfrac{1}{8}$ или емпиријске, према узорку,
- прелази $a =$ припремљене вредности према табели [4.2] или [4.3],
- емисије $b = 1$ ако стање одговара, иначе $0$, према слици [4.4].

[4.2]: #tab:cg_hmm1
[4.3]: #tab:cg_hmm2
[4.4]: #fig:cg_stanja

In [201]:
# Библиотека за математичке грешке
from numpy import seterr

# Искључивање небитне грешке
_ = seterr(divide='ignore')

In [202]:
# Прављење првог модела за CG острва
cg_hmm5 = HMM(a5, b5, pi5)

# Декодирање улазне ДНК секвенце
rez_hmm5 = cg_dekod(cg_hmm5, dnk)

Највероватнији скривени пут за ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT 
 је: (-74.49514263430756, '------+++++++++++------------------------')


In [203]:
# Прављење другог модела за CG острва
cg_hmm6 = HMM(a6, b5, pi6)

# Декодирање улазне ДНК секвенце
rez_hmm6 = cg_dekod(cg_hmm6, dnk)

Највероватнији скривени пут за ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT 
 је: (-74.6864609456598, '------+++++++++++++----------------------')


И овакав модел даје врло добре резултате. Други приступ потрази за генима који укључује већи број стања и није заснован на проналажењу *CG* острва. Алтернативна идеја заправо моделује сложенију структуру еукариотске ДНК, с циљем да још детаљније и прецизније анотира улазне секвенце.

Иако *CG* острва јесу добар показатељ да се у близини налази неки промотер, који би могао да покрене преписивање (транскрипцију) гена, још би боље било када би се могло тачно одредити који нуклеотиди представљају ген, а који не. Познато је да се ДНК може поделити на више поднизова који имају двојаку природу – или су интрони или егзони. Интрони су интрагенски региони, па тако представљају некодирајуће делове наследног материјала, који су уметнути између гена и који се уклањају у процесу сплајсовања. Егзони (ексони, због експресије), с друге стране, кодирају протеине, и увек су дужине дељиве са бројем три. Они се заправо састоје из триплета нуклеотида (кодона) који појединачно кодирају аминокиселине, које касније граде протеине. Постоји и неколико специјалних кодона – почетни *ATG* и завршни *TAA*, *TAG*, *TGA* – који означавају места на којима преписивање почиње и завршава се, мада стартни кодон на другим местима кодира метионин. О подацима из овог пасуса детаљније се може прочитати нпр. [овде](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1802560/) и [овде](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2766791/).

Последица свега наведеног је да се ДНК може моделовати и аутоматом са слике [4.5]. На [слици](https://commons.wikimedia.org/wiki/File:HMM_Eukaryotic.jpg) су представљени пример, стања и прелази, са већим бројем забрањених.

[4.5]: #fig:eukariote

<figure><img src="../slike/eukariote.png" width="65%" id="fig:eukariote" /><figcaption style="text-align: center;"><b>Слика 4.5</b>: Структура модела еукариотске ДНК</figcaption></figure>

Ово је, међутим, врло упрошћен модел, а у стварности је организација ДНК знатно комплекснија – посебну структуру имају подланци на почетку и крају ДНК ланца, посебан удео нуклеотида имају делови на прелазу између егзона и интрона, а посебно се издвајају и такозвани *ORF*-ови, који су целом дужином кодирајући, без интронских прекида. Стога је очекивано да успешан модел ипак мора имати већи број стања, што и јесте случај. О подацима из овог пасуса детаљније се може прочитати нпр. [овде](https://drum.lib.umd.edu/bitstream/handle/1903/8004/FindingGenes.pdf) и [овде](https://software-ab.informatik.uni-tuebingen.de/download/public/GBi-2020-Script.pdf).

Један од успешних модела за тачно предвиђање гена који кодирају протеине јесте [*GENSCAN*](http://argonaute.mit.edu/GENSCAN.html), алат који су 1997. године осмислили Берџ и Карлин. Модел је карактеристичан по томе што предвиђа гене на оба ланца ДНК истовремено, па тако за већину елемената секвенце има дуплирана стања. Примера ради, делове егзона не моделује кроз три стања, као на слици [4.5], већ кроз шест. Укупно има 27 стања. Надограђен је појмом трајања (ново темпорално својство), по чему је такође карактеристичан, тако да није у питању сасвим обичан *HMM*. Принцип рада је, међутим, исти: улаз је ДНК секвенца, а излаз декодирана стања, израчуната Витербијевим алгоритмом. Алат је прилично успешан, са стопом погодака од преко 90 % по нуклеотиду и око 80 % по егзону, о чему се детаљније може прочитати у [цитираном раду](http://www.bx.psu.edu/old/courses/bx-fall07/genscan.pdf).

[4.5]: #fig:eukariote

За крај, није лоше сумирати успех *HMM* у потрази за генима. Када су у питању модели са само два стања (јесте или није *CG* острво), проблематично је уколико се постави мала вероватноћа промене стања. Такав модел мале секвенце по правилу проглашава за целе (не)кодирајуће. С друге стране, повећањем вероватноће прелаза долази до извртања идеје, и тада само текући карактер постаје битан. Знатно побољшање добија се посматрањем динуклеотидног састава ниске, уместо скенирањем једног по једног карактера. Једнако добро се понаша модел са више стања, иако су му емисије дегенерисане.

In [204]:
# Поређење познатог и добијених острва
print('Ниска:  ', dnk)
print('Познато:', cg         , '(познате ознаке CG острва)')
print('Прозор: ', proz1      , '(прозор оптималне величине пет)')
print('HMM 1:  ', rez_hmm1[1], '(мали прелази, емпиријске емисије)')
print('HMM 2:  ', rez_hmm2[1], '(средњи прелази, поправљене емисије)')
print('HMM 3:  ', rez_hmm3[1], '(велики прелази, поправљене емисије)')
print('HMM 4:  ', rez_hmm4[1], '(средњи прелази, динуклеотидне емисије)')
print('MC:     ', proz2      , '(прозорски приступ преко ланца)')
print('HMM 5:  ', rez_hmm5[1], '(емпиријски прелази, више стања)')
print('HMM 6:  ', rez_hmm6[1], '(равномерни прелази, више стања)')
print('Ниска:  ', dnk)

Ниска:   ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT
Познато: -------++++++++++------------------------ (познате ознаке CG острва)
Прозор:  --------++++++++++----------------------- (прозор оптималне величине пет)
HMM 1:   ----------------------------------------- (мали прелази, емпиријске емисије)
HMM 2:   ----------------------------------------- (средњи прелази, поправљене емисије)
HMM 3:   ----+--+-++-++-+++------+--++------+----- (велики прелази, поправљене емисије)
HMM 4:   -------+++++++++++----------------------- (средњи прелази, динуклеотидне емисије)
MC:      --------++++++++++----------------------- (прозорски приступ преко ланца)
HMM 5:   ------+++++++++++------------------------ (емпиријски прелази, више стања)
HMM 6:   ------+++++++++++++---------------------- (равномерни прелази, више стања)
Ниска:   ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT


Од свих разматраних модела је, међутим, најбоља надградња *HMM* реализована кроз сложени алат *GENSCAN*. Она можда не проналази *CG* острва као таква, али зато прецизно лоцира кодирајуће егзоне. Неки општи закључак могао би бити да се боље показују модели са више стања, који конкретније хватају зависности. Штавише, није лоше напоменути да овај проблем спада у оне поменуте у мотивационом уводу, који се ефикасније могу решити помоћу многобројних надградњи *HMM*.  Једна од општијих успешних дорада јесу [условна случајна поља](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1950907/), која [умањују број погрешних](http://ciir.cs.umass.edu/pubfiles/ir-419.pdf) предвиђања.


## 4.3 Профилни модели [⮭]<a id="par:prof1"></a>

[⮭]: #par:bio

Крунско и можда најпознатије постигнуће скривених Марковљевих модела управо је њихова употреба у статистички поткованој класификацији секвенцијалних података. Конкретно, у наставку је размотрена примена у класификацији протеина, мада је објашњено и како се резултат уопштава.

Протеини су, наиме, организовани у разнолике протеинске фамилије, а чест биолошки задатак јесте додељивање новооткривеног полипептида некој од познатих фамилија. Замисао је да се на неки начин оцени припадност новог аминокиселинског ланца неким познатим породицама, а затим протеин додели оној са највећим скором. Наивни приступ оцењивању подразумева поређење улазног полипептида са сваким чланом породице појединачно, те напослетку сабирање тако добијених скорова или пак узимање максималног.

Протеини се у биоинформатици представљају својом примарном структуром, као ниска аминокиселина (азбука од двадесетак слова), па се међусобно могу лако поредити неким алгоритмом за рад са нискама. Често се, међутим, дешава да између појединих чланова фамилије постоје веће разлике, као нпр. код изузетно варијабилног гликопротеина *gp120* код ХИВ-а, како је размотрено у мотивационом уводу. То резултује нестварно малим скоровима, па стога поређење по паровима у општем случају не даје добре резултате.

Последица је да се протеин који се класификује мора поредити са целом фамилијом одједном. За те потребе, фамилије се најчешће представљају као вишеструка поравнања и изведене профилне матрице, како је представљено у другом (*Chapter 2: Which DNA Patterns Play the Role of Molecular Clocks? – Randomized Algorithms*) и петом (*Chapter 5: How Do We Compare DNA Sequences? – Dynamic Programming*) поглављу проучаваног уџбеника.

Подсећања ради, вишеструко поравнање је матрица карактера (низ ниски), чији редови представљају ниске које се поравнавају, а колоне карактере тих ниски на позицији одређеној том колоном. Како су при поравнању дозвољене инсерције (убацивање) и делеције (брисање слова), у нискама се налази и специјални карактер „–”, који означава празнину.

In [205]:
# Поравнање из књиге
P = ['ACDEFACADF',
     'AFDA---CCF',
     'A--EFD-FDC',
     'ACAEF--A-C',
     'ADDEFAAADF']

Није необично да постоје ретке колоне, у којима је велики удео празнина. Биолошки гледано, та аминокиселина вероватно није битна карактеристика породице која се моделује, па се занемарује. Прецизније, уклањају се све колоне у којима је удео празнина већи од унапред одређене границе $\theta$. Резултат је пречишћено поравнање.

In [206]:
# Чишћење поравнања
def precisti(P, theta):
    # Број колона поравнања
    n = len(P[0])
    
    # Број редова поравнања
    m = len(P)
    
    # Да ли удео прелази границу
    udeo = [sum(P[i][j] == '-' for i in range(m))
            < m * theta for j in range(n)]
    
    # Брисање колона које прелазе
    return [''.join(P[i][j] for j in range(n) if udeo[j]) for i in range(m)], udeo

In [207]:
# Граница одсецања из књиге
theta = .35

In [208]:
# Пречишћавање поравнања
Pp, _ = precisti(P, theta)

In [209]:
# Приказ пречишћеног поравнања
print(*Pp, sep='\n')

ACDEFADF
AFDA-CCF
A--EFFDC
ACAEFA-C
ADDEFADF


Напослетку се пречишћено поравнање трансформише у профилну матрицу, чији редови представљају (све) карактере из азбуке поравнатих ниски, док колоне складиште удео сваког карактера на тој позицији, не рачунајући празнине.

In [210]:
# Прављење профила од поравнања
def profil(P):
    # Број колона поравнања
    n = len(P[0])
    
    # Број редова поравнања
    m = len(P)
    
    # Одређивање азбуке
    azbuka = sorted(set(P[i][j] for i in range(m) for j in range(n)))
    
    # Избацивање симбола празнине
    if '-' in azbuka:
        azbuka.remove('-')
    
    # Пребројавање сваког карактера у свакој колони
    prof = {slovo: [sum(P[i][j] == slovo for i in range(m))
                    for j in range(n)] for slovo in azbuka}
    
    # Нормализација броја карактера по колони
    return {slovo: [prof[slovo][j]/sum(prof[s][j] for s in azbuka)
                    for j in range(n)] for slovo in azbuka}

In [211]:
# Профил према поравнању
prof = profil(Pp)

In [212]:
# Приказ профила из примера
print(prof)

{'A': [1.0, 0.0, 0.25, 0.2, 0.0, 0.6, 0.0, 0.0], 'C': [0.0, 0.5, 0.0, 0.0, 0.0, 0.2, 0.25, 0.4], 'D': [0.0, 0.25, 0.75, 0.0, 0.0, 0.0, 0.75, 0.0], 'E': [0.0, 0.0, 0.0, 0.8, 0.0, 0.0, 0.0, 0.0], 'F': [0.0, 0.25, 0.0, 0.0, 1.0, 0.2, 0.0, 0.6]}


Приметно је да профил, како говори о вероватносној расподели по колони (позицији) карактера из азбуке $y$ величине $m$, веома личи на мапу емисија неког *HMM*-a. Испоставља се да се стварно може тако посматрати.

Најједноставнији *HMM* за моделовање фамилија протеина могао би бити у суштини дегенерисан ланац скривених стања $x$, такав да свако стање представља једну позицију, којих је укупно $n$. Од сваког стања $x_i$ постоји само један прелаз са јединичном вероватноћом на стање $x_{i+1}$, док се вероватноће емисија узимају из профила. Прво стање $x_1$ обавезно је почетно, док је последње $x_n$ обавезно завршно.

На слици [4.6] приказан је претходно изнети ток догађаја од вишеструког поравнања до ланчаног *HMM*-а. Полазно има десет позиција, које се границом одсецања $\theta =$ 0,35 своде на коначних осам.

[4.6]: #fig:profil

<figure><img src="../slike/profil.png" width="65%" id="fig:profil" /><figcaption style="text-align: center;"><b>Слика 4.6</b>: Мотивациони пример <i>HMM</i> профила, према књизи</figcaption></figure>

Занимљиво је напоменути да се чини да је ово поглавље у књизи написано ужурбано, па су се провукле чак три материјалне грешке. Прва се налази на уџбеничкој верзији претходне слике, где је расподела у трећој колони $\{0, 0, 3/4, 0, 0\}$. Фали, дакле, вероватноћа приказа $A$, која износи $1/4$, и која је на овдашњој слици додата и наглашена црвеном бојом. Грешка се налази и на Певзнеровој презентацији, а није познато да ли је исправљена у најновијем издању. О осталим пропустима биће речи у наставку, када се стигне до њих.

Што се тиче малопре приказаног ланчаног *HMM*-а, треба напоменути да му се стања најчешће означавају као $M_i$, како је и на слици, а не као $x_i$, како је уобичајено код *HMM*. Разлог томе је што она заправо представљају поклапања (енгл. *Match*) на тој позицији. Напоменуто је већ и да је овакав модел дегенерисан. Како има обавезно почетно и завршно стање, као и обавезне прелазе, кроз њега постоји само један скривени пут – тачно $M_1M_2...M_{n-1}M_n$.

In [213]:
# Ланац као профилни модел
class ProfHMM(HMM):
    # Конструкција према профилу
    def __init__(self, prof):
        # Читање азбуке емисија из профила
        y = [*prof.keys()]
        
        # Читање броја стања (колона) из профила
        n = len(prof[y[0]])
        
        # Скуп скривених стања {M1, ..., Mn}
        x = [f'M{i}' for i in range(1, n+1)]
        
        # Обавезно почетно стање M1
        pi = {xi: int(xi == 'M1') for xi in x}
        
        # Обавезни прелази Mi -> Mi+1
        a = {xi: {xj: int(int(xj[1:]) == int(xi[1:])+1) for xj in x} for xi in x}
        
        # Мапа емисија према профилу
        b = {xi: {yi: prof[yi][int(xi[1:])-1] for yi in y} for xi in x}
        
        # Конструкција наткласе
        super().__init__(a, b, pi)

In [214]:
# Прављење ланчаног HMM-а
profhmm = ProfHMM(prof)

In [215]:
# Библиотека за леп приказ модела
from pandas import set_option, DataFrame

# Приказивање свих редова и колона
set_option('display.max_rows', None)
set_option('display.max_columns', None)

In [216]:
# Леп приказ модела
def prikazi(hmm):
    # Издвајање пролазних вероватноћа
    if hasattr(hmm, 'pi'):
        pi = DataFrame([[hmm.pi[i] for i in hmm.x]],
                       index=['π'], columns=hmm.x)

        # Приказ полазних вероватноћа
        print('Полазне вероватноће:')
        display(pi)
    
    # Издвајање вероватноћа прелаза
    a = DataFrame([[hmm.a[i][j] for j in hmm.x] for i in hmm.x],
                  index=hmm.x, columns=hmm.x)
    
    # Приказ вероватноћа прелаза
    print('Вероватноће прелаза:')
    display(a)
    
    # Издвајање излазних вероватноћа
    b = DataFrame([[hmm.b[i][j] for j in hmm.y] for i in hmm.x],
                  index=hmm.x, columns=hmm.y)
    
    # Приказ излазних вероватноћа
    print('Вероватноће емисија:')
    display(b)

In [217]:
# Леп приказ модела
prikazi(profhmm)

Полазне вероватноће:


Unnamed: 0,M1,M2,M3,M4,M5,M6,M7,M8
π,1,0,0,0,0,0,0,0


Вероватноће прелаза:


Unnamed: 0,M1,M2,M3,M4,M5,M6,M7,M8
M1,0,1,0,0,0,0,0,0
M2,0,0,1,0,0,0,0,0
M3,0,0,0,1,0,0,0,0
M4,0,0,0,0,1,0,0,0
M5,0,0,0,0,0,1,0,0
M6,0,0,0,0,0,0,1,0
M7,0,0,0,0,0,0,0,1
M8,0,0,0,0,0,0,0,0


Вероватноће емисија:


Unnamed: 0,A,C,D,E,F
M1,1.0,0.0,0.0,0.0,0.0
M2,0.0,0.5,0.25,0.0,0.25
M3,0.25,0.0,0.75,0.0,0.0
M4,0.2,0.0,0.0,0.8,0.0
M5,0.0,0.0,0.0,0.0,1.0
M6,0.6,0.2,0.0,0.0,0.2
M7,0.0,0.25,0.75,0.0,0.0
M8,0.0,0.4,0.0,0.0,0.6


Остаје још питање употребне вредности оваквог модела, односно оваквих модела, јер би постојао по један *HMM* за сваку породицу. Сада би се скор могао добити као вероватноћа емитовања ниске (новог полипептида) $o$ у осмишљеном моделу. И овога пута, протеин би био додељен оној породици са највећим $P\{o\}$. Одређивање те вероватноће већ је разматрано као решење проблема [7].

[7]: #prob:ops

In [218]:
# Пример опажања из уџбеника
o = 'ADDAFFDF'

In [219]:
# Примена алгоритма „напред”
print('Вероватноћа опажања', o, 'је:', forward(profhmm, o))

Вероватноћа опажања ADDAFFDF је: 0.003375000000000001


Ипак, како је модел дегенерисан, нема потребе примењивати сложени алгоритам „напред”, па чак ни рачунати једнаку вероватноћу при обавезном путу $P\{o | M_1...M_n\}$, као решење проблема [4].

[4]: #prob:ishod

In [220]:
# Рачунање вероватноће при путу
print('Вероватноћа опажања', o, 'на путу', profhmm.x,
      'је:', p_ops_na_putu(profhmm, profhmm.x, o))

Вероватноћа опажања ADDAFFDF на путу ['M1', 'M2', 'M3', 'M4', 'M5', 'M6', 'M7', 'M8'] је: 0.003375000000000001


In [221]:
# Рачунање вероватноће при путу
print('Декодирањем опажања', o, 'добија се:',
      viterbi_dekodiranje(profhmm, o))

Декодирањем опажања ADDAFFDF добија се: (0.003375000000000001, 'M1M2M3M4M5M6M7M8')


Довољно је само помножити одговарајуће вредности из профилне матрице. Примера ради, вероватноћа да *HMM* са слике [4.6] емитује $ADDAFFDF$ износи (слика [4.7]): $$P\{ADDAFFDF\} = 1 \cdot \frac{1}{4} \cdot \frac{3}{4} \cdot \frac{1}{5} \cdot 1 \cdot \frac{1}{5} \cdot \frac{3}{4} \cdot \frac{3}{5} = 0,003375.$$

[4.6]: #fig:profil
[4.7]: #fig:prof_ishod

<figure><img src="../slike/prof_ishod.png" width="65%" id="fig:prof_ishod" /><figcaption style="text-align: center;"><b>Слика 4.7</b>: Вероватноћа опсервације као скор фамилије, према књизи</figcaption></figure>

In [222]:
# Вероватноћа пута према профилу
def prof_p_ops(prof, o):
    # Полазна јединична вероватноћа
    p = 1
    
    # Множење вероватноће сваког симбола
    for i, oi in enumerate(o):
        p *= prof[oi][i]
    
    # Враћање крајње вероватноће
    return p

In [223]:
# Множење профилних вероватноћа
print('Вероватноћа опажања', o, 'је:', prof_p_ops(prof, o))

Вероватноћа опажања ADDAFFDF је: 0.003375000000000001


Свеукупно, овакав модел није лош утолико што добро осликава сличност протеина са породицом – што је улазни полипептид сличнији фамилији, то је његов скор (вероватноћа) већи. Такође, различито оцењује сваку појединачну колону, што је циљ постављен у мотивационом уводу. Ипак, он због дегенерисаности баш и није прави *HMM*. Штавише, није ништа бољи од саме профилне матрице. Иако све лепо ради за опсервације (полипептиде) дужине $k = n$, главно ограничење је што се лоше моделују исходи других дужина. Њихова вероватноћа је подразумевано нулта, тј. сматрају се немогућим.

In [224]:
# Дугачко опажање из уџбеника
o_dugo = 'AFDDAFFDF'

In [225]:
# Вероватноћа опажања дужине 9 = k > n = 8
print('Вероватноћа опажања', o_dugo, 'је:', forward(profhmm, o_dugo))

Вероватноћа опажања AFDDAFFDF је: 0.0


In [226]:
# Кратко опажање из уџбеника
o_kratko = 'AAFFDF'

In [227]:
# Вероватноћа опажања дужине 6 = k < n = 8
print('Вероватноћа опажања', o_kratko, 'је:', forward(profhmm, o_kratko))

Вероватноћа опажања AAFFDF је: 0.0


Овај наивни модел, ипак, није толико бескористан, јер се може употребити као основа за прављење напредног, свеобухватног *HMM*-а за класификацију свакојаких секвенцијалних података, а не само протеина, о чему ће бити речи у наставку.

Прво, могуће је суочити се са проблемом опажања дужине $k > n$. Једноставно решење јесте додавање нових стања, која би дозволила додатне приказе. Прецизније, најбоље је додати $n+1$ стање инсерције $I_i$, за индекс $i \in \{0, ..., n\}$. Замисао је да посета стању $I_i$ дозволи емитовање додатних симбола између колона $i$ и $i+1$ поравнања. Стога се додају гране од $M_i$ ка $I_i$, као и од $I_i$ ка $M_{i+1}$. Наравно, како би било могуће емитовати више додатних симбола, додаје се и петља – грана од $I_i$ ка самом себи. Специјално, стање $I_0$ моделује инсерције пре првог карактера поравнања, док $I_n$ дозвољава уметања након последњег слова. Слика [4.8] приказује употребу нових стања у одређивању пута кроз дорађени ланац са слике [4.6] за досад необјашњиво опажање $A$<i style="color: red"><b>F</b></i>$DDAFFDF$. Ово је, дакле, опажање $ADDAFFDF$ са слике [4.7], али уз уметнутно $F$ на другом месту. Оптимални пут је подебљан.

[4.6]: #fig:profil
[4.7]: #fig:prof_ishod
[4.8]: #fig:insercije

<figure><img src="../slike/insercije.png" width="65%" id="fig:insercije" /><figcaption style="text-align: center;"><b>Слика 4.8</b>: Увођење стања инсерције, према књизи</figcaption></figure>

In [228]:
# Додавање инсерција у профилни модел
class ProfHMM(HMM):
    # Конструкција према профилу
    def __init__(self, prof):
        # Читање азбуке емисија из профила
        y = [*prof.keys()]
        
        # Читање величине азбуке
        m = len(y)
        
        # Читање броја колона из профила
        n = len(prof[y[0]])
        
        # Скуп скривених стања {I0, M1, I1, ..., Mn, In}
        x = ['I0', *(f'{X}{i}' for i in range(1, n+1) for X in ('M', 'I'))]
        
        # Обавезно почетно стање M1 ili I0; већа
        # је вероватноћа поклапања него инсерције
        pi = {xi: .9 if xi == 'M1' else .1 if xi == 'I0' else 0 for xi in x}
        
        # Обавезни прелази Mi -> Mi+1, Ii -> Ii, Ii -> Mi;
        # већа је вероватноћа поклапања него инсерције
        a = {xi: {xj: .9 if int(xj[1:]) == int(xi[1:])+1 and xj[0] == 'M'
                  else .1 if int(xj[1:]) == int(xi[1:]) and xj[0] == 'I'
                  else 0 for xj in x} for xi in x}
        
        # Нормализација мапе прелаза
        a = {xi: {xj: round(a[xi][xj]/sum(a[xi].values()), 3) for xj in x} for xi in x}
        
        # Мапа емисија према профилу или
        # равномерна у стањима инсерције
        b = {xi: {yi: prof[yi][int(xi[1:])-1] if xi[0] == 'M' else 1/m for yi in y} for xi in x}
        
        # Конструкција наткласе
        super().__init__(a, b, pi)

In [229]:
# Прављење HMM-а са инсерцијама
profhmm = ProfHMM(prof)

In [230]:
# Леп приказ модела
prikazi(profhmm)

Полазне вероватноће:


Unnamed: 0,I0,M1,I1,M2,I2,M3,I3,M4,I4,M5,I5,M6,I6,M7,I7,M8,I8
π,0.1,0.9,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


Вероватноће прелаза:


Unnamed: 0,I0,M1,I1,M2,I2,M3,I3,M4,I4,M5,I5,M6,I6,M7,I7,M8,I8
I0,0.1,0.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M1,0.0,0.0,0.1,0.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.1,0.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.0,0.0,0.0,0.1,0.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.1,0.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M3,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I3,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.9,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.1,0.9,0.0,0.0,0.0,0.0,0.0


Вероватноће емисија:


Unnamed: 0,A,C,D,E,F
I0,0.2,0.2,0.2,0.2,0.2
M1,1.0,0.0,0.0,0.0,0.0
I1,0.2,0.2,0.2,0.2,0.2
M2,0.0,0.5,0.25,0.0,0.25
I2,0.2,0.2,0.2,0.2,0.2
M3,0.25,0.0,0.75,0.0,0.0
I3,0.2,0.2,0.2,0.2,0.2
M4,0.2,0.0,0.0,0.8,0.0
I4,0.2,0.2,0.2,0.2,0.2
M5,0.0,0.0,0.0,0.0,1.0


In [231]:
# Вероватноћа опажања дужине 9 = k > n = 8
print('Вероватноћа опажања', o_dugo, 'је:', forward(profhmm, o_dugo))

Вероватноћа опажања AFDDAFFDF је: 9.071731402179203e-05


In [232]:
# Рачунање вероватноће при путу
print('Декодирањем опажања', o_dugo, 'добија се:',
      viterbi_dekodiranje(profhmm, o_dugo))

Декодирањем опажања AFDDAFFDF добија се: (2.9056536675000004e-05, 'M1I1M2M3M4M5M6M7M8')


Даље, могуће је ухватити се укоштац и са проблемом опажања дужине $k < n$. Сада је задатак моделовати делеције, односно омогућити прескакање неких колона поравнања. Наиван приступ овом решењу било би баш прескакање неких поклапања додавањем великог броја грана. Наиме, могла би се додати по грана ка сваком $M_i$ од сваког $M_j$ и $I_j$ за $j < n$, као и по једна од сваког $M_i$ ка сваком $M_j$ и $I_j$ за $j > n$. Другим речима, тада би се у неко стање поклапања могло непосредно доћи из било ког стања лево, као и непосредно отићи у било које стање десно. Како би то изгледало на дорађеном моделу са слике [4.8], може се видети на слици [4.9], која следи. Црвеном бојом наглашена је грана која омогућује рад са досад необјашњивим опажањем $AAFFDF$, дакле са уклоњена два карактера $DD$. Како слика не би била претерано хаотична, додате су само нове гране чији је један крај поклапање $M_4$.

[4.8]: #fig:insercije
[4.9]: #fig:delecije1

<figure><img src="../slike/delecije1.png" width="65%" id="fig:delecije1" /><figcaption style="text-align: center;"><b>Слика 4.9</b>: Наивна обрада делеција, према књизи</figcaption></figure>

In [233]:
# Наивна обрада делеција у профилном моделу
class ProfHMM(HMM):
    # Конструкција према профилу
    def __init__(self, prof):
        # Читање азбуке емисија из профила
        y = [*prof.keys()]
        
        # Читање величине азбуке
        m = len(y)
        
        # Читање броја колона из профила
        n = len(prof[y[0]])
        
        # Скуп скривених стања {I0, M1, I1, ..., Mn, In}
        x = ['I0', *(f'{X}{i}' for i in range(1, n+1) for X in ('M', 'I'))]
        
        # Обавезно почетно стање M1 ili I0; већа
        # је вероватноћа поклапања него инсерције
        pi = {xi: .9 if xi == 'M1' else .1 if xi == 'I0' else 0 for xi in x}
        
        # Могућ велики број прелаза; већа је
        # вероватноћа поклапања него инсерције
        a = {xi: {xj: .9 if int(xj[1:]) == int(xi[1:])+1 and xj[0] == 'M'
                  else .1 if int(xj[1:]) == int(xi[1:]) and xj[0] == 'I'
                  else .1 if int(xi[1:]) < int(xj[1:]) and  xj[0] == 'M'
                  else 0 for xj in x} for xi in x}
        
        # Нормализација мапе прелаза
        a = {xi: {xj: round(a[xi][xj]/sum(a[xi].values()), 3) for xj in x} for xi in x}
        
        # Мапа емисија према профилу или
        # равномерна у стањима инсерције
        b = {xi: {yi: prof[yi][int(xi[1:])-1] if xi[0] == 'M' else 1/m for yi in y} for xi in x}
        
        # Конструкција наткласе
        super().__init__(a, b, pi)

In [234]:
# Прављење HMM-а са инсерцијама
profhmm = ProfHMM(prof)

In [235]:
# Леп приказ модела
prikazi(profhmm)

Полазне вероватноће:


Unnamed: 0,I0,M1,I1,M2,I2,M3,I3,M4,I4,M5,I5,M6,I6,M7,I7,M8,I8
π,0.1,0.9,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0


Вероватноће прелаза:


Unnamed: 0,I0,M1,I1,M2,I2,M3,I3,M4,I4,M5,I5,M6,I6,M7,I7,M8,I8
I0,0.059,0.529,0.0,0.059,0.0,0.059,0.0,0.059,0.0,0.059,0.0,0.059,0.0,0.059,0.0,0.059,0.0
M1,0.0,0.0,0.062,0.562,0.0,0.062,0.0,0.062,0.0,0.062,0.0,0.062,0.0,0.062,0.0,0.062,0.0
I1,0.0,0.0,0.062,0.562,0.0,0.062,0.0,0.062,0.0,0.062,0.0,0.062,0.0,0.062,0.0,0.062,0.0
M2,0.0,0.0,0.0,0.0,0.067,0.6,0.0,0.067,0.0,0.067,0.0,0.067,0.0,0.067,0.0,0.067,0.0
I2,0.0,0.0,0.0,0.0,0.067,0.6,0.0,0.067,0.0,0.067,0.0,0.067,0.0,0.067,0.0,0.067,0.0
M3,0.0,0.0,0.0,0.0,0.0,0.0,0.071,0.643,0.0,0.071,0.0,0.071,0.0,0.071,0.0,0.071,0.0
I3,0.0,0.0,0.0,0.0,0.0,0.0,0.071,0.643,0.0,0.071,0.0,0.071,0.0,0.071,0.0,0.071,0.0
M4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.077,0.692,0.0,0.077,0.0,0.077,0.0,0.077,0.0
I4,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.077,0.692,0.0,0.077,0.0,0.077,0.0,0.077,0.0
M5,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.083,0.75,0.0,0.083,0.0,0.083,0.0


Вероватноће емисија:


Unnamed: 0,A,C,D,E,F
I0,0.2,0.2,0.2,0.2,0.2
M1,1.0,0.0,0.0,0.0,0.0
I1,0.2,0.2,0.2,0.2,0.2
M2,0.0,0.5,0.25,0.0,0.25
I2,0.2,0.2,0.2,0.2,0.2
M3,0.25,0.0,0.75,0.0,0.0
I3,0.2,0.2,0.2,0.2,0.2
M4,0.2,0.0,0.0,0.8,0.0
I4,0.2,0.2,0.2,0.2,0.2
M5,0.0,0.0,0.0,0.0,1.0


In [236]:
# Вероватноћа опажања дужине 6 = k < n = 8
print('Вероватноћа опажања', o_kratko, 'је:', forward(profhmm, o_kratko))

Вероватноћа опажања AAFFDF је: 0.0006437827026840483


In [237]:
# Рачунање вероватноће при путу
print('Декодирањем опажања', o_kratko, 'добија се:',
      viterbi_dekodiranje(profhmm, o_kratko))

Декодирањем опажања AAFFDF добија се: (0.00038376898632, 'M1M4M5M6M7M8')


Овакав приступ, међутим, није пожељан, управо због великог броја додатих грана. Подсећања ради, сви важни алгоритми за рад са *HMM* засновани су на Витербијевом графу. Када се говорило о томе, напоменуто је да је сложеност Витербијевог и повезаних алгоритама директно сразмерна броју грана у графу, који, с друге стране, зависи од броја дозвољених прелаза у самом моделу. Претходном дорадом, број прелаза је са линеарног скочио на квадратни – реда $O(n^2)$, где $n$, као и досад, означава број колона у поравнању.

Како би рад са моделом био ефикасан, неопходно је задржати линеаран број грана. То се чини додавањем нових, тихих стања, која не приказују ништа (понекад се замшља да емитују празнину „–”), а представљају алтернативан пут у односу на главни, који иде преко стања поклапања. Прецизније, додаје се $n$ стања делеције $D_i$, таквих да се од сваког $D_i$ може доћи до $M_{i+1}$ и $D_{i+1}$, као и од сваког $M_i$ до $D_{i+1}$. Сада је колону поравнања $i$, односно стање $M_i$, могуће прескочити проласком кроз стање $D_i$. Слика [4.10] приказује употребу нових стања у одређивању пута кроз дорађени модел са слике [4.8] за већ разматрано опажање $AAFFDF$. Оптимални пут је и сада подебљан.

[4.8]: #fig:insercije
[4.10]: #fig:delecije2

<figure><img src="../slike/delecije2.png" width="65%" id="fig:delecije2" /><figcaption style="text-align: center;"><b>Слика 4.10</b>: Увођење стања делеције, према књизи</figcaption></figure>

In [238]:
# Одавде већ није могуће лако направити модел, што
# због тихих стања, што због непознатих вероватноћа;
# детаљна прича о томе и решење дати су у наставку
class ProfHMM(HMM): pass

Сада су могући прелази између стања поклапања и инсерције, као и између стања поклапања и делеције. Како би модел био комплетан, фале још прелази између стања инсерције и делеције. Конкретно, треба омогућити прелаз из сваког $D_i$ на $I_i$, као и од сваког $I_i$ ка $D_{i+1}$. Сада је могуће произвољно мењати тип стања: од инсерције $I_i \mapsto I_i$, $I_i \mapsto D_{i+1}$, $I_i \mapsto M_{i+1}$, од делеције $D_i \mapsto I_i$, $D_i \mapsto D_{i+1}$, $D_i \mapsto M_{i+1}$, од поклапања $M_i \mapsto I_i$, $M_i \mapsto D_{i+1}$, $M_i \mapsto M_{i+1}$. Коначна структура модела са осам колона пречишћеног вишеструког поравнања, који одговара мотивационом примеру, дата је на слици [4.11].

[4.11]: #fig:indeli

<figure><img src="../slike/indeli.png" width="65%" id="fig:indeli" /><figcaption style="text-align: center;"><b>Слика 4.11</b>: Коначна структура модела, према књизи</figcaption></figure>

Већ је примећено да се код профилних модела са $n$ не означава број скривених стања, већ број колона пречишћеног вишеструког поравнања. Стања је трипут више. Још једна њихова специфичност је да је уобичајен рад са експлицитним почетним стањем $S$ (од енгл. *Start*) и завршним $E$ (од енгл. *End*), тако да се и она додају. Од полазног стања могуће је ући у $I_0$, $D_1$ или $M_1$, док се у терминално долази из $I_n$, $D_n$ или $M_n$. Кад се све сабере, општи профилни *HMM* са $n$ колона могао би се приказати дијаграмом са слике [4.12].

[4.12]: #fig:prof_hmm

<figure><img src="../slike/prof_hmm.png" width="60%" id="fig:prof_hmm" /><figcaption style="text-align: center;"><b>Слика 4.12</b>: Општи профилни <i>HMM</i>, према књизи</figcaption></figure>

Ово је, дакле, такозвани профилни *HMM* или *HMM* профил. Како се гради на основу поравнања $P$ и границе одсецања $\theta$, означава се и као $HMM(P, \theta)$. Његово одређивање формално се представља кроз проблем [12].

[12]: #prob:prof

<blockquote id="prob:prof">

<b>Проблем 12</b>: <a href="http://rosalind.info/problems/ba10e/">Одређивање профилног модела</a><br>
<i>Направити профилни HMM на основу вишеструког поравнања.</i><br>
<b>Улаз</b>: вишеструко поравнање $P$ и граница одсецања $\theta$.<br>
<b>Излаз</b>: профилни модел $HMM(P, \theta)$.

</blockquote>

Подсећања ради, сваки *HMM* је петорка, а засад је одређен само први члан – скривена стања $x$, којих је укупно $3n+3$. Одређен је и скуп дозвољених прелаза, па тако из сваког стања излазе највише по три гране, што значи да је укупан број прелаза линеаран – реда $O(n)$, како је и захтевано. Могуће опсервације, као други члан петорке, познате су из улазног поравнања, а зависе од примене. У случају рада са протеинима, скуп $y$ гради двадесетак аминокиселина. Из профилне матрице су познате и емисије у стањима поклапања, а познати су и обавезно почетно (трећи члан петорке $\pi$) и завршно стање.

Фале, међутим, све вероватноће прелаза $a$, као и расподела опажања $b$ у непоклапајућим стањима. Њихово одређивање илустровано је сликом [4.13].

[4.13]: #fig:prof_param

<figure><img src="../slike/prof_param.png" width="65%" id="fig:prof_param" /><figcaption style="text-align: center;"><b>Слика 4.13</b>: Одређивање параметара профилног <i>HMM</i>, према књизи</figcaption></figure>

## 4.4 Рад са профилима [⮭]<a id="par:prof2"></a>

[⮭]: #par:bio

Вероватноће се рачунају емпиријски, на основу улазног вишеструког поравнања. Претходна слика сваку од обојених ниски из поравнања (исти мотивациони пример као и досад, са прве слике [4.6]) приказује као оптимални пут исте боје кроз профилни *HMM*. Веза између ниске као реда вишеструког поравнања и оптималног пута кроз профилни *HMM* једнозначна је. Уколико се у задржаној колони (чиста позадина) $i$ налази емитовани симбол, пролази се кроз стање поклапања $M_i$. Ако задржана колона $i$ складишти празнину „–”, пролази се кроз стање делеције $D_i$. Празнина се у пречишћеној колони (осенчена позадина) која се налази између задржаних колона $i$ и $i+1$ занемарује, док емитовани симболи означавају пролазак кроз стање инсерције $I_i$.

[4.6]: #fig:profil

In [239]:
# Одређивање путева према поравнању
def putevi(P, theta):
    # Пречишћавање поравнања
    Pp, udeo = precisti(P, theta)
    
    # Сваки пут креће почетним стањем
    Ps = [['S'] for i in range(len(Pp))]
    
    # Бројач непречишћених колона
    ui = 0
    
    # Пролазак кроз сваку колону
    for j, u in enumerate(udeo):
        # Повећање бројеча непречишћених
        if u: ui += 1
        
        # Пролаз кроз свако опажање
        for i in range(len(Pp)):
            # Ако није пречишћено
            if u:
                # Делеција је празнина
                if P[i][j] == '-':
                    Ps[i].append(f'D{ui}')
                # Иначе је поклапање
                else:
                    Ps[i].append(f'M{ui}')
            # Пречишћено је инсерција
            elif P[i][j] != '-':
                Ps[i].append(f'I{ui}')
    
    # Додавање завршног стања сваком путу
    return [[*Ps[i], 'E'] for i in range(len(Pp))]

In [240]:
# Дохватање одговарајућих путева
puts = putevi(P, theta)

# Извештавање о путевима
for ops, put in zip(P, puts):
    print('Опажање', ops, 'је на путу:', put)

Опажање ACDEFACADF је на путу: ['S', 'M1', 'M2', 'M3', 'M4', 'M5', 'I5', 'I5', 'M6', 'M7', 'M8', 'E']
Опажање AFDA---CCF је на путу: ['S', 'M1', 'M2', 'M3', 'M4', 'D5', 'M6', 'M7', 'M8', 'E']
Опажање A--EFD-FDC је на путу: ['S', 'M1', 'D2', 'D3', 'M4', 'M5', 'I5', 'M6', 'M7', 'M8', 'E']
Опажање ACAEF--A-C је на путу: ['S', 'M1', 'M2', 'M3', 'M4', 'M5', 'M6', 'D7', 'M8', 'E']
Опажање ADDEFAAADF је на путу: ['S', 'M1', 'M2', 'M3', 'M4', 'M5', 'I5', 'I5', 'M6', 'M7', 'M8', 'E']


На основу одређених скривених путева, могуће је простим бројањем одредити колико често долази до неког прелаза, те расподелу емисија по сваком стању. Нека се разматра пример са слике [4.13], који садржи пет путева. Четири пута – сваки сем црвеног – пролазе кроз стање $M_5$. Од њих, један пут – наранџасти – наставља у стање $M_6$, док преостала три одлазе у стање $I_5$. Овиме је одређена фреквенција дозвољених прелаза, па су вероватноће: $$a_{M_5, I_5} = \frac{3}{4}, a_{M_5, D_6} = 0, a_{M_5, M_6} = \frac{1}{4}.$$

[4.13]: #fig:prof_param

Аналогно се одређују вероватноће прелаза између осталих стања, укључујући специјално полазно и завршно. Ако емпиријски путеви не покривају све прелазе, као између $M_5$ и $D_6$, што је сасвим уобичајено, вероватноћа прелаза сматра се непознатом, односно у питању је имплицитна нула (недозвољени прелаз). Ово је један од примера када мапе не покривају цео простор вероватноћа, односно оне се не сумирају у јединицу, иако би то било очекивано.

И вероватноће опажања одређују се фреквенцијски. На примеру стања $M_5$, у сва четири пролаза емитован је симбол $F$. Стога је мапа следећа: $$b_{M_5, A} = b_{M_5, B} = b_{M_5, C} = b_{M_5, D}= b_{M_5, E} = 0, b_{M_5, F} = \frac{4}{4} = 1.$$ Такође постоји доста непознатих емисија, па је удео имплицитних нула велик.

In [241]:
# Одређивање параметара модела
def parametri(P, putevi, y=None):
    # Читање броја колона
    n = int(putevi[-1][-2][1:])
    
    # Читање азбуке емисија из профила
    if y is None:
        y = [*profil(P).keys()]
    
    # Читање величине азбуке
    m = len(y)
    
    # Скуп скривених стања {S, Ii, Mi, Di, E}
    x = ['S', 'I0', *(f'{X}{i}' for i in range(1, n+1) for X in ('M', 'D', 'I')), 'E']
    
    # Празна мапа прелаза
    a = {xi: {xj: 0 for xj in x} for xi in x}
    
    # Празна мапа емисија
    b = {xi: {yi: 0 for yi in y} for xi in x}
    
    # Анализа сцих путева
    for put, ops in zip(putevi, P):
        # Чишћење опажања од празнина
        ops = ''.join(c for c in ops if c != '-')
        
        # Бројач опажених симбола
        i = 0
        
        # Бројање сваког прелаза
        for p1, p2 in windowed(put, 2):
            a[p1][p2] += 1
            
            # Бројање сваке емисије
            if p2 != 'E' and p2[0] != 'D':
                b[p2][ops[i]] += 1
                
                # Померање бројача
                i += 1
    
    # Нормализација мапе прелаза
    a = {xi: {xj: round(a[xi][xj]/sum(a[xi].values()), 3) if
         sum(a[xi].values()) else 0 for xj in x} for xi in x}
    
    # Нормализација мапе емисија
    b = {xi: {yj: round(b[xi][yj]/sum(b[xi].values()), 3) if
         sum(b[xi].values()) else 0 for yj in y} for xi in x}
    
    # Враћање одређених параметара
    return a, b

In [242]:
# Одређивање параметара модела
a, b = parametri(P, puts)

Свеукупно, главни утисак је да је значајан број непознатих вредности. Ово онемогућава добро оцењивање великог броја секвенци чије би декодирање ишло тим путевима. Њихова вероватноћа била би нула, што је проблем по ком тренутни модел личи на полазни ланац. Да је стварно тако, показује резултујућа мапа прелаза мотивационог примера, приказана на слици [4.14].

[4.14]: #fig:prelazi

<figure><img src="../slike/prelazi.png" width="65%" id="fig:prelazi" /><figcaption style="text-align: center;"><b>Слика 4.14</b>: Вероватноће прелаза мотивационог примера, према књизи</figcaption></figure>

Моделом недозвољени прелази, попут $M_1 \mapsto M_5$, илустровани су ћелијама чисте позадине, док су могући прелази осенчени. Приметно је да је од укупно 75 дозвољених прелаза, само 19 евалуирано, док је преостала већина непозната – у питању су имплицитне нуле. Како ово није пожељна особина, у наставку је превазиђено употребном малих вероватноћа за непознате прелазе.

Пре тога, међутим, ваља указати на други најављени пропуст у књизи, који се баш налази на уџбеничкој верзији претходне слике. Конкретно, аутори су пермутовали прелазе $D_7 \mapsto M_8$ и $I_7 \mapsto M_8$, па је тако првом додељена нулта вероватноћа уместо јединична, а другом обрнуто. Место јединичне вероватноће је на овдашњој слици исправљено и наглашено црвеном бојом. Грешка се налази и на Певзнеровој презентацији, на којој је чак већа. Наиме, ту је дошло до вишеструких пермутација, па је тако свака ненулта вероватноћа у петој колони поравнања (прелази са $I_5$, $D_5$ и $M_5$) погрешна. Уместо овдашњих исправних $\{\{.75, .25, 0\}, \{0, 1, 0\}, \{.4, .6, 0\}\}$, на презентацији су вредности у петом квадрату погрешних $\{\{.25, .75, 0\}, \{.33, .67, 0\}, \{0, 1, 0\}\}$. Да ствар буде гора, пермутоване су вредности и у другом и трећем квадрату.

Такође, ваља се осврнути на чињеницу да се сада и званично може решити изложени проблем [12].

[12]: #prob:prof

In [243]:
# Коначна верзија модела са доста непознатих вероватноћа
class ProfHMM:
    # Конструкција према поравнању
    def __init__(self, P, theta, y=None):
        # Дохватање одговарајућих путева
        puts = putevi(P, theta)
        
        # Одређивање параметара модела
        self.a, self.b = parametri(P, puts, y)
        
        # Читање броја колона
        self.n = len(self.a) // 3
        
        # Скривена стања
        self.x = [*self.a]
        
        # Читање азбуке
        self.y = [*self.b[self.x[0]]]
        
        # Читање величине азбуке
        self.m = len(self.y)

In [244]:
# Прављење коначног HMM-а
profhmm = ProfHMM(P, theta)

In [245]:
# Леп приказ модела
prikazi(profhmm)

Вероватноће прелаза:


Unnamed: 0,S,I0,M1,D1,I1,M2,D2,I2,M3,D3,I3,M4,D4,I4,M5,D5,I5,M6,D6,I6,M7,D7,I7,M8,D8,I8,E
S,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M1,0.0,0.0,0.0,0.0,0.0,0.8,0.2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Вероватноће емисија:


Unnamed: 0,A,C,D,E,F
S,0.0,0.0,0.0,0.0,0.0
I0,0.0,0.0,0.0,0.0,0.0
M1,1.0,0.0,0.0,0.0,0.0
D1,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.5,0.25,0.0,0.25
D2,0.0,0.0,0.0,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.0
M3,0.25,0.0,0.75,0.0,0.0
D3,0.0,0.0,0.0,0.0,0.0


In [246]:
# Основни пример параметара са ROSALIND
theta_r = .289
y_r = ['A', 'B', 'C', 'D', 'E']
P_r = ['EBA',
       'EBD',
       'EB-',
       'EED',
       'EBD',
       'EBE',
       'E-D',
       'EBD']

# Модел према изложеном примеру
rosalind = ProfHMM(P_r, theta_r, y_r)

# Леп приказ модела
prikazi(rosalind)

Вероватноће прелаза:


Unnamed: 0,S,I0,M1,D1,I1,M2,D2,I2,M3,D3,I3,E
S,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M1,0.0,0.0,0.0,0.0,0.0,0.875,0.125,0.0,0.0,0.0,0.0,0.0
D1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.857,0.143,0.0,0.0
D2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0
D3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0


Вероватноће емисија:


Unnamed: 0,A,B,C,D,E
S,0.0,0.0,0.0,0.0,0.0
I0,0.0,0.0,0.0,0.0,0.0
M1,0.0,0.0,0.0,0.0,1.0
D1,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.857,0.0,0.0,0.143
D2,0.0,0.0,0.0,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.0
M3,0.143,0.0,0.0,0.714,0.143
D3,0.0,0.0,0.0,0.0,0.0


In [247]:
# Додатни пример параметара са ROSALIND
theta_r = .252
y_r = ['A', 'B', 'C', 'D', 'E']
P_r = ['DCDABACED',
       'DCCA--CA-',
       'DCDAB-CA-',
       'BCDA---A-',
       'BC-ABE-AE']

# Модел према изложеном примеру
rosalind = ProfHMM(P_r, theta_r, y_r)

# Леп приказ модела
prikazi(rosalind)

Вероватноће прелаза:


Unnamed: 0,S,I0,M1,D1,I1,M2,D2,I2,M3,D3,I3,M4,D4,I4,M5,D5,I5,E
S,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M1,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.8,0.2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0
D3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,0.0,0.0,0.0,0.0,0.0,0.0


Вероватноће емисија:


Unnamed: 0,A,B,C,D,E
S,0.0,0.0,0.0,0.0,0.0
I0,0.0,0.0,0.0,0.0,0.0
M1,0.0,0.4,0.0,0.6,0.0
D1,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.0,1.0,0.0,0.0
D2,0.0,0.0,0.0,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.0
M3,0.0,0.0,0.25,0.75,0.0
D3,0.0,0.0,0.0,0.0,0.0


Било како било, треба се вратити на проблем великог удела нула у емпиријски одређеним мапама преласка и емисија. Поменуто је већ да је главни проблем који то изазива лоше оцењивање многих секвенци и путева. Конкретан пример дат је касније. Други проблем је што овакве мапе не покривају цео простор вероватноћа, односно не сумирају се све излазне вероватноће у јединицу. Све ово се, међутим, лако превазилази увођењем псеудовредности $\sigma$, што су мале вероватноће дозвољених, али често непознатих прелаза и емисија. Оне се, дакле, додају у мапама на сва дозвољена места.

Наравно, приликом додавања псеудовредности не треба заборавити на нормализацију, како би збир вероватноћа стварно био један. Примера ради, за $\sigma = 1/100$, ред $\{.75, .25, 0\}$ не постаје $\{.76, .26, .01\}$, већ $\{.738, .252, .01\}$. Исто тако, сасвим непознати ред $\{0, 0, 0\}$ за свако $\sigma$ постаје $\{1/3, 1/3, 1/3\}$, уместо $\{1/100, 1/100, 1/100\}$ у конкретном случају. Такође, не треба заборавити да се псеудовредности додају искључиво дозвољеним прелазима, док недозвољени остају строго нулте вероватноће. Одређивање овако дорађеног профилног модела $HMM(P, \theta, \sigma)$ формално се представља кроз проблем [13].

[13]: #prob:prof_sigma

<blockquote id="prob:prof_sigma">

<b>Проблем 13</b>: <a href="http://rosalind.info/problems/ba10f/">Одређивање дорађеног профилног модела</a><br>
<i>Направити профилни HMM на основу вишеструког поравнања.</i><br>
<b>Улаз</b>: поравнање $P$, граница $\theta$, псеудовредност $\sigma$.<br>
<b>Излаз</b>: дорађени профилни модел $HMM(P, \theta, \sigma)$.

</blockquote>

In [248]:
# Дозвољени прелази
def ok(xi, xj, n):
    # Докле се може са почетног
    if xi == 'S':
        return xj in ('I0', 'M1', 'D1')
    # Одакле се може на завршно
    elif xj == 'E':
        return xi in (f'I{n}', f'M{n}', f'D{n}')
    # Недозвољено почетно или завршно
    elif xi == 'E' or xj == 'S':
        return False
    
    # Издвајање индекса прелаза
    i = int(xi[1:])
    j = int(xj[1:])
    
    # Издвајање типа прелаза
    xi = xi[0]
    xj = xj[0]
    
    # Петља стања инсерције
    if i == j:
        return xj == 'I'
    # Прелаз на следећу неинсерцију
    elif i+1 == j:
        return xj == 'M' or xj == 'D'
    # Све преостало није дозвољено
    else: return False

In [249]:
# Коначна верзија модела са псеудовредностима
class ProfHMM:
    # Конструкција према поравнању
    def __init__(self, P, theta, sigma, y=None):
        # Дохватање одговарајућих путева
        puts = putevi(P, theta)
        
        # Одређивање параметара модела
        a, b = parametri(P, puts, y)
        
        # Читање броја колона
        self.n = len(a) // 3 - 1
        
        # Додавање псеудовредности
        a = {xi: {xj: a[xi][xj] + sigma if ok(xi, xj, self.n)
                      else 0 for xj in a[xi]} for xi in a}
        b = {xi: {yj: b[xi][yj] + sigma if xi[0] not in ('S', 'E', 'D')
                      else 0 for yj in b[xi]} for xi in b}
        
        # Нормализација вероватноћа
        self.a = {xi: {xj: round(a[xi][xj]/sum(a[xi].values()), 3) if
                  sum(a[xi].values()) else 0 for xj in a[xi]} for xi in a}
        self.b = {xi: {yj: round(b[xi][yj]/sum(b[xi].values()), 3) if
                  sum(b[xi].values()) else 0 for yj in b[xi]} for xi in b}
        
        # Скривена стања
        self.x = [*self.a]
        
        # Читање азбуке
        self.y = [*self.b[self.x[0]]]
        
        # Читање величине азбуке
        self.m = len(self.y)

In [250]:
# Уобичајена псеудовредност
sigma = .01

In [251]:
# Прављење коначног HMM-а
profhmm = ProfHMM(P, theta, sigma)

In [252]:
# Леп приказ модела
prikazi(profhmm)

Вероватноће прелаза:


Unnamed: 0,S,I0,M1,D1,I1,M2,D2,I2,M3,D3,I3,M4,D4,I4,M5,D5,I5,M6,D6,I6,M7,D7,I7,M8,D8,I8,E
S,0.0,0.01,0.981,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I0,0.0,0.333,0.333,0.333,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M1,0.0,0.0,0.0,0.0,0.01,0.786,0.204,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D1,0.0,0.0,0.0,0.0,0.333,0.333,0.333,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.0,0.0,0.333,0.333,0.333,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.981,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.01,0.981,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.333,0.333,0.333,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.981,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.981,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Вероватноће емисија:


Unnamed: 0,A,C,D,E,F
S,0.0,0.0,0.0,0.0,0.0
I0,0.2,0.2,0.2,0.2,0.2
M1,0.962,0.01,0.01,0.01,0.01
D1,0.0,0.0,0.0,0.0,0.0
I1,0.2,0.2,0.2,0.2,0.2
M2,0.01,0.486,0.248,0.01,0.248
D2,0.0,0.0,0.0,0.0,0.0
I2,0.2,0.2,0.2,0.2,0.2
M3,0.248,0.01,0.724,0.01,0.01
D3,0.0,0.0,0.0,0.0,0.0


In [253]:
# Основни пример параметара са ROSALIND
theta_r = .358
y_r = ['A', 'B', 'C', 'D', 'E']
P_r = ['ADA',
       'ADA',
       'AAA',
       'ADC',
       '-DA',
       'D-A']

# Модел према изложеном примеру
rosalind = ProfHMM(P_r, theta_r, sigma, y_r)

# Леп приказ модела
prikazi(rosalind)

Вероватноће прелаза:


Unnamed: 0,S,I0,M1,D1,I1,M2,D2,I2,M3,D3,I3,E
S,0.0,0.01,0.818,0.172,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I0,0.0,0.333,0.333,0.333,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M1,0.0,0.0,0.0,0.0,0.01,0.786,0.204,0.0,0.0,0.0,0.0,0.0
D1,0.0,0.0,0.0,0.0,0.01,0.981,0.01,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.0,0.0,0.333,0.333,0.333,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.981,0.01,0.0,0.0
D2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.981,0.01,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.333,0.333,0.333,0.0,0.0
M3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.99
D3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.5,0.5


Вероватноће емисија:


Unnamed: 0,A,B,C,D,E
S,0.0,0.0,0.0,0.0,0.0
I0,0.2,0.2,0.2,0.2,0.2
M1,0.771,0.01,0.01,0.2,0.01
D1,0.0,0.0,0.0,0.0,0.0
I1,0.2,0.2,0.2,0.2,0.2
M2,0.2,0.01,0.01,0.771,0.01
D2,0.0,0.0,0.0,0.0,0.0
I2,0.2,0.2,0.2,0.2,0.2
M3,0.803,0.01,0.169,0.01,0.01
D3,0.0,0.0,0.0,0.0,0.0


In [254]:
# Додатни пример параметара са ROSALIND
theta_r = .399
y_r = ['A', 'B', 'C', 'D', 'E']
P_r = ['ED-BCBDAC',
       '-D-ABBDAC',
       'ED--EBD-C',
       '-C-BCB-D-',
       'AD-BC-CA-',
       '-DDB-BA-C']

# Модел према изложеном примеру
rosalind = ProfHMM(P_r, theta_r, sigma, y_r)

# Леп приказ модела
prikazi(rosalind)

Вероватноће прелаза:


Unnamed: 0,S,I0,M1,D1,I1,M2,D2,I2,M3,D3,I3,M4,D4,I4,M5,D5,I5,M6,D6,I6,M7,D7,I7,E
S,0.0,0.495,0.495,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I0,0.0,0.01,0.981,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M1,0.0,0.0,0.0,0.0,0.172,0.657,0.172,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D1,0.0,0.0,0.0,0.0,0.333,0.333,0.333,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I1,0.0,0.0,0.0,0.0,0.01,0.981,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.786,0.204,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.981,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
I2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.333,0.333,0.333,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
M3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.786,0.204,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
D3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.01,0.981,0.01,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0


Вероватноће емисија:


Unnamed: 0,A,B,C,D,E
S,0.0,0.0,0.0,0.0,0.0
I0,0.327,0.01,0.01,0.01,0.645
M1,0.01,0.01,0.169,0.803,0.01
D1,0.0,0.0,0.0,0.0,0.0
I1,0.01,0.01,0.01,0.962,0.01
M2,0.2,0.771,0.01,0.01,0.01
D2,0.0,0.0,0.0,0.0,0.0
I2,0.2,0.2,0.2,0.2,0.2
M3,0.01,0.2,0.581,0.01,0.2
D3,0.0,0.0,0.0,0.0,0.0


Овиме је појам профилног скривеног Марковљевог модела комплетиран и чини се да је коначно могуће бацити се у рад са њим. Идеја оваквог модела заправо је двојака. Први циљ је већ поменута класификација, која улазу додељује скор припадности одређивањем вероватноће исхода (алгоритам „напред”). Додатно, могуће је одредити и само поравнање ниски са представљеном фамилијом, које се добија декодирањем улаза (Витербијев алгоритам).

О класификацији је већ било речи – одредити вероватноћу да протеин припада неким породицама, а затим га доделити оној са највећим скором или макар скором који прелази постављену границу. На конкретном примеру предвиђања фенотипа ХИВ-a из мотивационог увода, могла би постојати два *HMM* профила – један изграђен на основу изолата који стварају синцицијум, а други према оним који га не стварају. Нов изолат за који је упитно ствара ли синцицијум био би улазно опажање за алгоритам „напред” над та два профила, а одговор на питање добио би се одабиром профила са већом вероватноћом.

Одабрани профил се, штавише, опционо може проширити додавањем новог изолата у поравнање, а затим поновним израчунавањем параметара тог *HMM*-а. Ажурирањем профила, он временом све боље описује класу коју моделује, те постаје још прецизнији и употребљивији при класификацији.

Овакав принцип може се уопштити на све друге секвенцијалне податке. Прави се, дакле, по један *HMM* профил за сваку могућу класу, а затим се профили пореде са улазном секвенцом, која се класификује. Инстанци се додељује она класа са највећом вероватноћом опажања. Када су у питању гени и протеини, на интернету је бесплатно доступан претраживач [*HMMER*](http://hmmer.org/), управо заснован на припремљеним скривеним Марковљевим моделима.

Када је други циљ у питању, поравнање ниске са профилом добија се непосредно као резултат декодирања. Пример тога дат је на слици [4.15].

[4.15]: #fig:poravnanje

<figure><img src="../slike/poravnanje.png" width="65%" id="fig:poravnanje" /><figcaption style="text-align: center;"><b>Слика 4.15</b>: Пример поравнања мотивационог примера, према књизи</figcaption></figure>

Приказан је оптимални пут $S M_1 M_2 I_2 I_2 M_3 M_4 D_5 M_6 D_7 M_8 E$ кроз досад разматрани профилни *HMM* за ниску (опажање) $ACAFDEAF$. Ваља приметити да је овај пут иначе немогућ (нулте вероватноће) без употребе псеудовредности, јер је нпр. вероватноћа прелаза $M_2 \mapsto I_2$ непозната, па самим тим имплицитно нулта без неког $\sigma$. У бојама је, као и досад, приказана петорка из почетног вишеструког поравнања, док је ниска која се поравнава црна.

Конкретно, заједнично вишеструко поравнање је следеће. Прва два симбола емитована су из стања поклапања $M_1$ и $M_2$, тако да се налазе у првој, односно другој колони поравнања. Следећа два симбола емитована су из стања инсеције $I_2$, тако да се налазе између друге и треће колоне, што је назначено розе сенком. Како је у питању посебан додатак за нову ниску, полазној петорци једноставно се додају по две празнине. Наредна два симбола емитована су из стања поклапања $M_3$ и $M_4$, тако да се налазе у трећој, односно четвртој колони поравнања. Следеће на путу јесте тихо стање делеције $D_5$, тако да нема емисије, већ се у пету колону поравнања ставља симбол празнине „–”. Наредни симбол емитован је из стања поклапања $M_6$, па се ставља у шесту колону поравнања. Пре њега није било инсерција, тако да се две пречишћене колоне попуњавају празнинама. Следи тихо стање делеције $D_7$, што значи да се у седму колону ставља празнина, док је последњи симбол емитован из стања поклапања $M_8$, те се ставља у осму колону поравнања.

Како би поравнање било добро одређено, неопходно је пратити текући карактер нове ниске која се поравнава са фамилијом, односно кренути од првог слова и померати „показивач” када дође до емисије. Такође, може се посебно пазити да ли се прелази преко пречишћеног дела (сиво сенчење), мада то и није толико важно. Општа правила поравнавања сумирају се следећим списком смерница за тумачење стања оптималног скривеног пута:
- пролазак кроз стање поклапања $M_i$ заправо представља емитовање текућег симбола, те поставља тај симбол управо у колону $i$ поравнања,
- пролазак кроз стање инсерције $I_i$ такође представља емитовање текућег симбола, али поставља тај симбол између колона $i$ и $i+1$ поравнања,
- пролазак кроз стање делеције $D_i$ оставља текући симбол на чекању, те поставља алтернативни симбол празнине „–” у колону $i$ поравнања.

In [255]:
# Библиотека за бојење текста
from termcolor import colored

In [256]:
# Поравнање ниске према путу
def poravnanje(ops, put):
    # Иницијализација бројача
    i, por = 0, ''
    
    # Анализа сваког стања на путу
    for p in put:
        # Поклапање даје црни симбол
        if p[0] == 'M':
            por = por + ops[i]
            
            # Померање бројача
            i += 1
        
        # Инсерција даје црвени симбол
        elif p[0] == 'I':
            por = por + colored(ops[i], 'red')
            
            # Померање бројача
            i += 1
        
        # Делеција даје симбол празнине
        elif p[0] == 'D':
            por = por + '-'
    
    # Враћање поравнања
    return por

In [257]:
# Ниска (опажање) из уџбеника
ops = 'ACAFDEAF'

# Оптимални пут из уџбеника
put = ['S', 'M1', 'M2', 'I2', 'I2', 'M3', 'M4', 'D5', 'M6', 'D7', 'M8', 'E']

In [258]:
# Извештавање о поравнању
print('Опажање', ops, 'на путу', put[:6], '+\n',
      put[6:], 'поравнава се као', poravnanje(ops, put))

Опажање ACAFDEAF на путу ['S', 'M1', 'M2', 'I2', 'I2', 'M3'] +
 ['M4', 'D5', 'M6', 'D7', 'M8', 'E'] поравнава се као AC[31mA[0m[31mF[0mDE-A-F


Поравнање је смислено уколико су проласком кроз скривени пут потрошени сви карактери улазног опажања, што се осигурава позадинским алгоритмом.

Остаје још питање како тачно наћи оптимални скривени пут. Јасно је да се може применити Витербијев алгоритам, који је досад коришћен за проблем декодирања. На слици [4.16] приказан је Витербијев граф и одговарајући скривени пут за љубичасто опажање $AEFDFDC$ из мотивационог примера.

[4.16]: #fig:prof_vit

<figure><img src="../slike/prof_vit.png" width="65%" id="fig:prof_vit" /><figcaption style="text-align: center;"><b>Слика 4.16</b>: Наивни Витербијев граф профилног <i>HMM</i>, према књизи</figcaption></figure>

Подсећања ради, основа Витербијевог графа је мрежа чворова чије редове чине сва могућа скривена стања (у конкретном случају профилног модела, за $n = 8$, има их $25$, без експлицитног почетног и завршног, а у општем $3n+1$), док колоне означавају ток времена, тренутак $t$. Из сваког чвора у колони $t-1$ усмерена је по једна грана у сваки чвор из колоне $t$, али искључиво ако је дозвољен прелаз између та два стања. Тако је на основу чињенице да се из сваког стања у тренутку $t-1$ може прећи у било које стање у тренутку $t$, уколико је вероватноћа преласка ненулта. Поред ове основе, мрежа има и два посебна чвора – извор (експлицитно почетно стање – плави кружић) и понор (експлицитно завршно стање – црвени кружић). Из извора иду три гране – ка $I_0$, $M_1$ и $D_1$ – док у понор увиру такође само три гране – од $M_8$, $D_8$ и $I_8$ (односно од индекса $n$ уместо $8$ у општем случају). Број колона (тренутака) заправо је дужина пута $k$, а замисао овакве мреже управо и јесте да истовремено моделује све скривене путеве дужине $k$ кроз упитни *HMM*.

Проблем код графа са слике [4.16] управо је превише прецизно одабран број колона. Приказани граф као да зна да је оптимални пут дужине $k = 9$, а љубичасто опажање заправо $A--EFDFDC$ уместо $AEFDFDC$. Овакво знање, међутим, не може бити доступно пре покретања алгоритма, што значи да граф са слике [4.16] технички и није Витербијев. Штавише, могао би се направити већи број графова сличних претходном, али нпр. без друге и/или треће колоне, и потпуно једнако употребити за одређивање оптималног пута. Резултат, међутим, не би био тачан, јер би се разматрали само путеви дужине $k < 9$, па се свакако не би могао добити оптимални, чија је дужина $k = 9$.

[4.16]: #fig:prof_vit

Витербијев граф стога мора имати фиксан број колона, и то овде тачно $k = 7$. У питању је број емитованих симбола, односно дужина познатог опажања, а не непознатог скривеног пута. Ово пре увођења стања делеције није било проблематично, пошто су дужина опажања и дужина оптималног скривеног пута увек биле једнаке. Тиха стања, међутим, нарушавају ову једнакост. У конкретном случају профилних *HMM*, опажање дужине $k$ може настати на скривеном путу који је најмање дужине баш $k$, уколико пут садржи само стања поклапања, а највише $n+k$, уколико пут не садржи ниједно стање поклапања. Сада је циљ Витербијевим графом са $k$ колона некако моделовати путеве различитих дужина, а на којима се емитује тачно $k$ симбола.

Проблем, дакле, праве тиха стања делеције, пошто мењају смисао чвора $(x_i, t)$ графа. Првобитно, пролазак кроз тај чвор значио је да се у тренутку $t$ модел налази у стању $x_i$, односно да је симбол $o_t$ улазног опажања $o$ емитован из стања $x_i$. Ово, међутим, нема смисла код тихих стања, која ништа не приказују. Смисао се сада допуњује у следећи: пролазак кроз чвор $(x_i, t)$ графа значи да се *HMM* налазио у стању $x_i$ када је емитовао симбол $o_t$ уколико стање $x_i$ није тихо, односно да се налазио у тихом стању $x_i$ након емитовања симбола $o_t$, а пре емитовања $o_{t+1}$. У конкретном случају профилних модела, пролазак кроз $(M_i, t)$ или $(I_i, t)$ значи да је у стању поклапања $M_i$ или инсерције $I_i$ емитовано $o_t$, док пролазак кроз $(D_i, t)$ означава да је аутомат био у тихом стању делеције $D_i$ између емитовања суседних симбола опажања $o_t$ и $o_{t+1}$.

У коначној верзији Витербијевог графа са слике [4.17], претходно објашњена допуна смисла очитава се двама променама. Прво, сваки прелаз у стање делеције, дакле прелаз облика $I_i \mapsto D_{i+1}$, $M_i \mapsto D_{i+1}$ или $D_i \mapsto D_{i+1}$, сада се дешава у оквиру исте колоне. Ово непосредно осликава чињеницу да делеција не емитује нови симбол, што значи да индекс (тренутак) $t$ остаје непромењен. Наравно, преласци ка стањима поклапања или инсерције остају скок у следећу колону, пошто за собом повлаче нову емисију. Ово свеукупно значи да једна колона строго одговара опажању једног симбола, мада се то може десити проласком кроз различите скривене путеве, што је и био циљ.

[4.17]: #fig:prof_vit2

<figure><img src="../slike/prof_vit2.png" width="65%" id="fig:prof_vit2" /><figcaption style="text-align: center;"><b>Слика 4.17</b>: Коначни Витербијев граф профилног <i>HMM</i>, према књизи</figcaption></figure>

Друга промена одговара проширењу нулте колоне, у којој се досад налазио само извор. Она се проширује низом (ланцем) повезаних стања делеције, свим могућим од $D_1$ до $D_8$, односно $D_n$ у општем случају. Наиме, уколико не би било тог проширења, пут би завршио у ћорсокаку уколико би започео првим стањем делеције $D_1$ у првој колони. Прелази су једноставно такви да након уласка у стање делеције није више могуће емитовати симбол у текућој колони. Стога се тај прелаз пребацује у нулту колону, сачињену искључиво од тихих стања. Подразумевано, све гране у истој колони оријентисане су надоле, док су прелази између колона оријентисани надесно. И слика [4.17], попут претходне, декодира љубичасту ниску $AEFDFDC$ из уводног поравнања.

[4.17]: #fig:prof_vit2

Поравнање помоћу профилног *HMM*-а формално се дефинише кроз проблем [14]. У питању је, дакле, нешто напредније декодирање, дорађена верзија проблема [1]. Решење оба је Витербијев алгоритам, само се разликује Витербијев граф над којим се ради, пошто сад постоје и тиха стања делеције.

[1]: #prob:dekod
[14]: #prob:poravnanje

<blockquote id="prob:poravnanje">

<b>Проблем 14</b>: <a href="http://rosalind.info/problems/ba10g/">Поравнање са профилним моделом</a><br>
<i>Поравнати нову ниску са породицом – профилни HMM.</i><br>
<b>Улаз</b>: вишеструко поравнање $P$, граница одсецања $\theta$, псеудовредност $\sigma$, нова ниска (опажање) $o$.<br>
<b>Излаз</b>: оптимални пут $p$ кроз $HMM(P, \theta, \sigma)$ за ниску $o$.

</blockquote>

На сличан начин је, иначе, могуће конструисати Витербијев граф за произвољни *HMM* са тихим стањима. Једини услов који мора да буде испуњен јесте да не постоје петље или циклуси који се састоје искључиво од тихих стања. У супротном, није могуће решити проблем декодирања, али ни друге сличне проблеме засноване на Витербијевом графу (алгоритам „напред” итд.).

Ово је аналогно чињеници да није могуће решити проблем оптималног обиласка Менхетн графа из петог поглавља (*Chapter 5: How Do We Compare DNA Sequences? – Dynamic Programming*) са циклусима. Разлог томе је што се, како код Менхетна, тако и код Витербија, вредности морају рачунати према тополошком редоследу чворова. Другим речима, неопходно је да буду познате све родитељске вредности како би се евалуирао нови, текући чвор.

Граф, дакле, мора бити без циклуса – усмерени ациклички граф. Тополошки редослед у супротном не постоји. У конкретном случају профилних *HMM*, уобичајен редослед рачунања је слева надесно, од врха надоле. Успут се, наравно, чувају путокази, како би се оптимални пут на крају могао реконструисати. Без њих, добила би се само вероватноћа најбољег пута.

Претходна сличност између Витербијевог и Менхетн графа није случајна. Испоставља се да су то у неку руку аналогне структуре, а не само проблеми. На слици [4.18] приказана је њихова наизглед једнакост на већ познатом примеру ниске $ACAFDEAF$ и њеног поравнања са слике [4.15]. Слика илуструје како пут у Менхетн графу одговара скривеном путу кроз профилни *HMM*. Дијагоналне ивице Менхетна одговарају поклапањима, усправне инсерцијама, а водоравне делецијама. Важно је истаћи да ова аналогија ипак није једнакост (еквиваленција), пошто код *HMM*-а постоје променљиве вероватноће (тежине) прелаза и емисија, што није могуће моделовати помоћу Менхетна.

[4.15]: #fig:poravnanje
[4.18]: #fig:poravnanje2

<figure><img src="../slike/poravnanje2.png" width="65%" id="fig:poravnanje2" /><figcaption style="text-align: center;"><b>Слика 4.18</b>: Поређење поравнања мотивационог примера, према књизи</figcaption></figure>

Способност профилних скривених Марковљевих модела да различито оцењују различите колоне матрице поравнања издваја их као прецизније у односу на једноставне методе поравнања засноване на једној матрици са истим скоровима. Профилни модели тако могу ухватити суптилне сличности, које једноставна поравнања пропуштају. Можда најбољи део свега јесте да, упркос тој предности, сложеност остаје подједнако добра, и износи $O(nk)$ за $n$ колона (дужина полазног поравнања) и $k$ редова (дужина опажања).

Код Менхетна је сложеност очигледна, јер се оперише над матрицом димензија $n \times k$, где се вредност сваког чвора израчунава кроз највише три гране. Ни код профилних *HMM* није тешко одредити је. Већ је више пута напоменуто да је сложеност Витербијевог алгоритма сразмерна броју грана у Витербијевом графу. У општем случају, када се из сваког стања може прећи у било које друго, износи $O(n^2 k)$, што је последица постојања по $n$ прелаза између $n$ стања у $k-1$ промени тренутка. Код профилних *HMM*, међутим, постоји већи број стања $3n+1$, као и већи број промена тренутка $k$, али је прелаза највише по три (константа), тако да је асиптотски производ $O(nk)$.

За крај, следе тачне формуле максимизације вероватноће пута у чворовима Витербијевог графа код профилних *HMM* са $n$ колона поравнања за познато опажање $o$ дужине $k$. Још једном, нека мапа скорова $s$ буде таква да $s_{x_i, t}$ складишти вероватноћу оптималног пута дужине $t$ који се завршава скривеним стањем $x_i$. У конкретном случају, уместо општих стања $x_i$, одвојено се разматрају специјализована стања поклапања $M_i$, делеције $D_i$ и инсерције $I_i$.

База рекурзије овако постављеног проблема јесте (први чланови низа): $$(i = 1) (t = 1) s_{M_1, 1} = a_{S, M_1} \cdot b_{M_1, o_1},$$ $$(i = 1) (t = 0) s_{D_1, 0} = a_{S, D_1},$$ $$(i = 0) (t = 1) s_{I_0, 1} = a_{S, I_0} \cdot b_{I_0, o_1}.$$

Рекурзивне формуле максимизације су (непостојећи индекси се занемарују, а ради краћег записа уводи скуп типова стања $X = \{M, D, I\}$): $$(\forall i \in \{2, ..., n\}) (\forall t \in \{2, ..., k\}) s_{M_i, t} = \max_X \{s_{X_{i-1}, t-1} \cdot a_{X_{i-1}, M_i} \cdot b_{M_i, o_t}\},$$ $$(\forall i \in \{2, ..., n\}) (\forall t \in \{1, ..., k\}) s_{D_i, t} = \max_X \{s_{X_{i-1}, t} \cdot a_{X_{i-1}, D_i}\},$$ $$(\forall i \in \{1, ..., n\}) (\forall t \in \{2, ..., k\}) s_{I_i, t} = \max_X \{s_{X_i, t-1} \cdot a_{X_i, I_i} \cdot b_{I_i, o_t}\}.$$

Коначан оптимални (највероватнији) пут добија се додатном максимизацијом: $$P\{p_{opt}, o\} = \max_p P\{p, o\} = (i = n) (t = k) \max_X \{s_{X_n, k} \cdot a_{X_n, E}\}.$$

In [259]:
# Декодирање код профилних модела
def viterbi_prof(hmm, o):
    # Одређивање дужине пута
    k = len(o)
    
    # Проширење опажања због индекса
    o = '-' + o
    
    # Издвајање осталих вредности
    x, n, y, m, a, b = hmm.x, hmm.n, hmm.y, hmm.m, hmm.a, hmm.b
    
    # Иницијализација свих скорова
    s = {xi: [None] for xi in x}
    
    # Иницијализација путоказа
    p = {xi: [['S', xi], ['S', xi]] for xi in x}
    
    # Иницијализација нулте колоне
    s['D1'][0] = a['S']['D1']
    
    # Пролазак тихом нултом колоном
    for i in range(2, n+1):
        # Одређивање вероватноћа
        s[f'D{i}'][0] = s[f'D{i-1}'][0] * a[f'D{i-1}'][f'D{i}']
        
        # Одређивање путоказа пута делеције
        p[f'D{i}'][0] = p[f'D{i-1}'][0] + [f'D{i}']
    
    # Пут делеције ако је опажање празно
    if not k:
        return s[f'D{n}'][0] * a[f'D{n}']['E'], p[f'D{n}'][0] + ['E']
    
    # Пролаз кроз време
    for t in range(1, k+1):
        # Пролаз кроз индексе
        for i in range(n+1):
            # Пролаз кроз тип стања
            for Y in ('M', 'D', 'I'):       
                # Издвајање текућег стања
                Y = f'{Y}{i}'
                
                # Посебна обрада прве колоне
                if t == 1:
                    # Вероватноћа почетног стања I0
                    if Y == 'I0':
                        s['I0'].append(a['S']['I0'] * b['I0'][o[t]])
                    
                    # Вероватноћа почетног стања M1
                    if Y == 'M1':
                        s['M1'].append(a['S']['M1'] * b['M1'][o[t]])
                
                # Одустајање ако је лоше стање:
                # не постоји или је већ обрађено
                if t == 1 and Y in ('I0', 'M1') \
                   or Y not in s: continue
                
                # Одабир лажног оптималног стања
                Xopt, sXopt = '', 0
                
                # Пролаз кроз остала стања
                for X in ('M', 'D', 'I'):
                    # Исти индекс ако је инсерција
                    if Y[0] == 'I':
                        X = f'{X}{i}'
                    # Мањи индекс у супротном
                    else:
                        X = f'{X}{i-1}'
                    
                    # Одустајање ако је непостојеће стање;
                    # лош индекс или временски тренутак
                    if X not in s or X[0] != 'D' and not s[Y][t-1]:
                        continue
                    
                    # Рачунање новог скора ако је делеција
                    if Y[0] == 'D':
                        sX = s[X][t] * a[X][Y]
                    # Рачунање новог скора ако није делеција
                    else:
                        sX = s[X][t-1] * a[X][Y] * b[Y][o[t]]
                    
                    # Одабир новог оптималног стања
                    if sX > sXopt:
                        sXopt = sX
                        Xopt = X
                
                # Додавање оптималног скора
                s[Y].append(sXopt)
                
                # Додавање одговарајућег путоказа; баш
                # текућег ако је делеција, старог иначе
                if Y[0] == 'D':
                    p[Y][1] = p[Xopt][1] + [Y]
                else:
                    p[Y][1] = p[Xopt][0] + [Y]
        
        # Ажурирање свих путоказа
        for xi in x:
            p[xi][0] = p[xi][1]
    
    # Терминација алгоритма; опет
    # одабир лажног оптималног стања
    Xopt, sXopt = '', 0
    
    # Пролаз кроз завршна стања
    for X in ('M', 'D', 'I'):
        X = f'{X}{n}'
        
        # Одређивање скора текућег стања
        sX = s[X][k] * a[X]['E']
        
        # Одабир новог оптималног стања
        if sX > sXopt:
            sXopt = sX
            Xopt = X
    
    # Враћање оптималног пута
    return sXopt, p[Xopt][0] + ['E']

In [260]:
# Сва опажања из уџбеника
opss = ['', o, o_dugo, o_kratko, ops, 'AEFDFDC']

In [261]:
# Највероватнији пут примера из уџбеника;
# баш сваки се поклапа са претпоставкама
for op in opss: print('Исход', op, 'декодиран:', viterbi_prof(profhmm, op))

Исход  декодиран: (1.8112221148500004e-10, ['S', 'D1', 'D2', 'D3', 'D4', 'D5', 'D6', 'D7', 'D8', 'E'])
Исход ADDAFFDF декодиран: (0.0003136855288747913, ['S', 'M1', 'M2', 'M3', 'M4', 'M5', 'M6', 'M7', 'M8', 'E'])
Исход AFDDAFFDF декодиран: (2.657946084358918e-07, ['S', 'M1', 'I1', 'M2', 'M3', 'M4', 'M5', 'M6', 'M7', 'M8', 'E'])
Исход AAFFDF декодиран: (0.0004534316785450957, ['S', 'M1', 'D2', 'D3', 'M4', 'M5', 'M6', 'M7', 'M8', 'E'])
Исход ACAFDEAF декодиран: (1.1719230969622383e-07, ['S', 'M1', 'M2', 'I2', 'I2', 'M3', 'M4', 'D5', 'M6', 'D7', 'M8', 'E'])
Исход AEFDFDC декодиран: (0.00040684805005509046, ['S', 'M1', 'D2', 'D3', 'M4', 'M5', 'I5', 'M6', 'M7', 'M8', 'E'])


In [262]:
# Основни пример параметара са ROSALIND
theta_r = .4
y_r = ['A', 'B', 'C', 'D', 'E', 'F']
P_r = ['ACDEFACADF',
       'AFDA---CCF',
       'A--EFD-FDC',
       'ACAEF--A-C',
       'ADDEFAAADF']

# Основни пример опажања са ROSALIND
o_r = 'AEFDFDC'

# Модел према изложеном примеру
rosalind = ProfHMM(P_r, theta_r, sigma, y_r)

# Вероватноћа пута из примера
print('Исход', o_r, 'декодиран:', viterbi_prof(rosalind, o_r)[1])

Исход AEFDFDC декодиран: ['S', 'M1', 'D2', 'D3', 'M4', 'M5', 'I5', 'M6', 'M7', 'M8', 'E']


In [263]:
# Додатни пример параметара са ROSALIND
theta_r = .359
y_r = ['A', 'B', 'C', 'D', 'E']
P_r = ['EEBBA--C-DBAA-AECD--BDB---CC-DDCBBCEDE-EBB-DAEE-C',
       'EEEEABBCEABBCDEE-DAEBDBAEDC-BDBCB--C-B-BCA-DAEECA',
       '--CEB-ACCDEACEEEEDBEED-ADBCCDAC--BC--BDBCAEDAEECC',
       'A--AABDCE-A-CD-ECD-EBBA-EDC-DACCBBCCD-D-BA-DAAEBC',
       'EECEAB--EDDACCE-CD-E--B-EDCCD-CCBBCCD-DBBA--AE-CA',
       'E-CDA-DCECAAECB-CDCEB-B-BDCCD---B--CD-DBCDBDAEB-C',
       'EBCEAEDC-DABC--A-DCEDDBAED-CD-CCBBCCEBDB--BEA-EEC',
       'AC-E-BDCEDAADDEECDEEB-CAEDC-DD-CBBCCD-DBCABDAEECC',
       'EECBABDCEDEAEC-DCDC-BDBDEDA-D-AD-A-EABEB--BDA-ECC']

# Додатни пример опажања са ROSALIND
o_r = 'EEBEABDCEEABCCCEEBDEDCADEDACCDCBBEECDBDACABDADCBE'

# Модел према изложеном примеру
rosalind = ProfHMM(P_r, theta_r, sigma, y_r)

# Вероватноћа пута из примера
print('Исход', o_r, 'декодиран:', viterbi_prof(rosalind, o_r)[1])

Исход EEBEABDCEEABCCCEEBDEDCADEDACCDCBBEECDBDACABDADCBE декодиран: ['S', 'M1', 'M2', 'M3', 'M4', 'M5', 'M6', 'M7', 'M8', 'M9', 'D10', 'M11', 'M12', 'I12', 'I12', 'M13', 'M14', 'M15', 'M16', 'M17', 'M18', 'D19', 'M20', 'M21', 'M22', 'M23', 'I23', 'M24', 'M25', 'M26', 'I26', 'I26', 'M27', 'D28', 'M29', 'M30', 'M31', 'I31', 'I31', 'D32', 'M33', 'M34', 'I34', 'M35', 'M36', 'M37', 'M38', 'I38', 'M39', 'M40', 'M41', 'M42', 'M43', 'M44', 'E']


У уџбеничкој верзији претходних формула налази се трећи најављени пропуст из књиге. Конкретно, код рекурзивне формуле за стања поклапања $M_i$, која је једина и приказана, стављене су вероватноће прелаза $a_{I_{i-1}, I_i}$ и $a_{D_{i-1}, D_i}$ уместо $a_{I_{i-1}, M_i}$ и $a_{D_{i-1}, M_i}$. Ова грешка, међутим, није присутна на Певзнеровој презентацији, где су формуле тачно написане, мада користе друге ознаке.

Као и досад, аналогно се формирају логаритамске верзије формула, које множење мењају сабирањем, чиме се смањује грешка у рачуну, а проблем додатно приближава Менхетн графу. Идентична је и општа верзија формула са произвољним тежинама $\tau$. Поред декодирања као проблема [14], једнако се приступа и осталим задацима заснованим на Витербијевом графу – табела [3.1]. Решење је такође у одабиру одговарајућих оператора уместо максимума. У наставку је дат пример како се заменом максимума сумом добија вероватноћа опажања.

[14]: #prob:poravnanje
[3.1]: #tab:hmm

In [264]:
# Вероватноћа опажања код профилних модела
def forward_prof(hmm, o):
    # Одређивање дужине пута
    k = len(o)
    
    # Проширење опажања због индекса
    o = '-' + o
    
    # Издвајање осталих вредности
    x, n, y, m, a, b = hmm.x, hmm.n, hmm.y, hmm.m, hmm.a, hmm.b
    
    # Иницијализација свих скорова
    s = {xi: [None] for xi in x}
    
    # Иницијализација нулте колоне
    s['D1'][0] = a['S']['D1']
    
    # Пролазак тихом нултом колоном
    for i in range(2, n+1):
        # Одређивање вероватноћа
        s[f'D{i}'][0] = s[f'D{i-1}'][0] * a[f'D{i-1}'][f'D{i}']
    
    # Пут делеције ако је опажање празно
    if not k:
        return s[f'D{n}'][0] * a[f'D{n}']['E']
    
    # Пролаз кроз време
    for t in range(1, k+1):
        # Пролаз кроз индексе
        for i in range(n+1):
            # Пролаз кроз тип стања
            for Y in ('M', 'D', 'I'):       
                # Издвајање текућег стања
                Y = f'{Y}{i}'
                
                # Посебна обрада прве колоне
                if t == 1:
                    # Вероватноћа почетног стања I0
                    if Y == 'I0':
                        s['I0'].append(a['S']['I0'] * b['I0'][o[t]])
                    
                    # Вероватноћа почетног стања M1
                    if Y == 'M1':
                        s['M1'].append(a['S']['M1'] * b['M1'][o[t]])
                
                # Одустајање ако је лоше стање:
                # не постоји или је већ обрађено
                if t == 1 and Y in ('I0', 'M1') \
                   or Y not in s: continue
                
                # Иницијализација нулте суме
                sXopt = 0
                
                # Пролаз кроз остала стања
                for X in ('M', 'D', 'I'):
                    # Исти индекс ако је инсерција
                    if Y[0] == 'I':
                        X = f'{X}{i}'
                    # Мањи индекс у супротном
                    else:
                        X = f'{X}{i-1}'
                    
                    # Одустајање ако је непостојеће стање;
                    # лош индекс или временски тренутак
                    if X not in s or X[0] != 'D' and not s[Y][t-1]:
                        continue
                    
                    # Додавање новог скора ако је делеција
                    if Y[0] == 'D':
                        sXopt += s[X][t] * a[X][Y]
                    # Додавање новог скора ако није делеција
                    else:
                        sXopt += s[X][t-1] * a[X][Y] * b[Y][o[t]]
                
                # Додавање збирног скора
                s[Y].append(sXopt)
    
    # Терминација алгоритма; опет
    # сумирање завршних вероватноћа
    return sum(s[f'{X}{n}'][k] * a[f'{X}{n}']['E'] for X in ('M', 'D', 'I'))

In [265]:
# Вероватноћа свих опажања из уџбеника
for op in opss: print('Вероватноћа опажања',
op, 'је:', forward_prof(profhmm, op))

Вероватноћа опажања  је: 1.8112221148500004e-10
Вероватноћа опажања ADDAFFDF је: 0.0003206344030053308
Вероватноћа опажања AFDDAFFDF је: 9.299796039928844e-07
Вероватноћа опажања AAFFDF је: 0.0004635929997163145
Вероватноћа опажања ACAFDEAF је: 3.8271760539035966e-07
Вероватноћа опажања AEFDFDC је: 0.00041213747232828377


# Глава 5 – Учење модела [⮭]<a id="par:uch"></a>

[⮭]: #par:toc

За крај, прича о скривеним Марковљевим моделима допуњује се још једном важном особином *HMM* – способношћу (машинског) учења поткрепљивањем. Досад је било речи о већ готовим моделима, али прави потенцијал *HMM* показују тек онда када се сви параметри модела науче, уместо да се хардкодирају. Ова глава, дакле, покрива последњу петину обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно следеће поднаслове: *Learning the Parameters of an HMM*, *Soft Decisions in Parameter Estimation* и *Baum-Welch Learning*.

# Глава 6 – Закључак [⮭]<a id="par:zak"></a>

[⮭]: #par:toc

Досад је изложен појам скривених Марковљевих модела, као и њихов биоинформатички значај. Дата је детаљна мотивација за увођење статистички поткованог аутомата, након чега је појам *HMM* разрађен на мотивационом примеру непоштене коцкарнице (бацање два новчића). Затим је и примењен на решавање важних биолошких проблема, попут проналажења *CG* острва (места са генима) и напредног бављења генским и протеинским профилима.

У последњој глави овог рада су надаље сумиране информације из закључних поднаслова обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно *The Many Faces of HMMs* и *Epilogue: Nature is a Tinkerer and not an Inventor*, мада су поменути и додатни подаци из помоћног поднаслова *Bibliography Notes*.

Значајна напредна примена *HMM* која превазилази оквире уџбеника јесте моделовање отпорности ХИВ-а на лекове. У уводној мотивацији поменуто је да се заражени пацијенти лече коктелом антивирусних лекова, који је због високе стопе мутација често посебно осмишљен за сваког појединца, како би терапија била успешна. Мутације могу да онеспособе дејство неког лека који је раније имао ефекта. Стога је разумевање отпорности од високог значаја. Нико Беренвинкел и Матијас Дртон су 2006. предложили [модел реактивности соја на лекове](https://academic.oup.com/biostatistics/article-pdf/8/1/53/697249/kxj033.pdf) заснован баш на *HMM*, додуше изразито комплексном.

Када су протеини у питању, ваља напоменути да се они у суштини састоје из више повезаних целина које се називају доменима. Домени могу бити различитих структура и функција, и управо се они чешће анализирају него цели протеини. Године 2002. Бејтман и сарадници описали су употребу [профилних *HMM*](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC99071/), на основу чега је осмишљена позната база података [Пфам](http://pfam.xfam.org/). Она се данас састоји од скоро 20.000 вишеструких поравнања разних протеинских домена и рутински се користи у анализи нових протеинских секвенци.

Свеукупно, скривени Марковљеви модели прешли су дуг пут од својих првих употреба у рачунарској биологији (нпр. [Черчил 1989](https://pubmed.ncbi.nlm.nih.gov/2706403/), [Крог и сарадници 1994](https://pubmed.ncbi.nlm.nih.gov/8107089/), [Балди и сарадници 1994](https://www.pnas.org/content/pnas/91/3/1059.full.pdf)) до данашње широке биоинформатичке примене. Поменута је употреба *HMM* за моделовање и препознавање људског понашања, гестова, рукописа и говора, обраду звука и сигнала, одређивање врсте речи у тексту или чак моделовање тока пандемије *COVID-19* у Републици Србији засновано на најосновнијим подацима, као на слици [2.2]. Објашњен је значај *HMM* како код проблема надгледаног, тако и код проблема ненадгледаног машинског учења. Наведене су многе могућности *HMM*, укључујући способност учења свих параметара модела поткрепљивањем.

[2.2]: #fig:covid

Паралелно са писањем овог текста, направљен је [електронски уџбеник](https://github.com/matfija/HMM-u-bioinformatici), као суштински најзначајнији допринос рада. Уџбеник је реализован у виду *Jupyter* свезака, које су заједно са свим осталим материјалима доступне на *GitHub*-у. Концепт је такав да свеске садрже једнак текст као у писаном раду, али успут складиште и *Python* кодове који имплементирају у тексту изложене алгоритме. Имплементирана су сва предложена решења из књиге *Bioinformatics Algorithms*, али и многа друга. Како се кодови интерпретирају, они су у потпуности интерактивни и могу лако послужити за самосталан студентски рад и детаљније упознавање са имплементацијама. За случај да читаоцу нису доступни *Python* интерпретатор и/или *Jupyter* сервер, направљена је и *HTML* верзија материјала, која, додуше, није интерактивна.

Свеукупно, обрађена лекција електронског уџбеника доприноси усвајању знања о скривеним Марковљевим моделима и њиховој примени у биоинформатици, независно од тога да ли читалац слуша мастер курс Увод у биоинформатику на Математичком факултету Универзитета у Београду. За разумевање је неопходно само основно предзнање из математике (углавном вероватноће) и биологије (улавном генетике), што је ниво средње школе. Било би добро да иницијатива у оквиру које уџбеник настаје заживи, те да у најскоријем року свака лекција буде доступна у потпуности у електронском облику.