## Скривени Марковљеви модели (*HMM*) у биоинформатици

... (резиме)

# Глава 1 – Увод

Биоинформатика је интердисциплинарна област која се бави применом рачунарских технологија у области биологије и сродних наука, са нагласком на разумевању биолошких података. Кључна особина јој је управо поменута мултидисциплинарност, која се представља [дијаграмом](https://www.classtools.net/Venn/202107-QTgda5) са слике [1.1].

[1.1]: #fig:venn

<img src="../slike/bioinformatika.png" width="50%" id="fig:venn" alt="Венов дијаграм интердисциплинарности" />

Овако представљена, биоинформатика је заправо спој статистике, рачунарства и биологије – сва три истовремено – по чему надилази
појединачне спојеве: биостатистику, науку о подацима и рачунарску биологију. Конкретно, статистички (математички) апаратат служи за рад са подацима, рачунарске технологије тај апарат чине употребљивијим, док биологија даје потребно доменско знање (разумевање) за рад са биолошким и сродним подацима. Иако се може рећи да је биоинформатика, у савременом смислу представљеном приказаним дијаграмом, релативно млада наука, брзо је постала [популарна](https://genomejigsaw.wordpress.com/2015/09/27/faq/) и многи су јој посветили [пажњу](https://algotech.netlify.app/blog/bio-intro/) или се њоме [баве](http://www.bioinfo.ufpr.br/en/a-guide-for-students.html).

Међу познатим личностима из овога домена издвајају се научници Филип Компо (*Phillip Compeau*) и Павел Певзнер (*Pavel Pevzner*), аутори књиге [*Bioinformatics Algorithms: An Active Learning Approach*](https://www.bioinformaticsalgorithms.org/). Прво издање књиге изашло је 2014. године, а друго већ наредне, у два тома. Актуелно, треће издање, издато је 2018. године, у једном тому. Захваљујући динамичном и активном приступу биолошким проблемима и њиховим информатичким решењима, као и многим додатним материјалима за учење, књига се користи као уџбеник на више од сто светских факултета. Међу њима је и Математички факултет Универзитета у Београду, односно на њему доступни мастер курс [Увод у биоинформатику](http://www.bioinformatika.matf.bg.ac.rs/), а делови књиге користе се и у настави повезаног мастер и докторског курса Истраживање података у биоинформатици.

Актуелна иницијатива на нивоу курса Увод у биоинформатику јесте израда електронског уџбеника, заснованог на поменутој књизи. Идеја је да заинтересовани студенти као мастер рад обраде по једно поглавље књиге, при чему обрада укључује писање текста на српском језику, али и имплементацију и евентуалну визуелизацију свих или макар већине пратећих алгоритама. Овај рад настао је управо у склопу представљене иницијативе, међу првима.

Уџбеник кроз једанаест глава обрађује разне теме које су занимљиве у оквиру биоинформатике: почетак репликације (алгоритамско загревање), генске мотиве (рандомизовани алгоритми), асемблирање генома (графовски алгоритми), секвенцирање антибиотика/пептида (алгоритми грубе силе), поређење и поравнање геномских секвенци (динамичко програмирање), блокове синтеније (комбинаторни алгоритми), филогенију (еволутивна стабла), груписање гена (кластеровање), проналажење шаблона (префиксна и суфиксна стабла), откривање гена и мутација секвенце (скривени Марковљеви модели), напредно секвенцирање пептида (рачунарска протеомика). Циљ овог рада је обрада десетог поглавља, заснованог на скривеним Марковљевим моделима.

[Скривени Марковљев модел](http://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf) (у наставку углавном скраћено *HMM*, према
енгл. *Hidden Markov Model*), укратко, представља статистички модел који се састоји из следећих елемената: скривених стања ($x_i$), опсервација ($y_i$), вероватноћа прелаза ($a_{ij}$), полазних ($\pi_i$) и излазних вероватноћа ($b_{ij}$), по [примеру](https://commons.wikimedia.org/wiki/File:HiddenMarkovModel.png) са слике [1.2]. *HMM* се тако може схватити као коначни аутомат, при чему стања задржавају уобичајено значење, док вероватноће прелаза описују колико се често неки прелаз реализује. Полазне вероватноће одређују почетно стање. Овакав аутомат допуњује се идејом да свако стање са одређеном излазном вероватноћом емитује (приказује) неку опсервацију. Штавише, најчешће су само опажања и позната у раду са *HMM*, док се позадински низ стања погађа ("предвиђа"), па се управо зато стања и модели називају скривеним.

[1.2]: #fig:hmm

<img src="../slike/hmm.png" width="50%" id="fig:hmm" alt="Једноставан пример скривеног Марковљевог модела" />

У претходном пасусу су, наравно, скривени Марковљеви модели представљени малтене само концептуално, на високом нивоу. У наставку су, међутим, они постепено уведени, заједно са мотивацијом за њихову употребу у виду биолошких проблема који се њима решавају. Према идеји електронског уџбеника, излагање прати књигу *Bioinformatics Algorithms: An Active Learning Approach*, а имплементирани су сви пратећи алгоритми. Резултујући [уџбеник](https://github.com/matfija/HMM-u-bioinformatici) са *Python* кодовима, у виду *Jupyter* свезака, доступан је на *GitHub*-у.

# Глава 2 – Мотивација

За почетак, изложена је мотивација за употребу скривених Марковљевих модела у биоинформатици. Конкретно, представљена су два важна биолошка проблема која се њима могу решити и пратећи појмови из домена, као и једна историјски мотивисана вероватносна мозгалица. Ова глава, дакле, покрива прву петину обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно следеће поднаслове: *Classifying the HIV Phenotype*, *Gambling with Yakuza*, *Two Coins up the Dealer’s Sleeve*, *Finding CG-Islands*, као и највећи део додатка из *Detours*.

## 2.1 Погађање фенотипа

*HIV* је вирус хумане имунодефицијенције, један од најпознатијих вируса, који заражава људе широм света. Својим дугорочним деловањем доводи до смртоносног синдрома стечене имунодефицијенције, познатијег као сида или ејдс. Мада поједини аутори распрострањеност *HIV*-а називају пандемијом, Светска здравствена организација означава је као ["глобалну епидемију"](https://www.who.int/teams/global-hiv-hepatitis-and-stis-programmes/hiv/strategic-information/hiv-data-and-statistics).

Постојање *HIV*-а званично је потврђено почетком осамдесетих година двадесетог века, мада се претпоставља да је са примата на људе прешао знатно раније. Недуго по овом открићу, тачније 1984, из америчког Министарства здравља и услуга становништву најављено је да ће вакцина бити доступна кроз наредне две године. Иако до тога није дошло, председник Бил Клинтон је 1997. потврдио да "није питање *да ли* можемо да произведемо вакцину против сиде, већ је просто питање *када* ће до тога доћи". Вакцина, међутим, ни данас није доступна, а многи покушаји су отказани након што се испоставило да кандидати чак повећавају ризик од инфекције код појединих испитаника.

Антивирусне вакцине најчешће се праве од површинских протеина вируса на који се циља, у нади да ће имунски систем, након вакцине, у контакту са живим вирусом знатно брже препознати протеине омотача вируса као стране и уништити их пре него што се вирус намножи у телу. *HIV* је, међутим, карактеристичан по томе што врло брзо мутира, па су његови протеини изузетно варијабилни и није могуће научити имунски систем да исправно одреагује на све мутације. Штавише, може се десити да имунитет научи да исправно реагује само на једну варијанту вируса, а да реакција нема никаквог ефекта на остале варијанте. Овакав имунитет је лошији од имунитета који ништа не зна о вирусу, пошто не покушава да научи ништа ново, што је разлог већ поменуте ситуације да су код неких испитаника вакцине кандитати повећали ризик од заразе. Да ствар буде гора, *HIV* брзо мутира и унутар једне особе, тако да је разлика у узорцима узетих од различитих пацијената увек значајна.

Када се све узме у обзир, као обећавајућа замисао за дизајн свеобухватне вакцине намеће се следећа идеја: идентификовати неки пептид који садржи најмање варијабилне делове површинских протеина свих познатих сојева *HIV*-а и искористити га као основу вакцине. Ни то, међутим, није решење, пошто *HIV* има још једну незгодну способност: уме да се сакрије процесом гликозилације. Наиме, протеини омотача су махон гликопротеини, што значи да се након превођења за њих могу закачити многобројни гликански (шећерни) ланци. Овим процесом долази до стварања густог гликанског штита, који омета имунски систем у препознавању вируса. Све досад изнето утиче на немогућност прављења прикладне вакцине у скоријем времену.

Чак и ван контекста вакцине, мутације *HIV*-а прилично су занимљиве за разматрање. Конкретно, илустративно је бавити се *env* геном, чија је стопа мутације 1–2 % по нуклеотиду годишње. Овај ген кодира два релативно кратка гликопротеина који заједно граде шиљак (спајк) омотача, део вируса задужен за улазак у људске ћелије. Мање важан део шиљка је гликопротеин *gp41* (∼ 345 аминокиселина), док је важнији гликопротеин *gp120* (∼ 480 аминокиселина). О варијабилности другог говори чињеница да на нивоу једног пацијента, у кратком року, скоро половина аминокиселина буде измењено позадинским мутацијама одговарајућег гена, као да је сасвим други протеин.

Ствари постају још занимљивије када се, поред генотипа вируса, разматра и његов фенотип. Примера ради, сваки вирус *HIV*-а може се означити као изолат који ствара синцицијум или као изолат који га не ствара. Након уласка у људску ћелију, гликопротеини омотача могу да изазову спајање заражене ћелије са суседним ћелијама. Резултат тога је синцицијум – нефункционална вишеједарна ћелијска (цитоплазматична) маса са заједничком ћелијском мембраном. Овакав изолат *HIV*-а означава се као онај који ствара синцицијум и он се тим процесом знатно брже умножава, што даље значи да је опаснији и агресивнији, јер уласком у само једну ћелију убија многе друге у суседству. Одређивање тачног генотипа и погађање фенотипа важно је како би се пацијенту преписао најприкладнији коктел антивирусних лекова.

Испоставља се да је примарна структура гликопротеина *gp120* важан суштински генотипски предиктор фенотипа *HIV*-а. Наиме, узимајући у обзир само низ аминокиселина које чине *gp120*, може се направити једноставан класификатор који погађа да ли проучавани изолат ствара синцицијум или не. Конкретно, научник Жан Жак де Јонг је 1992. анализирао вишеструко поравнање такозване *V3* петље, издвојеног региона у оквиру *gp120*, и формулисао [правило 11/25](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC240176/pdf/jvirol00042-0547.pdf). Према том правилу, сој *HIV*-а највероватније ствара синцицијум уколико му се на 11. или 25. позицији у *V3* петљи налазе аминокиселине аргинин (*R*) или лизин (*K*).

In [1]:
# Функција која предвиђа фенотип HIV-а
def hiv_sincicijum(v3_petlja):
    # Приказ улазне V3 петље
    print('V3 петља:', v3_petlja)
    
    # Издвајање 11. позиције
    p11 = v3_petlja[10]
    print('Позиција 11:', 6*' ', p11)
    
    # Издвајање 25. позиције
    p25 = v3_petlja[24]
    print('Позиција 25:', 20*' ', p25)
    
    # Провера критичних аминокиселина
    return p11 == 'R' or p25 == 'K'

In [2]:
# Пример вишеструког поравнања V3 петље из уџбеника
hiv_profil = ['CMRPGNNTRKSIHMGPGKAFYATGDIIGDIRQAHC',
              'CMRPGNNTRKSIHMGPGRAFYATGDIIGDTRQAHC',
              'CMRPGNNTRKSIHIGPGRAFYATGDIIGDIRQAHC',
              'CMRPGNNTRKSIHIGPGRAFYTTGDIIGDIRQAHC',
              'CTRPNNNTRKGISIGPGRAFIAARKIIGDIRQAHC',
              'CTRPNNYTRKGISIGPGRAFIAARKIIGDIRQAHC',
              'CTRPNNNTRKGIRMGPGRAFIAARKIIGDIRQAHC',
              'CVRPNNYTRKRIGIGPGRTVFATKQIIGNIRQAHC',
              'CTRPSNNTRKSIPVGPGKALYATGAIIGNIRQAHC',
              'CTRPNNHTRKSINIGPGRAFYATGEIIGDIRQAHC',
              'CTRPNNNTRKSINIGPGRAFYATGEIIGDIRQAHC',
              'CTRPNNNTRKSIHIGPGRAFYTTGEIIGDIRQAHC',
              'CTRPNNNTRKSINIGPGRAFYTTGEIIGNIRQAHC',
              'CIRPNNNTRGSIHIGPGRAFYATGDIIGEIRKAHC',
              'CIRPNN-TRRSIHIGPGRAFYATGDIIGEIRKAHC',
              'CTRPGSTTRRHIHIGPGRAFYATGNILGSIRKAHC',
              'CTRPGSTTRRHIHIGPGRAFYATGNI-GSIRKAHC',
              'CTGPGSTTRRHIHIGPGRAFYATGNIHG-IRKGHC',
              'CMRPGNNTRRRIHIGPGRAFYATGNI-GNIRKAHC',
              'CMRPGTTTRRRIHIGPGRAFYATGNI-GNIRKAHC']

In [3]:
# Предвиђање фенотипа сваког члана поравнања
for hiv in hiv_profil:
    # Извлачење резултата из дефинисане функције
    rezultat = hiv_sincicijum(hiv)
    
    # Закључивање о изолату на основу резултата
    print('Закључак: вероватно', 'јесте' if rezultat
          else 'није', 'агресиван фенотип', end='\n\n')

V3 петља: CMRPGNNTRKSIHMGPGKAFYATGDIIGDIRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CMRPGNNTRKSIHMGPGRAFYATGDIIGDTRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CMRPGNNTRKSIHIGPGRAFYATGDIIGDIRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CMRPGNNTRKSIHIGPGRAFYTTGDIIGDIRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CTRPNNNTRKGISIGPGRAFIAARKIIGDIRQAHC
Позиција 11:        G
Позиција 25:                      K
Закључак: вероватно јесте агресиван фенотип

V3 петља: CTRPNNYTRKGISIGPGRAFIAARKIIGDIRQAHC
Позиција 11:        G
Позиција 25:                      K
Закључак: вероватно јесте агресиван фенотип

V3 петља: CTRPNNNTRKGIRMGPGRAFIAARKIIGDIRQAHC
Позиција 11:        G
Позиција 25:                      K
Закључ

Пример [мотива](https://weblogo.berkeley.edu/) *V3* петље дат је на слици [2.1]. Приметно је да су управо 11. и 25. позиција међу најваријабилнијим, те да удео критичних *R* и *K* на њима није претерано велик. Наравно, на фенотип утичу и многе друге позиције унутар *gp120* и других протеина.

[2.1]: #fig:motif

<img src="../slike/motif.png" width="50%" id="fig:motif" alt="Мотив V3 петље из уџбеника" />

За крај и поенту уводне приче о *HIV*-у, остаје неразрешен још један веома значајан проблем. Како би се уопште разматрало предвиђање фенотипа на основу примарне структуре *gp120*, неопходно је прво доћи до прецизног вишеструког поравнања различитих секвенци аминокиселина. Прво, поравнање мора бити хируршки прецизно, јер нпр. само једна грешка доводи до погрешног податка која вредност је на 11. и 25. позицији *V3* петље. Следеће, неопходно је адекватно обрадити инсерције и делеције, што су врло честе мутације *HIV*-а у многим регионима генома. На крају, потребно је на прави начин оценити квалитет поравнања, нпр. коришћењем различитих матрица скора за сваку појединачну позицију. Ово је донекле могуће урадити коришћењем техника представљених у петом поглављу (*Chapter 5: How Do We Compare DNA Sequences? – Dynamic Programming*), али уз два главна проблема: алгортми динамичког програмирања су високе сложености и са мање слободе код скорова, а притом не пресликавају најбоље суштину биолошког проблема класификације фенотипа у алгоритамски проблем (фале кораци након поравнања). Постоји, дакле, потреба за новом формулацијом која обухвата све што је потребно за статистички потковано поравнање секвенци.

## 2.2 Потрага за генима

Познато је да геном чини тек мали део *DNA* секвенце. Другим речима, *DNA* добрим делом не кодира протеине. Стога је један од важних биолошких проблема управо проналажење места на којима се гени налазе. Прецизније, тражи се место где њихово преписивање (транскрипција) започиње.

Почетком двадесетог века, Фибус Левин открио је да *DNA* чине [четири нуклеотида](https://pubs.acs.org/doi/10.1021/ja01920a010), чији су главни део азотне базе: аденин (*A*), цитозин (*C*), гуанин (*G*) и тимин (*T*). У то време, међутим, није била позната тачна структура наследног материјала, штo је [двострука завојница](http://dosequis.colorado.edu/Courses/MethodsLogic/papers/WatsonCrick1953.pdf), коју су пола века касније открили Вотсон и Крик. Левин је, стога, сматрао да *DNA* носи информације једнаке било којој четворословној азбуци, а додатно и да је удео сваког од четири нуклеотида једнак. Занимљивост је да овај упрошћени модел одговара стању у савременој биоинформатици – *DNA* се углавном и посматра као секвенца нуклеотида, односно ниска над азбуком {*A*, *C*, *G*, *T*}.

Открићем тачне структуре допуњена је теза о једнаком уделу нуклеотида. Како су нуклеотиди на супротним ланцима упарени, њихов удео јесте врло сличан када се посматра целокупна *DNA*. То, међутим, није случај када се посматра само један ланац, што је уобичајено у генетици и биоинформатици. Примера ради, удео гуанина и цитозина, који чине један базни пар, код људи је 42 %, што је ипак статистички значајно мање од пола. На вишем нивоу гранулације, у случају да се посматрају само по две суседне базе, испоставља се да динуклеотиди *CC*, *CG*, *GC*, *GG* узимају сасвим различите уделе. Конкретно, иако би се очекивало да, под претпоставком равномерне расподеле, сваки од њих узима удео 4–5 %, динуклетид *CG* чини само 1 % људског генома. Све ово значи да је *DNA* секвенца ипак нешто даље од случајне.

Поставља се питање зашто је удео *CG* тако мали. Одговор, међутим, није комплексан, поготову ако се додатно примети да је удео *TG* нешто виши од очекиваног, а посебно у регионима у којима је удео *CG* изразито мали. Разлог томе лежи у метилацији, најчешћој измени која природно настаје унутар *DNA*. Поједини нуклеотиди, наиме, могу бити нестабилни, па се на њих лако накачи метил група ($CH_3$). Међу најнестабилнијим управо је цитозин иза ког следи гуанин, дакле *C* из *CG*. Метиловани цитозин даље се често спонтано деаминује у тимин, чиме динуклеотид *CG* лако постаје *TG*. Свеукупни резултат је да се *CG* глобално појављује веома ретко, а *TG* нешто чешће.

Метилација мења експресију суседних гена. Експресија оних гена чији су нуклеотиди у великој мери метиловани често је потиснута. Иако је сам процес метилације важан у току ћелијске диференцијације – доприноси неповратној специјализацији матичних ћелија – она углавном није пожељна у каснијем добу. Хиперметилација гена повезана је са различитим врстама рака. Стога је метилација врло ретка око гена, што значи да је на тим местима *CG* знатно чешће. Овакви делови *DNA* називају се *CG* острвима или *CpG* местима. Разлика у уделу динуклеотида у некодирајућим и регионима богатим генима једног ланца људског *X* хромозома дата је кроз табелу [2.2] (лево су *CG* острва). Удео *CG* наглашен је црвеном бојом.

[2.2]: #tab:cg

<table id="tab:cg">
<thead>
<tr class="header">
<th style="text-align: center;"></th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">A</th>
<th style="text-align: center;">C</th>
<th style="text-align: center;">G</th>
<th style="text-align: center;">T</th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">A</th>
<th style="text-align: center;">C</th>
<th style="text-align: center;">G</th>
<th style="text-align: center;">T</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">A</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,053</td>
<td style="text-align: center;">0,079</td>
<td style="text-align: center;">0,127</td>
<td style="text-align: center;">0,036</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,087</td>
<td style="text-align: center;">0,058</td>
<td style="text-align: center;">0,084</td>
<td style="text-align: center;">0,061</td>
</tr>
<tr class="even">
<td style="text-align: center;">C</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,037</td>
<td style="text-align: center;">0,058</td>
<td style="text-align: center;"><span style="color: red">0,058</span></td>
<td style="text-align: center;">0,041</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,067</td>
<td style="text-align: center;">0,063</td>
<td style="text-align: center;"><span style="color: red">0,017</span></td>
<td style="text-align: center;">0,063</td>
</tr>
<tr class="odd">
<td style="text-align: center;">G</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,035</td>
<td style="text-align: center;">0,075</td>
<td style="text-align: center;">0,081</td>
<td style="text-align: center;">0,026</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,053</td>
<td style="text-align: center;">0,053</td>
<td style="text-align: center;">0,063</td>
<td style="text-align: center;">0,042</td>
</tr>
<tr class="even">
<td style="text-align: center;">T</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,024</td>
<td style="text-align: center;">0,105</td>
<td style="text-align: center;">0,115</td>
<td style="text-align: center;">0,050</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,051</td>
<td style="text-align: center;">0,070</td>
<td style="text-align: center;">0,084</td>
<td style="text-align: center;">0,084</td>
</tr>
</tbody>
</table>

In [4]:
# Мапа вероватноћа у CpG местима према претходној табели
cg_vrv    = {'AA': 0.053, 'AC': 0.079, 'AG': 0.127, 'AT': 0.036,
             'CA': 0.037, 'CC': 0.058, 'CG': 0.058, 'CT': 0.041,
             'GA': 0.035, 'GC': 0.075, 'GG': 0.081, 'GT': 0.026,
             'TA': 0.024, 'TC': 0.105, 'TG': 0.115, 'TT': 0.050}

In [5]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
print('Укупна вероватноћа код CG места:', sum(cg_vrv.values()))

Укупна вероватноћа код CG места: 0.9999999999999999


In [6]:
# Мапа вероватноћа у ван CpG места према претходној табели
nekod_vrv = {'AA': 0.087, 'AC': 0.058, 'AG': 0.084, 'AT': 0.061,
             'CA': 0.067, 'CC': 0.063, 'CG': 0.017, 'CT': 0.063,
             'GA': 0.053, 'GC': 0.053, 'GG': 0.063, 'GT': 0.042,
             'TA': 0.051, 'TC': 0.070, 'TG': 0.084, 'TT': 0.084}

In [7]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
print('Укупна вероватноћа код осталих места:', sum(nekod_vrv.values()))

Укупна вероватноћа код осталих места: 1.0


Закључак је, дакле, да се проблем потраге за генима може свести на проналажење *CG* острва. Наиван приступ решавању овог проблема јесте употреба клизајућег прозора. Могао би се узети прозор фиксне величине и померати кроз *DNA* секвенцу. Они прозори са натпросечним уделом *CG* били би кандидати за *CG* острва. Вероватноћа да је неки подниз острво рачуна се као производ појединачних вероватноћа динуклеотида.

In [8]:
# Пример DNA секвенце са презентације
dna = 'ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT'

# Ознаке где је CG острво (+), а где није (-)
cg  = '-------++++++++++------------------------'

In [9]:
# Да ли је вероватније да је прозор CG острво или не
def cg_ostrvo(prozor):
    # Почетне јединичне вероватноће
    cg = 1
    nekod = 1
    
    # Одређивање величине прозора
    k = len(prozor)
    
    # Пролазак кроз све динуклеотидне потпрозоре
    for i in range(k-1):
        # Одређивање текућег динуклеотида
        p = prozor[i:i+2]
        
        # Ажурирање вероватноћа множењем
        cg    *= cg_vrv[p]
        nekod *= nekod_vrv[p]
    
    # Одређивање веће вероватноће
    return cg > nekod

In [10]:
# Пример прозора дужине k=10
prozori = ['ATTTCTTCTC', # познато да није
           'CTCGTCGACG', # познато да јесте
           'CTAATTTCTT'] # познато да није

# Предвиђање да ли је CG острво
for prozor in prozori:
    ostrvo = cg_ostrvo(prozor)
    
    # Закључивање о прозору на основу резултата
    print(prozor, 'вероватно', 'јесте' if
          ostrvo else 'није', 'CG острво')

ATTTCTTCTC вероватно није CG острво
CTCGTCGACG вероватно јесте CG острво
CTAATTTCTT вероватно није CG острво


In [11]:
# Анотација свих прозора дужине k
def cg_prozor(dna, k):
    # Приказ улазне DNA секвенце
    print(dna)
    
    # Одређивање величине секвенце
    n = len(dna)
    
    # Иницијализација низа предлога
    rezultat = ''
    
    # Пролазак кроз све прозоре
    for i in range(n-k+1):
        # Одређивање текућег прозора
        prozor = dna[i:i+k]
        
        # Испис довољног броја празнина за поравнање
        if i < (n-k+1)/2:
            print(i    *' ', '\r' if not i else '', sep='', end='')
        else:
            print((i-4)*' ', sep='', end='')
        
        # Израчунавање да ли је прозор CG острво
        ostrvo = cg_ostrvo(prozor)
        
        # Један од начина за ажурирање резултата
        rezultat = rezultat + ('+' if ostrvo else '-')
        
        # Извештавање о резултату знаком + или -
        if i < (n-k+1)/2:
            print(prozor, f'({rezultat[-1]})')
        else:
            print(f'({rezultat[-1]})', prozor)
    
    # Допуњавање резултата на оба краја
    rezultat = (k-1)//2 * rezultat[0] + \
               rezultat + \
               (k-1)//2 * rezultat[-1]
    
    # Приказ улазне DNA секвенце
    print(dna)
    
    # Приказ коначног резултата ознака
    print(rezultat)
    
    # Враћање резултата позиваоцу
    return rezultat

In [12]:
# Одабир величине прозора (како?)
k = 5

# Дохватање резултата мотивационог примера
rezultat = cg_prozor(dna, k)

ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT
ATTTC (-)
 TTTCT (-)
  TTCTT (-)
   TCTTC (-)
    CTTCT (-)
     TTCTC (-)
      TCTCG (+)
       CTCGT (+)
        TCGTC (+)
         CGTCG (+)
          GTCGA (+)
           TCGAC (+)
            CGACG (+)
             GACGC (+)
              ACGCT (+)
               CGCTA (+)
                GCTAA (-)
                 CTAAT (-)
                  TAATT (-)
               (-) AATTT
                (-) ATTTC
                 (-) TTTCT
                  (-) TTCTT
                   (-) TCTTG
                    (-) CTTGG
                     (-) TTGGA
                      (-) TGGAA
                       (-) GGAAA
                        (-) GAAAT
                         (-) AAATA
                          (-) AATAT
                           (-) ATATC
                            (-) TATCA
                             (-) ATCAT
                              (-) TCATT
                               (-) CATTA
                                (-)

In [13]:
# Поређење познатог и добијеног острва;
# врло су слични, што је фино постигнуће
print('Секвенца:', dna)
print('Познато: ', cg)
print('Добијено:', rezultat)

Секвенца: ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT
Познато:  -------++++++++++------------------------
Добијено: --------++++++++++-----------------------


Остаје, међутим, питање како одредити добру величину прозора, али и шта тачно радити када преклапајући прозори нуде различиту класификацију подниза. Једна наизглед добра *ad hoc* идеја дата је у коду, али би и овде добро дошло статистички потковано решење.

## 2.3 Коцкање са јакузама

Јакузе су припадници истоимене криминалне организације, традиционалног синдиката организованог криминала. Савремене јакузе потичу од јапанских [путујућих коцкара](https://www.polygon.com/2017/3/10/14848222/learning-japanese-board-game-culture-from-yakuza-0), који су били распрострањени у осамнаестом веку. Једна од најпознатијих игара коју су путујући коцкари организовали у својим импровизованим коцкарницама био је чо-хан (јап. 丁半, *chō-han*), у дословном преводу "пар-непар". Игра је сасвим једноставна – претеча јакуза (крупије) баца две коцкице, док се играчи кладе да ли ће збир бити паран или непаран. Игра је такође поштена – једнако се остварују оба исхода парности.

До занимљивог тренутка долази када се из било ког разлога осетно више играча опклади на један од два могућа резултата. Тада би имало смисла да похлепни крупије, у жељи да заради (он узима проценат зараде победника), баца отежане коцкице, које ће са већом вероватноћом дати резултат који је добио мање опклада. Једноставности ради, уместо чо-хана је у наставку разматрана нешто простија игра бацања новчића. У њој крупије баца новчић, а играчи се кладе да ли ће пасти писмо или глава. Она је знатно лакша за анализу, а суштина је иста и доводи до статистички поткованог решења у претходним поднасловима изложених биолошких и сродних проблема.

Крупијева превара у овом случају могла би бити употреба отежаног новчића, код кога исходи нису равномерно расподељени. Нека је познато да крупије има два новчића: један праведан и један отежан тако да на главу пада трипут чешће него на писмо. Циљ је за одређени низ исхода одредити да ли је настао бацањем праведног или отежаног новчића. Пажљивијом анализом проблема, испоставља се да је питање вара ли крупије лоше формулисано. Наиме, оба новчића могу да произведу било који низ исхода, па тако нпр. и отежани новчић може константно да пада на писмо. Иако дефинитивно није могуће са сигурношћу утврдити који је новчић коришћен, могуће је нешто слично и често довољно добро – одредити који је вероватније коришћен.

Конкретно, нека је упитни новчић бачен одређени број пута, при чему је добијен низ исхода. Вероватноће исхода ($H$ од енгл. *heads* – глава и $T$ од енгл. *tails* – писмо) код праведног ($F$ од енгл. *fair* – фер) и отежаног ($B$ од енгл. *biased* – пристрасан) новчића могу се исказати следећим формулама: $$P\{H | F\} = P\{T | F\} = \frac{1}{2}, P\{H | B\} = \frac{3}{4}, P\{T | B\} = \frac{1}{4}.$$

In [14]:
# Мапа вероватноћа код фер новчића
F = {'H': 1/2, 'T': 1/2}

# Мапа вероватноћа код пристрасног новчића
B = {'H': 3/4, 'T': 1/4}

# Заједничка мапа условних вероватноћа
P = {'F': F, 'B': B}

Како су бацања независни догађаји – претходни исходи ни на који начин не утичу на наредне – вероватноћа да $n$ бацања произведе низ исхода $x = x_1...x_n$, од којих је пало $k$ глава, јесте производ појединачних вероватноћа: $$P\{x\} = \prod_{i=1}^n P\{x_i\} = P\{H\}^k \cdot P\{T\}^{n-k}.$$

In [15]:
# Функција за рачунање вероватноће исхода код било каквог новчића
def p_ishoda(P, n, k):
    return P['H'] ** k * P['T'] ** (n-k)

In [16]:
# Неки прости примери са рачунањем вероватноћа исхода код било каквог новчића
# (по жељи, могуће је баратати директно разломцима, помоћу подула fractions)
print('Вероватноћа да једном падне глава у једном бацању праведног новчића:', p_ishoda(F, 1, 1), '(1/2)')
print('Вероватноћа да ниједном не падне глава у три бацања праведног новчића:', p_ishoda(F, 3, 0), '(1/8)')
print('Вероватноћа да једном падне глава у једном бацању отежаног новчића:', p_ishoda(B, 1, 1), '(3/4)')
print('Вероватноћа да ниједном не падне глава у три бацања отежаног новчића:', p_ishoda(B, 3, 0), '(1/64)')

Вероватноћа да једном падне глава у једном бацању праведног новчића: 0.5 (1/2)
Вероватноћа да ниједном не падне глава у три бацања праведног новчића: 0.125 (1/8)
Вероватноћа да једном падне глава у једном бацању отежаног новчића: 0.75 (3/4)
Вероватноћа да ниједном не падне глава у три бацања отежаног новчића: 0.015625 (1/64)


Због тога вероватноћа сваког низа исхода код праведног новчића износи: $$P\{x | F\} = \left(\frac{1}{2}\right)^k \left(\frac{1}{2}\right)^{n-k} = \frac{1}{2^n}.$$

In [17]:
# Функција за рачунање вероватноће исхода код праведнод новчића
def p_pravedan(n, k=None):
    return 1 / 2**n

In [18]:
# Неки прости примери са вероватноћама исхода код праведнод новчића
print('Вероватноћа да једном падне глава у једном бацању праведног новчића:', p_pravedan(1, 1), '(1/2)')
print('Вероватноћа да ниједном не падне глава у три бацања праведног новчића:', p_pravedan(3), '(1/8)')

Вероватноћа да једном падне глава у једном бацању праведног новчића: 0.5 (1/2)
Вероватноћа да ниједном не падне глава у три бацања праведног новчића: 0.125 (1/8)


С друге стране, вероватноћа низа исхода код отежаног новчића је: $$P\{x | B\} = \left(\frac{3}{4}\right)^k \left(\frac{1}{4}\right)^{n-k} = \frac{3^k}{4^n}.$$

In [19]:
# Функција за рачунање вероватноће исхода код отежаног новчића
def p_otezan(n, k):
    return 3**k / 4**n

In [20]:
# Неки прости примери са вероватноћама исхода код отежаног новчића
print('Вероватноћа да једном падне глава у једном бацању отежаног новчића:', p_otezan(1, 1), '(3/4)')
print('Вероватноћа да ниједном не падне глава у три бацања отежаног новчића:', p_otezan(3, 0), '(1/64)')

Вероватноћа да једном падне глава у једном бацању отежаног новчића: 0.75 (3/4)
Вероватноћа да ниједном не падне глава у три бацања отежаног новчића: 0.015625 (1/64)


Уколико је $P\{x | F\} > P\{x | B\}$, онда је вероватније да је крупије бацао праведни новчић, док је у случају $P\{x | F\} < P\{x | B\}$ бацао отежани.

In [21]:
# Функција за предвиђање праведности новчића
def pravednost(n, k):
    # Вероватноћа исхода ако је бацан праведни
    pf = p_pravedan(n)
    
    # Вероватноћа исхода ако је бацан отежани
    pb = p_otezan(n, k)
    
    # Коначно поређење добијених вероватноћа
    return pf > pb

In [22]:
# Неколико малих примера могућих исхода
primeri = [(1, 1), (2, 1), (2, 2)]

# Закључивање о новчићу на основу примера
for n, k in primeri:
    print('Ако је бацања', n, '\b, од чега глава', k, '\b, новчић вероватно',
          'није' if pravednost(n, k) else 'јесте', 'отежан.')

Ако је бацања 1 , од чега глава 1 , новчић вероватно јесте отежан.
Ако је бацања 2 , од чега глава 1 , новчић вероватно није отежан.
Ако је бацања 2 , од чега глава 2 , новчић вероватно јесте отежан.


Занимљиво је напоменути да ипак није лако израчунати бројеве $1/2^n$ и $3^k/4^n$ за велико $n$. Они су тада изразито мали, па је питање да ли су добро представљени у рачунару, те да ли њихово поређење даје тачан резултат.

In [23]:
# Покушај рада са нешто већим бројем бацања
try:
    print('Вероватноћа да само писма падају у десет хиљада бацања праведног новчића:', p_pravedan(1e4))
    print('Вероватноћа да само писма падају у десет хиљада бацања бацања отежаног новчића:', p_otezan(1e4, 0))
# Обавештавање позиваоца о неуспеху у рачуну
except Exception as e:
    print('Испаљен је изузетак:', e)

Испаљен је изузетак: (34, 'Result too large')


Стога се израчунава логаритамски однос вероватноћа, који у конкретном случају износи: $$\log_2\left(\frac{P\{x | F\}}{P\{x | B\}}\right) = \log_2\left(\frac{2^n}{3^k}\right) = n - k\log_23.$$

In [24]:
# Библиотека за рад са логаритмима
from math import log2

In [25]:
# Рачунање логаритамског односа новчића
def log_odnos(n, k):
    return n - k * log2(3)

Овај број се већ без проблема израчунава за разне вредности $n$ и $k$. Конкретно, нека је $n = 100$ (сто бацања), а $k = 63$ (нешто већи удео глава).

In [26]:
# Предложени број бацања
n = 100

# Предложени број глава
k = 63

Тада је логаритамски однос приближно једнак 0,15.

In [27]:
# Израчунавање логаритамског односа примера
print('Логаритамски однос за n =', n, 'и k =', k, '\b:', log_odnos(100, 63))

Логаритамски однос за n = 100 и k = 63 : 0.14736245456717256


Позитивна вредност $\log(x/y)$ значи да је $x/y > 1$, односно $x > y$ у случају ненегативних вероватноћа.

In [28]:
# Друга функција за предвиђање праведности новчића
def log_pravednost(n, k):
    return n > k * log2(3)

Ово значи да је већа вероватноћа да је крупије бацао праведни новчић, иако је $k = 63$ интуитивно и по апсолутној вредности ближе $3/4 \cdot 100 = 75$ него $1/2 \cdot 100 = 50$. Негативан логаритамски однос довео би до супротног закључка.

In [29]:
print('Ако је бацања', n, '\b, од чега глава', k, '\b, новчић вероватно',
      'није' if log_pravednost(n, k) else 'јесте', 'отежан.')

Ако је бацања 100 , од чега глава 63 , новчић вероватно није отежан.


Алтернативно, како је неопходно одредити само знак израза $n - k \log_23$, то се може учинити поређењем $n$ и $k\log_23$, односно $k/n =$ 0,63 и $1/\log_23 \approx$ 0,6309 након дељења *k* са обе стране. Лева страна је мања, па је однос позитиван.

In [30]:
# Трећа функција за предвиђање праведности новчића
def div_log_pravednost(n, k):
    return k/n < 1/log2(3)

In [31]:
print('Ако је бацања', n, '\b, од чега глава', k, '\b, новчић вероватно',
      'није' if div_log_pravednost(n, k) else 'јесте', 'отежан.')

Ако је бацања 100 , од чега глава 63 , новчић вероватно није отежан.


Сада се без икаквих проблема може вратити великим примерима који претходно нису били израчунљиви.

In [32]:
velicine = [int(10e4), int(10e6), int(10e9), int(10e12)]

for n in velicine:
    print('Ако само једно писмо падне у', n, 'бацања, новчић вероватно',
          'није' if div_log_pravednost(n, n-1) else 'јесте', 'отежан.')

Ако само једно писмо падне у 100000 бацања, новчић вероватно јесте отежан.
Ако само једно писмо падне у 10000000 бацања, новчић вероватно јесте отежан.
Ако само једно писмо падне у 10000000000 бацања, новчић вероватно јесте отежан.
Ако само једно писмо падне у 10000000000000 бацања, новчић вероватно јесте отежан.


Изложени вероватносни модел игре пада у воду када се узме у обзир могућност да крупије наизменично баца праведни и отежани новчић. Наиме, искусни преварант могао би да смањи сумњу да користи отежани новчић тако што би га понекад – додуше, ретко, како не би био ухваћен – заменио са праведним, и тако укруг. Поставља се питање како само на основу низа исхода и евентуално познате вероватноће промене новчића након сваког бацања одредити када је бачен праведни, а када отежани новчић. И овога пута, одговор може бити само несигурног типа – који новчић је када вероватније коришћен.

Слично као код проблема проналажења *CG* острва, потребно је на неки начин различите секвенце новчића упоредити и одредити која је бољи одговор на постављено питање. И овде би наивно решење подразумевало употребу клизајућег прозора који би пролазио кроз све поднизове бацања. На нивоу прозора могли би се рачунати логаритамски односи, према којима би се даље одредило порекло прозора – позитиван однос сугерише да је прозор настао бацањем праведног новчића и супротно. Овакав приступ занемарује тачну вероватноћу замене новчића, мада имплицитно узима у обзир да је она мала.

In [33]:
# Одређивање да ли је прозор праведан
def pravedan_prozor(prozor):
    # Број бацања је величина прозора
    n = len(prozor)
    
    # Број глава је број исхода H
    k = prozor.count('H')
    
    # Коначно одређивање праведности
    return div_log_pravednost(n, k)

In [34]:
# Анотација свих прозора дужине k
def kockarnica_prozor(ishodi, k):
    # Приказ улазне секвенце исхода
    print(ishodi)
    
    # Одређивање дужине секвенце
    n = len(ishodi)
    
    # Пролазак кроз све прозоре
    for i in range(n-k+1):
        # Одређивање текућег прозора
        prozor = ishodi[i:i+k]
        
        # Испис довољног броја празнина за поравнање
        print(i*' ', '\r' if not i else '', sep='', end='')
        
        # Израчунавање да ли је прозор праведан
        pravedan = pravedan_prozor(prozor)
        
        # Извештавање о резултату знаком новчића
        print(k * ('F' if pravedan else 'B'))
    
    # Приказ улазне секвенце исхода
    print(ishodi)

In [35]:
# Одабир величине прозора (како?)
k = 5

# Пример низа исхода са презентације
x = 'HHHTHTHHHT'

# Одређивање праведности свих поднизова
kockarnica_prozor(x, k)

HHHTHTHHHT
BBBBB
 FFFFF
  FFFFF
   FFFFF
    BBBBB
     FFFFF
HHHTHTHHHT


Остају, међутим, већ поменути проблеми са прозорским приступом: како одредити добру величину прозора, као и шта радити када преклапајући прозори нуде различиту класификацију подниза. Примера ради, ако крупије наизменично баца два претходно описана новчића, а добијени низ исхода је $x = HHHHHTTHHHTTTTT$, онда прозор $x_1...x_{10} = HHHHHTTHHH$ има негативан логаритамски однос, док је однос преклапајућег прозора $x_6...x_{15} = TTHHHTTTTT$ позитиван. Није јасно како одлучити који је новчић бацан у пресеку $x_6...x_{10} = TTHHH$, односно у ком тренутку је тачно дошло до замене новчића, те да ли је замене уопште и било или је крупије поштен.

In [36]:
# Величина прозора из претходног примера
k = 10

# Низ исхода из претходног примера из књиге
x = 'HHHHHTTHHHTTTTT'

# Одређивање праведности свих поднизова
kockarnica_prozor(x, k)

HHHHHTTHHHTTTTT
BBBBBBBBBB
 BBBBBBBBBB
  FFFFFFFFFF
   FFFFFFFFFF
    FFFFFFFFFF
     FFFFFFFFFF
HHHHHTTHHHTTTTT


Још једном је јасно да би најбоље било осмислити статистички потковано решење за све досад изложене проблеме. То је и учињено у следећем поглављу, баш са претходно изложеним бацањем новчића као прилично једноставним, али ипак сасвим интуитивним мотивационим примером.

## 2.4 Додатни проблеми

Досад су изложена два биолошка проблема за која је закључено да би добро било осмислити статистички потковано решење: погађање фенотипа и потрага за генима. Први се своди на класификацију геномске секвенце (нпр. *HIV*-а) на основу познатих могућих исхода и њихових примера. Други се своди на откривање *CG* острва, региона *DNA* са високим уделом динуклеотида *CG*. Иако су ово два конкретна проблема из домена биологије, јасно је да би се жељено решење могло применити и на мноштво других сличних проблема, што укључује последњи мотивациони пример са бацањем новчића.

Приметно је да је секвенцијалност главна особина података са којима се ради при решавању претходно описаних проблема. Први проблем стога се заправо лако уопштава на проблем класификације било каквих секвенцијалних података, под условом да се сличност мери на основу измена које одговарају мутацијама које настају у геному, што су супституције, инсерције и делеције. Други проблем му је сличан, с тим што класификује (заправо групише – кластерује) поднизове једне секвенце. Кад се све узме у обзир, испоставља се да би жељено решење [истовремено](https://hal-paris1.archives-ouvertes.fr/hal-00994165/document) било корисно како за проблеме надгледаног, тако и ненадгледаног машинског учења над секвенцијалним подацима.

Овакво решење могло би се аналогно користити за додељивање новооткривених протеина некој постојећој [фамилији](https://bmcgenomics.biomedcentral.com/track/pdf/10.1186/s12864-016-3097-0.pdf) (класификација), моделовање и препознавање људског понашања, гестова, рукописа и [говора](https://mi.eng.cam.ac.uk/~mjfg/mjfg_NOW.pdf) (класификација), обраду звука и [сигнала](https://www.researchgate.net/profile/Bernadette-Dorizzi/publication/6872005_ECG_Signal_Analysis_through_Hidden_Markov_Models/links/54aab7730cf25c4c472f4941/ECG-Signal-Analysis-through-Hidden-Markov-Models.pdf) (класификација и кластеровање), одређивање [врсте речи](https://www.mygreatlearning.com/blog/pos-tagging/) у тексту или чак моделовање тока [пандемије *COVID-19*](https://github.com/matfija/COVID-u-Srbiji) у Републици Србији засновано на најосновнијим подацима, као на слици [2.3].

[2.3]: #fig:covid

<img src="../slike/covid.png" width="55%" id="fig:covid" alt="Моделовање епидемије COVID-19 у Србији" />

Досад је увелико наговештено да су добар избор скривени Марковљеви модели (енгл. *Hidden Markov Model, HMM*), па ће надаље бити речи о њима. Ипак, ваља напоменути да се наведени проблеми још ефектније решавају својеврсним проширењима *HMM*-а, попут [условних случајних поља](http://personales.upv.es/prosso/resources/PonomarevaEtAl_RANLP07.pdf) (енгл. *Conditional Random Field, CRF*), или комбинацијом са другим техникама као што су [вештачке неуронске мреже](http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.50.1857&rep=rep1&type=pdf) (енгл. *Artificial Neural Network, ANN*).

# Глава 3 – Моделовање

Након мотивације, дошло је време за дефиницију скривених Марковљевих модела, као предложеног решења свих досад изложених проблема. Поред дефиниције, на примеру бацања новчића (непоштене коцкарнице) приказано је како се тачно проблеми моделују помоћу *HMM*, те како се на основу тог модела може одговорити на нека важна питања. Ова глава, дакле, покрива другу петину обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно следеће поднаслове: *Hidden Markov Models*, *The Decoding Problem*, *Finding the Most Likely Outcome of an HMM*, као и преостали део теоријског додатка из *Detours*.

## 3.1 Дефиниција модела

Како би се лакше дошло до општег модела свих досадашњих проблема, а посебно бацања новчића, крупије се, уместо као особа, може схватити као примитивна машина – аутомат. Структура аутомата за почетак није важна, али његово деловање јесте. Аутомат је секвенцијалне природе, те оперише кроз низ корака. У сваком кораку је у неком приватном стању, које означава који новчић је заправо бачен (конкретно *F* и *B*), при чему јавно приказује исход бацања тог новчића (конкретно *H* и *T*). Стање је, дакле, непознато, па се другачије назива скривеним стањем. И стања и опажања згодно је апстраховати симболима, нпр. баш карактерима, како је и учињено.

У сваком кораку, аутомат доноси две одлуке: у које скривено стање прећи (да ли га променити) и који симбол емитовати у том новом стању. Испоставља се да се обе одлуке могу донети у потпуности стохастички, што би значило да је добијен жељени статистички потковани модел проблема. Заиста, прва одлука може се донети тако што се случајно одабере *F* или *B* као почетно стање (нпр. баш равномерно, са једнаким вероватноћама 1/2), а надаље се у сваком кораку стање мења са неком малом вероватноћом (нпр. 1/10), док се са знатно већом преосталом (нпр. 9/10) остаје у истом стању. Друга одлука доноси се на основу прве и већ познатих вероватносних особина коцкице – нпр. вероватноћа емитовања *H* једнака је 1/2 у стању *F*, а 3/4 у стању *B*.

Претходно изложени аутомат заправо одговара дуго најављиваном појму скривених Марковљевих модела. *HMM* се традиционално представља као статистички модел који се састоји из следећих основних елемената:
- скривених стања $x_i$ – свако стање из скупа $x$ има индекс $i$,
- опажања, опсервација, емисија, приказа, исхода, симбола $y_i$,
- полазних вероватноћа $\pi_i$ – колико је често $x_i$ почетно стање,
- вероватноћа прелаза $a_{ij}$ – колико се често из $x_i$ прелази у $x_j$,
- излазних вероватноћа $b_{ij}$ – колико се често у стању $x_i$ емитује $y_j$.

Пример који одговара оваквој дефиницији дат је на слици [1.2]. Наравно, подразумева се да су познати број стања $n$ (тако заправо $x = \{x_1, ..., x_n\}$, $\pi = \{\pi_1, ..., \pi_n\}$ и $a = \{a_{ij}\}_{1 \leq i, j \leq n}$) и број могућих опсервација $m$ (тако заправо $y = \{y_1, ..., y_m\}$ и $b = \{b_{ij}\}_{1 \leq i \leq n, 1 \leq j \leq m}$) као помоћни елементи сваког *HMM*. Како су сви скупови коначни, прецизније се говори о дискретним (мултиномијалним) *HMM*, мада је иначе могуће моделовати разне [непрекидне](https://people.eecs.berkeley.edu/~jordan/courses/281A-fall04/lectures/lec-10-26.pdf) расподеле.

[1.2]: #fig:hmm

In [37]:
# Класа која представља скривени Марковљев модел
class HMM:
    # Конструкција HMM на основу петорке
    def __init__(hmm, x, y, pi, a, b):
        # Памћење низа скривених стања
        hmm.x = x
        
        # Одређивање броја скривених стања
        hmm.n = len(x)
         
        # Памћење низа могућих опажања
        hmm.y = y
        
        # Одређивање броја различитих опажања
        hmm.m = len(y)
        
        # Памћење низа полазних вероватноћа
        hmm.pi = pi
        
        # Памћење матрице вероватноћа прелаза
        hmm.a = a
        
        # Памћење матрице излазних вероватноћа
        hmm.b = b

Како би овакав модел био у потпуности статистички заснован и смислен, обично се захтева да се све појединачне вероватноће сабирају у јединицу: $$\sum_{i=1}^n \pi_i = 1, (\forall i \in \{1, ..., n\}) \sum_{j=1}^m a_{ij} = 1, (\forall i \in \{1, ..., n\}) \sum_{j=1}^m b_{ij} = 1.$$ Постоје, међутим, изузеци који су детаљније обрађени у наставку, када се говори о важним надградњама појма скривених Марковљевих модела.

In [38]:
# Рад са рачунским грешкама
def blisko(x, y):
    # Мала апсолутна разлика
    return abs(x-y) < 1e-3

In [39]:
# Неки примери релативно сличних бројева
primeri = [(3*0.1, 0.3), (0.5, 1/2), (1, 1.1)]

# Извештавање о блискости бројева из примера
for x, y in primeri:
    print('Бројеви', x, 'и', y, 'јесу' if blisko(x, y) else 'нису', 'блиски.')

Бројеви 0.30000000000000004 и 0.3 јесу блиски.
Бројеви 0.5 и 0.5 јесу блиски.
Бројеви 1 и 1.1 нису блиски.


In [40]:
# Провера испуњава ли HMM вероватносне услове
def proveri(hmm):
    # Сумирање полазних вероватноћа
    polazne = sum(hmm.pi)
    
    # Провера полазних вероватноћа
    if not blisko(polazne, 1):
        return False
    
    # Пролазак кроз свако скривено стање
    for i in range(hmm.n):
        # Сумирање вероватноћа прелаза
        prelazi = sum(hmm.a[i])
        
        # Провера вероватноћа прелаза
        if not blisko(prelazi, 1):
            return False
        
        # Сумирање излазних вероватноћа
        emisije = sum(hmm.b[i])
        
        # Провера излазних вероватноћа
        if not blisko(emisije, 1):
            return False
    
    # Све провере су прошле
    return True

У овом тренутку је такође значајно нагласити да аутори Компо и Певзнер у уџбенику *Bioinformatics Algorithms* користе нешто другачију нотацију, верну енглеском језику. Наиме, они скуп $x$ означавају као $States$, скуп $y$ као $\Sigma$, матрицу $a_{ij}$ као $transition_{l, k}$, а матрицу $b_{ij}$ као $emission_l(b)$. Такође, потребу за скупом полазних вероватноћа – који је заправо опционалан, о чему ће бити речи касније – уводе тек касније, па је *HMM* код њих у основи уређена четворка уместо петорка. Овде је ипак одлучено да се користи познатија нотација, како би читаоцима била лакша употреба повезане литературе. Штавише, *HMM* се у литератури често дефинише још простије, као уређена тројка $\{a, b, \pi\}$, односно $\{A, B, \pi\}$ ако се користе велика слова. Стварно, скупови $x$ и $y$ просто се могу заменити индексима, познатим из наведене тројке.

На основу већ разматране слике [1.2], познато је да се *HMM* може илустровати *HMM* дијаграмом. У питању је граф чији су чворови стања и опсервације, а гране вероватноће преласка и емисије. Стил је у суштини произвољан, мада се на слици примећује разлика у значењу графичких елемената. Стања су приказана кружним, а емисије квадратним чворовима. Вероватноће преласка исписане су изнад грана, а излазне вероватноће на самим гранама. Прелази и емисије нулте вероватноће (нпр. прелаз са $x_1$ на $x_3$ или на самог себе) нису ни приказани. Други стилови могу приказати све гране, а емисије и вероватноће емисија означити испрекиданим линијама. Независно од стила, *HMM* једнозначно одређује структуру свога дијаграма, а важи и обрнуто.

[1.2]: #fig:hmm

Сада је могуће искористити *HMM* за прецизно моделовање мотивационог проблема бацања коцкице у непоштеној коцкарници. У конкретном случају, изложеном на почетку поднаслова, уређена петорка изгледа овако:
- скривена стања $x = \{F, B\}$ – нпр. $x_1 = F$ и $x_2 = B$,
- опсервације $y = \{H, T\}$ – нпр. $y_1 = H$ и $y_2 = T$,
- полазне вероватноће $\pi = \left\{\dfrac{1}{2}, \dfrac{1}{2}\right\}$ – нпр. $\pi_1 = P\{x_1\} = P\{F\} = \dfrac{1}{2}$,
- преласци $a = \left(\begin{matrix}\dfrac{9}{10} & \dfrac{1}{10}\\ \dfrac{1}{10} & \dfrac{9}{10}\end{matrix}\right)$ – нпр. $a_{12} = P\{x_1 \mapsto x_2\} = P\{F \mapsto B\} = \dfrac{1}{10}$,
- емисије $b = \left(\begin{matrix}\dfrac{1}{2} & \dfrac{1}{2}\\ \dfrac{3}{4} & \dfrac{1}{4}\end{matrix}\right)$ – нпр. $b_{21} = P\{y_1 | x_2\} = P\{H | B\} = \dfrac{3}{4}$.

In [41]:
# Скривена стања непоштене коцкарнице
x = ['F', 'B']

# Могућа опажања непоштене коцкарнице
y = ['H', 'T']

# Низ полазних вероватноћа непоштене коцкарнице
pi = [1/2, 1/2]

# Матрица прелаза непоштене коцкарнице
a = [[9/10, 1/10],
     [1/10, 9/10]]

# Матрица емисија непоштене коцкарнице
b = [[1/2, 1/2],
     [3/4, 1/4]]

In [42]:
# HMM непоштене коцкарнице
kockarnica = HMM(x, y, pi, a, b)

In [43]:
# Провера модела непоштене коцкарнице
print('Модел', 'јесте' if proveri(kockarnica) else 'није', 'коректан.')

Модел јесте коректан.


Одговарајући дијаграм приказан је на слици [3.1] и пружа исте информације. Служи се истим стилом као претходно описани граф, с тим што додатно испрекидано приказује замишљено полазно стање, што је новина на слици.

[3.1]: #fig:kock

<img src="../slike/kockarnica.png" width="35%" id="fig:kock" alt="Скривени Марковљев модел бацања новчића" />

Историјски гледано, појам *HMM* увели су Ленард Баум и сарадници кроз низ статистичких радова објављених у другој половини шездесетих година двадесетог века. У питању је надградња појма Марковљевих ланаца (енгл. *Markov Chain, MC*), који су у суштини *HMM* без емисија. Ради се, дакле, о уобичајеном стохастичком аутомату, који се састоји из стања и вероватноћа прелаза. *MC* је почетком века [формулисао](http://sciences.amisbnf.org/fr/livre/rasprostranenie-zakona-bolshih-chisel-na-velichiny-zavisyashchie-drug-ot-druga) руски статистичар Андреј Марков, по коме су и названи, како би моделовао Марковљеве процесе – стохастичке промене стања такве да тренутно стање зависи искључиво од претходног. Прва практична примена *HMM* била је препознавање говора, док је биолошка примена почела 1986, Бишоповим и Томпсоновим [поравнањем *DNA*](https://pubmed.ncbi.nlm.nih.gov/3641921/).

## 3.2 Могућности модела

Могуће је дефинисати појам скривеног пута $p = p_1...p_k$ као низ $k$ стања кроз која *HMM* пролази, а да притом емитује секвенцу опсервација $o = o_1...o_k$. Примера ради, може бити да је низ видљивих исхода $o = THTHHHTHTTH$, а позадински низ скривених стања $p = FFFBBBBBFFF$. Главна идеја је анализирати у ком су односу $p$ и $o$, те са којом се вероватноћом реализују.

In [44]:
# Пример скривеног пута из уџбеника
p_knjiga = 'FFFBBBBBFFF'

# Пример секвенце опсервација из уџбеника
o_knjiga = 'THTHHHTHTTH'

Уз излагање *HMM* за бацање новчића у непоштеној коцкарници, дати су примери значења чланова петорке, који донекле наговештавају могућности скривених Марковљевих модела. Прво, напоменуто је да полазне вероватноће заправо представљају вероватноћу да се у првом кораку ушло у неко стање. Другим речима, то су заправо вероватноће $P\{p\}$ свих могућих једночланих низова скривених стања. Друго, имплицирано је да матрица емисија складишти маргиналну расподелу емисија при познатом стању. У питању су условне вероватноће $P\{o | p\}$ исхода при једночланом низу скривених стања.

Могуће је, дакле, директно из дефиниције *HMM* израчунати вероватноће  $P\{p\}$ и $P\{o | p\}$ за $k = 1$, и то као $P\{x_i\} = \pi_i$, односно $P\{y_j | x_i\} = b_{ij}$. Према познатој формули условне вероватноће, важи $P\{p, o\} = P\{p\} P\{o | p\}$, па је и та вероватноћа тривијално позната за путеве јединичне дужине, као $P\{x_i, y_j\} = \pi_i b_{ij}$. У питању је заједничка вероватноћа да *HMM* пролази кроз низ стања $p$, а да притом емитује управо секвенцу опсервација $o$.

Према уобичајеним принципима, могуће је приметити следеће: $\sum_p \sum_o P\{p, o\} = 1$. Наиме, када се саберу вероватноће свих могућих комбинација низа опажања и скривених путева одређене дужине $k$, добија се јединица, што значи да је покривен цео простор догађаја у *HMM*. Из ове дводимензионалне (заједничке) расподеле путева и емисија могу се без проблема извести маргиналне (појединачне) расподеле путева $P\{p\} = \sum_o P\{p, o\}$ и симбола $P\{o\} = \sum_p P\{p, o\}$.

Подсећања ради, оригинални циљ код непоштене коцкарнице био је пронаћи највероватнији низ стања (бачених новчића) за познати низ опсервација (исхода), што је управо максимална вредност $P\{p, o\}$ по свим $p$ за познато $o$. Претходно опште постављен задатак проналаска највероватнијег низа бацања на основу анализе исхода постаје сасвим конкретан статистички проблем – на основу емитоване ниске симбола $o$ одредити највероватнију секвенцу скривених стања $p$. У наставку је показано како је то заправо могуће урадити.

За почетак, добро је формално дефинисати проблем. Већ је закључено да формулација попут [1] није добра нити смислена. Зато је и уведен појам *HMM*.

[1]: #prob:kock

<blockquote id="prob:kock">

<b>Проблем 1</b> Непоштена коцкарница<br>
<i>На основу низа исхода бацања новчића, одредити када крупије у непоштеној коцкарници користи који од два могућа новчића.</i><br>
<b>Улаз</b> низ $o = o_1...o_k$ исхода ($H$ и $T$) бацања два новчића ($F$ и $B$).<br>
<b>Излаз</b> низ $p = p_1...p_k$ новчића такав да је $o_i$ резултат бацања $p_i$.

</blockquote>

Добра формулација преко појма *HMM* дата је кроз проблем [2]. Управо је она детаљно обрађена у наставку овог поглавља, као његов централни део.

[2]: #prob:dekod

<blockquote id="prob:dekod">

<b>Проблем 2</b> Декодирање приказа<br>
<i>Пронаћи оптимални пут кроз HMM ако је емитована ниска $o$.</i><br>
<b>Улаз</b> ниска $o = o_1...o_k$ и <i>HMM</i>$\{a, b, \pi\}$ који ју је емитовао.<br>
<b>Излаз</b> скривени пут $p$ који максимизује вероватноћу $P\{p, o\}$ над свим могућим путевима, дакле $\operatorname*{argmax}_p P\{p, o\}$ за улазно $o$.

</blockquote>

Прва идеја јесте исцрпна претрага простора догађаја над маргиналном расподелом $P\{p, o\}$ за познато $o$. Како је $P\{p, o\} = P\{p\} P\{o | p\}$, тако је најзгодније независно израчунати $P\{p\}$ и $P\{o | p\}$ за сваки од $n^k$ скривених путева. Број путева дужине $k$ у *HMM* са $n$ могућих стања је експоненцијалан, јер се одабир своди на варијације – уређене изборе са понављањем.

Први потпроблем је израчунавање вероватноће пута, што се може формализовати проблемом [3]. Он је у наставку решен у виду једне формуле.

[3]: #prob:put

<blockquote id="prob:put">

<b>Проблем 3</b> <a href="http://rosalind.info/problems/ba10a/">Вероватноћа скривеног пута</a><br>
<i>Израчунати вероватноћу скривеног пута $p$ кроз HMM.</i><br>
<b>Улаз</b> скривени пут $p = p_1...p_k$ кроз <i>HMM</i>$\{a, b, \pi\}$.<br>
<b>Излаз</b> вероватноћа улазног пута $P\{p\}$.

</blockquote>

Први елемент $P\{p\}$, дакле, представља вероватноћу скривеног пута $p$, односно вероватноћу да *HMM* прође кроз низ стања $p$. Већ је показано да за једночлане путеве важи $P\{x_i\} = \pi_i$. Вишечлани путеви заправо почињу једночланим, а онда се проширују користећи стохастичке прелазе. Стога је $P\{p_1p_2...p_{k-1}p_k\} = P\{p_1\}P\{p_1 \mapsto p_2\}...P\{p_{k-1} \mapsto p_k\}$. Објашњено је већ и да је $P\{x_i \mapsto x_j\} = a_{ij}$, па се свеукупно вероватноћа пута може израчунати као: $$P\{p\} = P\{p_1\} \prod_{i=2}^k P\{p_{i-1} \mapsto p_i\} = \pi_{ind(p_1)} \prod_{i=2}^k a_{ind(p_{i-1}), ind(p_i)}.$$

In [45]:
# Одређивање индекса стања на путу
def ind(x_y, p_o):
    return x_y.index(p_o)

In [46]:
# Вероватноћа скривеног пута
def p_puta(hmm, p):
    # Почетна јединична вероватноћа
    vrv = 1
    
    # Одређивање дужине пута
    k = len(p)
    
    # Празан пут је почетне вероватноће
    if not k: return vrv
    
    # Мапирање свих стања у индексе
    p = [ind(hmm.x, p[i]) for i in range(k)]
    
    # Множење са почетном вероватноћом
    vrv *= hmm.pi[p[0]]
    
    # Множење вероватноћама прелаза
    for i in range(1, k):
        vrv *= hmm.a[p[i-1]][p[i]]
    
    # Враћање резултата
    return vrv

In [47]:
# Вероватноћа пута из уџбеника
print('Вероватноћа пута', p_knjiga, '\b:', p_puta(kockarnica, p_knjiga))

Вероватноћа пута FFFBBBBBFFF : 0.002152336050000001


In [48]:
# Основни пример параметара са ROSALIND
x = ['A', 'B']
pi = [1/2, 1/2]
a = [[0.194, 0.806],
     [0.273, 0.727]]

# Основни пример пута са ROSALIND
p = 'AABBBAABABAAAABBBBAABBABABBBAABBAAAABABAABBABABBAB'

# Модел према изложеном примеру
rosalind = HMM(x, [], pi, a, [])

# Вероватноћа пута из примера
print('Вероватноћа пута', p, '\b:', p_puta(rosalind, p))

Вероватноћа пута AABBBAABABAAAABBBBAABBABABBBAABBAAAABABAABBABABBAB : 5.017328653175628e-19


In [49]:
# Додатни пример параметара са ROSALIND
x = ['A', 'B']
pi = [1/2, 1/2]
a = [[0.863, 0.137],
     [0.511, 0.489]]

# Додатни пример пута са ROSALIND
p = 'BBABBBABBAABABABBBAABBBBAAABABABAAAABBBBBAABBABABB'

# Модел према изложеном примеру
rosalind = HMM(x, [], pi, a, [])

# Вероватноћа пута из примера
print('Вероватноћа пута', p, '\b:', p_puta(rosalind, p))

Вероватноћа пута BBABBBABBAABABABBBAABBBBAAABABABAAAABBBBBAABBABABB : 3.2623333190410896e-21


Други потпроблем је израчунавање вероватноће исхода при познатом путу, што се може формализовати као [4]. И то се решава само једном формулом.

[4]: #prob:ishod

<blockquote id="prob:ishod">

<b>Проблем 4</b>: <a href="http://rosalind.info/problems/ba10b/">Вероватноћа исхода на путу</a><br>
<i>Израчунати вероватноћу приказа $o$ на путу $p$ кроз HMM.</i><br>
<b>Улаз</b> скривени пут $p = p_1...p_k$ кроз <i>HMM</i>$\{a, b, \pi\}$ и ниска $o = o_1...o_k$ која је тим проласком емитована.<br>
<b>Излаз</b> условна вероватноћа приказа на путу $P\{o | p\}$.

</blockquote>

Други елемент $P\{o | p\}$, дакле, представља вероватноћу да *HMM* емитује ниску $o$ при проласку кроз низ стања $p$. Већ је показано да за једночлане путеве важи $P\{y_j | x_i\} = b_{ij}$. Код вишечланих нема разлике, пошто је пут фиксиран и само се прате опсервације. Стога је $P\{o_1...o_k | p_1...p_k\} = P\{o_1 | p_1\}...P\{o_k | p_k\}$. Свеукупно се вероватноћа пута може израчунати као: $$P\{o | p\} = \prod_{i=1}^k P\{o_i | p_i\} = \prod_{i=1}^k b_{ind(p_i), ind(o_i)}.$$

In [50]:
# Вероватноћа исхода на путу
def p_ishoda_na_putu(hmm, p, o):
    # Почетна јединична вероватноћа
    vrv = 1
    
    # Одређивање дужине пута
    k = len(p)
    
    # Мапирање свих стања у индексе
    p = [ind(hmm.x, p[i]) for i in range(k)]
    o = [ind(hmm.y, o[i]) for i in range(k)]
    
    # Множење излазним вероватноћама
    for i in range(k):
        vrv *= hmm.b[p[i]][o[i]]
    
    # Враћање резултата
    return vrv

In [51]:
# Вероватноћа исхода на путу
print('Вероватноћа исхода', o_knjiga, 'на путу', p_knjiga,
      '\b:', p_ishoda_na_putu(kockarnica, p_knjiga, o_knjiga))

Вероватноћа исхода THTHHHTHTTH на путу FFFBBBBBFFF : 0.0012359619140625


In [52]:
# Основни пример параметара са ROSALIND
x = ['A', 'B']
y = ['x', 'y', 'z']
pi = [1/2, 1/2]
b = [[0.612, 0.314, 0.074],
     [0.346, 0.317, 0.336]]

# Основни пример пута и исхода са ROSALIND
p = 'BBBAAABABABBBBBBAAAAAABAAAABABABBBBBABAABABABABBBB'
o = 'xxyzyxzzxzxyxyyzxxzzxxyyxxyxyzzxxyzyzxzxxyxyyzxxzx'

# Модел према изложеном примеру
rosalind = HMM(x, y, pi, [], b)

# Вероватноћа исхода на путу из примера
print('Вероватноћа исхода', o, 'на путу\n', p,
      '\b:', p_ishoda_na_putu(rosalind, p, o))

Вероватноћа исхода xxyzyxzzxzxyxyyzxxzzxxyyxxyxyzzxxyzyzxzxxyxyyzxxzx на путу
 BBBAAABABABBBBBBAAAAAABAAAABABABBBBBABAABABABABBBB : 1.9315707089321372e-28


In [53]:
# Додатни пример параметара са ROSALIND
x = ['A', 'B']
y = ['x', 'y', 'z']
pi = [1/2, 1/2]
b = [[0.093, 0.581, 0.325],
     [0.77, 0.21, 0.02]]

# Додатни пример пута и исхода са ROSALIND
p = 'BAABBAABAABAAABAABBABBAAABBBABBAAAABAAAABBAAABABAA'
o = 'zyyyxzxzyyzxyxxyyzyzzxyxyxxxxzxzxzxxzyzzzzyyxzxxxy'

# Модел према изложеном примеру
rosalind = HMM(x, y, pi, [], b)

# Вероватноћа исхода на путу из примера
print('Вероватноћа исхода', o, 'на путу\n', p,
      '\b:', p_ishoda_na_putu(rosalind, p, o))

Вероватноћа исхода zyyyxzxzyyzxyxxyyzyzzxyxyxxxxzxzxzxxzyzzzzyyxzxxxy на путу
 BAABBAABAABAAABAABBABBAAABBBABBAAAABAAAABBAAABABAA : 3.4231648217695625e-35


## 3.3 Надградња дефиниције

...

## 3.4 Витербијев алгоритам

...

## 3.5 Алгоритам "напред"

...

# Глава 4 – Биолошки значај

Након дефинисања скривених Марковљевих модела, описа њихове примене и алгоритама који дају одговоре на важна питања у вези са моделованим проблемом, ред је да се непосредно опише биолошки значај *HMM*, односно њихова примена у досад изложеним биоинформатичким проблемима. Конкретно, глава која следи бави се потрагом за генима, односно откривањем *CG* острва помоћу *HMM*, као и употребом профилних *HMM* за решавање проблема попут откривања фенотипа *HIV*-а. Она, дакле, покрива трећу и четврту петину обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно поднаслове *Profile HMMs for Sequence Alignment* и *Classifying proteins with profile HMMs*.

## 4.1 Потрага за генима

...

## 4.2 Профилни модели

...

# Глава 5 – Учење модела

За крај, прича о скривеним Марковљевим моделима допуњује се још једном важном особином *HMM* – способношћу (машинског) учења поткрепљивањем. Досад је било речи о већ готовим моделима, али прави потенцијал *HMM* показују тек онда када се сви параметри модела науче, уместо да се хардкодирају. Ова глава, дакле, покрива последњу петину обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно следеће поднаслове: *Learning the Parameters of an HMM*, *Soft Decisions in Parameter Estimation* и *Baum-Welch Learning*.

# Глава 6 – Закључак

Досад је изложен појам скривених Марковљевих модела, као и њихов биоинформатички значај. Дата је детаљна мотивација за увођење статистички потованог аутомата, након чега је појам *HMM* разрађен на мотивационом примеру непоштене коцкарнице (бацање два новчића). Затим је и примењен на решавање важних биолошких проблема, попут проналажења *CG* острва (места са генима) и напредног бављења генским и протеинским профилима.

У последњој глави овог рада су надаље сумиране информације из закључних поднаслова обрађеног поглавља *Chapter 10: Why Have Biologists Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно *The Many Faces of HMMs* и *Epilogue: Nature is a Tinkerer and not an Inventor*, мада су поменути и додатни подаци из помоћног поднаслова *Bibliography Notes*.

Значајна напредна примена *HMM* која превазилази оквире уџбеника јесте моделовање отпорности *HIV*-а на лекове. У уводној мотивацији поменуто је да се заражени пацијенти лече коктелом антивирусних лекова, који је због високе стопе мутација често посебно осмишљен за сваког појединца, како би терапија била успешна. Мутације могу да онеспособе дејство неког лека који је раније имао ефекта. Стога је разумевање отпорности од високог значаја. Нико Беренвинкел и Матијас Дртон су 2006. предложили [модел реактивности соја на лекове](https://academic.oup.com/biostatistics/article-pdf/8/1/53/697249/kxj033.pdf) заснован баш на *HMM*, додуше изразито комплексном.

Када су протеини у питању, ваља напоменути да се они у суштини састоје из више повезаних целина које се називају доменима. Домени могу бити различитих структура и функција, и управо се они чешће анализирају него цели протеини. Године 2002. Бејтман и сарадници описали су употребу [профилних *HMM*](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC99071/), на основу чега је осмишљена позната база података [Пфам](http://pfam.xfam.org/). Она се данас састоји од скоро 20.000 вишеструких поравнања разних протеинских домена и рутински се користи у анализи нових протеинских секвенци.

Све у свему, скривени Марковљеви модели прешли су дуг пут од својих првих употреба у рачунарској биологији (нпр. [Черчил 1989](https://pubmed.ncbi.nlm.nih.gov/2706403/), [Крог и сарадници 1994](https://pubmed.ncbi.nlm.nih.gov/8107089/), [Балди и сарадници 1994](https://www.pnas.org/content/pnas/91/3/1059.full.pdf)) до данашње широке биоинформатичке примене. Поменута је употреба *HMM* за моделовање и препознавање људског понашања, гестова, рукописа и говора, обраду звука и сигнала, одређивање врсте речи у тексту или чак моделовање тока пандемије *COVID-19* у Републици Србији засновано на најосновнијим подацима, као на слици [1.2]. Објашњен је значај *HMM* како код проблема надгледаног, тако и код проблема ненадгледаног машинског учења. Наведене су многе могућности *HMM*, укључујући способност учења свих параметара модела поткрепљивањем.

[1.2]: #fig:covid

Паралелно са писањем овог текста, направљен је [електронски уџбеник](https://github.com/matfija/HMM-u-bioinformatici), као суштински најзначајнији допринос рада. Уџбеник је реализован у виду *Jupyter* свезака, које су заједно са свим осталим материјалима доступне на *GitHub*-у. Концепт је такав да свеске садрже једнак текст као у писаном раду, али успут складиште и *Python* кодове који имплементирају у тексту изложене алгоритме. Имплементирана су сва предложена решења из књиге *Bioinformatics Algorithms*, али и многа друга. Како се кодови интерпретирају, они су у потпуности интерактивни и могу лако послужити за самосталан студентски рад и детаљније упознавање са имплементацијама. За случај да читаоцу нису доступни *Python* интерпретатор и/или *Jupyter* сервер, направљена је и *HTML* верзија материјала, која, додуше, није интерактивна.

Свеукупно, обрађена лекција електронског уџбеника доприноси усвајању знања о скривеним Марковљевим моделима и њиховој примени у биоинформатици, независно од тога да ли читалац слуша мастер курс Увод у биоинформатику на Математичком факултету Универзитета у Београду. За разумевање је неопходно само основно предзнање из математике (углавном вероватноће) и биологије (улавном генетике), што је ниво средње школе. Било би добро да иницијатива у оквиру које уџбеник настаје заживи, те да у најскоријем року свака лекција буде доступна у потпуности у електронском облику.