## Скривени Марковљеви модели (*HMM*) у биоинформатици

... (резиме)

# Глава 1 – Увод

Биоинформатика је интердисциплинарна област која се бави применом
рачунарских технологија у области биологије и сродних наука, са
нагласком на разумевању биолошких података. Кључна особина јој је управо
поменута мултидисциплинарност, која се представља [дијаграмом](https://www.classtools.net/Venn/202107-QTgda5) са слике
[1.1].

<img src="../slike/bioinformatika.png" width="50%" id="fig:venn" alt="Венов дијаграм интердисциплинарности" />

Овако представљена, биоинформатика је заправо спој статистике,
рачунарства и биологије – сва три истовремено – по чему надилази
појединачне спојеве: биостатистику, науку о подацима и рачунарску
биологију. Конкретно, статистички (математички) апаратат служи за рад са
подацима, рачунарске технологије тај апарат чине употребљивијим, док
биологија даје потребно доменско знање (разумевање) за рад са биолошким
и сродним подацима. Иако се може рећи да је биоинформатика, у савременом
смислу представљеном приказаним дијаграмом, релативно млада наука, брзо
је постала [популарна](https://genomejigsaw.wordpress.com/2015/09/27/faq/) и многи су јој посветили [пажњу](https://algotech.netlify.app/blog/bio-intro/) или се њоме [баве](http://www.bioinfo.ufpr.br/en/a-guide-for-students.html).

Међу познатим личностима из овога домена издвајају се научници Филип
Компо (*Phillip Compeau*) и Павел Певзнер (*Pavel Pevzner*), аутори
књиге [*Bioinformatics Algorithms: An Active Learning Approach*](https://www.bioinformaticsalgorithms.org/). Прво
издање књиге изашло је 2014. године, а друго већ наредне, у два тома.
Актуелно, треће издање, издато је 2018. године, у једном тому.
Захваљујући динамичном и активном приступу биолошким проблемима и
њиховим информатичким решењима, као и многим додатним материјалима за
учење, књига се користи као уџбеник на више од сто светских факултета.
Међу њима је и Математички факултет Универзитета у Београду, односно на
њему доступни мастер курс [Увод у биоинформатику](http://www.bioinformatika.matf.bg.ac.rs/), а делови књиге користе
се и у настави повезаног мастер и докторског курса Истраживање података
у биоинформатици.

Актуелна иницијатива на нивоу курса Увод у биоинформатику јесте израда
електронског уџбеника, заснованог на поменутој књизи. Идеја је да
заинтересовани студенти као мастер рад обраде по једно поглавље књиге,
при чему обрада укључује писање текста на српском језику, али и
имплементацију и евентуалну визуелизацију свих или макар већине пратећих
алгоритама. Овај рад настао је управо у склопу представљене иницијативе,
међу првима.

Уџбеник кроз једанаест глава обрађује разне теме које су занимљиве у
оквиру биоинформатике: почетак репликације (алгоритамско загревање),
генске мотиве (рандомизовани алгоритми), асемблирање генома (графовски
алгоритми), секвенцирање антибиотика/пептида (алгоритми грубе силе),
поређење и поравнање геномских секвенци (динамичко програмирање),
блокове синтеније (комбинаторни алгоритми), филогенију (еволутивна
стабла), груписање гена (кластеровање), проналажење шаблона (префиксна и
суфиксна стабла), откривање гена и мутација секвенце (скривени
Марковљеви модели), напредно секвенцирање пептида (рачунарска
протеомика). Циљ овог рада је обрада десетог поглавља, заснованог на
скривеним Марковљевим моделима.

[Скривени Марковљев модел](http://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf) (у наставку углавном скраћено *HMM*, према
енгл. *Hidden Markov Model*), укратко, представља статистички модел који
се састоји из следећих елемената: скривених стања ($x_i$),
опсервација ($y_i$), вероватноћа прелаза
($a_{ij}$), полазних ($\pi_i$) и излазних
вероватноћа ($b_{ij}$), по [примеру](https://commons.wikimedia.org/wiki/File:HiddenMarkovModel.png) са слике [1.2]. *HMM* се
тако може схватити као коначни аутомат, при чему стања задржавају
уобичајено значење, док вероватноће прелаза описују колико се често неки
прелаз реализује. Полазне вероватноће одређују почетно стање. Овакав
аутомат допуњује се идејом да свако стање са одређеном излазном
вероватноћом емитује (приказује) неку опсервацију. Штавише, најчешће су
само опажања и позната у раду са *HMM*, док се позадински низ стања
погађа ("предвиђа"), па се управо зато стања и модели називају
скривеним.

<img src="../slike/hmm.png" width="50%" id="fig:hmm" alt="Једноставан пример скривеног Марковљевог модела" />

У претходном пасусу су, наравно, скривени Марковљеви модели представљени
малтене само концептуално, на високом нивоу. У наставку су, међутим, они
постепено уведени, заједно са мотивацијом за њихову употребу у виду
биолошких проблема који се њима решавају. Према идеји електронског
уџбеника, излагање прати књигу *Bioinformatics Algorithms: An Active
Learning Approach*, а имплементирани су сви пратећи алгоритми.
Резултујући [уџбеник](https://github.com/matfija/HMM-u-bioinformatici) са *Python* кодовима, у виду *Jupyter* свезака,
доступан је на *GitHub*-у.

[1.1]: #fig:venn
[1.2]: #fig:hmm