## Скривени Марковљеви модели (*HMM*) у биоинформатици

... (резиме)

# Глава 1 – Увод

Биоинформатика је интердисциплинарна област која се бави применом
рачунарских технологија у области биологије и сродних наука, са
нагласком на разумевању биолошких података. Кључна особина јој је управо
поменута мултидисциплинарност, која се представља [дијаграмом](https://www.classtools.net/Venn/202107-QTgda5) са слике
[1.1].

[1.1]: #fig:venn

<img src="../slike/bioinformatika.png" width="50%" id="fig:venn" alt="Венов дијаграм интердисциплинарности" />

Овако представљена, биоинформатика је заправо спој статистике,
рачунарства и биологије – сва три истовремено – по чему надилази
појединачне спојеве: биостатистику, науку о подацима и рачунарску
биологију. Конкретно, статистички (математички) апаратат служи за рад са
подацима, рачунарске технологије тај апарат чине употребљивијим, док
биологија даје потребно доменско знање (разумевање) за рад са биолошким
и сродним подацима. Иако се може рећи да је биоинформатика, у савременом
смислу представљеном приказаним дијаграмом, релативно млада наука, брзо
је постала [популарна](https://genomejigsaw.wordpress.com/2015/09/27/faq/) и многи су јој посветили [пажњу](https://algotech.netlify.app/blog/bio-intro/) или се њоме [баве](http://www.bioinfo.ufpr.br/en/a-guide-for-students.html).

Међу познатим личностима из овога домена издвајају се научници Филип
Компо (*Phillip Compeau*) и Павел Певзнер (*Pavel Pevzner*), аутори
књиге [*Bioinformatics Algorithms: An Active Learning Approach*](https://www.bioinformaticsalgorithms.org/). Прво
издање књиге изашло је 2014. године, а друго већ наредне, у два тома.
Актуелно, треће издање, издато је 2018. године, у једном тому.
Захваљујући динамичном и активном приступу биолошким проблемима и
њиховим информатичким решењима, као и многим додатним материјалима за
учење, књига се користи као уџбеник на више од сто светских факултета.
Међу њима је и Математички факултет Универзитета у Београду, односно на
њему доступни мастер курс [Увод у биоинформатику](http://www.bioinformatika.matf.bg.ac.rs/), а делови књиге користе
се и у настави повезаног мастер и докторског курса Истраживање података
у биоинформатици.

Актуелна иницијатива на нивоу курса Увод у биоинформатику јесте израда
електронског уџбеника, заснованог на поменутој књизи. Идеја је да
заинтересовани студенти као мастер рад обраде по једно поглавље књиге,
при чему обрада укључује писање текста на српском језику, али и
имплементацију и евентуалну визуелизацију свих или макар већине пратећих
алгоритама. Овај рад настао је управо у склопу представљене иницијативе,
међу првима.

Уџбеник кроз једанаест глава обрађује разне теме које су занимљиве у
оквиру биоинформатике: почетак репликације (алгоритамско загревање),
генске мотиве (рандомизовани алгоритми), асемблирање генома (графовски
алгоритми), секвенцирање антибиотика/пептида (алгоритми грубе силе),
поређење и поравнање геномских секвенци (динамичко програмирање),
блокове синтеније (комбинаторни алгоритми), филогенију (еволутивна
стабла), груписање гена (кластеровање), проналажење шаблона (префиксна и
суфиксна стабла), откривање гена и мутација секвенце (скривени
Марковљеви модели), напредно секвенцирање пептида (рачунарска
протеомика). Циљ овог рада је обрада десетог поглавља, заснованог на
скривеним Марковљевим моделима.

[Скривени Марковљев модел](http://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf) (у наставку углавном скраћено *HMM*, према
енгл. *Hidden Markov Model*), укратко, представља статистички модел који
се састоји из следећих елемената: скривених стања ($x_i$),
опсервација ($y_i$), вероватноћа прелаза
($a_{ij}$), полазних ($\pi_i$) и излазних
вероватноћа ($b_{ij}$), по [примеру](https://commons.wikimedia.org/wiki/File:HiddenMarkovModel.png) са слике [1.2]. *HMM* се
тако може схватити као коначни аутомат, при чему стања задржавају
уобичајено значење, док вероватноће прелаза описују колико се често неки
прелаз реализује. Полазне вероватноће одређују почетно стање. Овакав
аутомат допуњује се идејом да свако стање са одређеном излазном
вероватноћом емитује (приказује) неку опсервацију. Штавише, најчешће су
само опажања и позната у раду са *HMM*, док се позадински низ стања
погађа ("предвиђа"), па се управо зато стања и модели називају
скривеним.

[1.2]: #fig:hmm

<img src="../slike/hmm.png" width="50%" id="fig:hmm" alt="Једноставан пример скривеног Марковљевог модела" />

У претходном пасусу су, наравно, скривени Марковљеви модели представљени
малтене само концептуално, на високом нивоу. У наставку су, међутим, они
постепено уведени, заједно са мотивацијом за њихову употребу у виду
биолошких проблема који се њима решавају. Према идеји електронског
уџбеника, излагање прати књигу *Bioinformatics Algorithms: An Active
Learning Approach*, а имплементирани су сви пратећи алгоритми.
Резултујући [уџбеник](https://github.com/matfija/HMM-u-bioinformatici) са *Python* кодовима, у виду *Jupyter* свезака,
доступан је на *GitHub*-у.

# Глава 2 – Мотивација

За почетак, изложена је мотивација за употребу скривених Марковљевих
модела у биоинформатици. Конкретно, представљена су два важна биолошка
проблема која се њима могу решити и пратећи појмови из домена, као и
једна историјски мотивисана вероватносна мозгалица. Ова глава, дакле,
покрива прву петину обрађеног поглавља *Chapter 10: Why Have Biologists
Still Not Developed an HIV Vaccine? – Hidden Markov Models*, и то тачно
следеће поднаслове: *Classifying the HIV Phenotype*, *Gambling with
Yakuza*, *Two Coins up the Dealer’s Sleeve*, *Finding CG-Islands*, као и
највећи део додатка из *Detours*.

## 2.1 Погађање фенотипа

*HIV* је вирус хумане имунодефицијенције, један од најпознатијих вируса,
који заражава људе широм света. Својим дугорочним деловањем доводи до
смртоносног синдрома стечене имунодефицијенције, познатијег као сида или
ејдс. Мада поједини аутори распрострањеност *HIV*-а називају пандемијом,
Светска здравствена организација означава је као ["глобалну епидемију"](https://www.who.int/teams/global-hiv-hepatitis-and-stis-programmes/hiv/strategic-information/hiv-data-and-statistics).

Постојање *HIV*-а званично је потврђено почетком осамдесетих година
двадесетог века, мада се претпоставља да је са примата на људе прешао
знатно раније. Недуго по овом открићу, тачније 1984, из америчког
Министарства здравља и услуга становништву најављено је да ће вакцина
бити доступна кроз наредне две године. Иако до тога није дошло,
председник Бил Клинтон је 1997. потврдио да "није питање *да ли* можемо
да произведемо вакцину против сиде, већ је просто питање *када* ће до
тога доћи". Вакцина, међутим, ни данас није доступна, а многи покушаји
су отказани након што се испоставило да кандидати чак повећавају ризик
од инфекције код појединих испитаника.

Антивирусне вакцине најчешће се праве од површинских протеина вируса на
који се циља, у нади да ће имунски систем, након вакцине, у контакту са
живим вирусом знатно брже препознати протеине омотача вируса као стране
и уништити их пре него што се вирус намножи у телу. *HIV* је, међутим,
карактеристичан по томе што врло брзо мутира, па су његови протеини
изузетно варијабилни и није могуће научити имунски систем да исправно
одреагује на све мутације. Штавише, може се десити да имунитет научи да
исправно реагује само на једну варијанту вируса, а да реакција нема
никаквог ефекта на остале варијанте. Овакав имунитет је лошији од
имунитета који ништа не зна о вирусу, пошто не покушава да научи ништа
ново, што је разлог већ поменуте ситуације да су код неких испитаника
вакцине кандитати повећали ризик од заразе. Да ствар буде гора, *HIV*
брзо мутира и унутар једне особе, тако да је разлика у узорцима узетих
од различитих пацијената увек значајна.

Када се све узме у обзир, као обећавајућа замисао за дизајн свеобухватне
вакцине намеће се следећа идеја: идентификовати неки пептид који садржи
најмање варијабилне делове површинских протеина свих познатих сојева
*HIV*-а и искористити га као основу вакцине. Ни то, међутим, није
решење, пошто *HIV* има још једну незгодну способност: уме да се сакрије
процесом гликозилације. Наиме, протеини омотача су махон гликопротеини,
што значи да се након превођења за њих могу закачити многобројни
гликански (шећерни) ланци. Овим процесом долази до стварања густог
гликанског штита, који омета имунски систем у препознавању вируса. Све
досад изнето утиче на немогућност прављења прикладне вакцине у скоријем
времену.

Чак и ван контекста вакцине, мутације *HIV*-а прилично су занимљиве за
разматрање. Конкретно, илустративно је бавити се *env* геном, чија је
стопа мутације 1–2 % по нуклеотиду годишње. Овај ген кодира два
релативно кратка гликопротеина који заједно граде шиљак (спајк) омотача,
део вируса задужен за улазак у људске ћелије. Мање важан део шиљка је
гликопротеин *gp41* (∼ 345 аминокиселина), док је важнији гликопротеин
*gp120* (∼ 480 аминокиселина). О варијабилности другог говори чињеница
да на нивоу једног пацијента, у кратком року, скоро половина
аминокиселина буде измењено позадинским мутацијама одговарајућег гена,
као да је сасвим други протеин.

Ствари постају још занимљивије када се, поред генотипа вируса, разматра
и његов фенотип. Примера ради, сваки вирус *HIV*-а може се означити као
изолат који ствара синцицијум или као изолат који га не ствара. Након
уласка у људску ћелију, гликопротеини омотача могу да изазову спајање
заражене ћелије са суседним ћелијама. Резултат тога је синцицијум –
нефункционална вишеједарна ћелијска (цитоплазматична) маса са
заједничком ћелијском мембраном. Овакав изолат *HIV*-а означава се као
онај који ствара синцицијум и он се тим процесом знатно брже умножава,
што даље значи да је опаснији и агресивнији, јер уласком у само једну
ћелију убија многе друге у суседству. Одређивање тачног генотипа и
погађање фенотипа важно је како би се пацијенту преписао најприкладнији
коктел антивирусних лекова.

Испоставља се да је примарна структура гликопротеина *gp120* важан
суштински генотипски предиктор фенотипа *HIV*-а. Наиме, узимајући у
обзир само низ аминокиселина које чине *gp120*, може се направити
једноставан класификатор који погађа да ли проучавани изолат ствара
синцицијум или не. Конкретно, научник Жан Жак де Јонг је 1992.
анализирао вишеструко поравнање такозване *V3* петље, издвојеног региона
у оквиру *gp120*, и формулисао [правило 11/25](https://www.ncbi.nlm.nih.gov/pmc/articles/PMC240176/pdf/jvirol00042-0547.pdf). Према том правилу, сој
*HIV*-а највероватније ствара синцицијум уколико му се на 11. или 25.
позицији у *V3* петљи налазе аминокиселине аргинин (*R*) или лизин
(*K*).

In [1]:
# Функција која предвиђа фенотип HIV-а
def hiv_sincicijum(v3_petlja):
    # Приказ улазне V3 петље
    print('V3 петља:', v3_petlja)
    
    # Издвајање 11. позиције
    p11 = v3_petlja[10]
    print('Позиција 11:', 6*' ', p11)
    
    # Издвајање 25. позиције
    p25 = v3_petlja[24]
    print('Позиција 25:', 20*' ', p25)
    
    # Провера критичних аминокиселина
    return p11 == 'R' or p25 == 'K'

In [2]:
# Пример вишеструког поравнања V3 петље из уџбеника
hiv_profil = ['CMRPGNNTRKSIHMGPGKAFYATGDIIGDIRQAHC',
              'CMRPGNNTRKSIHMGPGRAFYATGDIIGDTRQAHC',
              'CMRPGNNTRKSIHIGPGRAFYATGDIIGDIRQAHC',
              'CMRPGNNTRKSIHIGPGRAFYTTGDIIGDIRQAHC',
              'CTRPNNNTRKGISIGPGRAFIAARKIIGDIRQAHC',
              'CTRPNNYTRKGISIGPGRAFIAARKIIGDIRQAHC',
              'CTRPNNNTRKGIRMGPGRAFIAARKIIGDIRQAHC',
              'CVRPNNYTRKRIGIGPGRTVFATKQIIGNIRQAHC',
              'CTRPSNNTRKSIPVGPGKALYATGAIIGNIRQAHC',
              'CTRPNNHTRKSINIGPGRAFYATGEIIGDIRQAHC',
              'CTRPNNNTRKSINIGPGRAFYATGEIIGDIRQAHC',
              'CTRPNNNTRKSIHIGPGRAFYTTGEIIGDIRQAHC',
              'CTRPNNNTRKSINIGPGRAFYTTGEIIGNIRQAHC',
              'CIRPNNNTRGSIHIGPGRAFYATGDIIGEIRKAHC',
              'CIRPNN-TRRSIHIGPGRAFYATGDIIGEIRKAHC',
              'CTRPGSTTRRHIHIGPGRAFYATGNILGSIRKAHC',
              'CTRPGSTTRRHIHIGPGRAFYATGNI-GSIRKAHC',
              'CTGPGSTTRRHIHIGPGRAFYATGNIHG-IRKGHC',
              'CMRPGNNTRRRIHIGPGRAFYATGNI-GNIRKAHC',
              'CMRPGTTTRRRIHIGPGRAFYATGNI-GNIRKAHC']

In [3]:
# Предвиђање фенотипа сваког члана поравнања
for hiv in hiv_profil:
    # Извлачење резултата из дефинисане функције
    rezultat = hiv_sincicijum(hiv)
    
    # Закључивање о изолату на основу резултата
    print('Закључак: вероватно', 'јесте' if rezultat
          else 'није', 'агресиван фенотип', end='\n\n')

V3 петља: CMRPGNNTRKSIHMGPGKAFYATGDIIGDIRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CMRPGNNTRKSIHMGPGRAFYATGDIIGDTRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CMRPGNNTRKSIHIGPGRAFYATGDIIGDIRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CMRPGNNTRKSIHIGPGRAFYTTGDIIGDIRQAHC
Позиција 11:        S
Позиција 25:                      D
Закључак: вероватно није агресиван фенотип

V3 петља: CTRPNNNTRKGISIGPGRAFIAARKIIGDIRQAHC
Позиција 11:        G
Позиција 25:                      K
Закључак: вероватно јесте агресиван фенотип

V3 петља: CTRPNNYTRKGISIGPGRAFIAARKIIGDIRQAHC
Позиција 11:        G
Позиција 25:                      K
Закључак: вероватно јесте агресиван фенотип

V3 петља: CTRPNNNTRKGIRMGPGRAFIAARKIIGDIRQAHC
Позиција 11:        G
Позиција 25:                      K
Закључ

Пример [мотива](https://weblogo.berkeley.edu/) *V3* петље дат је на слици [2.1]. Приметно је да су
управо 11. и 25. позиција међу најваријабилнијим, те да удео критичних
*R* и *K* на њима није претерано велик. Наравно, на фенотип утичу и
многе друге позиције унутар *gp120* и других протеина.

[2.1]: #fig:motif

<img src="../slike/motif.png" width="50%" id="fig:motif" alt="Мотив V3 петље из уџбеника" />

За крај и поенту уводне приче о *HIV*-у, остаје неразрешен још један
веома значајан проблем. Како би се уопште разматрало предвиђање фенотипа
на основу примарне структуре *gp120*, неопходно је прво доћи до
прецизног вишеструког поравнања различитих секвенци аминокиселина. Прво,
поравнање мора бити хируршки прецизно, јер нпр. само једна грешка доводи
до погрешног податка која вредност је на 11. и 25. позицији *V3* петље.
Следеће, неопходно је адекватно обрадити инсерције и делеције, што су
врло честе мутације *HIV*-а у многим регионима генома. На крају,
потребно је на прави начин оценити квалитет поравнања, нпр. коришћењем
различитих матрица скора за сваку појединачну позицију. Ово је донекле
могуће урадити коришћењем техника представљених у петом поглављу
(*Chapter 5: How Do We Compare DNA Sequences? – Dynamic Programming*),
али уз два главна проблема: алгортми динамичког програмирања су високе
сложености и са мање слободе код скорова, а притом не пресликавају
најбоље суштину биолошког проблема класификације фенотипа у алгоритамски
проблем (фале кораци након поравнања). Постоји, дакле, потреба за новом
формулацијом која обухвата све што је потребно за статистички потковано
поравнање секвенци.

## 2.2 Потрага за генима

Познато је да геном чини тек мали део *DNA* секвенце. Другим речима,
*DNA* добрим делом не кодира протеине. Стога је један од важних
биолошких проблема управо проналажење места на којима се гени налазе.
Прецизније, тражи се место где њихово преписивање (транскрипција)
започиње.

Почетком двадесетог века, Фибус Левин открио је да *DNA* чине [четири
нуклеотида](https://pubs.acs.org/doi/10.1021/ja01920a010), чији су главни део азотне базе: аденин (*A*), цитозин (*C*),
гуанин (*G*) и тимин (*T*). У то време, међутим, није била позната тачна
структура наследног материјала, штo је [двострука завојница](http://dosequis.colorado.edu/Courses/MethodsLogic/papers/WatsonCrick1953.pdf), коју су пола
века касније открили Вотсон и Крик. Левин је, стога, сматрао да *DNA*
носи информације једнаке било којој четворословној азбуци, а додатно и
да је удео сваког од четири нуклеотида једнак. Занимљивост је да овај
упрошћени модел одговара стању у савременој биоинформатици – *DNA* се
углавном и посматра као секвенца нуклеотида, односно ниска над азбуком
{*A*, *C*, *G*, *T*}.

Открићем тачне структуре допуњена је теза о једнаком уделу нуклеотида.
Како су нуклеотиди на супротним ланцима упарени, њихов удео јесте врло
сличан када се посматра целокупна *DNA*. То, међутим, није случај када
се посматра само један ланац, што је уобичајено у генетици и
биоинформатици. Примера ради, удео гуанина и цитозина, који чине један
базни пар, код људи је 42 %, што је ипак статистички значајно мање од
пола. На вишем нивоу гранулације, у случају да се посматрају само по две
суседне базе, испоставља се да динуклеотиди *CC*, *CG*, *GC*, *GG*
узимају сасвим различите уделе. Конкретно, иако би се очекивало да, под
претпоставком равномерне расподеле, сваки од њих узима удео 4–5 %,
динуклетид *CG* чини само 1 % људског генома. Све ово значи да је *DNA*
секвенца ипак нешто даље од случајне.

Поставља се питање зашто је удео *CG* тако мали. Одговор, међутим, није
комплексан, поготову ако се додатно примети да је удео *TG* нешто виши
од очекиваног, а посебно у регионима у којима је удео *CG* изразито
мали. Разлог томе лежи у метилацији, најчешћој измени која природно
настаје унутар *DNA*. Поједини нуклеотиди, наиме, могу бити нестабилни,
па се на њих лако накачи метил група ($CH_3$). Међу
најнестабилнијим управо је цитозин иза ког следи гуанин, дакле *C* из
*CG*. Метиловани цитозин даље се често спонтано деаминује у тимин, чиме
динуклеотид *CG* лако постаје *TG*. Свеукупни резултат је да се *CG*
глобално појављује веома ретко, а *TG* нешто чешће.

Метилација мења експресију суседних гена. Експресија оних гена чији су
нуклеотиди у великој мери метиловани често је потиснута. Иако је сам
процес метилације важан у току ћелијске диференцијације – доприноси
неповратној специјализацији матичних ћелија – она углавном није пожељна
у каснијем добу. Хиперметилација гена повезана је са различитим врстама
рака. Стога је метилација врло ретка око гена, што значи да је на тим
местима *CG* знатно чешће. Овакви делови *DNA* називају се *CG* острвима
или *CpG* местима. Разлика у уделу динуклеотида у некодирајућим и
регионима богатим генима дата је кроз табелу [2.2] (лево су *CG* острва).
Разлика у уделу *CG* наглашена је црвеном бојом.

[2.2]: #tab:cg

<table id="tab:cg">
<thead>
<tr class="header">
<th style="text-align: center;"></th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">A</th>
<th style="text-align: center;">C</th>
<th style="text-align: center;">G</th>
<th style="text-align: center;">T</th>
<th style="text-align: center;">|</th>
<th style="text-align: center;">A</th>
<th style="text-align: center;">C</th>
<th style="text-align: center;">G</th>
<th style="text-align: center;">T</th>
</tr>
</thead>
<tbody>
<tr class="odd">
<td style="text-align: center;">A</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,053</td>
<td style="text-align: center;">0,079</td>
<td style="text-align: center;">0,127</td>
<td style="text-align: center;">0,036</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,087</td>
<td style="text-align: center;">0,058</td>
<td style="text-align: center;">0,084</td>
<td style="text-align: center;">0,061</td>
</tr>
<tr class="even">
<td style="text-align: center;">C</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,037</td>
<td style="text-align: center;">0,058</td>
<td style="text-align: center;"><span style="color: red">0,058</span></td>
<td style="text-align: center;">0,041</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,067</td>
<td style="text-align: center;">0,063</td>
<td style="text-align: center;"><span style="color: red">0,017</span></td>
<td style="text-align: center;">0,063</td>
</tr>
<tr class="odd">
<td style="text-align: center;">G</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,035</td>
<td style="text-align: center;">0,075</td>
<td style="text-align: center;">0,081</td>
<td style="text-align: center;">0,026</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,053</td>
<td style="text-align: center;">0,053</td>
<td style="text-align: center;">0,063</td>
<td style="text-align: center;">0,042</td>
</tr>
<tr class="even">
<td style="text-align: center;">T</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,024</td>
<td style="text-align: center;">0,105</td>
<td style="text-align: center;">0,115</td>
<td style="text-align: center;">0,050</td>
<td style="text-align: center;">|</td>
<td style="text-align: center;">0,051</td>
<td style="text-align: center;">0,070</td>
<td style="text-align: center;">0,084</td>
<td style="text-align: center;">0,084</td>
</tr>
</tbody>
</table>

In [4]:
# Мапа вероватноћа у CpG местима према претходној табели
cg_vrv    = {'AA': 0.053, 'AC': 0.079, 'AG': 0.127, 'AT': 0.036,
             'CA': 0.037, 'CC': 0.058, 'CG': 0.058, 'CT': 0.041,
             'GA': 0.035, 'GC': 0.075, 'GG': 0.081, 'GT': 0.026,
             'TA': 0.024, 'TC': 0.105, 'TG': 0.115, 'TT': 0.050}

In [5]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
print('Укупна вероватноћа код CG места:', sum(cg_vrv.values()))

Укупна вероватноћа код CG места: 0.9999999999999999


In [6]:
# Мапа вероватноћа у ван CpG места према претходној табели
nekod_vrv = {'AA': 0.087, 'AC': 0.058, 'AG': 0.084, 'AT': 0.061,
             'CA': 0.067, 'CC': 0.063, 'CG': 0.017, 'CT': 0.063,
             'GA': 0.053, 'GC': 0.053, 'GG': 0.063, 'GT': 0.042,
             'TA': 0.051, 'TC': 0.070, 'TG': 0.084, 'TT': 0.084}

In [7]:
# Провера да ли је покривен цео простор догађаја јединичном вероватноћом
print('Укупна вероватноћа код осталих места:', sum(nekod_vrv.values()))

Укупна вероватноћа код осталих места: 1.0


Закључак је, дакле, да се проблем потраге за генима може свести на
проналажење *CG* острва. Наиван приступ решавању овог проблема јесте
употреба клизајућег прозора. Могао би се узети прозор фиксне величине и
померати кроз *DNA* секвенцу. Они прозори са натпросечним уделом *CG*
били би кандидати за *CG* острва. Вероватноћа да је неки подниз острво
рачуна се као производ појединачних вероватноћа динуклеотида.

In [8]:
# Пример DNA секвенце са Певзнерове презентације
dna = 'ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT'

# Ознаке где је CG острво (+), а где није (-)
cg  = '-------++++++++++------------------------'

In [9]:
# Да ли је вероватније да је прозор CG острво или не
def cg_ostrvo(prozor):
    # Почетне јединичне вероватноће
    cg = 1
    nekod = 1
    
    # Одређивање величине прозора
    k = len(prozor)
    
    # Пролазак кроз све динуклеотидне потпрозоре
    for i in range(k-1):
        # Одређивање текућег динуклеотида
        p = prozor[i:i+2]
        
        # Ажурирање вероватноћа множењем
        cg    *= cg_vrv[p]
        nekod *= nekod_vrv[p]
    
    # Одређивање веће вероватноће
    return cg > nekod

In [10]:
# Пример прозора дужине k=10
prozori = ['ATTTCTTCTC', # познато да није
           'CTCGTCGACG', # познато да јесте
           'CTAATTTCTT'] # познато да није

# Предвиђање да ли је CG острво
for prozor in prozori:
    ostrvo = cg_ostrvo(prozor)
    
    # Закључивање о прозору на основу резултата
    print(prozor, 'вероватно', 'јесте' if
          ostrvo else 'није', 'CG острво')

ATTTCTTCTC вероватно није CG острво
CTCGTCGACG вероватно јесте CG острво
CTAATTTCTT вероватно није CG острво


In [11]:
# Анотација свих прозора дужине k
def cg_prozor(dna, k):
    # Приказ улазне DNA секвенце
    print(dna)
    
    # Одређивање величине секвенце
    n = len(dna)
    
    # Иницијализација низа предлога
    rezultat = ''
    
    # Пролазак кроз све прозоре
    for i in range(n-k+1):
        # Одређивање текућег прозора
        prozor = dna[i:i+k]
        
        # Испис довољног броја празнина за поравнање
        if i < (n-k+1)/2:
            print(i    *' ', '\r' if not i else '', sep='', end='')
        else:
            print((i-4)*' ', '\r' if not i else '', sep='', end='')
        
        # Израчунавање да ли је прозор CG острво
        ostrvo = cg_ostrvo(prozor)
        
        # Један од начина за ажурирање резултата
        rezultat = rezultat + ('+' if ostrvo else '-')
        
        # Извештавање о резултату знаком + или -
        if i < (n-k+1)/2:
            print(prozor, f'({rezultat[-1]})')
        else:
            print(f'({rezultat[-1]})', prozor)
    
    # Допуњавање резултата на оба краја
    rezultat = (k-1)//2 * rezultat[0] + \
               rezultat + \
               (k-1)//2 * rezultat[-1]
    
    # Приказ улазне DNA секвенце
    print(dna)
    
    # Приказ коначног резултата ознака
    print(rezultat)
    
    # Враћање резултата позиваоцу
    return rezultat

In [12]:
# Дохватање резултата мотивационог примера
rezultat = cg_prozor(dna, 5)

ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT
ATTTC (-)
 TTTCT (-)
  TTCTT (-)
   TCTTC (-)
    CTTCT (-)
     TTCTC (-)
      TCTCG (+)
       CTCGT (+)
        TCGTC (+)
         CGTCG (+)
          GTCGA (+)
           TCGAC (+)
            CGACG (+)
             GACGC (+)
              ACGCT (+)
               CGCTA (+)
                GCTAA (-)
                 CTAAT (-)
                  TAATT (-)
               (-) AATTT
                (-) ATTTC
                 (-) TTTCT
                  (-) TTCTT
                   (-) TCTTG
                    (-) CTTGG
                     (-) TTGGA
                      (-) TGGAA
                       (-) GGAAA
                        (-) GAAAT
                         (-) AAATA
                          (-) AATAT
                           (-) ATATC
                            (-) TATCA
                             (-) ATCAT
                              (-) TCATT
                               (-) CATTA
                                (-)

In [13]:
# Поређење познатог и добијеног острва;
# врло су слични, што је фино постигнуће
print('Секвенца:', dna)
print('Познато: ', cg)
print('Добијено:', rezultat)

Секвенца: ATTTCTTCTCGTCGACGCTAATTTCTTGGAAATATCATTAT
Познато:  -------++++++++++------------------------
Добијено: --------++++++++++-----------------------


Остаје, међутим, питање како одредити добру величину прозора,
али и шта тачно радити када преклапајући прозори нуде различиту
класификацију подниза. Једна наизглед добра *ad hoc* идеја дата
је у коду, али би и овде добро дошло статистички потковано решење.