## Predviđanje strukture *RNK*<a id="par:toc"></a>

U radu je razmotrena primena [probabilističkih kontekstno slobodnih gramatika](https://en.wikipedia.org/wiki/Probabilistic_context-free_grammar) (*PCFG*) i [konvolutivnih neuronskih mreža](https://en.wikipedia.org/wiki/Convolutional_neural_network) (*CNN*) u predviđanju sekundarne strukture [ribonukleinske kiseline](https://en.wikipedia.org/wiki/RNA) (*RNK*). Preuzet je skup *RNK* sa pridruženim strukturama, nakon čega je na delu podataka obučena po jedna stohastička gramatika i duboka konvolutivna mreža. Modeli su vrednovani prema uspehu na drugom delu podataka, odnosno sličnosti predviđanja sa stvarnošću.

## Sadržaj

1. [Struktura *RNK*](#par:strukt)
2. [Skup *RNAStralign*](#par:baza)

## 1. Struktura *RNK* [⮭]<a id="par:strukt"></a>

[⮭]: #par:toc

*RNK* je biopolimer čiju [primarnu strukturu](https://en.wikipedia.org/wiki/Nucleic_acid_sequence) gradi niz [nukleobaza](https://en.wikipedia.org/wiki/Nucleobase). U sastav sekvence ulaze četiri kanonske nukleobaze – [adenin](https://en.wikipedia.org/wiki/Adenine), [uracil](https://en.wikipedia.org/wiki/Uracil), [guanin](https://en.wikipedia.org/wiki/Guanine) i [citozin](https://en.wikipedia.org/wiki/Cytosine). Računarski gledano, *RNK* se stoga najčešće predstavlja kao niska nad azbukom $\{A, U, C, G\}$, što je skup početnih slova navedenih baza.

<img src='../slike/primarna.png' width='40%'>

Specijalno, sekvencu mogu činiti i drugi karakteri, koji predstavljaju [modifikovane baze](https://en.wikipedia.org/wiki/Nucleobase#Modified_nucleobases). Tako, na primer, [pseudouridin](https://en.wikipedia.org/wiki/Pseudouridine) (*P*) predstavlja izmenjeni [uridin](https://en.wikipedia.org/wiki/Uridine) (*U*). Ovakva modifikovanost ne doprinosi problemu [predviđanja strukture](https://en.wikipedia.org/wiki/Nucleic_acid_structure_prediction) i najčešće se zanemaruje, te nije ni predstavljena u poznatim bazama podataka.

Kako bi prešla u biološki aktivnu formu, *RNK* se [uvija intramolekularno](https://en.wikipedia.org/wiki/Nucleic_acid_structure), čime formira segmente uparenih nukleobaza. Takvi segmenti nazivaju se zavojnicama (*helix*) ili drškama (*stem*), dok nizovi neuparenih baza grade petlje (*loop*). U zavisnosti od oblika, postoji više različitih vrsta petlji: ukosnica (šnala, *hairpin*), unutrašnja (*interior*), razgranata (*multi-branched*), ispupčenje (*bulge*). Posebno se izdvaja i spoljašnji nestrukturirani lanac (*unstructured single strand*).

<img src='../slike/sekundarna.png' width='70%'>

Uvijanje se najčešće vizuelizuje u formi [grafa](https://en.wikipedia.org/wiki/Graph_%28discrete_mathematics%29), pri čemu su čvorovi baze, dok grane postoje između uparenih baza (označene kružićima ili lukovima), kao i između susednih elemenata sekvence (implicitne, neoznačene). Pored realističnog prikaza (*c*), popularni su i oni koji sekvencu predstavljaju na jednoj pravoj (*a*) ili na kružnici (*b*). Oni su značajni jer svedoče o ugnežđenosti uparivanja. Važan je i prikaz u formi matrice povezanosti (*d*), o čemu će biti reči u nastavku.

<img src='../slike/vizuelizacija.png' width='90%'>

Ovako formirani [bazni parovi](https://en.wikipedia.org/wiki/Base_pair) upravo čine [sekundarnu strukturu](https://en.wikipedia.org/wiki/Nucleic_acid_secondary_structure) *RNK*. Parovi *A−U* i *G−C* pritom su kanonski (prema Votsonu i Kriku), mada su moguće i druge ([nekanonske](https://en.wikipedia.org/wiki/Non-canonical_base_pairing)) varijante uparivanja, pri čemu se kao treći posebno izdvaja nešto manje stabilan ([*wobble*](https://en.wikipedia.org/wiki/Wobble_base_pair)), ali i dalje termodinamički povoljan par *U−G*.

<img src='../slike/familija.png' width='60%'>

Osim u formi grafa ili prostog spiska parova, sekundarnu strukturu moguće je predstaviti i kao nisku, i to nad azbukom koja se sastoji od [tačke i zagrada](https://eprints.soton.ac.uk/267292/1/RamlanEI08ExtDotBracRNA.pdf). U ovakvoj notaciji, tačka predstavlja neuparenu bazu, dok zagrade označavaju parove. Uparivanje baza, očekivano, prati matematičko i jezičko pravilo uparivanja zagrada. Podrazumevano, niske koje predstavljaju primarnu (sekvencu) i sekundarnu (uparivanje) strukturu iste *RNK* moraju biti saglasne.

<img src='../slike/pseudocvor.png' width='40%'>

U sastav sekundarne strukture ulazi nekoliko značajnih motiva. Posebno je zanimljiv strukturni motiv [ukosnice sa drškom](https://en.wikipedia.org/wiki/Stem-loop) (*stem-loop*), koji karakteriše sve ukosnice. Njegova važna odlika je da petlja sadrži najmanje tri baze, što je ograničenje koje je neophodno ugraditi u računarske metode. [Pseudočvorovi](https://en.wikipedia.org/wiki/Pseudoknot) su još jedna znamenita pojava, budući da predstavljaju neugnežđena uparivanja. Oni, međutim, zadiru u [tercijarnu](https://en.wikipedia.org/wiki/Nucleic_acid_tertiary_structure) i [kvaternarnu](https://en.wikipedia.org/wiki/Nucleic_acid_quaternary_structure) strukturu, koje nisu razmatrane.

## 2. Skup *RNAStralign* [⮭]<a id="par:baza"></a>

[⮭]: #par:toc

Manjak podataka o *RNK* dugo je pravio problem pri radu sa njima. Početkom 21. veka bilo je poznato tek nekoliko hiljada različitih sekvenci, kao i znatno manje struktura. Poslednjih godina, međutim, eksperimentalno je [utvrđen](https://en.wikipedia.org/wiki/Nucleic_acid_structure_determination) način uvijanja velikog broja novootkrivenih [nekodirajućih](https://en.wikipedia.org/wiki/Non-coding_RNA) ribonukleinskih kiselina.

Trenutno najpoznatija baza *RNK* sa pridruženim strukturama jeste skup podataka *RNAStralign*, objavljen 2017. godine u okviru rada [*TurboFold II: RNA structural alignment and secondary structure prediction informed by multiple homologs*](https://pubmed.ncbi.nlm.nih.gov/29036420/). Ovaj skup sadrži $37.149$ struktura iz osam različitih familija *RNK* − [*16S*](https://en.wikipedia.org/wiki/16S_ribosomal_RNA) ribozomalne, [*5S*](https://en.wikipedia.org/wiki/5S_ribosomal_RNA) ribozomalne, [katalitički introni](https://en.wikipedia.org/wiki/Group_I_catalytic_intron) (*Group I Intron*), [ribonukleaze](https://en.wikipedia.org/wiki/Ribonuclease_P) (*RNaseP*), [signalne](https://en.wikipedia.org/wiki/Signal_recognition_particle_RNA) (*SRP*), [telomeraze](https://en.wikipedia.org/wiki/Telomerase), [transportno-informacione](https://en.wikipedia.org/wiki/Transfer-messenger_RNA) (*tmRNA*), [transportne](https://en.wikipedia.org/wiki/Transfer_RNA) (*tRNA*) − čija dužina varira od nekoliko desetina do skoro dve hiljade nukleobaza. Dužina, struktura i familija inače su u tesnoj vezi.

Skup *RNAStralign* sadrži identifikator sekvence, samu sekvencu, njenu familiju, kao i strukturu u obliku niza uparivanja, pri čemu indeks $j$ kao $i$-ti element niza svedoči o postojanju uparivanja $(i, j)$. Ukoliko postoji uparivanje $(i, j)$ postoji i obrnuto $(j, i)$ koje je isto. U slučaju $i = j$, baza je neuparena. Iako vrlo koristan, ovaj skup sadrži redundantne podatke. Postoje, naime, suštinski ponovljene strukture, budući da se ista ili slična *RNK* pojavljuje u više organizama. Zbog toga se pristupa uklanjanju redundantnosti kao vidu čišćenja podataka, nakon čega ostaje $30.451$ instanci. Na ovaj način dobija se [standardni](https://en.wikipedia.org/wiki/Benchmark_%28computing%29) (*benchmark*) skup, uveden u radu [*RNA Secondary Structure Prediction By Learning Unrolled Algorithms*](https://arxiv.org/abs/2002.05810) (*E2Efold*) iz 2020, a koji se koristi za upoređivanje različitih pristupa.

Dodatnim zanemarivanjem nepotpunih sekvenci, čija struktura nije precizno određena, dobija se konačan broj od $28.473$ slogova. Pomenuti rad preporučuje [podelu](https://en.wikipedia.org/wiki/Training,_validation,_and_test_data_sets) na skupove za obučavanje (trening), proveru (test) i validaciju u približnom odnosu $80\%−10\%−10\%$, i to [stratifikovanu](https://en.wikipedia.org/wiki/Stratified_sampling) prema familiji. Štaviše, oni su dostupni kao tri datoteke u formatu zapetom razdvojenih vrednosti, pa se u nastavku sveske koriste kao `train.csv`, `test.csv` i `valid.csv`. Sledi implementacija klase koja enkapsulira *RNK* sekvencu sa pridruženim identifikatorom, familijom, strukturom i može da je nacrta, kao i učitavanje podataka.

In [1]:
# Biblioteka za crtanje
from ipynb.draw import draw_struct

# Biblioteka za vizuelizacije
from matplotlib import pyplot as plt

In [2]:
# Klasa koja predstavlja RNK
class RNK:
    # Konstrukcija objekta prema podacima
    def __init__(self, identifikator, sekvenca, familija, *uparivanje):
        self.id = identifikator
        self.sekvenca = sekvenca
        self.familija = familija
        self.uparivanje = [*map(int, uparivanje)]
        
        # Inicijalizacija strukture
        struktura = len(sekvenca) * ['.']
        
        # Popunjavanje strukture uparivanjima
        for i, j in enumerate(self.uparivanje):
            if i < j:
                struktura[i] = '('
                struktura[j] = ')'
        
        # Spajanje strukture u jednu nisku
        self.struktura = ''.join(struktura)
    
    # Crtanje enkapsulirane sekundarne strukture
    def _ipython_display_(self):
        draw_struct(self.sekvenca, self.struktura, ax=plt.gca())
        
        # Dodavanje naslova ilustraciji
        plt.title('\n'.join([f'{self.id} [{self.familija}]', self.sekvenca,
                             self.struktura]), fontdict={'family': 'monospace'})
        
        # Sređivanje grafikona
        plt.tight_layout()

In [3]:
# Učitavanje podataka iz datoteke
def učitaj(datoteka):
    with open(datoteka) as f:
        return [RNK(*l.split(',')) for l in f.readlines()]

In [4]:
# Učitavanje skupova sa diska
train = učitaj('../podaci/train.csv')
test = učitaj('../podaci/test.csv')
valid = učitaj('../podaci/valid.csv')