# Seminarski rad iz Bioinformatike
<br>
## Tema: Predstavljanje DNK kao podatka i njegova primena kod Guanin-Citozin sadržaja
<br>
### Maksim Đurđevac 
    indeks: 1110/2016
    email: mi11362@alas.matf.bg.ac.rs
### Nenad Lazić
    indeks: 1092/2015
    email: nenadlatic13@gmail.com


## Šta je DNA?
- DNA (DeoxyriboNucleic Acid)

- Sadrži uputstva za razvoj i pravilno funkcionisanje organizama

<img src="files/celija.jpg">


## Predstavljanje DNK kao podatka
- Dvostruki heliks - nosilac genetskog sadržaja
- Veze heliksa su parovi nukleotida
- Nukleotidi: 
    - A - adenin
    - T - timin
    - G - gudanin
    - C - citozin
- Komplementarnost nukleotida u vezama
    - adenin <-> timin
    - guanin <-> citozin


## Hromozomi
- Hromozomi su najvaznija komponenta jedra i oni su nosioci naslednih jedinica(gena)
- Svojom aktivnošću određuju i regulišu metaboličke i sve ostale životne procese u ćelijama
- Ljudska celija ima 22 hromozoma plus bilo XX ili XY hromozom koji odredjuje pol osobe
- Ovi hromozomi sadrze niti DNK koje su obmotane kao dvostruka spirala (razlog veliki broj informacija)
- Jezgro sadrži oko 3 milijarde nukleotida i DNK
-  Jedro regulise sve procese u celiji u njemu se obavlja: 
    1. siteza(spajanje) DNK 
    2. svih vrsta RNK(transkripcija)
    3. dela proteina(translacija)

## Predstavljanje DNK kao podatka u digitalnom obliku
- DNK cine dva heliksa povezana sa dva medjusobno komplementarna nukleotida
- Dovoljno je zapisati nukleotide sa jedne strane veze
- DNK se predstavlja dugačkim stringom koji čine početna slova naziva nukleotida
    ...ACAAGATGCCATTGTCCCCCGGCCTCCTGCTGCTGCTGCTCTCCGGGGCCACGGCCACCGCTGCCCTGCC...
- Kada bi se ,,odvio" DNK imao bi dužinu oko 10m

## Mitohondrije kao nosioci DNA
- U unutrašnjosti ćelije obrazuje se čitav sistem membrana koje dele ćeliju na odeljke za obavljanje različitih funkcija u ćeliji i koje se zovu ćelijske organele. Dele se prema svojoj funkciji:
    1. Organele koje učestvuju u procesima sinteze
        - ribozomi
        - endoplazmatični retikulum
        - Goldžijev aparat
    2. Organele u kojima se skladište hidrolitički enzimi
        - litotomi
        - peroksizomi
        - vakuole biljne ćelije
    3. Organele u kojima se sintetiše ATP
        - mitohondrije
        - hloroplasti
        
- Ovom podelom nisu obuhvaćeni jedro i centrozom
- Mitohondrije se nalze izvan jezgra u citolazmi.
    
    


## Kako se sintetiše protein
- DNK sadrzi informacije koje su neophodne za gradjenje proteina
- Proteini su dugacke niti aminokiselina
- U citoplazmi se na DNK zakaci Ribozom koji cita DNK i prevodi ga u Amino kiseline
- Kodon(grupa od 3 nukleotida) se prevodi u amino kiselinu 
- Lanac dobijenih amino kiselina cine protein

<img src="files/kproteina.png">

## Alii... nije sve tako jednostavno
- Neke od komplikacija:
    1. Gen se moze sastojati iz vise delova DNK koji pocinju na razlicitim mestima
    2. Za kreiranje GEN-a nekad je potrebno koristiti vise zapise DNK sa vise razlicitih pozicija. Oni se koriste za kreiranje mRNA koji se potom translira u protein
    4. Ti delovi DNA koji su nam znacanjni za ocitavanje GEN-a nazivaju se exon-i (eng. exons) a delovi DNA izmedju exona-a nazivaju se introni(eng. introns), problem je detektovati gde je start codon i stop codon
    <img src="files/exonsintrons.png">
    

## Prevodjenje DNA u amino kiselinu
<img src="files/aminoacid.png">

In [70]:
import io
import sys
import re

ime_fajla_1 = "data/sequence.gb"

def LoadDNA( ime_fajla):
    flag = False
    dna = ""
    pattern=re.compile(r'(\s*)(\d*)(\s)(\w+)(\s+)?(\w+)?(\s+)?(\w+)?(\s+)?(\w+)?(\s+)?(\w+)?(\s+)?(\w+)?',re.M)
    
    with io.open(ime_fajla) as reader:
        for line in reader:
            if flag:
                replaced=pattern.sub(r"\4\6\8\10\12\14",line)
                dna+=replaced
                continue
                
            if 'ORIGIN' in line:
                flag = True
           
    dna = dna[:-2]
    dna=dna.replace('\n','')
    #print(dna[:-2])
    print('Duzina:'+str(len(dna)))
    return dna
                
#rDna=LoadDNA(ime_fajla_1)



In [75]:
def LoadBounds(ime_fajla):
    
    pattern=re.compile(r'(\s*)CDS(\s*)(\d+)\.\.(\d+)',re.M)
    pattern_complement=re.compile(r'(\s*)CDS(\s*)complement\((\d+)\.\.(\d+)\)',re.M)
    
    genom_sequence=[]
    
    with io.open(ime_fajla) as reader:
        for line in reader:
            match_object = pattern.match(line)
            if match_object:
                start=match_object.group(3)
                stop=match_object.group(4)
                #print('start: \t'+start+'\tstop: \t'+stop)
                iStart= int(start)
                iStop=int(stop)
                tup = (iStart,iStop,True)
                genom_sequence.append(tup)
            else:
                match_object1 = pattern_complement.match(line)
                if match_object1:
                    start1=match_object1.group(3)
                    stop1=match_object1.group(4)
                    #print('start: \t'+start1+'\tstop: \t'+stop1)
                    iStart= int(start1)
                    iStop=int(stop1)
                    tup = (iStart,iStop,False)
                    genom_sequence.append(tup)
                
                
    #print(genom_sequence)
    print('Broj sekvenci genoma: '+str(len(genom_sequence)))
    return genom_sequence
                

               
x = LoadBounds(ime_fajla_1)
        
    

Broj sekvenci genoma: 535


In [74]:
def Complement(sekvenca):
    res=""
    for c in sekvenca:
        #print(c)
        if c == 'a':
            res+='t'
        elif c == 't':
            res+='a'
        elif c == 'g':
            res+='c'
        elif c == 'c':
            res+='g'
    return res
        
        
rDna=LoadDNA(ime_fajla_1)
#print(rDna[100:200])

print(rDna[50:100])
x=Complement(rDna[50:100])
print(x)

Duzina:490887
atgaacccaaaccgcaatcgtacaaaaatttgtaaaattctctttcttct
tacttgggtttggcgttagcatgtttttaaacattttaagagaaagaaga


In [83]:
def CheckForStartsStops(dna ,bounds):
    N = len ( bounds )
    bad = []

    for i in range ( N ) :
        start, stop, cflag=bounds[i]
        cut = dna[start-1:stop]
        print('start: \t'+str(start)+'\t stop\t'+str(stop)+'\tflag:\t'+str(cflag))
        if cflag==False:
            cut=Complement(cut)
            print("poziva se Complement")
        m3=(stop-( start-1))%3
        startcodon = cut [:3]
        stopcodon = cut [-3:]
        if m3==0 and (startcodon=='atg' or startcodon=='gtg'\
            or startcodon=='ttg') and (stopcodon=='tag' or\
            stopcodon=='taa' or stopcodon=='tga'):
            print('OK')
            pass
        else:
            print('FAIL')
            bad.append((start,stop,cflag))
    return bad

bad=CheckForStartsStops(rDna, x)

print(len(bad))

start: 	883	 stop	2691	flag:	True
OK
start: 	2668	 stop	3189	flag:	False
poziva se Complement
FAIL
start: 	3290	 stop	3748	flag:	False
poziva se Complement
FAIL
start: 	3745	 stop	4665	flag:	False
poziva se Complement
FAIL
start: 	4680	 stop	5090	flag:	True
OK
start: 	5028	 stop	5582	flag:	False
poziva se Complement
FAIL
start: 	5759	 stop	7000	flag:	True
OK
start: 	7105	 stop	7401	flag:	False
poziva se Complement
FAIL
start: 	7398	 stop	8423	flag:	False
poziva se Complement
FAIL
start: 	8399	 stop	8728	flag:	False
poziva se Complement
FAIL
start: 	8775	 stop	9815	flag:	True
OK
start: 	9793	 stop	10833	flag:	True
OK
start: 	11037	 stop	11984	flag:	False
poziva se Complement
FAIL
start: 	12031	 stop	13089	flag:	True
OK
start: 	14872	 stop	15147	flag:	False
poziva se Complement
FAIL
start: 	15157	 stop	16158	flag:	True
OK
start: 	16354	 stop	17631	flag:	True
OK
start: 	17628	 stop	18596	flag:	True
OK
start: 	18593	 stop	19297	flag:	True
OK
start: 	19294	 stop	21561	flag:	True
OK
start: 	

In [45]:
import re
import sys


	
pattern=re.compile(r'(\s*)(\d*)(\s)(\w+)(\s+)(\w+)(\s+)(\w+)(\s+)(\w+)(\s+)(\w+)(\s+)(\w+)',re.M)

replaced=pattern.sub(r"\4\6\8\10\12\14", "      181 tattgatact gttttataga aagtaaaacc ttcgaatatt gcttcttcaa aataaaagtt")
 
print(replaced)


tattgatactgttttatagaaagtaaaaccttcgaatattgcttcttcaaaataaaagtt


In [2]:
def some_function():
    print("pozdrav")

some_function()

pozdrav
