## My Seq

In [1]:
def translate_codon (cod):
    """Translates a codon into an aminoacid using an internal dictionary with the standard genetic code."""
    tc = {"GCT":"A", "GCC":"A", "GCA":"A", "GCG":"A", 
      "TGT":"C", "TGC":"C",
      "GAT":"D", "GAC":"D",
      "GAA":"E", "GAG":"E",
      "TTT":"F", "TTC":"F",
      "GGT":"G", "GGC":"G", "GGA":"G", "GGG":"G",
      "CAT":"H", "CAC":"H",
      "ATA":"I", "ATT":"I", "ATC":"I",
      "AAA":"K", "AAG":"K",
      "TTA":"L", "TTG":"L", "CTT":"L", "CTC":"L", "CTA":"L", "CTG":"L",
      "ATG":"M", "AAT":"N", "AAC":"N",
      "CCT":"P", "CCC":"P", "CCA":"P", "CCG":"P",
      "CAA":"Q", "CAG":"Q",
      "CGT":"R", "CGC":"R", "CGA":"R", "CGG":"R", "AGA":"R", "AGG":"R",
      "TCT":"S", "TCC":"S", "TCA":"S", "TCG":"S", "AGT":"S", "AGC":"S",
      "ACT":"T", "ACC":"T", "ACA":"T", "ACG":"T",
      "GTT":"V", "GTC":"V", "GTA":"V", "GTG":"V",
      "TGG":"W",
      "TAT":"Y", "TAC":"Y",
      "TAA":"_", "TAG":"_", "TGA":"_"}
    if cod in tc: return tc[cod]
    else: return None

class MySeq: 
    """ Class for biological sequences. """
    
    def __init__ (self, seq, seq_type = "DNA"): 
        self.seq = seq.upper()
        self.seq_type = seq_type

    def __len__(self):
        return len(self.seq)
    
    def __getitem__(self, n):
        return self.seq[n]

    def __getslice__(self, i, j):
        return self.seq[i:j]

    def __str__(self):
        return self.seq
        
    def get_seq_biotype (self):
        return self.seq_type
        
    def show_info_seq (self):
        print ("Sequence: " + self.seq + " biotype: " + self.seq_type)
        
    def alphabet (self):
        if (self.seq_type=="DNA" or self.seq_type=="dna"): return "ACGT"
        elif (self.seq_type=="RNA" or self.seq_type=="rna"): return "ACGU"
        elif (self.seq_type=="PROTEIN" or self.seq_type=="protein"): return "ACDEFGHIKLMNPQRSTVWY"
        else: return None
        
    def validate (self):
        alp = self.alphabet()
        res = True
        i = 0
        while i < len(self.seq) and res:
            if self.seq[i] not in alp: res = False
            else: i += 1
        return res 
        
    def transcription (self):
        if (self.seq_type == "DNA"):
            return MySeq(self.seq.replace("T","U"), "RNA")
        else:
            return None
    
    def reverse_comp (self):
        if (self.seq_type != "DNA"): return None
        comp = ""
        for c in self.seq:
            if (c == 'A'): comp = "T" + comp 
            elif (c == "T"): comp = "A" + comp 
            elif (c == "G"): comp = "C" + comp
            elif (c== "C"): comp = "G" + comp
        return MySeq(comp, "DNA")
        
    def translate (self, iniPos= 0):
        if (self.seq_type != "DNA"): return None
        seq_aa = ""
        for pos in range(iniPos,len(self.seq)-2,3):
            cod = self.seq[pos:pos+3]
            seq_aa += translate_codon(cod)
        return MySeq(seq_aa, "PROTEIN")      
        
if __name__ == "__main__":   
    s1 = MySeq("ATGTGATAAGAATAGAATGCTGAATAAATAGAATGACAT")
    s2 = MySeq("MKVVLSVQERSVVSLL", "PROTEIN")
    print(s1.validate(), s2.validate())
    print(s1)
    s3 = s1.transcription()
    s3.show_info_seq()
    s4 = s1.reverse_comp().translate()    
    s4.show_info_seq()

True True
ATGTGATAAGAATAGAATGCTGAATAAATAGAATGACAT
Sequence: AUGUGAUAAGAAUAGAAUGCUGAAUAAAUAGAAUGACAU biotype: RNA
Sequence: MSFYLFSILFLSH biotype: PROTEIN


# Мотиф шинжилгээний алгоритмууд (Motif Discovery Algorithms)

**Биологийн дарааллын олборолтын хүрээнд мотиф (motif) гэдэг нэр томьёо нь олон дараалал дээр non-trivial дараалал-паттернийг ойлгоно.**

- Мотифийн non-trival паттерн
    - Тэмдэгтүүдийнхээ тархалтаар ялгарах хамгийн бага урттай тэмдэгтүүдийн хослол 
    - Гол нь рекуррент байх, шинжилсэн дарааллуудын хэд хэддээр нь илэрсэн байх ёстой.
    
    
- **Deterministic:** Оролтын дарааллууд дээр байгаа эсэхийг нь тодруулахаар сайжруулсан регуляр илэрхийллийн синтаксаар ерөнхийдөө танигддаг.

- **Probabilistic:** Мотиф илрэлүүдийн үндсэн хувиралуудыг илрүүлдэг байх сул (loose) танигддаг.
    - Дарааллын өгөгдсөн сегментийг загварт авч үзэн мотифын нэг хэсэг байх магадлалыг гарган авна.

![image.png](attachment:image.png)

## Branch-and-Bound алгоритмууд

- Хайлтын боломжуудыг дэд багц болгон хуваах боломжтой болно.
- Модны навч бүр нь боломж, зангилаа нь хэсэгчилсэн дэд багц байна.
- Модны бүх навчийг тойроход бүрэн тооллогод болно.
- Модны мөчрүүдээр дамжих замаар шийдийн боломжуудыг үр дүнтэй тооцохыг эрмэлздэг.
- Хэсэгчилсэн шийдүүд нь модны зангилаан дээрх шийдтэй хамааралтай.
- Тиймээс мөчир бүр нь доорх навчнуудын зорилгын функцтэй холбоотой мэдээллийг агуулна.
- Тиймээс зангилаа эсвэл мочир бүрт тухайн дэд багцын зорилгын функцийн онооны дээд, доод хязгаарыг тооцоолж болно.
- Алгоритм нь одоогийнхоос илүү сайн шийдлийг гаргах боломжтой бол модны мөчир доторх хайлтыг өргөжүүлнэ.
- Үгүй бол тухайн дэд багцийн бүх боломжуудыг хасна.
- Мөчир доторх зарим боломжийг хасахыг хайлтын боломжуудыг тайрах (pruning) гэж нэрлэдэг.

![image.png](attachment:image.png)

![image-2.png](attachment:image-2.png)

**Мотифын тооллогын боломж:**

![image-3.png](attachment:image-3.png)

## Deterministic Motif Finding

In [2]:
# Гишүүн өгөгдлүүд:
#   motif _size: мотифын урт
#   seqs: оролтын дарааллуудыг агуулсан вектор.
# Гол гишүүн функцүүд
#   read_file өгөгдсөн файлаас оролтын дарааллуудыг уншина
#   create_motif_from_indexes: профайл матрицыг байгуулна
#   score : нийлбэр дээр суурилсан онооны функцийг хэрэгжүүлдэг.
#   score_multiplicative : үржвэр дээр суурилсан онооны функцийг хэрэгжүүлдэг
# Эдгээр функцууд нь Мотиф илрүүлэх асуудал аргачлалд зориулсан тохиромжтой мотиф дүрслэлийг өгдөг.

class DeterministicMotifFinding:
    """ Class for deterministic motif finding. """
    
    def __init__(self, size = 8, seqs = None):
        self.motif_size = size
        if (seqs is not None):
            self.seqs = seqs
            self.alphabet = seqs[0].alphabet()
        else:
            self.seqs = []
            self.alphabet = "ACGT" # default: DNA
        
    def __len__ (self):
        return len(self.seqs)
    
    def __getitem__(self, n):
        return self.seqs[n]
    
    def seq_size (self, i):
        return len(self.seqs[i])
    
    def read_file(self, fic, t):
        for s in open(fic, "r"):
            self.seqs.append(MySeq(s.strip().upper(),t))
        self.alphabet = self.seqs[0].alphabet()
        print(self.alphabet)
    
    # create_motif_from_indexes
    # Оролтын дарааллуудын дагуу мотифын индексүүдийг параметерээр авна.
    # Хувьсагч res нь хоёр хэмжээст матриц байна.
    # Бүх индексүүд дээр харгалзах дарааллыг авахын тулд давталт хийнэ.
    # Вектор дахь индекс болон харглзах утгыг буцаадаг enumerate built-in функцийг ашиглаж байна
    # Дотоод давталтын тусламжтайгаар матрицын харгалзах нүдний утгыг нэмэгдүүлнэ.
    def create_motif_from_indexes(self, indexes):
        #pseqs = []
        res = [[0]*self.motif_size for i in range(len(self.alphabet))]
        for i,ind in enumerate(indexes):
            subseq = self.seqs[i][ind:(ind+self.motif_size)]
            for i in range(self.motif_size):
                for k in range(len(self.alphabet)):
                    if subseq[i] == self.alphabet[k]:
                        res[k][i] = res[k][i] + 1
        return res    
    
    # мотифын бүх байрлалыг давтаж, байрлал бүрийн хувьд мотифын оноонд нэмэгдэх
    # хамгийн их утгыг тодорхойлдог.
    def score(self, s):
        score = 0
        mat = self.create_motif_from_indexes(s)
        for j in range(len(mat[0])):
            maxcol = mat[0][j]
            for i in range(1, len(mat)):
                if mat[i][j] > maxcol: 
                    maxcol = mat[i][j]
            score += maxcol
        return score
    
    # Өмнөхтой ижил оноог тооцдог боловч онооын нийлбэрийн оронд мотивийн
    # байрлал бүрийн хамгийн их утгыг үржүүлнэ.
    def score_multiplicative(self, s):
        score = 1.0
        mat = self.create_motif_from_indexes(s)
        for j in range(len(mat[0])):
            maxcol = mat[0][j]
            for  i in range(1, len(mat)):
                if mat[i][j] > maxcol: 
                    maxcol = mat[i][j]
            score *= maxcol
        return score
    
    # BRUTE-FORCE ALGORITHMS: Ehaustive Search
    # Өмнөх алгортмын хульд дараалал бүр дэх мотифын хамгийн сайн байрлал бүхий 
    # 𝑠 векторыг олох шийдлийг хэрэгжүүлэх хэрэгтэй.

    # next_solution : 𝐷 дахь оролтын дарааллын байрлалын бүх боломжит
    # 𝑛 − 𝐿 + 1 давталтыг байгуулна
    def next_solution (self, s):
        next_sol= [0]*len(s)
        pos = len(s) - 1     
        while pos >=0 and s[pos] == self.seq_size(pos) - self.motif_size:
            pos -= 1
        if (pos < 0): 
            next_sol = None
        else:
            for i in range(pos): 
                next_sol[i] = s[i]
            next_sol[pos] = s[pos]+1;
            for i in range(pos+1, len(s)):
                next_sol[i] = 0
        return next_sol

    # exhaustive_search : Боломжит шийдэл бүрийн хувьд, анхны
    # байрлалын вектор, хамгийн өндөр онооны шийдийг бүртгэдэг.
    def exhaustive_search(self):
        best_score = -1
        res = []
        s = [0]* len(self.seqs)
        while (s!= None):
            sc = self.score(s)
            if (sc > best_score):
                best_score = sc
                res = s
            s = self.next_solution(s)
        return res
    
    # BRANCH AND BOUND ALGORITHMS
    # Алгоритм нь боломжийг тоочдог боловч зарим шийдийг урьдчилан харах 
    # (lookahead) ухаалаг механизмд суурилан хасдаг
         
    def next_vertex (self, s):
        res =  []
        if len(s) < len(self.seqs): # internal node -> down one level
            for i in range(len(s)): 
                res.append(s[i])
            res.append(0)
        else: # bypass
            pos = len(s)-1 
            while pos >=0 and s[pos] == self.seq_size(pos) - self.motif_size:
                pos -= 1
            if pos < 0: res = None # last solution
            else:
                for i in range(pos): res.append(s[i])
                res.append(s[pos]+1)
        return res
    
    def bypass (self, s):
        res =  []
        pos = len(s)-1
        while pos >=0 and s[pos] == self.seq_size(pos) - self.motif_size:
            pos -= 1
        if pos < 0: res = None 
        else:
            for i in range(pos): res.append(s[i])
            res.append(s[pos]+1)
        return res
     
    def branch_and_bound (self):
        best_score = -1
        best_motif = None
        size = len(self.seqs)
        s = [0]*size
        while s != None:
            if len(s) < size:
                # estimate the bound for current internal node
                # test if the best score can be reached
                optimum_score = self.score(s) + (size-len(s)) * self.motif_size
                if optimum_score < best_score: s = self.bypass(s)
                else: s = self.next_vertex(s)
            else:
                # test if current leaf is a better solution
                sc = self.score(s)
                if sc > best_score:
                    best_score = sc
                    best_motif = s
                s = self.next_vertex(s)
        return best_motif

    # CONSENSUS (HEURISTIC ALGORITHMS)
    def heuristic_consensus(self):
        res = [0]* len(self.seqs) 
        max_score = -1;
        partial = [0,0]
        for i in range(self.seq_size(0)-self.motif_size):
            for j in range(self.seq_size(1)-self.motif_size):
                partial[0] = i
                partial[1] = j
                sc = self.score(partial);
                if(sc > max_score):
                    max_score = sc
                    res[0] = i
                    res[1] = j
        for k in range(2, len(self.seqs)):
            partial = [0]*(k+1)
            for j in range(k):
                partial[j] = res[j]
            max_score = -1
            for i in range(self.seq_size(k)-self.motif_size):
                partial[k] = i
                sc = self.score(partial)
                if(sc > max_score):
                    max_score = sc
                    res[k] = i
        return res    

In [3]:
def test1():  
    sm = DeterministicMotifFinding()
    print('Alphabet: ',sm.alphabet)
    print('Alphabet len: ',len(sm.alphabet))
    sm.read_file("files/exampleMotifs.txt","DNA")
    sol = [25,20,2,55,59]
    print(len(sm.alphabet))
    si = sm.create_motif_from_indexes(sol)
    print("matrix indexes: ")
    print(si)  
    print()
    sa = sm.score(sol)
    print("motif-iin niilber onoo")
    print(sa)
    print()
    scm = sm.score_multiplicative(sol)
    print("motif-iin bairlal bvriin hamgiin ih utga: ")
    print(scm)
    
test1()

Alphabet:  ACGT
Alphabet len:  4
ACGT
4
matrix indexes: 
[[3, 0, 1, 0, 3, 1, 1, 0], [2, 4, 0, 0, 1, 4, 0, 0], [0, 1, 4, 0, 0, 0, 3, 1], [0, 0, 0, 5, 1, 0, 1, 4]]

motif-iin niilber onoo
30

motif-iin bairlal bvriin hamgiin ih utga: 
34560.0


In [4]:
def test2():
    seq1 = MySeq("ATAGAGCTGA","DNA")
    seq2 = MySeq("ACGTAGATGA","DNA")
    seq3 = MySeq("AAGATAGGGG","DNA")
    mf = DeterministicMotifFinding(3, [seq1,seq2,seq3]) # size 3, 3 seq
    
    print ("Exhaustive:")
    sol = mf.exhaustive_search()
    print ("Solution: " , sol)
    print ("Score: ", mf.score(sol))
    
    print ("\nBranch and Bound:")
    sol2 = mf.branch_and_bound()
    print ("Solution: " , sol2)
    print ("Score:" , mf.score(sol2))

    print ("\nHeuristic consensus: ")
    sol3 = mf.heuristic_consensus()
    print ("Solution: " , sol3)
    print ("Score:" , mf.score(sol3))

test2()

Exhaustive:
Solution:  [1, 3, 4]
Score:  9

Branch and Bound:
Solution:  [1, 3, 4]
Score: 9

Heuristic consensus: 
Solution:  [1, 3, 4]
Score: 9


In [5]:
def test3():
    mf = DeterministicMotifFinding()
    mf.read_file("files/exampleMotifs.txt","DNA")
    
    print ("Branch and Bound:")
    sol = mf.branch_and_bound()
    print ("Solution: ", sol)
    print ("Score:", mf.score(sol))
    
    print ("\nHeuristic consensus: ")
    sol2 = mf.heuristic_consensus()
    print ("Solution: " , sol2)
    print ("Score:" , mf.score(sol2)) 

test3()

ACGT
Branch and Bound:
Solution:  [1, 4, 45, 5, 0]
Score: 34

Heuristic consensus: 
Solution:  [0, 38, 14, 33, 1]
Score: 30
