In [None]:
class Seq:
    """ 
    Classe usada para manipular e transformar os diferentes tipos de sequências através de diferentes processos.
    
    """
    def __init__(self, seq):
        """Construtor da classe Seq.

        Args:
            seq (str): Sequência biológica.
        """
        self.seq = str(seq.upper())

    def __len__ (self): 
        """ Função que permite implementar a função len().

        Returns:
            int: Tamanho da sequência.
        """   
        return len(self.seq)
    
    def __str__(self):
        """ Função que permite representar a sequência como uma string.

        Returns:
            str: Representação da sequência.      
        """       
        return self.seq

    def __getitem__(self,n):
        """Função que permite aplicar a indexação na classe.

        Args:
            n (int): Index

        Returns:
            str: Base ou aminoácido correspondente ao index.
        """
        return self.seq[n]
    
    def __getslice__(self,i,j):
        """Função que permite aplicar a indexação na classe.

        Args:
            i (int): index start
            j (int): index final

        Returns:
            str: Sequência, base ou aminoácido correspondente ao index.
        """
        return self.seq[a]    

    def get_type (self):
        """Função que a partir de uma sequência, classifica-a em DNA, RNA ou AMINO ACID SEQUENCE.

        Returns:
            str: Classificação da sequência.
        """
        if len([c for c in self.seq if c not in "ACGT"]) == 0:
            return "DNA"

        elif len([c for c in self.seq if c not in "ACGU"]) == 0:
            return "RNA"

        elif len([c for c in self.seq if c not in "ABCDEFGHIKLMNPQRSTVWYZ_"]) == 0:
            return "AMINO ACID SEQUENCE"
        
        else:
            return "Not valid"

    def count_nucleotides (self):
        """Função que a partir de uma sequência de DNA ou RNA e conta o número dos diferentes nucleótidos presentes.

        Returns: 
            list: Lista com a contagem dos diferentes núcleotidos.           
        """
        if Seq(self.seq).get_type() == "DNA":
            A = self.seq.count("A")
            C = self.seq.count("C")
            G = self.seq.count("G")
            T = self.seq.count("T") 
            return [A, C, G, T]
        
        elif Seq(self.seq).get_type() == "RNA":                    
            A = self.seq.count("A")
            C = self.seq.count("C")
            G = self.seq.count("G")
            U = self.seq.count("U") 
            return [A, C, G, U] 
        else:
            return "Not DNA or RNA"

    def freq_nucleotides (self):
        """Função que a partir de uma sequência de DNA ou RNA, estima a frequência dos diferentes nucleótidos presentes.

        Returns:
            list: Lista com a frequência dos diferentes nucleótidos. 
        """
        if Seq(self.seq).get_type() == "DNA":
            A = self.seq.count("A") / len(self.seq)
            C = self.seq.count("C") / len(self.seq)
            G = self.seq.count("G") / len(self.seq)
            T = self.seq.count("T") / len(self.seq)
            return [round(A, 3), round(C, 3), round(G, 3), round(T, 3)]             
        
        elif Seq(self.seq).get_type() == "RNA":
            A = self.seq.count("A") / len(self.seq)
            C = self.seq.count("C") / len(self.seq)
            G = self.seq.count("G") / len(self.seq)
            U = self.seq.count("U") / len(self.seq)
            return [round(A, 3), round(C, 3), round(G, 3), round(U, 3)]
        else:
            return "Not DNA or RNA"

    def transcricao(self):
        """Função que a partir de uma sequência de DNA ou RNA, devolve o transcrito da mesma.

        Returns:
            str: Sequência do transcrito.
        """
        if Seq(self.seq).get_type() == "DNA":  
           DNA = self.seq.lower() 
           seq_trans = DNA.replace("a","U").replace("u","A").replace("c","G").replace("g","C")[::-1].upper()
           return seq_trans  

        elif Seq(self.seq).get_type() == "RNA": 
           RNA = self.seq.lower() 
           seq_trans = RNA.replace("u","A").replace("a","T").replace("g","C").replace("c","G")[::-1].upper()
           return seq_trans  

        else:
            return "Not DNA or RNA" 

    def get_codons (self):
        """Função que recebe uma sequência de DNA ou RNA e transforma cada conjunto de 3 nucleótidos, presentes ao longo da sequência, no respetivo codão.  

        Returns:
            list: Lista de codões.
        """
        if Seq(self.seq).get_type() == "DNA" or Seq(self.seq).get_type() == "RNA":
            l = []
            codon_list =[]
            for c in range (0, len(self.seq), 3):                             
                codon_list.append(self.seq[c : c + 3])
            if len(codon_list[-1]) < 3:
                codon_list.pop()
            return codon_list
        else:
            return "Not DNA or RNA"   

    def traducao(self):
        """"Função que a partir de uma sequência de DNA, origina uma sequência de aminoácidos. 

        Returns:
            str: Sequência de aminoácidos
        """
        if Seq(self.seq).get_type() == "DNA":                                 
            gencode = {
            'ATA':'I', 'ATC':'I', 'ATT':'I', 'ATG':'M',
            'ACA':'T', 'ACC':'T', 'ACG':'T', 'ACT':'T',
            'AAC':'N', 'AAT':'N', 'AAA':'K', 'AAG':'K',
            'AGC':'S', 'AGT':'S', 'AGA':'R', 'AGG':'R',
            'CTA':'L', 'CTC':'L', 'CTG':'L', 'CTT':'L',
            'CCA':'P', 'CCC':'P', 'CCG':'P', 'CCT':'P',
            'CAC':'H', 'CAT':'H', 'CAA':'Q', 'CAG':'Q',
            'CGA':'R', 'CGC':'R', 'CGG':'R', 'CGT':'R',
            'GTA':'V', 'GTC':'V', 'GTG':'V', 'GTT':'V',
            'GCA':'A', 'GCC':'A', 'GCG':'A', 'GCT':'A',
            'GAC':'D', 'GAT':'D', 'GAA':'E', 'GAG':'E',
            'GGA':'G', 'GGC':'G', 'GGG':'G', 'GGT':'G',
            'TCA':'S', 'TCC':'S', 'TCG':'S', 'TCT':'S',
            'TTC':'F', 'TTT':'F', 'TTA':'L', 'TTG':'L',
            'TAC':'Y', 'TAT':'Y', 'TAA':'_', 'TAG':'_',
            'TGC':'C', 'TGT':'C', 'TGA':'_', 'TGG':'W'}
        
            l = []
            for c in Seq(self.seq).get_codons():
                l.append(gencode.get(c))
                l_final = "".join(l)    
            return l_final  
        else:
            return "Not DNA"

    def get_prots (self):   
        """Função que a partir de uma sequência de aminoácidos gera as diferentes proteínas.

        Returns:
            list: Lista de proteínas
        """
        if Seq(self.seq).get_type() == "AMINO ACID SEQUENCE":
            lista_final = []
            lista_stop_tratados = self.seq.split("_") 
            for c in lista_stop_tratados:        
                for idx, amino_s in enumerate(c):       
                    if amino_s == "M":                  
                        lista_final.append(c[idx:]) 
            return lista_final 
        else:
            return "not AMINO ACID SEQUENCE"

    def get_orfs (self):    
        """Função que a partir de uma sequência de DNA ou RNA origina diferentes tipos de ORFS. 

        Returns:
            list: Lista das ORFS
        """
        if  Seq(self.seq).get_type() == "DNA": 
            dna = self.seq.lower()
            dna_f = self.seq
            lista_orfs =[]
            lista_orfs.append(dna_f[0:])   
            lista_orfs.append(dna_f[1:])   
            lista_orfs.append(dna_f[2:])
            dna_rev_comp = dna.replace("a","T").replace("t","A").replace("c","G").replace("g","C")[::-1] 
            lista_orfs.append(dna_rev_comp[0:])
            lista_orfs.append(dna_rev_comp[1:])  
            lista_orfs.append(dna_rev_comp[2:])
            return lista_orfs
        elif Seq(self.seq).get_type() == "RNA":
            rna = self.seq.lower()
            rna_f = self.seq
            lista_orfs =[]
            lista_orfs.append(rna_f[0:])      
            lista_orfs.append(rna_f[1:])   
            lista_orfs.append(rna_f[2:])
            rna_rev_comp = rna.replace("a","U").replace("u","A").replace("c","G").replace("g","C")[::-1] 
            lista_orfs.append(rna_rev_comp[0:])
            lista_orfs.append(rna_rev_comp[1:]) 
            lista_orfs.append(rna_rev_comp[2:])
            return lista_orfs
        else:
            return "Not DNA or RNA"

    def get_all_prots(self):
        """Função que a partir de uma sequência de DNA e permite obter todas as possíveis proteínas. 

        Returns:
            list: Lista das proteínas
        """
        if  Seq(self.seq).get_type() == "DNA": 
            orfs = Seq.get_orfs(self)
            list_codons = []
            list_aminos = []
            list_prots =  []
            
            for c  in orfs:
                a = Seq(c).get_codons()
                list_codons.append(a)
                for e in list_codons:
                    b = Seq(c).traducao()
                list_aminos.append((b))
                for r in list_aminos:
                    c = Seq(r).get_prots()
                list_prots.append(c)       
            return [c for a in list_prots for c in a]
        else:
            return "Not DNA"

In [None]:
import unittest
class Test_Seq(unittest.TestCase):
    
    def test_get_type(self):
        """Função usada para testar a função get_type() da classe Seq.
        """
        self.assertEqual(Seq("ATGC").get_type(),"DNA")
        self.assertEqual(Seq("augc").get_type(),"RNA")
        self.assertEqual(Seq("MNAAQTHCTA").get_type(),"AMINO ACID SEQUENCE")
        self.assertEqual(Seq("A-G-T-A-T").get_type(),"Not valid")
        self.assertEqual(Seq("ATGC1").get_type(),"Not valid")

    def test_count_nucleotides(self):
        """Função usada para testar a função count_nucleotides() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").count_nucleotides(),[1, 1, 1, 3])
        self.assertEqual(Seq("auuugc").count_nucleotides(),[1, 1, 1, 3]) 
        self.assertEqual(Seq("AUTUUGC").count_nucleotides(),"Not DNA or RNA") 

    def test_freq_nucleotides(self):
        """Função usada para testar a função freq_nucleotides() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").freq_nucleotides(),[0.167, 0.167, 0.167, 0.5])
        self.assertEqual(Seq("auuagc").freq_nucleotides(),[0.333, 0.167, 0.167, 0.333])
        self.assertEqual(Seq("AT TAC-AC").freq_nucleotides(),"Not DNA or RNA")
        
    def test_transcricao(self):
        """Função usada para testar a função transcricao() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").transcricao(),"GCTTTU")
        self.assertEqual(Seq("auuagc").transcricao(),"GCTAAT")
        self.assertEqual(Seq("AUUHAGC").transcricao(),"Not DNA or RNA")
    
    def test_get_codons(self):
        """Função usada para testar a função get_codons() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").get_codons(),['ATT', 'TGC'])
        self.assertEqual(Seq("auuagc").get_codons(),['AUU', 'AGC'])
        self.assertEqual(Seq("acacc_ca").get_codons(),"Not DNA or RNA")
        self.assertEqual(Seq("ATTTGC1").get_codons(),"Not DNA or RNA")
    
    def test_traducao(self):
        """Função usada para testar a função traducao() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").traducao(),"IC")
        self.assertEqual(Seq("auuagc").traducao(),"Not DNA")

    def test_get_prots(self):
        """Função usada para testar a função get_prots() da classe Seq.
        """
        self.assertEqual(Seq("MA_KLCMNB").get_prots(),['MA', 'MNB'])
        self.assertEqual(Seq("ATTMTGC").get_prots(),['MTGC'])
        self.assertEqual(Seq("ATTTGC").get_prots(),"not AMINO ACID SEQUENCE")
        self.assertEqual(Seq("auuagc").get_prots(),"not AMINO ACID SEQUENCE")
        
    def test_get_orfs(self):
        """Função usada para testar a função get_orfs() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").get_orfs(),['ATTTGC', 'TTTGC', 'TTGC', 'GCAAAT', 'CAAAT', 'AAAT'])
        self.assertEqual(Seq("auuagc").get_orfs(),['AUUAGC', 'UUAGC', 'UAGC', 'GCUAAU', 'CUAAU', 'UAAU'])
        self.assertEqual(Seq("MA_KLCMNB").get_orfs(),"Not DNA or RNA")
        self.assertEqual(Seq("ATTTGC1").get_orfs(),"Not DNA or RNA")

    def test_get_all_prots(self):
        """Função usada para testar a função get_all_prots() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").get_all_prots(),[])
        self.assertEqual(Seq("ATTATGTGC").get_all_prots(),['MC'])
        self.assertEqual(Seq("auguagc").get_all_prots(),"Not DNA")
    
unittest.main(argv=[""], exit=False)

In [1]:
class Mat:
    """
    Classe que permite criar e manipular Matrizes
   
    """
    def __init__(self, rows, cols):
        """Construtor da Matriz 

        Args:
            rows (int): Número de linhas
            cols (int): Número de colunas 
        """
        self.mat = [[0 for c in range(cols)]
                    for r in range(rows)]
    

    def numRows (self): 
        """Função que permite obter o número de linhas da Matriz

        Returns:
            int : Valor de linhas da Matriz
        """
        return len(self.mat)


    def numCols (self): 
        """Função que permite obter o númeor de colunas da Matriz

        Returns:
            int : Valor de colunas da Matriz
        """
        return len(self.mat[0])


    def __str__(self):
        """ Função que permite devolver a Matriz como uma string

        Returns:
            str : String da Matriz
        """
        return '\n'.join(' '.join(str(val) for val in row)
                         for row in self.mat)

    
    def __getitem__ (self, n):
        return self.mat[n]

In [2]:
import io

def subst(x, y):
  import blosum as bl

  """Funçao que permite obter o valor da substituição do Aminoácido da Blossum 62

  Args:
      x (str): Aminoácido 1
      y (str): Aminoácido 2

  Returns:
      int: Valor de substituição do Aminoácido 
  """
  
  dic = dict(bl.BLOSUM(62))
  return int(dic[x+y])   


In [3]:
class NW:
  """Classe que permite efetuar o Algoritmo de Needleman Wunsch de forma a realizar o alinhamento Global de um par de sequências.
  """

  def __init__(self, s1, s2, g = -4):
    """Contrutor da classe NW

    Args:
        s1 (str): Sequência 1
        s2 (str): Sequência 2
        g (int, optional): Gap Penalty. Defaults to -4.
    """
    self.s1 = s1
    self.s2 = s2
    self.mat = Mat(len(s1) + 1, len(s2) + 1)  
    self.tr  = Mat(len(s1) + 1, len(s2) + 1)
    
    for L in range(len(s1)):                     
      self.mat[L + 1][0] = g * (L + 1)           
      self.tr[L + 1][0]  = 'C'                      

    for C in range(len(s2)):                     
      self.mat[0][C + 1] = g * (C + 1)             
      self.tr[0][C + 1]  = 'E'                        

    for L, x1 in enumerate(s1):
      for C, x2 in enumerate(s2):
        possiveis = [
            self.mat[L  ][C    ] + subst(x1, x2),   
            self.mat[L+1][C    ] + g,               
            self.mat[L  ][C + 1] + g,               
        ]
        dirs = "DEC"

        self.mat[L + 1][C + 1] = max(possiveis)   
        self.tr[L + 1][C + 1] = dirs[possiveis.index(self.mat[L + 1][C + 1])]  

  def rebuild(self):
    """Função que permite obter um possivel alinhamento das sequências

    Returns:
        str: Sequências alinhadas 
    """
    L = len(self.s1)
    C = len(self.s2)
    S1 = ""
    S2 = ""
    
    dirs = {
        'D' : (-1, -1),
        'E' : ( 0, -1),
        'C' : (-1,  0)
    }

    while L > 0 or C > 0:

      DL, DC = dirs[self.tr[L][C]]

      if self.tr[L][C] == "D":
        S1 = self.s1[L - 1] + S1    
        S2 = self.s2[C - 1] + S2
      elif self.tr[L][C] == "E":
        S1 = '-' + S1
        S2 = self.s2[C - 1] + S2
      else:
        S1 = self.s1[L - 1] + S1
        S2 = '-' + S2        

      L += DL
      C += DC

    return S1, S2

 
  def max_score (self):
    """Função que permite obter o max score do alinhamento 

    Returns:
        int: Max Score
    """
    return self.mat[len(self.s1)][len(self.s2)]

  def __repr__(self):
    """Função que permite obter a representação em String da própria classe 

    Returns:
        str: Matriz S (Score) e Matriz T (Trace)
    """
    cols = "-" + self.s2
    lins = "-" + self.s1
    with io.StringIO("") as S:
      print(' ', *cols, sep = '   ', file = S)           
      for L, linha in zip(lins, self.mat):
        print(L, *[f'{x:3d}' for x in linha], file = S)

      print(file = S)

      print(' ', *cols, file = S)
      for L, linha in zip(lins, self.tr):
        print(L, *linha, file = S)

      return S.getvalue()

  def score_mat(self):
    """Função que permite obter a Matriz S (Score)

    Returns:
        str: Matriz S
    """
    cols = "-" + self.s2
    lins = "-" + self.s1
    with io.StringIO("") as S:
      print(' ', *cols, sep = '   ', file = S)           
      for L, linha in zip(lins, self.mat):
        print(L, *[f'{x:3d}' for x in linha], file = S)

      print(file = S)
      return print(S.getvalue())

  def trace_mat(self):
    """Função que permite obter a Matriz T (Trace)

    Returns:
        str: Matriz T (Trace)
    """
    cols = "-" + self.s2
    lins = "-" + self.s1
    with io.StringIO("") as S:
      print(' ', *cols, file = S)
      for L, linha in zip(lins, self.tr):
        print(L, *linha, file = S)

      return print(S.getvalue())


In [None]:
import unittest
class Test_Seq(unittest.TestCase):
    
    def test_get_type(self):
        """Função usada para testar a função get_type() da classe Seq.
        """
        self.assertEqual(Seq("ATGC").get_type(),"DNA")
        self.assertEqual(Seq("augc").get_type(),"RNA")
        self.assertEqual(Seq("MNAAQTHCTA").get_type(),"AMINO ACID SEQUENCE")
        self.assertEqual(Seq("A-G-T-A-T").get_type(),"Not valid")
        self.assertEqual(Seq("ATGC1").get_type(),"Not valid")

    def test_count_nucleotides(self):
        """Função usada para testar a função count_nucleotides() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").count_nucleotides(),[1, 1, 1, 3])
        self.assertEqual(Seq("auuugc").count_nucleotides(),[1, 1, 1, 3]) 
        self.assertEqual(Seq("AUTUUGC").count_nucleotides(),"Not DNA or RNA") 

    def test_freq_nucleotides(self):
        """Função usada para testar a função freq_nucleotides() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").freq_nucleotides(),[0.167, 0.167, 0.167, 0.5])
        self.assertEqual(Seq("auuagc").freq_nucleotides(),[0.333, 0.167, 0.167, 0.333])
        self.assertEqual(Seq("AT TAC-AC").freq_nucleotides(),"Not DNA or RNA")
        
    def test_transcricao(self):
        """Função usada para testar a função transcricao() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").transcricao(),"GCTTTU")
        self.assertEqual(Seq("auuagc").transcricao(),"GCTAAT")
        self.assertEqual(Seq("AUUHAGC").transcricao(),"Not DNA or RNA")
    
    def test_get_codons(self):
        """Função usada para testar a função get_codons() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").get_codons(),['ATT', 'TGC'])
        self.assertEqual(Seq("auuagc").get_codons(),['AUU', 'AGC'])
        self.assertEqual(Seq("acacc_ca").get_codons(),"Not DNA or RNA")
        self.assertEqual(Seq("ATTTGC1").get_codons(),"Not DNA or RNA")
    
    def test_traducao(self):
        """Função usada para testar a função traducao() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").traducao(),"IC")
        self.assertEqual(Seq("auuagc").traducao(),"Not DNA")

    def test_get_prots(self):
        """Função usada para testar a função get_prots() da classe Seq.
        """
        self.assertEqual(Seq("MA_KLCMNB").get_prots(),['MA', 'MNB'])
        self.assertEqual(Seq("ATTMTGC").get_prots(),['MTGC'])
        self.assertEqual(Seq("ATTTGC").get_prots(),"not AMINO ACID SEQUENCE")
        self.assertEqual(Seq("auuagc").get_prots(),"not AMINO ACID SEQUENCE")
        
    def test_get_orfs(self):
        """Função usada para testar a função get_orfs() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").get_orfs(),['ATTTGC', 'TTTGC', 'TTGC', 'GCAAAT', 'CAAAT', 'AAAT'])
        self.assertEqual(Seq("auuagc").get_orfs(),['AUUAGC', 'UUAGC', 'UAGC', 'GCUAAU', 'CUAAU', 'UAAU'])
        self.assertEqual(Seq("MA_KLCMNB").get_orfs(),"Not DNA or RNA")
        self.assertEqual(Seq("ATTTGC1").get_orfs(),"Not DNA or RNA")

    def test_get_all_prots(self):
        """Função usada para testar a função get_all_prots() da classe Seq.
        """
        self.assertEqual(Seq("ATTTGC").get_all_prots(),[])
        self.assertEqual(Seq("ATTATGTGC").get_all_prots(),['MC'])
        self.assertEqual(Seq("auguagc").get_all_prots(),"Not DNA")
    
unittest.main(argv=[""], exit=False)

In [4]:
import unittest

class Test_NW(unittest.TestCase):
    """Conjunto de testes para a Classe NW

    """
    
    
    def test_rebuild (self):
        """Testar a função rebuild
        """

        self.assertEqual(NW("ACTG", "ACTG").rebuild(), ('ACTG', 'ACTG'))
        self.assertEqual(NW("ATCAT", "ACAT").rebuild(), ('ATCAT', 'A-CAT'))


    def test_max_score (self):
        """Testar a função max_score
        """

        self.assertEqual(NW("ACTG", "ACTG").max_score(), 24)
        self.assertEqual(NW("ATCAT", "ACAT").max_score(), 18)



unittest.main(argv=[''], exit=False)

..
----------------------------------------------------------------------
Ran 2 tests in 0.004s

OK


<unittest.main.TestProgram at 0x7f1b604c49d0>

In [5]:
class SW:
  """Classe que permite efetuar o Algoritmo de Smith Waterman de forma a realizar o alinhamento Local de um par de sequências.
  """


  def __init__(self, s1, s2, g = -4):
    """Contrutor da classe SW

    Args:
        s1 (str): Sequência 1
        s2 (str): Sequência 2
        g (int, optional): Gap Penalty. Defaults to -4.
    """

    self.s1 = s1
    self.s2 = s2
    self.mat = Mat(len(s1) + 1, len(s2) + 1) 
    self.tr  = Mat(len(s1) + 1, len(s2) + 1)


    for L, x1 in enumerate(s1):
      for C, x2 in enumerate(s2):
        possiveis = [
            self.mat[L  ][C    ] + subst(x1, x2),   
            self.mat[L+1][C    ] + g,               
            self.mat[L  ][C + 1] + g,               
            0]
        dirs = "DEC."

        self.mat[L + 1][C + 1] = max(possiveis)   
        if self.mat[L + 1][C + 1] != 0:
          self.tr[L + 1][C + 1] = dirs[possiveis.index(self.mat[L + 1][C + 1])] 
  
  def max_score (self):
    """Função que permite obter o max score do alinhamento 

    Returns:
        int: Valor do Max Score
    """
    max_score = 0
    for L, x1 in enumerate(self.mat):
      for C, x2 in enumerate(self.mat):
        if max(x1) > max_score:
          max_score = max(x1)
    return max_score

  
  def rebuild(self):
    """Função que permite obter um possivel alinhamento das sequências

    Returns:
        str: Sequências alinhadas 
    """
    max_score = 0
    linha = 0
    coluna = 0
    for L, x1 in enumerate(self.mat):
      for C, x2 in enumerate(self.mat):
        if max(x1) > max_score:
          max_score = max(x1)
          linha = L
        coluna = C
    coluna -= 1
    L = linha
    C = coluna + 1
    S1 = ""
    S2 = ""
    
    dirs = {
        'D' : (-1, -1),
        'E' : ( 0, -1),
        'C' : (-1,  0),
        "." : (0, 0)
    }

    while L >= 0 or C >= 0:

      try:
        DL, DC = dirs[self.tr[L][C]]
        if self.tr[L][C] == "D":
            S1 = self.s1[L - 1] + S1    
            S2 = self.s2[C - 1] + S2
        elif self.tr[L][C] == "E":
            S1 = '-' + S1
            S2 = self.s2[C - 1] + S2
        elif self.tr[L][C] == "C":
            S1 = self.s1[L - 1] + S1
            S2 = '-' + S2 
        else:
          break
    
        L += DL
        C += DC
      except:
        break

    
    return S1, S2

 

        

    

  def __repr__(self):
    """Função que permite obter a representação em String da própria classe 

    Returns:
        str: Matriz S (Score) e Matriz T (Trace)
    """
    
    cols = "-" + self.s2
    lins = "-" + self.s1
    with io.StringIO("") as S:
      print(' ', *cols, sep = '   ', file = S)           
      for L, linha in zip(lins, self.mat):
        print(L, *[f'{x:3d}' for x in linha], file = S)

      print(file = S)

      print(' ', *cols, file = S)
      for L, linha in zip(lins, self.tr):
        print(L, *linha, file = S)

      return S.getvalue()

  def score_mat(self):
    """Função que permite obter a Matriz S (Score)

    Returns:
        str: Matriz S
    """
    cols = "-" + self.s2
    lins = "-" + self.s1
    with io.StringIO("") as S:
      print(' ', *cols, sep = '   ', file = S)           
      for L, linha in zip(lins, self.mat):
        print(L, *[f'{x:3d}' for x in linha], file = S)

      print(file = S)
      return print(S.getvalue())

  def trace_mat(self):
    """Função que permite obter a Matriz T (Trace)

    Returns:
        str: Matriz T (Trace)
    """
    cols = "-" + self.s2
    lins = "-" + self.s1
    with io.StringIO("") as S:
      print(' ', *cols, file = S)
      for L, linha in zip(lins, self.tr):
        print(L, *linha, file = S)

      return print(S.getvalue())

In [6]:
import unittest

class Test_SW(unittest.TestCase):
    """Conjunto de testes para a Classe SW
    """
    
    
    def test_rebuild (self):
        """Testar a função rebuild
        """

        self.assertEqual(SW("ACTG", "ACTG").rebuild(), ('ACTG', 'ACTG'))
        self.assertEqual(SW("ATCATAA", "ATTACAT").rebuild(), ('T-CAT', 'TACAT'))


    def test_max_score (self):
        """Testar a funçao max_score
        """

        self.assertEqual(SW("ACTG", "ACTG").max_score(), 24)
        self.assertEqual(SW("ATCATAA", "ATTACAT").max_score(), 19)

        
unittest.main(argv=[''], exit=False)

....
----------------------------------------------------------------------
Ran 4 tests in 0.010s

OK


<unittest.main.TestProgram at 0x7f1b604c4ac0>

In [7]:
def consensus(s1, s2):
    """Função que permite obter o Consensus das 2 Sequências 

    Args:
        s1 (str): Sequencia 1
        s2 (str): Sequencia 2

    Returns:
        str: Consensus das Sequências
    """
    res = ""
    for x, y in zip(s1, s2):
        if x == y:
            res += x
        elif x == '-':
            res += y
        else:
            res += x
    return res
    
class MultipleAlign:
    """Classe que permite realizar o alinhamento múltiplo de várias sequências 
    """
    def __init__(self, lista_seqs):
        """Contrutor da classe MultpleAlign

        Args:
            lista_seqs (list): Lista de sequências 
        """
        self.lista_seqs = lista_seqs
        self.len = len(lista_seqs)



    def __len__ (self):
        """Função que permite implementar a função len()

        Returns:
            int: Numero de Sequências presentes na Classe
        """

        return len(self.lista_seqs)
    

    def __repr__(self):
        """Função que permite representar a Classe como String 

        Returns:
            str: Diferentes Sequências presentes na Classe
        """

        return str(self.lista_seqs)
    
    def __getitem__(self,a):
        """Função que permite implementar a Indexação na Classe

        Args:
            a (int): Index

        Returns:
            str: Sequência correspondente ao Index 
        """
        return self.lista_seqs[a]
    
    
    def align (self):
        """Função que permite realizar o Alinhamento Progressivo das Sequências 

        Returns:
            list: Lista com o alinhamento entre todas as sequências
        """
        lista_final_con = self.lista_seqs.copy()
        lista_final = []
        c = 0
        while c < len(self.lista_seqs)-1:
            lista_temp = lista_final_con[0:2].copy()
            a = NW(lista_temp[0],lista_temp[1]).rebuild()
            con = consensus(a[0],a[1])
            del lista_final_con[0:2]
            lista_final_con.insert(0,con)
            c += 1

        i = len(self.lista_seqs)

        for c in range(i):
            lista_final.append(NW(self.lista_seqs[c],lista_final_con[0]).rebuild()[0])
        

        return lista_final

In [8]:
class Test_MultipleAlign (unittest.TestCase):
    """Conjunto de testes para a Classe MultipleAlign

    """

    def test_align (self):
        """Testar função Align
        """
        self.assertEqual(MultipleAlign(["ATAGC", "AACC", "ATGAC","ATAGC", "AACC", "ATGAC"]).align(), ['ATAGC', 'A-ACC', 'ATGAC', 'ATAGC', 'A-ACC', 'ATGAC'])
        self.assertEqual(MultipleAlign(["TACCCGCT","AACCA"]).align(), ['TACCCGCT', '-A-AC-CA'])


unittest.main(argv=[''], exit=False)

.....
----------------------------------------------------------------------
Ran 5 tests in 0.020s

OK


<unittest.main.TestProgram at 0x7f1b60493f40>

In [9]:
import mysql.connector as SQLC  

DataBase = SQLC.connect(
   host ="127.0.0.1",
   user ="root",
   password ="login123",
   database = "Base Dados IAP",
   auth_plugin="mysql_native_password"
)
DataBase.autocommit= True
cur = DataBase.cursor()

In [10]:
def connect_database (host ="127.0.0.1", user ="root",password ="login123", database = "Base Dados IAP"):
    """Funçao que permite ao utilizador conectar à base de dados (Base Dados IAP)

    Args:
        host (str, optional):  Host . Defaults to "127.0.0.1".
        user (str, optional):  User . Defaults to "root".
        password (str, optional):  Password . Defaults to "login123".
        database (str, optional):  Database . Defaults to "Base Dados IAP".
    """

    DataBase = SQLC.connect(

        host = host,
        user = user,
        password = password,
        database = database,
        auth_plugin="mysql_native_password"
    )
    DataBase.autocommit= True
    cur = DataBase.cursor()

def get_all_organisms ():
    """Função que permite obter todos os organismos presentes na Base de Dados Predefinida

    Returns:
        lista: Contêm nome de Organimos 
    """
    connect_database()
    cur.execute("""select Organism from Genbank""")
    organisms_DB = cur.fetchall()

    return organisms_DB


def get_seq_from_organism (organism):
    """Função que permite obter a sequência do Organismo pretendido

    Args:
        organism (str): Organismo Presente na base de dados 

    Returns:
        str: Sequência do Organismo
    """
    connect_database()
    cur.execute(f""" select Sequence from Sequences
                    join Genbank on Sequences.ID_version_seq = Genbank.ID_version_seq
                    where Organism = '{organism}'
    """)

    sequence = cur.fetchall()
    
    return sequence[0][0]

def get_all_seqs():
    """Função que permite obter todas as sequências presentes na Base de Dados

    Returns:
        list: Lista com todas sequências presentes na Base de Dados
    """
    connect_database()
    cur.execute(f""" select Sequence from Sequences
    """)

    sequence = cur.fetchall()

    return sequence



In [11]:
import unittest

class Test_DataBase (unittest.TestCase):
    """Conjunto de testes para a DataBase
    """

    def test_database (self):
        """Testar a integridade da Base de Dados
        """
        self.assertEqual(len(get_all_organisms()),len(get_all_seqs()))


    def test_database_2 (self):
        """Testar a integridade da Base de Dados
        """
        self.assertEqual(type(get_seq_from_organism('Sulfolobus spindle-shaped virus 1')), str)


unittest.main(argv=[''], exit=False)

.......
----------------------------------------------------------------------
Ran 7 tests in 0.047s

OK


<unittest.main.TestProgram at 0x7f1b603324c0>

In [12]:
class Blast ():
    """Classe que permite realizar um Blast Simplificado 
    """
    def __init__(self, query, seq, w = 3):
        """Construtor do Blast Simplificado 

        Args:
            query (str): Query 
            seq (str): Seq
            w (int, optional): W . Defaults to 3.
            
        """
        self.seq = seq
        self.query = query
        self.w = w

    def __len__(self):
        return len(self.query)

    
    def query_map(query, w):
        """Função que permite devolver um dicionário em que as chaves são as sequências e os valores são uma lista dos índices

        Args:
            query (str): Query
            w (int): W

        Returns:
            dict: Dicionário em que as chaves são as sequências e os valores são uma lista dos índice
        """
        
        tam = len(query)
        res = {}
        for chave, offset in [(query[p : p + w], p) for p in range(0, tam - w +1)]:
            if chave not in res:
                res[chave] = []
            res[chave].append(offset)
        return(res)


    def get_all_offsets(s1, s2): 
        """Função Auxiliar que permite devolver todos os índices das ocorrências de uma substring numa string

        Args:
            s1 (str): Substring
            s2 (str): String

        Returns:
            dict: Dicionário com todas as ocorrèncias da substring na string
        """
        w = len(s1)

        return[p for p in range(0, len(s2) - w + 1) if s2[p : p + w] == s1]


    def hits(qm, seq):
        """Função que permite gerar uma lista de hits

        Args:
            qm (dict): Dicionário proveninete da Função query_map
            seq (str): Sequência Proveniente da base de dados
        
        Returns:
            list: Lista de hits em que cada elemento é um tuplo com os indices
        """
              
        return[(o_query, o_seq) for chave, offsets in qm.items() 
        for o_query in offsets 
        for o_seq in Blast.get_all_offsets(chave, seq)]


    def extend_hit_any_direction(query, seq, o1, o2, dir):
        """Função auxliar que permite extender o hit em ambas as direções

        """
        matches = 0
        count = 0
        while o1 >= 0 and o2 >= 0 and o1 < len(query) and o2 < len(seq):
            matches += 1 if query[o1] == seq[o2] else 0
            count += 1
            if 2 * matches < count:
                return o1, o2, matches, count
            o1 += dir
            o2 += dir
        return o1 - dir, o2 - dir, matches, count


    def extend_hit(query, seq, hit, w):
        """Função que permite estende um hit em cada direção se o nº de matches for de pelo menos metade do tamanho da extensão

        Args:
            query (str): Query
            seq (str): Seq
            hit (tuple): Hit
            w (int): w

        Returns:
            tuple: Tuplo com o índice do início do hit estendido na query, na sequência, o tamanho e o nºde matches
        """

        o1, o2 = hit
        left  = Blast.extend_hit_any_direction(query, seq, o1 - 1, o2 - 1, -1)
        right = Blast.extend_hit_any_direction(query, seq, o1 + w, o2 + w, +1)

        O1, O2, ML, SL = left
        _,   _, MR, SR = right
        return O1, O2, w + SL + SR, ML + w + MR
    

    def best_hit (self):
        """Função que permite devolver a extensão de maior score (no caso de empate, deverá devolver a de menor tamanho que aparece primeiro)

        Returns:
            tuple: Tuplo com a extensão que possui maior score
        """
        qm = Blast.query_map(self.query,self.w)
        lista_hits = Blast.hits(qm, self.seq)
        all_scores =[Blast.extend_hit(self.query, self.seq, c, self.w) for c in lista_hits]
        all_scores.sort(key=lambda c: c[2] and c[3], reverse=True)
        if all_scores == []:
            return print("Not Found")
        else:
            return all_scores [0]

In [13]:
import unittest

query = "AATATAT"
seq = "AATATGTTATATAATAATATTT"
w = 3

class Test_Blast (unittest.TestCase):
    """Estes Testes foram baseados nos exemplos fornecidos pelo Professor Rui (inputs/outputs) durantes
    as aulas teóricas 
    """

    def test_query_map (self):
        """Testar a função query_map
        """
        self.assertEqual(Blast.query_map(query,w),{'AAT': [0], 'ATA': [1, 3], 'TAT': [2, 4]})
    

    def test_get_all_offsets (self):
        """Testar a função get_all_offsets
        """
        self.assertEqual(Blast.get_all_offsets(query,seq), [])
    
    
    def test_hits (self):
        """Testar a função test_hits
        """
        self.assertEqual(Blast.hits(Blast.query_map(query,w),seq),[
            (0, 0), (0, 12), (0, 15), (1, 1), (1, 8),
            (1, 10), (1, 13), (1, 16), (3, 1), (3, 8), (3, 10),
            (3, 13), (3, 16), (2, 2), (2, 7), (2, 9), (2, 17),
            (4, 2), (4, 7), (4, 9),(4, 17)])


    def test_extend_hit_any_direction_left (self):
        """Testar a função extend_hit_any_direction
        """
        self.assertEqual(Blast.extend_hit_any_direction(query, seq, 1, 16, -1),(0, 15, 2, 2))

    
    def test_extend_hit_any_direction_right (self):
        """Testar a função extend_hit_any_direction
        """
        self.assertEqual(Blast.extend_hit_any_direction(query, seq, 1, 16, 1),(6, 21, 5, 6))

    def test_extend_hit (self):
        """Testar a função extend_hit
        """
        self.assertEqual(Blast.extend_hit(query, seq, (1, 16), w), (0, 15, 7, 6))

    
    def test_best_hit (self):
        """Testar a função best_hit
        """
        self.assertEqual(Blast(query, seq, w).best_hit(), (0, 0, 7, 6))

unittest.main(argv=[''], exit=False)

..............
----------------------------------------------------------------------
Ran 14 tests in 0.058s

OK


<unittest.main.TestProgram at 0x7f1b60342880>

# Luis


In [14]:
class Motifs:
    """Classe que permite gerar Motifs probabilisticos 
    """
    def __init__(self, list_seqs):
        """Contrutor do Motifs onde criámos o nosso Alfabeto(letters) e onde gerámos a nossa Matriz vazia (mat)

        Args:
            list_seqs (list): Lista contendo diferentes sequências biológicas
        """
        from collections import Counter
        self.seqs = list_seqs
        self.letters = list(Counter([a for c in list_seqs for a in c]))
        self.mat = Mat(len(self.letters)+1,len(list_seqs[0])+1)
    
    def __repr__(self):
        return print(self.mat)

    def __str__(self) -> str:
        return print(self.mat)

    def contagens (self):
        """Função que permite devolver a frequência dos elementos das sequências

        Returns:
            list: Matriz das Contagens 
        """
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = coluna +1 
                self.mat[0][0] = "."                
                self.mat[linha +1][0] = self.letters[linha] 
        return print(self.mat)


    def PWM (self, pseudo_count = 0):
        """Função que permite gerar a Matriz PWM

        Args:
            pseudo_count (int, optional): pseudocontagem. Defaults to 0.

        Returns:
            list: Matriz PWM
        """
        self.mat = Mat(len(self.letters)+1,len(self.seqs[0])+1)
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = f"  {coluna +1} "   " "  
                self.mat[0][0] = "."                
                self.mat[linha +1][0] = self.letters[linha] 
        try:      
            for c in range(1,len(self.letters)+ 1):
                for a in range(1,len(self.seqs)+ 1): 
                    self.mat[c][a] = round(float(self.mat[c][a] + pseudo_count + 0.01) / float(len(self.seqs)),3)
            return print(self.mat)

        except:
            for c in range(1,len(self.letters)+ 1):
                for a in range(1,len(self.seqs)+ 2): 
                    self.mat[c][a] = round(float(self.mat[c][a] + pseudo_count + 0.01) / float(len(self.seqs)),3)
            return print(self.mat)

    
    def PSSM (self, pseudo_count = 0):
        """Função que permite gerar a Matriz PSSM

        Args:
            pseudo_count (int, optional): pseudocontagem. Defaults to 0.

        Returns:
            list: Matriz PSSM
        """
        self.mat = Mat(len(self.letters)+1,len(self.seqs[0])+1)
        from math import log2
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = f"  {coluna +1} "   " "  
                self.mat[0][0] = "."                
                self.mat[linha +1][0] = self.letters[linha] 
        try:
            for c in range(1,len(self.letters)+ 1):
                for a in range(1,len(self.seqs)+ 1): 
                    self.mat[c][a] = round((log2(((self.mat[c][a]+ pseudo_count)/(len(self.seqs)+ len(self.letters)* pseudo_count)/(1/len(self.letters)) ))),3)
            return print(self.mat)
        except:
            for c in range(1,len(self.letters)+ 1):
                for a in range(1,len(self.seqs)+ 2): 
                    self.mat[c][a] = round((log2(((self.mat[c][a]+ pseudo_count)/(len(self.seqs)+ len(self.letters* pseudo_count)/(1/len(self.letters)) )))),3)
            return print(self.mat)
    
    def prob_seq(self, seq):
        """Função que permite devolver a probabilidade de uma sequência

        Args:
            seq (str): Sequência 

        Returns:
            float: Probabilidade da sequência 
        """

        self.mat = Mat(len(self.letters)+1,len(self.seqs[0])+1)
        prob = 1 
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = f"  {coluna +1} "   " "  
                self.mat[0][0] = "."                
                self.mat[linha +1][0] = self.letters[linha] 
        for c in range(1,len(self.letters)+ 1):
            for a in range(1,len(self.seqs)+ 1):
                self.mat[c][a] = round(float(self.mat[c][a] + 0.01) / float(len(self.seqs)),3)
        
        for c in range(1,len(self.seqs[0])+ 1):
            a = self.letters.index(seq[c - 1])
            prob *= self.mat[a +1][c]
        return round(prob,4)


    def most_prob_seq (self,pseudo_count = 0):
        """Função que permite devolver a sequência mais provável de ocorrer

        Args:
            pseudo_count (int, optional): pseudocontagem. Defaults to 0.

        Returns:
            str: Sequência mais provável de ocorrer
        """

        self.mat = Mat(len(self.letters)+1,len(self.seqs[0])+1)
        resul = ""
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = f"  {coluna +1} "   " "  
                self.mat[0][0] = "."               
                self.mat[linha +1][0] = self.letters[linha] 
        for c in range(1,len(self.letters)+ 1):
            for a in range(1,len(self.seqs)+ 1):
                self.mat[c][a] = round(float(self.mat[c][a] + pseudo_count + 0.01) / float(len(self.seqs)),3)
        list_temp= []
        list_final = []
        for c in range(1,len(self.seqs)+1):
            for a in range(1,len(self.seqs)+ 1):
                list_temp.append((self.mat[a][c],a))
            list_final.append(max(list_temp))
            list_temp =[]
        
        for c in list_final:
            for a in range(1,len(self.seqs[0])+1):
                if a == c[1]:
                    resul += self.mat[a][0]
        return resul

    

In [15]:
import unittest  
seqs = ['ATTG','ATCG','ATTC','ACTC']

class Test_Motifs (unittest.TestCase):
    """Conjunto de testes para a Classe Motifs
    """

    def test_prob_seq (self):
        """Testar a função prob_seq
        """

        self.assertEqual(Motifs(seqs).prob_seq("ATTG"), 0.2845)


    def test_most_prob_seq (self):
        """Testar a função most_prob_seq
        """
        
        self.assertEqual(Motifs(seqs).most_prob_seq(), "ATTC")

unittest.main(argv=[''], exit=False)


................
----------------------------------------------------------------------
Ran 16 tests in 0.052s

OK


<unittest.main.TestProgram at 0x7f1b6033f250>

In [None]:
class Enzyme_Restriction:
    def __init__(self, enzyme, seq):
        """Construtor da classe Enzyme_Restriction.

        Args:
            enzyme (str): Sequência da enzima
            seq (str): Sequência nucleótida
        """
        self.enzyme_seq = enzyme 
        self.seq = seq 

    def __str__ (self):
        """Função que permite representar as sequências como uma string.

        Returns:
            str: Representação das sequências
        """
        return "Enzyme sequence = " + str(self.enzyme_seq) + "\nNucleotide sequence = " + str(self.seq)

    def __repr__(self):
        """Função que permite representar as sequências como uma string na shell.

        Returns:
            str: Representação das sequências
        """
        return f"Enzyme_Restriction(\"{self.enzyme_seq}\",\"{self.seq}\")"

    def IUB(self):
        """Conversão da enzima de restrição na expressao regular correspondente.

        Returns:
            str: Expressão regular
        """
        try:
            rebase={"R":"[GA]", "Y":"[CT]","M":"[AC]", "K":"[GT]", "S":"[GC]", "W": "[AT]", "B":"[CTG]", "D":"[ATG]", "H":"[ACT]","V":"[ACG]", "N":"[ACGT]", "A":"A","C":"C","G":"G","T":"T"}
            cut = self.enzyme_seq.replace("^","")
            regexp = ""
            for x in cut:
                regexp += rebase[x]
            return regexp
        except:
            return "Nucleotide sequence or Enzyme invalid"

    def cut_positions(self): 
        """Função que permite determinar as posições onde a enzima de restrição "corta" a sequência.

        Returns:
            list: lista das posições de "corte"
        """
        from re import finditer
        cutposition = self.enzyme_seq.find("^")
        regexp = Enzyme_Restriction.IUB(self)
        matches = finditer(regexp, self.seq)
        locs = []
        for x in matches:
            locs.append(x.start() + cutposition)
        return locs

    def cut_positions_re(self): 
        """Função que permite determinar as posições onde a enzima de restrição "corta" a sequência complementar.

        Returns:
            list: lista das posições de "corte"
        """
        from re import finditer
        cutposition = self.enzyme_seq.find("^")
        seq_trans = self.seq.replace("A","t").replace("T","a").replace("C","g").replace("G","c")[::-1].upper()
        regexp = Enzyme_Restriction.IUB(self)
        matches = finditer(regexp, seq_trans)
        locs = []
        for x in matches:
            locs.append(x.start() + cutposition)
        return locs

    def cut_subsequences(self):
        """Função que determina as subsequências resultantes do corte da sequência (seq) usando os índices na lista locs.

        Returns:
            list: lista das subsequências
        """
        res =[]
        positions = Enzyme_Restriction.cut_positions(self)
        positions.insert(0,0)
        positions.append(len(self.seq))
        for i in range (len(positions)-1):
            res.append(self.seq[positions[i]:positions[i+1]])
        return res

    def cut_subsequences_re(self):
        """Função que determina as subsequências resultantes do corte da sequência completamentar (seq) usando os índices na lista locs.

        Returns:
            list: lista das subsequências
        """
        res =[]
        positions = Enzyme_Restriction(self.enzyme_seq,self.seq).cut_positions()
        positions.insert(0,0)
        seq_trans = self.seq.replace("A","t").replace("T","a").replace("C","g").replace("G","c")[::-1].upper()
        positions.append(len(self.seq))
        for i in range (len(positions)-1):
            res.append(seq_trans[positions[i]:positions[i+1]])
        return res

In [None]:
import unittest
class Test_Enzyme_Restriction(unittest.TestCase):

    def test_IUB(self):
        """Função usada para testar a função IUB() da classe Enzyme_Restriction.
        """
        self.assertEqual(Enzyme_Restriction("G^AMTV","TAAGACTGAAT").IUB(),"GA[AC]T[ACG]")
        self.assertEqual(Enzyme_Restriction("GPAMTV","TAAGACTGAAT").IUB(),"Nucleotide sequence or Enzyme invalid")
        self.assertEqual(Enzyme_Restriction("GPAMTV","TGCAACGU").IUB(),"Nucleotide sequence or Enzyme invalid")
        self.assertEqual(Enzyme_Restriction("G_AMTV","TAAGACTGAAT").IUB(),"Nucleotide sequence or Enzyme invalid")
    
    def test_cut_positions(self):
        """Função usada para testar a função cut_positions() da classe Enzyme_Restriction.
        """
        self.assertEqual(Enzyme_Restriction("G^AMTV","TAAGACTGAAT").cut_positions(), [4])
        self.assertEqual(Enzyme_Restriction("GAAACT","TAAGACTGAAT").cut_positions(), [])
        self.assertEqual(Enzyme_Restriction("GA    AACT","TAAGACTGAAT").cut_positions(), [])
        self.assertEqual(Enzyme_Restriction("GA*_*PAACT","TAAGACTGAAT").cut_positions(), [])

    def test_cut_positions_re(self):
        """Função usada para testar a função cut_positions_re() da classe Enzyme_Restriction.
        """
        self.assertEqual(Enzyme_Restriction("G^AMTV","ATTCAGTCTTA").cut_positions_re(), [4])
        self.assertEqual(Enzyme_Restriction("G^AMTV","ATAGTCTCAGTCTTA").cut_positions_re(), [4, 10])
        self.assertEqual(Enzyme_Restriction("GA    AACT","ATAGTCTCAGTCTTA").cut_positions_re(), [])
        self.assertEqual(Enzyme_Restriction("GA12AACT","TAAGACTGAAT").cut_positions_re(), [])

    def test_cut_subsequences(self):
        """Função usada para testar a função cut_subsequences() da classe Enzyme_Restriction.
        """
        self.assertEqual(Enzyme_Restriction("G^AMTV","TAAGACTGAAT").cut_subsequences(), ['TAAG', 'ACTGAAT'])
        self.assertEqual(Enzyme_Restriction('GA*_*PAACT', 'TAAGACTGAAT').cut_subsequences(), ["TAAGACTGAAT"])
        self.assertEqual(Enzyme_Restriction('GA   PAACT', 'TAAGACTGAAT').cut_subsequences(), ["TAAGACTGAAT"])
        self.assertEqual(Enzyme_Restriction('PPPAA12', 'TAAGACTGAAT').cut_subsequences(), ["TAAGACTGAAT"])

    def test_cut_subsequences_re(self):
        """Função usada para testar a função cut_subsequences_re() da classe Enzyme_Restriction.
        """
        self.assertEqual(Enzyme_Restriction("G^AMTV","GTAGAAGATTCT").cut_subsequences_re(), ['AGAATCTTCTAC'])
        self.assertEqual(Enzyme_Restriction("G^AMTV","TAAGACTGAAT").cut_subsequences_re(), ['ATTC', 'AGTCTTA'])
        self.assertEqual(Enzyme_Restriction("GA   PAACT","ATTCAGTCTTA").cut_subsequences_re(), ['TAAGACTGAAT'])
        self.assertEqual(Enzyme_Restriction("GA1223PAACT","ATTCAGTCTTA").cut_subsequences_re(), ['TAAGACTGAAT'])


unittest.main(argv=[""], exit=False)

In [None]:
def prosite(seq, pattern): 
    """Função que permite converter uma expressão do padrão Prosite numa expressão regular

    Returns:
        str: Expressão regular
    """
    from re import search
    er = pattern.replace("-","")
    er = er.replace("x",".")
    er = er.replace("(","{")
    er = er.replace(")","}")
    motif = search(er, seq)

    if (motif != None):
        zona = motif.span()              
        return ("Motifs: {}" .format(seq[zona[0]:zona[1]]))
    else :
        return "Not found"

In [None]:
import unittest

class Test_Prosite(unittest.TestCase):
    """Conjunto de testes para a classe Prosite
    """

    def test_prosite(self):
        """Testar a função prosite
        """
        self.assertEqual(prosite("HKMMLASCKHLLCLKCIVKLG","C-x-H-x-[LIVMFY]-C-x(2)-C-[LIVMYA]"),"Motifs: CKHLLCLKCI")
        self.assertEqual(prosite("HKMMLLCLKCIVKLG","C-x-H-x-[LIVMFY]-C-x(2)-C-[LIVMYA]"),"Not found")



unittest.main(argv=[''], exit=False)