
# TRABALHO AASB

**Joana Araújo pg49836**

**Mariana Braga pg45966**

**Tiago Silva pg49849**


O presente trabalho visa corresponder às componentes lecionadas na cadeira de Algoritmos para Análise de Sequências Biológicas.

Para a organização deste trabalho, foram realizadas várias classes que respondem a cada tópico sugerido no enunciado.

Foi criado um índice lateral, onde organizamos por secções os métodos de trabalho. Primeiramente definimos a class com as diferentes funções e mostramos resultados exemplo. Na secção seguinte são realizados os testes (unittest) para a class respetiva. Depois sugerimos uma secção de Documentação que imprime toda a documentação da class respetiva. Por fim, deixamos algumas considerações do trabalho desenvolvido para cada class. 

## Class Seq

In [None]:
class Seq:
    """
    Implementação de algoritmos de manipulação de sequências de DNA: Transcrição, Tradução, ORFS, Extração de todas as potenciais proteínas

      Parâmetros:
      ----------
           seq : str
               sequência de DNA a manipular
      
      Métodos:
      ----------
            mol_type(self) -> str:
                Função que identifica que tipo de molécula está presente, de acordo com a combinação de letras que apresenta

                Returns:
                  String que identifica que tipo de molécula está presente: DNA, RNA ou AMINO


            reverse_complement(self) -> str:
                Faz o complemento inverso da sequência de DNA, substituindo "A" por "T", "T" por "A", "C" por "G" e "G" por "C", e inverte a ordem da string [::-1]

                Returns:
                  String com o complemento inverso da sequência de DNA, respeitando a direção 5'-3'


            transcricao(self) -> str:
                Realiza a transcrição da sequência, substituindo 'T' por 'U'

                Returns:
                  String com a sequência de DNA transcrita para RNA


            get_codons(self) -> list:
                Recebe uma sequência de DNA ou RNA e devolve uma lista dos respetivos codões.

                Returns:
                  Lista com os codões respetivos da sequência de DNA ou RNA dada
            

            get_orfs(self) -> list:
                Função que obtém todas as Open Reading Frames das duas cadeias de DNA

                Returns:
                  Lista com as ORFs encontradas em ambas as cadeias de DNA
            

            codon_to_amino(self) -> list:
                Transforma os codões de DNA ou RNA nos respetivos aminoácidos, de acordo com o código genético

                Returns:
                  Lista com os aminoácidos, que foram convertidos a partir dos codões obtidos anteriormente, respeitando o código genético


            traducao(self, firstpos = 0) -> str:
                Tradução de uma sequência de DNA para uma sequência de proteínas
                Variáveis:
                  firstpos : int, opcional
                    O argumento firstpos recebe o valor zero por default, se não for passado outro valor.
                Returns:
                  Retorna a tradução de uma sequência de DNA para uma sequência de proteínas
            
            
            proteins(self) -> list:
                Recebe uma sequência de DNA, RNA ou AMINO e devolve uma lista de possíveis proteínas, sabendo que começam com o aminoácido
                M (metionina) e termina em "_" (stop)

                Returns:
                  Lista com as proteínas possíveis
   
    """
    
    def __init__(self, seq: str) -> None:
      """
      Construtor com os atributos necessários para a class Seq

      seq : str
          sequência de DNA a manipular
      """
      self.seq = seq.upper()

      if type(self.seq) != str:
          raise TypeError("Insira uma sequência com o tipo 'string'.")

      if self.seq == "":
        raise Exception("Insira uma sequência.")
    

    def mol_type(self) -> str:
      """
      Função que identifica e retorna que tipo de molécula está presente, de acordo com a combinação de letras que apresenta
      
      Returns:
        String que identifica que tipo de molécula está presente: DNA, RNA ou AMINO
      """
      if len([c for c in self.seq if c not in "AGTC"]) == 0:
          return "DNA"
      if len([c for c in self.seq if c not in "AGUC"]) == 0:
          return "RNA"
      if len([c for c in self.seq if c not in "ABCDEFGHIJKLMNOPQRSTUVWXYZ_"]) == 0:
          return "AMINO"
      
      else:
          raise TypeError("Insira uma sequência válida.")


    def __str__(self) -> str:
        """
        Devolve a sequência em string
        """
        return str(self.seq)

    def __len__(self) -> int:
        """
        Devolve o tamanho da sequência
        """
        return len(self.seq)
    
    def __getitem__(self, n) -> str:
        """
        Interface para a indexação []
        """
        return self.seq[n]
    
    def __repr__(self) -> str:
        """
        Retorna a representação 'printable' do objeto especificado como uma string
        """
        return str(self)

    def reverse_complement(self) -> str:
        """
        Faz o complemento inverso da sequência de DNA, substituindo "A" por "T", "T" por "A", "C" por "G" e "G" por "C", e inverte a ordem da string [::-1]
        
        Returns:
          String com o complemento inverso da sequência de DNA, respeitando a direção 5'-3'
        """
        if (self.mol_type() != "DNA"): return None
        x = self.seq.replace('A','t').replace('T','a').replace('C','g').replace('G','c')
        comp = x.upper()[::-1]
        return comp

    def transcricao(self) -> str:
        """
        Devolve a sequência transcrita, substituindo 'T' por 'U'

        Returns:
          String com a sequência de DNA transcrita para RNA
        """
        if (self.mol_type() == "DNA"):
            return self.seq.replace('T','U')[::-1]
        else:
            return None

    def get_codons(self) -> list:
        """
        Recebe uma sequência de DNA ou RNA e retorna uma lista de codões.

        Returns:
          Lista com os codões respetivos da sequência de DNA ou RNA dada
        """
        if (self.mol_type() == "DNA" or self.mol_type() == "RNA"):
          dna = self.seq
          codon = []
          for x in range (0, len(dna),3):
              codon.append(dna[x:x+3])
          for c in codon:
              if len(c) % 3 != 0:
                codon.pop()
          return codon
        else:
          return None

    def get_orfs(self) -> list:
      """
      Função que obtém todas as Open Reading Frames das duas cadeias de DNA

      Returns:
        Lista com as ORFs encontradas em ambas as cadeias de DNA
      """
      if (self.mol_type() != "DNA"): return None
      orf = []
      c_orf = []
      allorfs = []
      for s in range(0,len(self.seq)):
              if len(self.seq[s:s+3]) % 3 == 0:
                  orf.append(self.seq[s:s+3])
              if len(self.seq[s:s+3]) % 3 == 0:
                  c_orf.append(self.reverse_complement()[s:s+3])
                  
              if len(orf)>= len(self.seq):
                  break
      allorfs.append(orf)
      allorfs.append(c_orf)
      a = ' '.join(map(str,allorfs))
           
      return a

    def codon_to_amino(self) -> list:
      """
      Transforma os codões de DNA ou RNA nos respetivos aminoácidos, de acordo com o código genético

      Returns:
        Lista com os aminoácidos, que foram convertidos a partir dos codões obtidos anteriormente, respeitando o código genético
      """
      if (self.mol_type() == "DNA"):
        gencode = {"GCT":"A", "GCC":"A", "GCA":"A", "GCC":"A", "TGT":"C", "TGC":"C", 
              "GAT":"D", "GAC":"D", "GAA":"E", "GAG":"E", "TTT":"F", "TTC":"F",
              "GGT":"G", "GGC":"G", "GGA":"G", "GGG":"G", "CAT":"H", "CAC":"H",
              "ATA":"I", "ATT":"I", "ATC":"I", "AAA":"K", "AAG":"K", "TTA":"L",
              "TTG":"L", "CTT":"L", "CTC":"L", "CTA":"L", "CTG":"L", "ATG":"M", 
              "AAT":"N", "AAC":"N", "CCT":"P", "CCC":"P", "CCA":"P", "CCG":"P", 
              "CAA":"Q", "CAG":"Q", "CGT":"R", "CGC":"R", "CGA":"R", "CGG":"R", 
              "AGA":"R", "AGG":"R", "TCT":"S", "TCC":"S", "TCA":"S", "TCG":"S", 
              "AGT":"S", "AGC":"S", "ACT":"T", "ACC":"T", "ACA":"T", "ACG":"T",
              "GTT":"V", "GTC":"V", "GTA":"V", "GTG":"V", "TGG":"W", "TAT":"Y",  
              "TAC":"Y", "TAA":"_", "TAG":"_", "TGA":"_"}
        amino_list = []
        
        for codon in self.get_codons():
          amino_list.append(gencode[codon])
        return amino_list
      
      elif (self.mol_type() == "RNA"):
        gencode_rna = {"GCU":"A", "GCC":"A", "GCA":"A", "GCC":"A", "UGU":"C", "UGC":"C", 
              "GAU":"D", "GAC":"D", "GAA":"E", "GAG":"E", "UUU":"F", "UUC":"F",
              "GGU":"G", "GGC":"G", "GGA":"G", "GGG":"G", "CAU":"H", "CAC":"H",
              "AUA":"I", "AUU":"I", "AUC":"I", "AAA":"K", "AAG":"K", "UUA":"L",
              "UUG":"L", "CUU":"L", "CUC":"L", "CUA":"L", "CUG":"L", "AUG":"M", 
              "AAU":"N", "AAC":"N", "CCU":"P", "CCC":"P", "CCA":"P", "CCG":"P", 
              "CAA":"Q", "CAG":"Q", "CGU":"R", "CGC":"R", "CGA":"R", "CGG":"R", 
              "AGA":"R", "AGG":"R", "UCU":"S", "UCC":"S", "UCA":"S", "UCG":"S", 
              "AGU":"S", "AGC":"S", "ACU":"T", "ACC":"T", "ACA":"T", "ACG":"T",
              "GUU":"V", "GUC":"V", "GUA":"V", "GUG":"V", "UGG":"W", "UAU":"Y",  
              "UAC":"Y", "UAA":"_", "UAG":"_", "UGA":"_"}
        amino_list = []
        
        for codon in self.get_codons():
          amino_list.append(gencode_rna[codon])
        return amino_list
      
      else:
        return None

    def traducao(self, firstpos = 0) -> str:
        """
        Tradução de uma sequência de DNA para uma sequência de proteínas
            Variáveis:
              firstpos : int, opcional
                Se o argumento firstpos não for passsado, recebe o valor zero.
            Returns:
              Retorna a tradução de uma sequência de DNA para uma sequência de proteínas
        """
        if (self.mol_type() == "DNA" or self.mol_type() == "RNA"):
          seqs = self.seq
          seqaa = self.codon_to_amino()
          seqaa = "".join(seqaa)
          return seqaa
        else:
          return None

    def proteins(self) -> list:
        """
        Recebe uma sequência de DNA, RNA ou AMINO e devolve uma lista de possíveis proteínas, sabendo que começam com o aminoácido
        M (metionina) e termina em "_" (stop)

        Returns:
          Lista com as proteínas possíveis
        """
        mol_tipo = self.mol_type()

        if mol_tipo == "DNA":
          trad = self.traducao()
          prots = []
          proteinas = []
          for aminos in trad:
            if aminos == '_':
              if prots:
                for p in prots:
                  proteinas.append(p)
                prots = []
            else:
                  if aminos == 'M':
                      prots.append("")
                  for x in range(len(prots)):
                      prots[x] += aminos
        
        if mol_tipo == "AMINO":
          aa = self.seq
          prots = []
          proteinas = []
          for aminos in aa:
              if aminos == '_':
                  if prots:
                      for p in prots:
                          proteinas.append(p)
                      prots = []
              else:
                  if aminos == 'M':
                      prots.append("")
                  for x in range(len(prots)):
                      prots[x] += aminos
        
        if mol_tipo == "RNA":
          trad = self.traducao()
          prots = []
          proteinas = []
          for aminos in trad:
            if aminos == '_':
              if prots:
                for p in prots:
                  proteinas.append(p)
                prots = []
            else:
                  if aminos == 'M':
                      prots.append("")
                  for x in range(len(prots)):
                      prots[x] += aminos
          
        if proteinas == []:
          raise Exception("Não foram encontradas sequências proteicas.")
        else:
          return proteinas



In [None]:
my_seq = Seq('ATGGACTACATTTAGTAGAAAGC')
print(my_seq.mol_type())
print(my_seq.transcricao())
print(my_seq.reverse_complement())
print(my_seq.get_codons())
print(my_seq.get_orfs())
print(my_seq.traducao())
print(my_seq.codon_to_amino())
print(my_seq.proteins()) 

DNA
CGAAAGAUGAUUUACAUCAGGUA
GCTTTCTACTAAATGTAGTCCAT
['ATG', 'GAC', 'TAC', 'ATT', 'TAG', 'TAG', 'AAA']
['ATG', 'TGG', 'GGA', 'GAC', 'ACT', 'CTA', 'TAC', 'ACA', 'CAT', 'ATT', 'TTT', 'TTA', 'TAG', 'AGT', 'GTA', 'TAG', 'AGA', 'GAA', 'AAA', 'AAG', 'AGC'] ['GCT', 'CTT', 'TTT', 'TTC', 'TCT', 'CTA', 'TAC', 'ACT', 'CTA', 'TAA', 'AAA', 'AAT', 'ATG', 'TGT', 'GTA', 'TAG', 'AGT', 'GTC', 'TCC', 'CCA', 'CAT']
MDYI__K
['M', 'D', 'Y', 'I', '_', '_', 'K']
['MDYI']


### Testes Class Seq

In [None]:
import unittest 

In [None]:

class test_seq(unittest.TestCase):
  def test_mol_type_DNA(self):
    self.assertEqual(Seq("ACTG").mol_type(),"DNA")

  def test_mol_type_RNA(self):
    self.assertEqual(Seq("ACUG").mol_type(),"RNA")

  def test_mol_type_AMINO(self):
    self.assertEqual(Seq("ACTGHIYM").mol_type(),"AMINO")
    
  def test_mol_type_AMINO_with_stop_aminoacid(self):
    self.assertEqual(Seq("ACTGHIYM_").mol_type(),"AMINO")

  def test_mol_type_empty_string(self):
    with self.assertRaises(Exception) as context:
      Seq("").mol_type()
      self.assertTrue("Insira uma sequência." in context.exception)

  def test_mol_type_ERRO(self):
    with self.assertRaises(Exception) as context:
      Seq("_nsjbwkj12232e").mol_type()
      self.assertTrue("Insira uma sequência válida." in context.exception)

  def test_mol_type_DNA_minuscula(self):
    self.assertEqual(Seq("actg").mol_type(),"DNA") 

  def test_mol_type_DNA_min_maiuscula(self):
    self.assertEqual(Seq("ACTGgctcGCTg").mol_type(),"DNA")

suite=unittest.TestLoader().loadTestsFromTestCase(test_seq)
unittest.TextTestRunner( verbosity=3 ).run( suite )


test_mol_type_AMINO (__main__.test_seq) ... ok
test_mol_type_AMINO_with_stop_aminoacid (__main__.test_seq) ... ok
test_mol_type_DNA (__main__.test_seq) ... ok
test_mol_type_DNA_min_maiuscula (__main__.test_seq) ... ok
test_mol_type_DNA_minuscula (__main__.test_seq) ... ok
test_mol_type_ERRO (__main__.test_seq) ... ok
test_mol_type_RNA (__main__.test_seq) ... ok
test_mol_type_empty_string (__main__.test_seq) ... ok

----------------------------------------------------------------------
Ran 8 tests in 0.028s

OK


<unittest.runner.TextTestResult run=8 errors=0 failures=0>

In [None]:
class test_reverse_complement(unittest.TestCase):

  def test_DNA_seq(self):
    self.assertEqual(Seq("ACTG").reverse_complement(),"CAGT")

  def test_RNA_seq(self):
    self.assertEqual(Seq("ACGU").reverse_complement(), None )

  def test_AMINO_seq(self):
    self.assertEqual(Seq("ACTGHIYM").reverse_complement(), None)


suite=unittest.TestLoader().loadTestsFromTestCase(test_reverse_complement)
unittest.TextTestRunner( verbosity=3 ).run( suite )


test_AMINO_seq (__main__.test_reverse_complement) ... ok
test_DNA_seq (__main__.test_reverse_complement) ... ok
test_RNA_seq (__main__.test_reverse_complement) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.010s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

In [None]:
class test_transcricao(unittest.TestCase):

  def test_DNA_seq(self):
    self.assertEqual(Seq("ACTG").transcricao(),"GUCA")

  def test_RNA_seq(self):
    self.assertEqual(Seq("ACGU").transcricao(), None)

  def test_AMINO_seq(self):
    self.assertEqual(Seq("ACTGHIYM").transcricao(), None)


suite=unittest.TestLoader().loadTestsFromTestCase(test_transcricao)
unittest.TextTestRunner( verbosity=3 ).run( suite )


test_AMINO_seq (__main__.test_transcricao) ... ok
test_DNA_seq (__main__.test_transcricao) ... ok
test_RNA_seq (__main__.test_transcricao) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.016s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

In [None]:
class test_get_codons(unittest.TestCase):

  def test_DNA_seq(self):
    self.assertEqual(Seq("ACTG").get_codons(),["ACT"])

  def test_RNA_seq(self):
    self.assertEqual(Seq("ACGU").get_codons(), ["ACG"])

  def test_AMINO_seq(self):
    self.assertEqual(Seq("ACTGHIYM").get_codons(), None)

  def test_bigger_DNA_seq(self):
    self.assertEqual(Seq("ATGCTAGCTAGCTAGCTT").get_codons(), ["ATG","CTA","GCT","AGC","TAG","CTT"])

  def test_bigger_one_off_DNA_seq(self):
    self.assertEqual(Seq("ATGCTAGCTAGCTAGCTTT").get_codons(), ["ATG","CTA","GCT","AGC","TAG","CTT"])

  def test_bigger_RNA_seq(self):
    self.assertEqual(Seq("AUGCUAGCUAGCUAGCUU").get_codons(), ["AUG","CUA","GCU","AGC","UAG","CUU"])

  def test_bigger_one_off_RNA_seq(self):
    self.assertEqual(Seq("AUGCUAGCUAGCUAGCUUU").get_codons(), ["AUG","CUA","GCU","AGC","UAG","CUU"])

suite=unittest.TestLoader().loadTestsFromTestCase(test_get_codons)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_AMINO_seq (__main__.test_get_codons) ... ok
test_DNA_seq (__main__.test_get_codons) ... ok
test_RNA_seq (__main__.test_get_codons) ... ok
test_bigger_DNA_seq (__main__.test_get_codons) ... ok
test_bigger_RNA_seq (__main__.test_get_codons) ... ok
test_bigger_one_off_DNA_seq (__main__.test_get_codons) ... ok
test_bigger_one_off_RNA_seq (__main__.test_get_codons) ... ok

----------------------------------------------------------------------
Ran 7 tests in 0.012s

OK


<unittest.runner.TextTestResult run=7 errors=0 failures=0>

In [None]:
class test_get_orfs(unittest.TestCase):

  def test_DNA_seq(self):
    self.assertEqual(Seq("ACTG").get_orfs(),"['ACT', 'CTG'] ['CAG', 'AGT']")

  def test_RNA_seq(self):
    self.assertEqual(Seq("ACGU").get_orfs(), None)

  def test_AMINO_seq(self):
    self.assertEqual(Seq("ACTGHIYM").get_orfs(), None)


suite=unittest.TestLoader().loadTestsFromTestCase(test_get_orfs)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_AMINO_seq (__main__.test_get_orfs) ... ok
test_DNA_seq (__main__.test_get_orfs) ... ok
test_RNA_seq (__main__.test_get_orfs) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.011s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

In [None]:
class test_codon_to_amino(unittest.TestCase):

  def test_DNA_seq(self):
    self.assertEqual(Seq("ACTG").codon_to_amino(),["T"])

  def test_RNA_seq(self):
    self.assertEqual(Seq("ACGU").codon_to_amino(), ["T"])

  def test_AMINO_seq(self):
    self.assertEqual(Seq("ACTGHIYM").codon_to_amino(), None)

  def test_bigger_DNA_seq(self):
    self.assertEqual(Seq("ATGCTAGCTAGCTAGCTT").codon_to_amino(), ["M","L","A","S","_","L"])

  def test_bigger_one_off_DNA_seq(self):
    self.assertEqual(Seq("ATGCTAGCTAGCTAGCTTT").codon_to_amino(), ["M","L","A","S","_","L"])

  def test_bigger_RNA_seq(self):
    self.assertEqual(Seq("AUGCUAGCUAGCUAGCUU").codon_to_amino(), ["M","L","A","S","_","L"])

  def test_bigger_one_off_RNA_seq(self):
    self.assertEqual(Seq("AUGCUAGCUAGCUAGCUUU").codon_to_amino(), ["M","L","A","S","_","L"])

suite=unittest.TestLoader().loadTestsFromTestCase(test_codon_to_amino)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_AMINO_seq (__main__.test_codon_to_amino) ... ok
test_DNA_seq (__main__.test_codon_to_amino) ... ok
test_RNA_seq (__main__.test_codon_to_amino) ... ok
test_bigger_DNA_seq (__main__.test_codon_to_amino) ... ok
test_bigger_RNA_seq (__main__.test_codon_to_amino) ... ok
test_bigger_one_off_DNA_seq (__main__.test_codon_to_amino) ... ok
test_bigger_one_off_RNA_seq (__main__.test_codon_to_amino) ... ok

----------------------------------------------------------------------
Ran 7 tests in 0.020s

OK


<unittest.runner.TextTestResult run=7 errors=0 failures=0>

In [None]:
class test_traducao(unittest.TestCase):

  def test_DNA_seq(self):
    self.assertEqual(Seq("ACTG").traducao(),"T")

  def test_RNA_seq(self):
    self.assertEqual(Seq("ACGU").traducao(), "T")

  def test_AMINO_seq(self):
    self.assertEqual(Seq("ACTGHIYM").traducao(), None)

  def test_bigger_DNA_seq(self):
    self.assertEqual(Seq("ATGCTAGCTAGCTAGCTT").traducao(), "MLAS_L")

  def test_bigger_one_off_DNA_seq(self):
    self.assertEqual(Seq("ATGCTAGCTAGCTAGCTTT").traducao(), "MLAS_L")

  def test_bigger_RNA_seq(self):
    self.assertEqual(Seq("AUGCUAGCUAGCUAGCUU").traducao(), "MLAS_L")

  def test_bigger_one_off_RNA_seq(self):
    self.assertEqual(Seq("AUGCUAGCUAGCUAGCUUU").traducao(), "MLAS_L")


suite=unittest.TestLoader().loadTestsFromTestCase(test_traducao)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_AMINO_seq (__main__.test_traducao) ... ok
test_DNA_seq (__main__.test_traducao) ... ok
test_RNA_seq (__main__.test_traducao) ... ok
test_bigger_DNA_seq (__main__.test_traducao) ... ok
test_bigger_RNA_seq (__main__.test_traducao) ... ok
test_bigger_one_off_DNA_seq (__main__.test_traducao) ... ok
test_bigger_one_off_RNA_seq (__main__.test_traducao) ... ok

----------------------------------------------------------------------
Ran 7 tests in 0.010s

OK


<unittest.runner.TextTestResult run=7 errors=0 failures=0>

In [None]:
class test_proteins(unittest.TestCase):

  def test_AMINO_seq_without_codon_start_or_stop(self):
    with self.assertRaises(Exception) as context:
      Seq("ACTGHIYM").proteins()
      self.assertTrue("Não foram encontradas sequências proteicas." in context.exception)
  
  def test_AMINO_seq(self):
    self.assertEqual(Seq("ACTGHIYMHAC_").proteins(), ["MHAC"])

  def test_DNA_seq(self):
    self.assertEqual(Seq("ATGCTAGCTAGCTAGCTT").proteins(), ["MLAS"])

  def test_one_off_DNA_seq(self):
    self.assertEqual(Seq("ATGCTAGCTAGCTAGCTTT").proteins(), ["MLAS"])

  def test_RNA_seq(self):
    self.assertEqual(Seq("AUGCUAGCUAGCUAGCUU").proteins(), ["MLAS"])

  def test_one_off_RNA_seq(self):
    self.assertEqual(Seq("AUGCUAGCUAGCUAGCUUU").proteins(), ["MLAS"])

  def test_without_codon_start_methionine(self):
    with self.assertRaises(Exception) as context:
      Seq("CTAGCATGCTAGCTT").proteins()
      self.assertTrue("Não foram encontradas sequências proteicas." in context.exception)

  def test_without_codon_stop(self):
    with self.assertRaises(Exception) as context:
      Seq("ATGCTAGCATGCCTT").proteins()
      self.assertTrue("Não foram encontradas sequências proteicas." in context.exception)

  def test_without_codon_start_or_stop(self):
    with self.assertRaises(Exception) as context:
      Seq("ATGCTAGCATGCCTT").proteins()
      self.assertTrue("Não foram encontradas sequências proteicas." in context.exception)

suite=unittest.TestLoader().loadTestsFromTestCase(test_proteins)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_AMINO_seq (__main__.test_proteins) ... ok
test_AMINO_seq_without_codon_start_or_stop (__main__.test_proteins) ... ok
test_DNA_seq (__main__.test_proteins) ... ok
test_RNA_seq (__main__.test_proteins) ... ok
test_one_off_DNA_seq (__main__.test_proteins) ... ok
test_one_off_RNA_seq (__main__.test_proteins) ... ok
test_without_codon_start_methionine (__main__.test_proteins) ... ok
test_without_codon_start_or_stop (__main__.test_proteins) ... ok
test_without_codon_stop (__main__.test_proteins) ... ok

----------------------------------------------------------------------
Ran 9 tests in 0.026s

OK


<unittest.runner.TextTestResult run=9 errors=0 failures=0>

### Documentação Class Seq

In [None]:
print(Seq.__doc__)


    Implementação de algoritmos de manipulação de sequências de DNA: Transcrição, Tradução, ORFS, Extração de todas as potenciais proteínas

      Parâmetros:
      ----------
           seq : str
               sequência de DNA a manipular
      
      Métodos:
      ----------
            mol_type(self) -> str:
                Função que identifica que tipo de molécula está presente, de acordo com a combinação de letras que apresenta

                Returns:
                  String que identifica que tipo de molécula está presente: DNA, RNA ou AMINO


            reverse_complement(self) -> str:
                Faz o complemento inverso da sequência de DNA, substituindo "A" por "T", "T" por "A", "C" por "G" e "G" por "C", e inverte a ordem da string [::-1]

                Returns:
                  String com o complemento inverso da sequência de DNA, respeitando a direção 5'-3'


            transcricao(self) -> str:
                Realiza a transcrição da sequência, substituin

### Considerações Class Seq
Para a class Seq temos como objetivo manipular a sequência de DNA dada, realizando diferentes processos, como a tradução, transcrição, obtenção de codoões e ORFs. 

Inicialmente, testamos qual é o tipo de molécula inserida, sendo que apenas são aceites sequências que respeitem as condições de serem DNA ou RNA ou AMINO. Quaisqueres sequências inválidas são consideradas ERRO.

Depois testamos os métodos reverse_complement e transcrição, que apenas são realizados quando a sequência é de DNA, sendo quaisquer outro tipo considerado None.

De seguida, obtemos os codões, que podem ser a partir de sequências de DNA ou RNA, sendo dados dois gencodes que facilitam esta pesquisa. Os testes confirmam que os codões são sempre agrupados 3 a 3, mesmo que a sequência seja um múltiplo diferente de 3.


Para testar as proteínas, verificamos que estas tinham que ser iniciadas quando encontrasse a letra "M" (metionina) e terminasse em "_" (stop). Caso não fosse encontrado um ou ambos os casos, teríamos um erro de que não foram encontradas nenhuma proteína.

_______________________________________________________________________
Nós decidimos testar situações como 'empty strings', 'Erros' ou seja strings que não são consideradas nenhum tipo de sequência, sequências em letras minusculas e sequencias com letras minusculas e maiusculas. Isto apenas para primeira função uma vez que estas situações servem mais para testar o construtor, dado que as condições que estipulamos estão nele definidos.

## Class NW e SW

ALINHAMENTOS LOCAIS E GLOBAIS

In [None]:
import io

class Mat:
    """
    Implementação de uma matriz

      Parâmetros:
      ----------
          rows : int
              linhas da matriz
          
          cols: int
              colunas da matriz
        
      Métodos:
      ----------
          numRows(self) -> int: 
              Indica o número de linhas presentes na matriz

              Returns:
                Valor inteiro com o número de linhas da matriz


          numCols (self) -> int: 
              Indica o número de colunas presentes na matriz
              
              Returns:
                Valor inteiro com o número de linhas da matriz
    """
    def __init__(self, rows: int, cols: int) -> None:
        """
        Construtor com os atributos necessários para a class Mat
        """
        self.mat = [[0 for c in range(cols)]
                    for r in range(rows)]
        
    def numRows(self) -> int: 
      """
      Indica o número de linhas presentes na matriz

      Returns:
        Valor inteiro com o número de linhas da matriz
      """
      return len(self.mat)

    def numCols (self) -> int: 
      """
      Indica o número de colunas presentes na matriz

      Returns:
        Valor inteiro com o número de colunas da matriz
      """
      return len(self.mat[0])

    def __str__(self) -> str:
      """
      Devolve a matriz como uma string
      """
      return '\n'.join(' '.join(str(val) for val in row)
                        for row in self.mat)
        
    def __repr__(self) -> str:
      """
      Retorna a representação 'printable' do objeto especificado como uma string
      """
      return str(self)

    def __getitem__ (self, n: int):
      """
      Interface para a indexação []
      """
      return self.mat[n]
  
class NW:
  """
  Alinhamento global entre duas sequências (Needleman Wunsch)

      Parâmetros:
      ----------
          s1 : str
              sequência 1 a usar para realizar o alinhamento global
          
          s2 : str
              sequência 2 a usar para realizar o alinhamento global
          
          g : int
              valor de gap penalty
              O argumento g recebe o valor -4 por default, se não for passado outro valor
          
          s_match : int
              valor quando ocorre match de caracteres
              O argumento s_match recebe o valor 3 por default, se não for passado outro valor

          mismatch : int
              valor quando ocorre mismatch de caracteres
              O argumento mismatch recebe o valor -1 por default, se não for passado outro valor
        
      Métodos:
      ----------
          subst(self, x:str, y:str) -> int
            Função da matriz de substituíção
            Caracterização da matriz de substitíção:
              caracteres iguais -> +3
              caracteres diferentes -> -1

            Returns:
              Valor inteiro de match ou mismatch


          rebuild(self) -> str:
              Função de reconstrução do alinhamento, que começa no canto inferior direito, que toma o valor de melhor score

              Returns:
                String com o alinhamento global das duas sequências

  """
  def __init__(self, s1: str, s2: str, g : int = -4, s_match: int = 3, mismatch: int = -1) -> None:
    """
    Construtor com os atributos necessários para a class NW

          s1 : str
              sequência 1 a usar para realizar o alinhamento global
          
          s2 : str
              sequência 2 a usar para realizar o alinhamento global
          
          g : int
              valor de gap penalty
              O argumento g recebe o valor -4 por default, se não for passado outro valor

          s_match : int
              valor quando ocorre match de caracteres
              O argumento s_match recebe o valor 3 por default, se não for passado outro valor

          mismatch : int
              valor quando ocorre mismatch de caracteres
              O argumento mismatch recebe o valor -1 por default, se não for passado outro valor
    """
    self.s1 = s1.upper()
    self.s2 = s2.upper()
    self.mat = Mat(len(s1) + 1, len(s2) + 1)
    self.tr  = Mat(len(s1) + 1, len(s2) + 1)

    self.s_match = s_match
    self.mismatch = mismatch

    for x in str(self.s1):
      if x not in "ACTG-":
        raise ValueError("A primeira sequência deve ser uma sequência de DNA.") 

    for y in str(self.s2):
      if y not in "ACTG-":
        raise ValueError("A segunda sequência deve ser uma sequência de DNA.")


    
    for L in range(len(s1)):
      self.mat[L + 1][0] = g * (L + 1)
      self.tr[L + 1][0]  = 'C'

    for C in range(len(s2)):
      self.mat[0][C + 1] = g * (C + 1)
      self.tr[0][C + 1]  = 'E'

    for L, x1 in enumerate(s1):
      for C, x2 in enumerate(s2):
        possiveis = [
            self.mat[L  ][C    ] + self.subst(x1, x2),   # Diagonal
            self.mat[L+1][C    ] + g,               # Esquerda
            self.mat[L  ][C + 1] + g,               # Cima
        ]
        dirs = "DEC"

        self.mat[L + 1][C + 1] = max(possiveis)
        self.tr[L + 1][C + 1] = dirs[possiveis.index(self.mat[L + 1][C + 1])]
    
  def subst(self, x:str, y:str) -> int:
    """
    Função da matriz de substituíção

    Caracterização da matriz de substitíção:
      caracteres iguais -> +3
      caracteres diferentes -> -1

    Returns:
      Valor inteiro de match ou mismatch
    """
    return self.s_match if x == y else self.mismatch
    
  def rebuild(self) -> str:
    """
    Função de reconstrução do alinhamento, que começa no canto inferior direito, que toma o valor de melhor score

    Returns:
      String com o alinhamento global das duas sequências
    """
    L = len(self.s1)
    C = len(self.s2)
    S1 = ""
    S2 = ""
    
    dirs = {
        'D' : (-1, -1),
        'E' : ( 0, -1),
        'C' : (-1,  0)
    }

    while L > 0 or C > 0:
      DL, DC = dirs[self.tr[L][C]]

      if self.tr[L][C] == "D":
        S1 = self.s1[L - 1] + S1
        S2 = self.s2[C - 1] + S2
      elif self.tr[L][C] == "E":
        S1 = '-' + S1
        S2 = self.s2[C - 1] + S2
      else:
        S1 = self.s1[L - 1] + S1
        S2 = '-' + S2        

      L += DL
      C += DC

    return S1, S2

  def __repr__(self) -> str:
    """
    Retorna a representação 'printable' do objeto especificado como uma string
    """
    cols = "-" + self.s2
    lins = "-" + self.s1
    with io.StringIO("") as S:
      print(' ', *cols, sep = '   ', file = S)
      for L, linha in zip(lins, self.mat):
        print(L, *[f'{x:3d}' for x in linha], file = S)

      print(file = S)

      print(' ', *cols, file = S)
      for L, linha in zip(lins, self.tr):
        print(L, *linha, file = S)

      return S.getvalue()
    
class SW(NW):
  """
  Alinhamento local entre duas sequências (Smith-Waterman)

      Parâmetros:
      ----------
        s1 : str
            sequência 1 a usar para realizar o alinhamento local
        
        s2 : str
            sequência 2 a usar para realizar o alinhamento local
        
        g : int
            valor de gap penalty
            O argumento g recebe o valor -4 por default, se não for passado outro valor
        
        s_match : int
            valor quando ocorre match de caracteres
            O argumento s_match recebe o valor 3 por default, se não for passado outro valor

        mismatch : int
            valor quando ocorre mismatch de caracteres
            O argumento mismatch recebe o valor -1 por default, se não for passado outro valor
        
      Métodos:
      ----------
          Invoca funções da class NW
  """
  def __init__(self, s1, s2, g = -4,s_match: int = 3, mismatch: int = -1)-> None:
    """
    Construtor com os atributos necessários para a class SW
        s1 : str
            sequência 1 a usar para realizar o alinhamento local
        
        s2 : str
            sequência 2 a usar para realizar o alinhamento local
        
        g : int
            valor de gap penalty
            O argumento g recebe o valor -4 por default, se não for passado outro valor

        s_match : int
            valor quando ocorre match de caracteres
            O argumento s_match recebe o valor 3 por default, se não for passado outro valor

        mismatch : int
            valor quando ocorre mismatch de caracteres
            O argumento mismatch recebe o valor -1 por default, se não for passado outro valor
    
    """
    self.s1 = s1.upper()
    self.s2 = s2.upper()
    self.mat = Mat(len(s1) + 1, len(s2) + 1)
    self.tr  = Mat(len(s1) + 1, len(s2) + 1)
    self.s_match=s_match
    self.mismatch=mismatch

    for L, x1 in enumerate(s1):
      for C, x2 in enumerate(s2):
        possiveis = [
            self.mat[L  ][C    ] + self.subst(x1, x2),   # Diagonal
            self.mat[L+1][C    ] + g,                   # Esquerda
            self.mat[L  ][C + 1] + g,                   # Cima
            0                                           # Zero
        ]
        dirs = "DEC0"

        self.mat[L + 1][C + 1] = max(possiveis)
        self.tr[L + 1][C + 1] = dirs[possiveis.index(self.mat[L + 1][C + 1])]

In [None]:
print(NW("ACGT", "TACCGT"))
print(*NW("ACGT", "TACCGT").rebuild(), sep="\n")

print(SW("ACGT", "TACCGT"))

    -   T   A   C   C   G   T
-   0  -4  -8 -12 -16 -20 -24
A  -4  -1  -1  -5  -9 -13 -17
C  -8  -5  -2   2  -2  -6 -10
G -12  -9  -6  -2   1   1  -3
T -16  -9 -10  -6  -3   0   4

  - T A C C G T
- 0 E E E E E E
A C D D E E E E
C C D D D D E E
G C D D C D D E
T C D D C D D D

-A-CGT
TACCGT
    -   T   A   C   C   G   T
-   0   0   0   0   0   0   0
A   0   0   3   0   0   0   0
C   0   0   0   6   3   0   0
G   0   0   0   2   5   6   2
T   0   3   0   0   1   4   9

  - T A C C G T
- 0 0 0 0 0 0 0
A 0 0 D 0 0 0 0
C 0 0 0 D D 0 0
G 0 0 0 C D D E
T 0 D 0 0 D D D



### Teste Classe NW

In [None]:
class test_NW(unittest.TestCase):

  def test_1st_not_dna(self):
    with self.assertRaises(ValueError) as context:
      NW("ACHT", "TACCGT")
      self.assertTrue("A primeira sequência deve ser uma sequência de DNA." in context.exception)
  
  def test_2nd_not_dna(self):
    with self.assertRaises(ValueError) as context:
      NW("ACGT", "TACCGTH")
      self.assertTrue("A segunda sequência deve ser uma sequência de DNA." in context.exception)

suite=unittest.TestLoader().loadTestsFromTestCase(test_NW)
unittest.TextTestRunner( verbosity=3 ).run( suite )


test_1st_not_dna (__main__.test_NW) ... ok
test_2nd_not_dna (__main__.test_NW) ... ok

----------------------------------------------------------------------
Ran 2 tests in 0.009s

OK


<unittest.runner.TextTestResult run=2 errors=0 failures=0>

In [None]:
class test_NW_rebuild(unittest.TestCase):

  def test_dna_sequences(self):
    self.assertEqual(NW("ACGT", "TACCGT").rebuild(),("-A-CGT","TACCGT"))
  
  
suite=unittest.TestLoader().loadTestsFromTestCase(test_NW_rebuild)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_dna_sequences (__main__.test_NW_rebuild) ... ok

----------------------------------------------------------------------
Ran 1 test in 0.007s

OK


<unittest.runner.TextTestResult run=1 errors=0 failures=0>

### Documentação Class Mat, NW e SW

In [None]:
print(Mat.__doc__)
print(NW.__doc__)
print(SW.__doc__)


    Implementação de uma matriz

      Parâmetros:
      ----------
          rows : int
              linhas da matriz
          
          cols: int
              colunas da matriz
        
      Métodos:
      ----------
          numRows(self) -> int: 
              Indica o número de linhas presentes na matriz

              Returns:
                Valor inteiro com o número de linhas da matriz


          numCols (self) -> int: 
              Indica o número de colunas presentes na matriz
              
              Returns:
                Valor inteiro com o número de linhas da matriz
    

  Alinhamento global entre duas sequências (Needleman Wunsch)

      Parâmetros:
      ----------
          s1 : str
              sequência 1 a usar para realizar o alinhamento global
          
          s2 : str
              sequência 2 a usar para realizar o alinhamento global
          
          g : int
              valor de gap penalty
              O argumento g recebe o valor -

### Considerações Class NW e SW

Nesta classe, procuramos implementar as matrizes Needleman-Wunsch e Smith-Waterman para alinhamentos globais e locais, respetivamente. 

Foram realizados testes de modo a reconhecer que as sequências inseridas são apenas de DNA.

## Class NWblosum

In [None]:
def blosum():
  """
  Função que vai buscar a blosum62 e retorna um dicionário com os valores de score
  """
  mat = """
       A  R  N  D  C  Q  E  G  H  I  L  K  M  F  P  S  T  W  Y  V  B  Z  X  *
    A  4 -1 -2 -2  0 -1 -1  0 -2 -1 -1 -1 -1 -2 -1  1  0 -3 -2  0 -2 -1  0 -4 
    R -1  5  0 -2 -3  1  0 -2  0 -3 -2  2 -1 -3 -2 -1 -1 -3 -2 -3 -1  0 -1 -4 
    N -2  0  6  1 -3  0  0  0  1 -3 -3  0 -2 -3 -2  1  0 -4 -2 -3  3  0 -1 -4 
    D -2 -2  1  6 -3  0  2 -1 -1 -3 -4 -1 -3 -3 -1  0 -1 -4 -3 -3  4  1 -1 -4 
    C  0 -3 -3 -3  9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4 
    Q -1  1  0  0 -3  5  2 -2  0 -3 -2  1  0 -3 -1  0 -1 -2 -1 -2  0  3 -1 -4 
    E -1  0  0  2 -4  2  5 -2  0 -3 -3  1 -2 -3 -1  0 -1 -3 -2 -2  1  4 -1 -4 
    G  0 -2  0 -1 -3 -2 -2  6 -2 -4 -4 -2 -3 -3 -2  0 -2 -2 -3 -3 -1 -2 -1 -4 
    H -2  0  1 -1 -3  0  0 -2  8 -3 -3 -1 -2 -1 -2 -1 -2 -2  2 -3  0  0 -1 -4 
    I -1 -3 -3 -3 -1 -3 -3 -4 -3  4  2 -3  1  0 -3 -2 -1 -3 -1  3 -3 -3 -1 -4 
    L -1 -2 -3 -4 -1 -2 -3 -4 -3  2  4 -2  2  0 -3 -2 -1 -2 -1  1 -4 -3 -1 -4 
    K -1  2  0 -1 -3  1  1 -2 -1 -3 -2  5 -1 -3 -1  0 -1 -3 -2 -2  0  1 -1 -4 
    M -1 -1 -2 -3 -1  0 -2 -3 -2  1  2 -1  5  0 -2 -1 -1 -1 -1  1 -3 -1 -1 -4 
    F -2 -3 -3 -3 -2 -3 -3 -3 -1  0  0 -3  0  6 -4 -2 -2  1  3 -1 -3 -3 -1 -4 
    P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4  7 -1 -1 -4 -3 -2 -2 -1 -2 -4 
    S  1 -1  1  0 -1  0  0  0 -1 -2 -2  0 -1 -2 -1  4  1 -3 -2 -2  0  0  0 -4 
    T  0 -1  0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1  1  5 -2 -2  0 -1 -1  0 -4 
    W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1  1 -4 -3 -2 11  2 -3 -4 -3 -2 -4 
    Y -2 -2 -2 -3 -2 -1 -2 -3  2 -1 -1 -2 -1  3 -3 -2 -2  2  7 -1 -3 -2 -1 -4 
    V  0 -3 -3 -3 -1 -2 -2 -3 -3  3  1 -2  1 -1 -2 -2  0 -3 -1  4 -3 -2 -1 -4 
    B -2 -1  3  4 -3  0  1 -1  0 -3 -4  0 -3 -3 -2  0 -1 -4 -3 -3  4  1 -1 -4 
    Z -1  0  0  1 -3  3  4 -2  0 -3 -3  1 -1 -3 -1  0 -1 -3 -2 -2  1  4 -1 -4 
    X  0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2  0  0 -2 -1 -1 -1 -1 -1 -4 
    * -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4  1 """

  D = {}

  fields, *M = [L.strip().split() for L in mat.splitlines() if L.strip() != '']

  for L in M:
      k, *L = L
      for f, v in zip(fields, L):
          if f not in D:
              D[f] = {}
          D[f][k] = int(v)
  return D

sm = blosum()

def score_pos(c1: str, c2: str, sm: str, gap_penalty: int):
  if c1 == '-' or c2 == '-':
      return gap_penalty
  else:
      return sm[c1][c2]

def score_align(seq1, seq2, sm, g):
  res = 0
  for i in range(len(seq1)):
      res += score_pos(seq1[i], seq2[i], sm, g)
  return res

In [None]:
class NWblosum:
  """
  Alinhamento global entre duas sequências, utilizando como base a matriz blosum62
    
      Parâmetros:
      ----------
          s1 : str
              sequência 1 a usar para realizar o alinhamento global
          
          s2 : str
              sequência 1 a usar para realizar o alinhamento global
          
          sm : str
              scoring matrix
          
          g : int
              valor de gap penalty, que é escolhido pelo usuário
        
      Métodos:
      ----------
          rebuild(self) -> str:
              Função de reconstrução do alinhamento, que começa no canto inferior direito
  """
  def __init__(self, s1: str, s2: str, sm: str, g: int) -> None:
    """
    Constutor com os atributos necessários para a class NW
    """
    self.s1 = s1
    self.s2 = s2
    self.mat = Mat(len(s1) + 1, len(s2) + 1)
    self.tr  = Mat(len(s1) + 1, len(s2) + 1)
    self.sm = sm
    self.g = g
    
    for L in range(len(s1)):
      self.mat[L + 1][0] = self.g * (L + 1)
      self.tr[L + 1][0]  = 'C'

    for C in range(len(s2)):
      self.mat[0][C + 1] = self.g * (C + 1)
      self.tr[0][C + 1]  = 'E'

    for L, x1 in enumerate(s1):
      for C, x2 in enumerate(s2):
        possiveis = [
            self.mat[L  ][C    ] + score_pos(self.s1[L-1], self.s2[C-1], self.sm, self.g),   # Diagonal
            self.mat[L+1][C    ] + self.g,               # Esquerda
            self.mat[L  ][C + 1] + self.g,               # Cima
        ]
        dirs = "DEC"

        self.mat[L + 1][C + 1] = max(possiveis)
        self.tr[L + 1][C + 1] = dirs[possiveis.index(self.mat[L + 1][C + 1])]

  def rebuild(self) -> str:
    """
    Função de reconstrução do alinhamento, que começa no canto inferior direito
    """
    L = len(self.s1)
    C = len(self.s2)
    S1 = ""
    S2 = ""
    
    dirs = {
        'D' : (-1, -1),
        'E' : ( 0, -1),
        'C' : (-1,  0)
    }

    while L > 0 or C > 0:
      DL, DC = dirs[self.tr[L][C]]

      if self.tr[L][C] == "D":
        S1 = self.s1[L - 1] + S1
        S2 = self.s2[C - 1] + S2
      elif self.tr[L][C] == "E":
        S1 = '-' + S1
        S2 = self.s2[C - 1] + S2
      else:
        S1 = self.s1[L - 1] + S1
        S2 = '-' + S2        

      L += DL
      C += DC

    return S1, S2

  def __repr__(self) -> str:
    cols = "-" + self.s2
    lins = "-" + self.s1
    with io.StringIO("") as S:
      print(' ', *cols, sep = '   ', file = S)
      for L, linha in zip(lins, self.mat):
        print(L, *[f'{x:3d}' for x in linha], file = S)

      print(file = S)

      print(' ', *cols, file = S)
      for L, linha in zip(lins, self.tr):
        print(L, *linha, file = S)

      return S.getvalue()

In [None]:
try:
    g = int(input("Introduza o valor de gap penalty: "))
    t = NWblosum("ACGTAGCTAG", "TTGCTAGATAGT", sm, g)

    print(t)
    print(*t.rebuild(), sep= "\n")
except:
  print("ERRO")

Introduza o valor de gap penalty: -3
    -   T   T   G   C   T   A   G   A   T   A   G   T
-   0  -3  -6  -9 -12 -15 -18 -21 -24 -27 -30 -33 -36
A  -3  -2  -5  -8  -3  -6  -9 -12 -15 -18 -21 -24 -27
C  -6  -3  -2  -5  -6  -3  -6  -5  -8 -11 -14 -17 -20
G  -9  -6  -4  -3  -6   3   0  -3  -6  -8 -11 -14 -17
T -12  -9  -7  -6   3   0   1   0   3   0  -3  -6  -8
A -15  -7  -4  -2   0   2   5   2   0   3   5   2  -1
G -18 -10  -7  -4  -2   0   2   9   6   4   3   9   6
C -21 -13 -10  -7   2  -1  -1   6  15  12   9   6  15
T -24 -16 -13 -10  -1  11   8   5  12  15  12   9  12
A -27 -19 -11  -8  -4   8  16  13  10  12  20  17  14
G -30 -22 -14 -11  -7   5  13  20  17  14  17  24  21

  - T T G C T A G A T A G T
- 0 E E E E E E E E E E E E
A C D D D D E E E D E E E D
C C D D D C D D D E D E D E
G C C D D E D E E E D E D E
T C C C D D E D D D E E E D
A C D D D C D D E C D D E E
G C C D D D D D D E D D D E
C C C C C D E C C D E E E D
T C C C C C D E E C D E D C
A C D D D C C D E E D D E E
G C C 

### Documentação NWblosum

In [None]:
print(NWblosum.__doc__)


  Alinhamento global entre duas sequências, utilizando como base a matriz blosum62
    
      Parâmetros:
      ----------
          s1 : str
              sequência 1 a usar para realizar o alinhamento global
          
          s2 : str
              sequência 1 a usar para realizar o alinhamento global
          
          sm : str
              scoring matrix
          
          g : int
              valor de gap penalty, que é escolhido pelo usuário
        
      Métodos:
      ----------
          rebuild(self) -> str:
              Função de reconstrução do alinhamento, que começa no canto inferior direito
  


### Considerações NWBlosum

Realizamos o alinhamento global tendo em consideração a matriz blosum62, não limitando as sequências apenas a DNA.

Neste caso o utilizador pode escolher o valor de gap penalty, dando um input.

(A utilização de try e excepts servem maioritariamente para cumprir requisitos da cadeira de IAPBD)

## Class Mult_Align

In [None]:
class Mult_align:
  """
  Alinhamento múltiplo de sequências


      Parâmetros:
      ----------
          seqs : list
              lista com sequências a usar para o alinhamento múltiplo
        
      Métodos:
      ----------
          align(self, seq1 : str, seq2: str) -> tuple
              Função que utiliza da class NW para fazer o alinhamento global entre duas sequências
              Variáveis:
                seq1 : str
                  sequência 1 para realizar o alinhamento
                seq2 : str
                  sequência 2 para realizar o alinhamento

              Returns:
                Tuplo com as duas sequências alinhadas


          numberseqs(self) -> int
              Conta o número de sequências presentes da lista de sequências dadas
            
              Returns:
                Valor inteiro com o número de sequências presentes na lista


          consensus(self, seq1: str, seq2: str) -> str
              Recebe duas sequências alinhadas pelo método de NW e devolve a sequência de consenso.
                Variáveis:
                  seq1 : str
                    primeira sequência alinhada
                  seq2 : str
                    segunda sequência alinhada

                Returns:
                  String com a sequência de consenso entre as duas sequências alinhadas
          

          best(self, *cars) -> str
                Variáveis:
                  cars : str

                Returns:
                  o caracter mais abundante numa determinada string
          

          consensus_mult(self, *seqs) -> str
              Realiza o consensus do alinhamento múltiplo de duas ou mais sequências presentes na lista dada

              Returns:
                String com o consensus do alinhamento múltiplo de duas ou mais sequências
          
          mult_align(self) -> list:
              Recebe uma lista de sequências e realiza o alinhamento múltiplo das mesmas

              Returns:
                Lista com as sequências alinhadas
  """

  def __init__(self, seqs: list) -> None:
    """
    Construtor da class Mult_align
    """
    self.seqs = seqs

    if type(self.seqs) != list:
      raise TypeError("As sequências devem estar numa lista")

    for seq in self.seqs:
      for c in seq.upper():
        if c not in "ACTG":
          raise ValueError("As sequências devem ser sequências de DNA.") 
    
    if len(self.seqs) < 2:
      raise ValueError("Devem ser introduzidas pelo menos 2 sequências.") 


  def align(self, seq1: str, seq2: str) -> tuple:
    """
    Função que utiliza da class NW para fazer o alinhamento global entre duas sequências
    Variáveis:
      seq1 : str
        sequência 1 para realizar o alinhamento
      seq2 : str
        sequência 2 para realizar o alinhamento
    Returns:
      Tuplo com as duas sequências alinhadas
    """
    nw = NW(seq1, seq2)
    return nw.rebuild()


  def numberseqs(self) -> int:
    """
    Conta o número de sequências presentes da lista
    """
    return len(self.seqs)

  def consensus(self, seq1: str, seq2: str) -> str:
    """
    Recebe duas sequências alinhadas e devolve a sequência de consenso.
    """
    return "".join(x1 if x1 != "-" else x2 for x1,x2 in zip(seq1,seq2))

  def best(self, *cars) -> str:
    """
    Variáveis:
      cars : str
    Returns:
      o caracter mais abundante numa determinada string
    """
    return max(cars, key = lambda x: cars.count(x))

  def consensus_mult(self, *seqs : list) -> str:
    """
    Retorna o consensus do alinhamento múltiplo de duas ou mais sequências
    """
    return ''.join([self.best(*s) for s in zip(*seqs)])

  def mult_align(self) -> list:
    """
    Recebe uma lista de sequências e retorna uma lista com as sequências alinhadas
    """
    seq1, seq2, *resto = self.seqs
    
    aligned1, aligned2 = self.align(seq1,seq2)
    consenso = self.consensus_mult(aligned1,aligned2)
      
    for seq in resto:
      aligned1, aligned2 = self.align(consenso,seq)
      consenso = self.consensus_mult(aligned1,aligned2)
      
    alignment = []
    for seq in self.seqs:
      aligned1, aligned2 = self.align(consenso,seq)
      alignment.append(aligned2)

    return alignment

In [None]:
seqM = Mult_align(["AGCCCCCAT","AGCTCGATGCTAG", "AGCTACTAGCTCATGC"])

print(Mult_align(["AGCCCCCAT","AGCTCGATGCTAG", "AGCTACTAGCTCATGC"]).mult_align())
# print(seqs.best())
alignment = seqM.mult_align()
print('\n'.join(alignment))
print()
consensus = seqM.consensus_mult(*alignment)
print(consensus)

['AGC--C---CCCAT--', 'AGC-TC-GATGC-TAG', 'AGCTACTAGCTCATGC']
AGC--C---CCCAT--
AGC-TC-GATGC-TAG
AGCTACTAGCTCATGC

AGC--C---CCCAT--


### Testes Class Mult_Align


In [None]:
class test_mult_align(unittest.TestCase):

  def test_DNA_sequences(self):
    self.assertEqual(Mult_align(["AGCTGCA","AGCTCGATGCTAG", "AGCTACTAGCTCATGC"]).mult_align(),["AG--C--TGC--A---","AGCTCGATGC-TA--G","AGCTACTAGCTCATGC"])

  def test_one_DNA_sequences(self):
    with self.assertRaises(ValueError) as context:
      Mult_align(["AGCTACTAGCTCATGC"]).mult_align()
      self.assertTrue("Devem ser introduzidas pelo menos 2 sequências.") in context.exception

  def test_RNA_sequences(self):
    with self.assertRaises(ValueError) as context:
      Mult_align(["AGCUGCA","AGCUCGAUGCUAG", "AGCUACUAGCUCAUGC"]).mult_align()
      self.assertTrue("As sequências devem ser sequências de DNA.") in context.exception
    
  def test_AMINO_sequences(self):
    with self.assertRaises(ValueError) as context:
      Mult_align(["DHGKSHRU","EFHSHEGFK", "EGMNBSHBFHE"]).mult_align()
      self.assertTrue("As sequências devem ser sequências de DNA.") in context.exception

  def test_ERROR_sequences(self):
    with self.assertRaises(ValueError) as context:
      Mult_align(["DHGKS66983489...4HRU","EFHSHE23764623...GFK", "EGMNBSHB28247542-4º+4!FHE"]).mult_align(),
      self.assertTrue("As sequências devem ser sequências de DNA.") in context.exception

suite=unittest.TestLoader().loadTestsFromTestCase(test_mult_align)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_AMINO_sequences (__main__.test_mult_align) ... ok
test_DNA_sequences (__main__.test_mult_align) ... ok
test_ERROR_sequences (__main__.test_mult_align) ... ok
test_RNA_sequences (__main__.test_mult_align) ... ok
test_one_DNA_sequences (__main__.test_mult_align) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.029s

OK


<unittest.runner.TextTestResult run=5 errors=0 failures=0>

In [None]:
class test_consensus(unittest.TestCase):

  def test_DNA_sequences(self):
    alignment = Mult_align(["AGCTGCA","AGCTCGATGCTAG", "AGCTACTAGCTCATGC"]).mult_align()
    self.assertEqual(Mult_align(["AGCTGCA","AGCTCGATGCTAG", "AGCTACTAGCTCATGC"]).consensus_mult(*alignment),"AGCTC--TGC--A---")


suite=unittest.TestLoader().loadTestsFromTestCase(test_consensus)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_DNA_sequences (__main__.test_consensus) ... ok

----------------------------------------------------------------------
Ran 1 test in 0.010s

OK


<unittest.runner.TextTestResult run=1 errors=0 failures=0>

### Documentação Class Mult_Align

In [None]:
print(Mult_align.__doc__)


  Alinhamento múltiplo de sequências


      Parâmetros:
      ----------
          seqs : list
              lista com sequências a usar para o alinhamento múltiplo
        
      Métodos:
      ----------
          align(self, seq1 : str, seq2: str) -> tuple
              Função que utiliza da class NW para fazer o alinhamento global entre duas sequências
              Variáveis:
                seq1 : str
                  sequência 1 para realizar o alinhamento
                seq2 : str
                  sequência 2 para realizar o alinhamento

              Returns:
                Tuplo com as duas sequências alinhadas


          numberseqs(self) -> int
              Conta o número de sequências presentes da lista de sequências dadas
            
              Returns:
                Valor inteiro com o número de sequências presentes na lista


          consensus(self, seq1: str, seq2: str) -> str
              Recebe duas sequências alinhadas pelo método de NW e devolve a s

### Considerações Class Mult_Align

A class Mult_align tem como objetivo realizar o alinhamento múltiplo entre duas ou mais sequências e encontrar o seu consensus.

Os testes permitem confirmar o bom desenho dos métodos criados. Os testes que foram realizados visam verificar que foram introduzidas duas ou mais sequências, de modo a permitir realizar o alinhamento e também perceber se todas as sequências introduzidas são de DNA.

Foi apenas realizado um teste para a def consensus_mult para confirmar que o consensus faz sentido, no entanto, não verificamos a presença de apenas sequências de DNA, uma vez que isso é testado anteriormente.

##Class Blast

BLAST

In [None]:
pip install mysql.connector

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting mysql.connector
  Downloading mysql-connector-2.2.9.tar.gz (11.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.9/11.9 MB[0m [31m49.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: mysql.connector
  Building wheel for mysql.connector (setup.py) ... [?25l[?25hdone
  Created wheel for mysql.connector: filename=mysql_connector-2.2.9-cp38-cp38-linux_x86_64.whl size=247965 sha256=bdf46bc1a896997bc257dfcff7fff4484ebbe69e5670fdfea25c23342a453dd3
  Stored in directory: /root/.cache/pip/wheels/57/e4/98/5feafb5c393dd2540e44b064a6f95832990d543e5b4f53ea8f
Successfully built mysql.connector
Installing collected packages: mysql.connector
Successfully installed mysql.connector-2.2.9


In [None]:
# insert = input()
insert = input("Introduza um dos seguintes organismos para procurar a respetiva sequência da base de dados: Homo sapiens, Mus musculus, Neurospora crassa, Ciona intestinalis, Nicotiana benthamiana, Chlorarachnion sp. 1 ")

def sql_import(insert:str)-> list:
  """
  Função que realiza a conexão à base de dados criada na cadeia de IAPBD e retorna uma lista com a sequência do organismo que o utilizador quiser comparar no BLAST
  
  Variáveis:
    insert : str
      input do utilizador com o organismo cuja sequência pretende comparar com a sua sequência query 

  Returns:
    lista da sequência do organismo escolhido
  """
  import mysql.connector as SQLC
  try: 
      DataBase = SQLC.connect(
          host ="geo.di.uminho.pt",
          user ="bioinformatica",
          password ="20221207",
          database ="Project_TJM"
      )
      Cursor = DataBase.cursor()

      org_list = []
      select_org = f"SELECT Distinct Organism from LOCUS where Organism = '{insert}';"

      Cursor.execute(select_org)
      myresult_org = Cursor.fetchall()
      for res, in myresult_org:
          org_list.append(res)

      seq_list = []
      select_seq = f"SELECT Sequence from ORIGIN JOIN GENBANK on ORIGIN.Id_Origin = GENBANK.Id_GB JOIN LOCUS on GENBANK.Id_GB = LOCUS.Id_Locus Where LOCUS.Organism = '{insert}' LIMIT 1;"

      Cursor.execute(select_seq)
      myresult_seq = Cursor.fetchall()
      for res, in myresult_seq:
          seq_list.append(res)
  

  except SQLC.Error as error:
      print("Failed to insert record into MySQL table {}".format(error))
  return seq_list
sql_import(insert)

KeyboardInterrupt: ignored

In [None]:
class Blast:
  """
  BLAST simplificado


      Parâmetros:
      ----------
          query : str
              string da sequência query a comparar na base de dados 

          seq : list
              lista com a sequência importada da base de dados SQL
            
          w : int
              valor inteiro da window, que toma, por default, o inteiro 3

        
      Métodos:
      ----------
          query_map(self) -> dict
              Recebe a sequência e o tamanho w e obtemos um dicionário onde o valor das chaves representam subseqs de tamanho 'w' e os valores representam os offsets (lista de índices)

              Returns:
                Dicionário em que as chaves são as sequências e os valores são uma lista dos índices


          get_all_offsets(self, s1: str, s2: str) -> list
              Variáveis:
                s1 : str
                  sequência 1
                s2 : str
                  sequência 2
              Returns:
                Lista com os offsets
          

          hits(self) -> list 
              Recebe o dicionário da função query_map e uma sequência da BD e devolve uma lista de hits em que cada elemento é um tuplo com os índices  
              
              Returns:
                Lista[hits], onde hit = o1,o2, onde o1 é o offset da query e o2 é o offset da seq
          

          extend_hit_dir(self,query: str,seq: str , o1: int, o2: int, direction: int) -> tuple:
              Recebe a query, a sequência da BD, o hit e o valor de w e o estende um hit em cada direção se o nº de matches 
              for de pelo menos metade do tamanho da extensão

              Variáveis:
                query : str
                  sequência query a comparar na base de dados
                seq : str
                  sequência importada da base de dados SQL
                o1 : int
                  offset da query
                o2 : int
                  offset da seq
                direction: int
                  direção da extensão, que pode ser -1 ou +1
              
              Returns:
                Tuplo com o índice do início do hit estendido na query, na sequência, o tamanho e o nº de matches

                      
          extend_hit(self,hit) -> tuple
              Variáveis:
                hit: tuplo (offset da query, offset da seq)
              Returns:
                tuplo (o1, o2, size, matches)
          
          best_hit (self) -> tuple
              Recebe uma query, uma sequência da BD e o w e que devolve a extensão de maior score (no caso de empate, deverá devolver a de menor tamanho que aparece primeiro)

              Returns:
                Tuplo com a extensão de maior score
  """
  def __init__(self, query:str, seq:list, w:int=3) -> None:
    """
    Construtor da class Blast
    """
    self.seq = seq
    self.query = query
    self.w = w

    if self.seq == "" or self.query == "":
      raise ValueError("A sequência e ou a query não podem ser vazias.")

    if type(self.seq) != str or type(self.query) != str:
      raise TypeError("A sequência e a query devem ser uma string.")

    for c in self.query.upper() + self.seq.upper():
      if c not in "ACTGN":
        raise ValueError("A sequência e a query devem ser sequências de DNA.")

    if type(self.w) != int:
      raise TypeError("O parâmetro 'w' deve ser um inteiro.")

    if self.w < 2 or self.w > len(self.query):
      raise ValueError("O valor do parâmetro 'w' deve estar entre o intervalo [2, tamanho da query)].")

  def query_map(self) -> dict:
      """
      Recebe a sequência e o tamanho w e obtemos um dicionário onde o valor das chaves representam subseqs de tamanho 'w' e os valores representam os offsets (lista de índices)

      Returns:
        Dicionário em que as chaves são as sequências e os valores são uma lista dos índices
      """
      tam = len(self.query)
      res = {}
      for chave, offset in [(self.query[p:p+self.w], p) for p in range(0, tam - self.w+1)]:
          if chave not in res:
              res[chave] = []
          res[chave].append(offset)
      return res

  def get_all_offsets(self, s1: str, s2: str) -> list:
      """
      Variáveis:
        s1 : str
          sequência 1
        s2 : str
          sequência 2
      Returns:
        Lista com os offsets
      """
      w = len(s1)
      res = []
      for p in range(0, len(s2) - w+1):
          if s2[p:p+w] == s1:
              res.append(p)
              
      return res

  def hits(self) -> list:
      """      
      Recebe o dicionário da função query_map e uma sequência da BD e devolve uma lista de hits em que cada elemento é um tuplo com os índices  
              
      Returns:
        Lista[hits], onde hit = o1,o2, onde o1 é o offset da query e o2 é o offset da seq
      """
      qm = self.query_map()
      res = []
      for chave, offsets in qm.items():
          for o_query in offsets:
              for o_seq in self.get_all_offsets(chave, self.seq):
                  res.append((o_query, o_seq))
      return res
 

  def extend_hit_dir(self,query: str,seq: str , o1: int, o2: int, direction: int) -> tuple:
    """
    Recebe a query, a sequência da BD, o hit e o valor de w e o estende um hit em cada direção se o nº de matches for de pelo menos metade do tamanho da extensão

    Variáveis:
      query : str
        sequência query a comparar na base de dados
      seq : str
        sequência importada da base de dados SQL
      o1 : int
        offset da query
      o2 : int
        offset da seq
      direction: int
        direção da extensão, que pode ser -1 ou +1
    
    Returns:
      Tuplo com o índice do início do hit estendido na query, na sequência, o tamanho e o nº de matches
    """
    matches = 0
    count = 0
    while o1 >= 0 and o2 >= 0 and o1 < len(query) and o2 < len(seq):
      matches += 1 if query[o1] == seq[o2] else 0
      count += 1
      if 2 * matches < count:
        return o1, o2, matches, count
      o1 += direction
      o2 += direction
    return o1 - direction, o2 - direction, matches, count

  def extend_hit(self,hit) -> tuple:
    """
    Variáveis:
      hit: tuplo (offset da query, offset da seq)

    Returns:
     tuplo (o1, o2, size, matches)    
    """
    query: str = self.query
    seq: str = self.seq
    w: float = self.w

    o1, o2 = hit
    left  = self.extend_hit_dir(self.query, self.seq, (o1 - 1), (o2 - 1), (-1))
    right = self.extend_hit_dir(self.query, self.seq, (o1 + w), (o2 + w), (+1))

    """
    O for offset
    M for match
    S for size
    """
    O1, O2, ML, SL = left
    _,   _, MR, SR = right

    return O1, O2, w + SL + SR, ML + w + MR

  def best_hit (self) -> tuple:
    """
    Recebe uma query, uma sequência da BD e o w e que devolve a extensão de maior score (no caso de empate, deverá devolver a de menor tamanho que aparece primeiro)

    Returns:
      Tuplo com a extensão de maior score
    """
    query: str = self.query
    seq: str = self.seq
    w: float = self.w
    qm = self.query_map()
    lista_hits = self.hits()
    all_scores = [self.extend_hit(hit) for hit in lista_hits]
    all_scores.sort(key=lambda hit: hit[2] and hit[3], reverse=True)
    if all_scores == []:
        return print("Not Found")
    else:
        return all_scores [0]


In [None]:
try:
  seq = sql_import(input("Introduza um dos seguintes organismos para procurar a respetiva sequência da base de dados: Homo sapiens, Mus musculus, Neurospora crassa, Ciona intestinalis, Nicotiana benthamiana, Chlorarachnion sp. 1"))[0].upper()
  print(seq)
  query = Blast("AATATAT", seq, 3 )
  query.query_map()
  hits = query.hits()
  for hit in hits:
    print(query.extend_hit(hit))
  print('Melhor hit:')
  print(query.best_hit())

  
except:
  print("ERRO. Insira um organismo válido.")

In [None]:
#teste
query = Blast("AATATAT", "AATATGTTATATAATAATATTT", 3 )
query.query_map()
hits = query.hits()
for hit in hits:
  print(query.extend_hit(hit))
print('Best hit')
query.best_hit()

In [None]:
print(Blast.__doc__)

### Testes Class Blast

In [None]:
class test_blast(unittest.TestCase):

  def test_DNA_sequences(self):
    self.assertEqual(Blast("AATATAT", "AATATGTTNATATAATAATATTT", 3).best_hit(), (0, 0, 7, 6))

  def test_only_one_sequence(self):
    with self.assertRaises(ValueError) as context:
      Blast("", "AATATGTTATATAATAATATTT", 3).best_hit()
      self.assertTrue("A sequência e ou a query não podem ser vazias." in context.exception)

  def test_RNA_sequences(self):
    with self.assertRaises(ValueError) as context:
      Blast("AAUAUAU", "AAUAUGUUAUAUAAUAATAUUU", 3).best_hit()
      self.assertTrue("A sequência e a query devem ser sequências de DNA." in context.exception)

  def test_AMINO_sequences(self):
      with self.assertRaises(ValueError) as context:
        Blast("FDJHMLAS_SKU", "EOHMLAS_EHKFH", 3).best_hit()
        self.assertTrue("A sequência e a query devem ser sequências de DNA." in context.exception)

  def test_ERROR_sequences(self):
    with self.assertRaises(ValueError) as context:
      Blast("4727869837695", "EGWJB4KU3HI73982", 3).best_hit()
      self.assertTrue("A sequência e a query devem ser sequências de DNA." in context.exception)

  def test_missing_window(self):
    self.assertEqual(Blast("AATATAT", "AATATGTTATATAATAATATTT").best_hit(), (0, 0, 7, 6))

  def test_different_type_window(self):
    with self.assertRaises(TypeError) as context:
      Blast("AATATAT", "AATATGTTATATAATAATATTT", "a").best_hit()
      self.assertTrue("O parâmetro 'w' deve ser um inteiro." in context.exception)

  def test_lower_limit_w(self):
    with self.assertRaises(ValueError) as context:
      Blast("AATATAT", "AATATGTTATATAATAATATTT", 1).best_hit()
      self.assertTrue("O valor do parâmetro 'w' deve estar entre o intervalo [2, tamanho da query)]." in context.exception)

  def test_higher_limit_w(self):
    with self.assertRaises(ValueError) as context:
      Blast("AATATAT", "AATATGTTATATAATAATATTT", 10).best_hit()
      self.assertTrue("O valor do parâmetro 'w' deve estar entre o intervalo [2, tamanho da query)]." in context.exception)

suite=unittest.TestLoader().loadTestsFromTestCase(test_blast)
unittest.TextTestRunner( verbosity=3 ).run( suite )

### Documentação Class Blast


In [None]:
print(Blast.__doc__)

### Considerações Class BLAST

Nesta class procuramos realizar o Blast simplificado a partir de sequências presentes na base de dados desenhada para a cadeira de IAPBD.

Primeiramente definimos uma função onde o utilizador insere o nome de um organismo presente na base de dados cujo pretende comparar a sua sequência com uma sequência query dada. Para isso, realizamos a conexão à base de dados da cadeira de IAPBD para ir buscar esses valores. O organismo a inserir tem que ser um que esteja presente na base de dados e, por isso, são sugeridos no input.

Depois definimos que as letras aceitáveis na seq ou query são "ATGCN". Isto uma vez que o N representa um nucleótido ambíguo (A ou C ou T ou G) e também porque aparece várias vezes na nossa base de dados. Foi uma solução encontrada de modo a que esta class resulte.

Parte dos testes realizados seguem o pensamento utilizado anteriormente, para verificar o tipo de molécula da sequência e também evitar que seja introduzido um valor ou tipo inválido de sequências.

## Class Enzimas de Restrição/Motifs Prosite



In [None]:
class Prosite_enzyme:
  """
  Enzimas de restrição e Motifs PROSITE

      Parâmetros:
      ----------
          seq : str
              sequência de DNA 

          enzyme : str
              sequência do padrão do local de corte

        
      Métodos:
      ----------
          convert(self, enz) -> str
              Converte letra da sequência no seu equivalente em nucleótido
              Variáveis:
                enz : str
              Returns:
                String de nucleótidos correspondentes a cada caractere de enz 

          enz_cut(self) -> str
              Divide o Enzyme em duas strings, e1 e e2, sequências antes e depois do corte, respetivamente
              
              Returns:
                String com o padrão PROSITE
          
          position_cut_seq(self) -> list:
              Indica os locais onde podem ser feitos os cortes

              Returns:
                Lista com posições dos possíveis cortes
          
          cut_seq(self) -> list:
              Retorna os fragmentos após corte
              
              Returns:
                Lista com fragmentos após corte
                    
    """
  
  def __init__(self, seq: str, enzyme:str) -> None:
    import re
    if type(seq) != str or type(enzyme) != str:
      raise TypeError("A sequência 'seq' e o local de corte da enzima 'enzyme' devem ser uma string.")

    for c in seq.upper():
      if c not in "ACTG":
        raise ValueError("A sequência deve ser uma sequência válida de DNA.")

    for c in enzyme.upper():
      if c not in "^ACTGRYMKSWBDHVN":
        raise ValueError("'Enzyme' deve ser uma enzima de restrição válida.")

    a = re.findall(r"[\^]+", enzyme)
    if a == []:
      raise ValueError("'Enzyme' deve ser uma enzima de restrição válida, ou seja, deve apresentar um local de corte.")
    
    if len(a)!= 1:
      raise ValueError("'Enzyme' deve ser uma enzima de restrição válida, ou seja, deve apresentar apenas um local de corte.")

    self.seq = seq
    self.enzyme = enzyme

  def __getitem__(self, n) -> str:
    """
    Interface para a indexação []
    """
    return self.seq[n]

  def convert(self, enz:str) -> str:
    """
    Converte letra da sequência no seu equivalente em nucleótido
    Variáveis:
      enz : str
    Returns:
      nucleótidos correspondentes a cada caractere de enz 
    """
    enzimas = {"R" : "[GA]", "Y" : "[CT]", "M" : "[AC]", "K" : "[GT]", "S" : "[GC]", "W" : "[AT]", "B" : "[^A]", "D" : "[^C]", "H" : "[^G]", "V" : "[^T]", "N" : "[ACGT]"}
    return ''.join([enzimas.get(x, x) for x in enz])

  def enz_cut(self) -> str:
    """
    Divide o Enzyme em duas strings, e1 e e2, sequências antes e depois do corte, respetivamente

    Returns:
      String com o padrão PROSITE
    """
    e1, e2 = self.enzyme.split('^')
    return f"(?<={self.convert(e1)}){self.convert(e2)}"

  def position_cut_seq(self) -> list:
    """
    Indica os locais onde podem ser feitos os cortes

    Returns:
      Lista com posições dos possíveis cortes
    """
    import re
    pos = [m.span()[0] for m in re.finditer(self.enz_cut(),self.seq)]
    if pos == []:
      raise ValueError("A sequência não possui locais reconhecidos pela enzima de corte.")
    else:
      return pos

  def cut_seq(self) -> list:
    """
    Retorna os fragmentos após corte

    Returns:
      Lista com fragmentos após corte
    """
    pos=self.position_cut_seq()
    return [self.seq[i:j] for i,j in zip([0,*pos],[*pos,len(self.seq)])]

In [None]:
teste = Prosite_enzyme("TAAGACTGAATGACTCG","G^AMTV")
print(teste.enz_cut())
print(teste.position_cut_seq())
print(teste.cut_seq())
print(teste.convert("AMT"))

### Testes Class Prosite_Enzyme

In [None]:
class test_enz_cut(unittest.TestCase):

  def test_normal_sequences(self):
    self.assertEqual(Prosite_enzyme("TAAGACTGAATGACTCG","G^AMTV").enz_cut(), "(?<=G)A[AC]T[^T]")

  def test_no_cut(self):
    with self.assertRaises(ValueError) as context:
      Prosite_enzyme("TAAGACTGAATGACTCG","GAMTV").enz_cut()
      self.assertTrue("'Enzyme' deve ser uma enzima de restrição válida, ou seja, deve apresentar um local de corte.") in context.exception

  def test_invalid_enzyme(self):
    with self.assertRaises(ValueError) as context:
      Prosite_enzyme("TAAGACTGAATGACTCG","MYT^NVWAEC").enz_cut()
      self.assertTrue("'Enzyme' deve ser uma enzima de restrição válida.") in context.exception

  def test_invalid_DNA_sequences(self):
    with self.assertRaises(ValueError) as context:
      Prosite_enzyme("TAAGACTGAATGACTCHG","MYT^NVWAEC").enz_cut()
      self.assertTrue("A sequência deve ser uma sequência válida de DNA.") in context.exception

  def test_2_cuts(self):
      with self.assertRaises(ValueError) as context:
        Prosite_enzyme("TAAGACTGAATGACTCHG","MYT^NVWA^EC").enz_cut()
        self.assertTrue("'Enzyme' deve ser uma enzima de restrição válida, ou seja, deve apresentar apenas um local de corte.") in context.exception
        

suite=unittest.TestLoader().loadTestsFromTestCase(test_enz_cut)
unittest.TextTestRunner( verbosity=3 ).run( suite )

In [None]:
class test_position_cut_seq(unittest.TestCase):
  
  def test_normal_sequences(self):
    self.assertEqual(Prosite_enzyme("TAAGACTGAATGACTCG","G^AMTV").position_cut_seq(), [4, 8, 12])

  def test_no_cuts_recognized(self):
      with self.assertRaises(ValueError) as context:
        Prosite_enzyme("TAAGACTGAATGACTCG","MYT^NVWAC").position_cut_seq()
        self.assertTrue("A sequência não possui locais reconhecidos pela enzima de corte.") in context.exception
        
suite=unittest.TestLoader().loadTestsFromTestCase(test_position_cut_seq)
unittest.TextTestRunner( verbosity=3 ).run( suite )

In [None]:
class test_cut_seq(unittest.TestCase):
  
  def test_normal_sequences(self):
    self.assertEqual(Prosite_enzyme("TAAGACTGAATGACTCG","G^AMTV").cut_seq(), ['TAAG', 'ACTG', 'AATG', 'ACTCG'])

  def test_no_cuts_recognized(self):
      with self.assertRaises(ValueError) as context:
        Prosite_enzyme("TAAGACTGAATGACTCG","MYT^NVWAC").cut_seq()
        self.assertTrue("A sequência não possui locais reconhecidos pela enzima de corte.") in context.exception
        
suite=unittest.TestLoader().loadTestsFromTestCase(test_cut_seq)
unittest.TextTestRunner( verbosity=3 ).run( suite )

### Documentação Class Prosite_enzymes

In [None]:
print(Prosite_enzyme.__doc__)

### Considerações Class Prosite_enzymes

Nesta classe nos procuramos defnir metodos que depois de introduzida uma sequencia de DNA e uma sequencia que mostra o corte de uma determinada enzima, mostrar a posição onde corta e os fragmentos que originam.

Aqui testamos como em outras classes os tipos de sequencia, que neste caso apenas permitimos DNA, e tambem para confirmar que o nosso programa não funcionava com exemplos de "enzimas" que utilizadores inserirem sem ou com 2 ou mais "^" que indica uma enzima invalida. E que tambem levaria a erro se a sequencia não tivesse aquele padrao onde certa enzima corta, de forma a que o utilizador saiba que esse é o problema.


## Class Motifs Probabilisticos

MOTIFS PROBABILISTICOS PWM E PSSM

In [None]:
class Motifs:
	"""
	Determinação de motifs e perfis probabilísticos (PWM e PSSM).
	PWM, position weight matrix, é uma representação usada de motifs (padrões) em sequências biológicas.
	PSSM, position-specific scoring matrix, usa a matriz anterior e transforma os valores em logaritmos.


      Parâmetros:
      ----------
          seqs : list
              lista de sequências 

          pseudo : float
              valor de pseudocontagem

        
      Métodos:
      ----------
			
				contagens(self,chars) -> list
					Conta o número de caracteres em cada posição de todas as sequências

					Returns:
						Lista com o número de caracteres em cada posição de todas as sequências

				pwm(self) -> dict
					Retorna o valor da probabilidade da ocorrência de cada caracter em cada posição

				pssm(self) -> dict
					Retorna o logaritmo do valor da probabilidade da ocorrência de cada caracter em cada posição

				prob_seq(self, seq:str) -> float
						Probabilidade de dada sequência ser um motif
					Variáveis:
						seq : str
							sequência dada
					
					Returns: 
						Valor float com a probabilidade de a dada sequência ser um motif

				seq_mais_provavel(self, seq : str)-> str
						De uma dada nova sequência, identifica um fragmento da sequência mais provável de ser motif
					Variáveis:
						seq : str

					Returns:
						String que com o fragmento da dada sequência mais provável de ser motif
	"""

	def __init__(self, seqs: list, pseudo: float) -> None:

		if type(seqs) != list:
			raise TypeError("O parametro 'seqs' deve ser uma list")

		if not (type(pseudo) == float or type(pseudo)== int):
			raise TypeError("O parametro 'pseudo' deve ser um inteiro ou 'float'")

		if pseudo < 0:
			raise ValueError("O valor de pseudo não pode ser um número negativo.")

		if len(seqs) < 2:
			raise ValueError("São necessárias pelo menos 2 sequências.")

		for seq in seqs:
			seq_a = seqs[0]
			if len(seq_a) != len(seq):
				raise ValueError("Todas as sequências devem ter o mesmo tamanho.")

		self.seqs = seqs
		self.pseudo = pseudo

	def contagens(self,chars) -> list:
		"""
		Conta o número de caracteres em cada posição de todas as sequências
		"""
		return [{x : s.count(x) + self.pseudo for x in chars} for s in zip(*self.seqs)]


	def pwm(self) -> dict:
		"""
		Retorna o valor da probabilidade da ocorrência de cada caracter em cada posição
		"""
		chars = set(''.join(self.seqs))
		cont = self.contagens(chars)
		return [{k: v/sum(d.values()) for k,v in d.items()} for d in cont]
	

	def pssm(self) -> dict:
		"""
		Retorna o logaritmo do valor da probabilidade da ocorrência de cada caracter em cada posição
		"""
		if self.pseudo == 0:
			raise ValueError("O valor de pseudo para o PSSM não pode ser 0.")
		else:
			P = self.pwm()
			nchars = len(set(''.join(self.seqs)))
			from math import log2
			return [{k: log2(v/(1/nchars)) for k,v in d.items()} for d in P]

	def prob_seq(self, seq:str) -> float:
		"""
		Probabilidade de dada sequência ser um motif
		Variáveis:
			seq : str
				sequência dada
		Returns:
			Retorna um valor float com a probabilidade de dada sequência ser um motif
		"""
		seq=seq.upper()
		for seq1 in self.seqs:
			if len(seq) > len(seq1):
				raise ValueError("Query motif não pode ser maior que as sequencia no qual o estamos a procurar.")
			else:
				P = 1
				for p in [d[x] for x, d in zip(seq, self.pwm())]:
					P*=p
				return P 

	def seq_mais_provavel(self, seq : str)-> str:
		"""
		De uma dada nova sequência, identifica um fragmento da sequência mais provável de ser motif
		Variáveis:
			seq : str

		Returns:
			Retorna uma string que com o fragmento da dada sequência mais provável de ser motif
		"""
		import re
		tam = len(self.pwm())
		cand = re.findall("(?=(....))", seq)
		por_prob = lambda C: self.prob_seq(C)
		return max(cand, key = por_prob)

In [None]:
seqs2 = """HEM13 CCCATTGTTCTC
HEM13 TTTCTGGTTCTC
HEM13 TCAATTGTTTAG
ANB1 CTCATTGTTGTC
ANB1 TCCATTGTTCTC
ANB1 CCTATTGTTCTC
ANB1 TCCATTGTTCGT
ROX1 CCAATTGTTTTG"""

seqs2 = [x.split()[1] for x in seqs2.splitlines()]
seqs2


In [None]:
teste = Motifs(seqs2, 0.5)
Motifs(['CCCATTGTTCTC','TTTCTGGTTCTC','TCAATTGTTTAG'], 0.5).pwm()
print(teste.pwm())
print(teste.pssm())
print(teste.prob_seq('TAAAT'))
print(teste.seq_mais_provavel("ACCGTGAAAAAA"))
# teste.seq_most()
# teste.__calc_profile()


### Testes Class Motifs


In [None]:
class test_Motifs_pwm(unittest.TestCase):

  def test_diff_length_seqs(self):
    with self.assertRaises(ValueError) as context:
      Motifs(["AGCTGCA","AGCTCGATGCTAG", "AGCTACTAGCTCATGC"], 0.5).pwm()
      self.assertTrue("Todas as sequências devem ter o mesmo tamanho.") in context.exception

  def test_one_seq(self):
    with self.assertRaises(ValueError) as context:
      Motifs(["AGCTGCA"], 0.5).pwm()
      self.assertTrue("São necessárias pelo menos 2 sequências.") in context.exception

  def test_valor_menor_que_0(self):
    with self.assertRaises(ValueError) as context:
      Motifs(['CCCATTGTTCTC','TTTCTGGTTCTC','TCAATTGTTTAG'], -1).pwm()
      self.assertTrue("O valor de pseudo não pode ser um número negativo.") in context.exception


suite=unittest.TestLoader().loadTestsFromTestCase(test_Motifs_pwm)
unittest.TextTestRunner( verbosity=3 ).run( suite )

In [None]:
class test_Motifs_pssm(unittest.TestCase):

  def test_value_equal_0(self):
    with self.assertRaises(ValueError) as context:
      Motifs(['CCCATTGTTCTC','TTTCTGGTTCTC','TCAATTGTTTAG'], 0).pssm()
      self.assertTrue("O valor de pseudo para o PSSM não pode ser 0.") in context.exception


suite=unittest.TestLoader().loadTestsFromTestCase(test_Motifs_pssm)
unittest.TextTestRunner( verbosity=3 ).run( suite )

In [None]:
class test_Motifs_prob_seq(unittest.TestCase):

  def test_prob_seq_query_min(self):
    self.assertEqual(Motifs(['CCCATTGTTCTC','TTTCTGGTTCTC','TCAATTGTTTAG'], 0.5).prob_seq("ttgt"),0.0015)

  def test_prob_seq(self):
    self.assertEqual(Motifs(['CCCATTGTTCTC','TTTCTGGTTCTC','TCAATTGTTTAG'], 0.5).prob_seq("TTGT"),0.0015)

  def test_prob_seq_query_bigger(self):
    with self.assertRaises(ValueError) as context:
      Motifs(['CCCATTGTTCTC','TTTCTGGTTCTC','TCAATTGTTTAG'], 0.5).prob_seq("TGACAGTCGATCGATGACAGTCA")
      self.assertTrue("Query motif não pode ser maior que as sequencia no qual o estamos a procurar.") in context.exception


suite=unittest.TestLoader().loadTestsFromTestCase(test_Motifs_prob_seq)
unittest.TextTestRunner( verbosity=3 ).run( suite )

### Documentação Class Motifs

In [None]:
print(Motifs.__doc__)

### Considerações Class Motifs

Nesta classe procuramos descobrir se a partir de uma série de sequências, a probabilidade de uma dada sequencia ser motif e de uma nova sequencia se existe algum motif possivel encontrado.

Nos testes quisemos testar de forma a ver se nos faltava algum pressuposto destas matrizes, como o facto de para a matriz de PSSM o valor de pseudo poderia 0 uma vez que nao existe logoritmo de 0, e para todos ter pseudocontagem de -1.