# Tema 2 - **Processamento básico de sequências**

## Representação e algoritmos básicos

* Validação da sequência

Esta função tem como objetivo retornar a validade de uma sequência de DNA. Onde, caso seja válida retorna **True** e caso seja inválida retorna **False**. Nesta função, é verificado se a sequência contém somente os caractéres que representam os nucleótidos: A, T, C e G.

A função começa por verificar se a sequência introduzida não é uma string vazia, de seguida, susbtitui letras minúsculas por letras maiúsculas e remove enventuais espaços. No final, itera por cada base presente na sequência e verifica se pertencem ao conjunto de bases válidas (A, T, C e G). 

In [44]:
def validar_dna(seq):
    
    """
    Devolve a validade de uma sequência de DNA

    
    Parâmetro
    -------------
    seq : str
        Uma string que representa a sequência de DNA

    
    Retorna
    -------------
    bool : True se for uma sequência válida ou False se for uma sequência inválida
    
    """
    if not bool(seq): return False
    
    seq = seq.upper()        
    seq = seq.replace(" ","")   

    valido_dna = True
    
    for base in seq:                  
        if base not in "ATCG":         
            valido_dna = False
    
    if valido_dna == False:
        return False
    else:
        return True

In [47]:
import unittest

class TestValidarDNA(unittest.TestCase):
    def test_validardna_vazio(self):
        self.assertFalse( validar_dna("") )
    
    def test_validar_dna_separador_invalido(self):
        self.assertFalse( validar_dna("AAATTGCG.TGGTG-TGGT") )

    def test_validar_dna_nucleotido_invalido(self):
        self.assertFalse( validar_dna("DATAGAT") )
        
    def test_validar_dna_correta(self):
        self.assertTrue( validar_dna("AA TGT CG ") )

    def test_validar_dna_minuscula(self):
        self.assertTrue( validar_dna("atgctcgatagct") )

    def test_numeros_e_simbolos(self):
        self.assertFalse( validar_dna("44TC$$G"))


suite = unittest.TestLoader().loadTestsFromTestCase(TestValidarDNA)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_numeros_e_simbolos (__main__.TestValidarDNA.test_numeros_e_simbolos) ... ok
test_validar_dna_correta (__main__.TestValidarDNA.test_validar_dna_correta) ... ok
test_validar_dna_minuscula (__main__.TestValidarDNA.test_validar_dna_minuscula) ... ok
test_validar_dna_nucleotido_invalido (__main__.TestValidarDNA.test_validar_dna_nucleotido_invalido) ... ok
test_validar_dna_separador_invalido (__main__.TestValidarDNA.test_validar_dna_separador_invalido) ... ok
test_validardna_vazio (__main__.TestValidarDNA.test_validardna_vazio) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.004s

OK


<unittest.runner.TextTestResult run=6 errors=0 failures=0>

**- Aprimoração de sequência de DNA**

Para ser possível aprimorar as sequências (que podem ser DNA ou RNA) nos códigos seguintes, foi criada uma função auxiliar que tem como intuito substituir as letras minúsculas por letras maiúsculas e a remoção dos espaços em branco presentes na sequência inserida. A função intitula-se de: ``aprimorar_seq()``.

Note-se que, nos códigos seguintes, a validação da sequência de DNA, será verificada utilizando a função ``validar_dna()`` antes da invocação da função ``aprimorar_seq()``.

In [48]:
def aprimorar_seq(seq):
    """
    Devolve uma sequência só com letras maiúsculas e sem espaços em branco

    Parameters
    -------------
    seq : str
        Uma string que representa a sequência 

    Returns
    -------------
    str
        sequência de letras em maiúsculas e sem espaços em branco
    
    """
    return seq.upper().replace(" ","")
     

In [52]:
# Testes de unidade

class TestAprimorarSeq(unittest.TestCase):
    def test_aprimorarseq_espaco(self):
        self.assertEqual( aprimorar_seq("AT     GC"), "ATGC" )
    
    def test_aprimorarseq_min(self):
        self.assertEqual( aprimorar_seq("atcg"), "ATCG" )
    
    def test_aprimorarseq_min_espaco(self):
        self.assertEqual( aprimorar_seq("at  cg"), "ATCG" )

suite = unittest.TestLoader().loadTestsFromTestCase(TestAprimorarSeq)
unittest.TextTestRunner( verbosity = 3 ).run( suite )

test_aprimorarseq_espaco (__main__.TestAprimorarSeq.test_aprimorarseq_espaco) ... ok
test_aprimorarseq_min (__main__.TestAprimorarSeq.test_aprimorarseq_min) ... ok
test_aprimorarseq_min_espaco (__main__.TestAprimorarSeq.test_aprimorarseq_min_espaco) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.003s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

**- Frequência das bases**

Esta função permitirá calcular a frequência das bases de uma sequência de DNA. 

Em primeiro lugar, verifica se a sequência é válida através da função previamente feita ``validar_dna()``. Caso seja inválida, é levantado um ``ValueError`` que nos indica que a sequência utilizada é inválida. Depois, retorna a sequência de DNA com as bases em maiúsculas e sem espaços em branco através da função ``aprimorar_seq()``.

De seguida, através da função ``count()`` é contabilizado a frequência das bases válidas (A, T, C e G), cada frequência de base é guardada numa variável. 

Por fim, é criado um dicionário, onde as chaves são as bases de DNA e os valores as suas frequências.

In [53]:
def contar_bases(seq):

    """
    Devolve um dicionário com as frequências das bases de uma string de DNA (A, C, T e G)

    
    Parâmetros
    -------------
    seq : str
        Uma string que representa a sequência de DNA

    
    Retorna
    -------------
    resultado : dict
        Dicionário com as frequências das bases da sequência introduzida
        As chaves são as bases "A", "T", "C" e "G" e os valores as frequências correspondentes

        
    Levanta
    -------
    ValueError
        No caso da string inserida não ser válida
    
    """

    if validar_dna(seq) is False:
        raise ValueError ("A sequência inserida é inválida")

    seq = aprimorar_seq(seq)
    
    contA = seq.count("A")
    contT = seq.count("T")
    contC = seq.count("C")
    contG = seq.count("G")
    
    resultado = {"A" : contA, "T" : contT, "C" : contC, "G" : contG}
    
    return resultado

In [58]:
# Testes de unidade

class TestValidaData(unittest.TestCase):
    def test_contarbases_vazio(self):
        with self.assertRaises(ValueError):
            contar_bases(""          )
  
    def test_contarbases_invalido(self):
        with self.assertRaises(ValueError):
            contar_bases("ACTGH"     )

    def test_contarbases_num(self):
        with self.assertRaises(ValueError):
            contar_bases("ACTG0"     )

    def test_simbolos(self):
        with self.assertRaises(ValueError):
            contar_bases("aaTCG @@ !")

    def test_contarbases_min_e_maius(self):
        self.assertTrue(  contar_bases("atCgatGtG")      )

    def test_contarbases_espaco(self):
        self.assertTrue(  contar_bases("C    GAT  GG"   ))

    def test_contarbases_espaco1(self):
        self.assertEqual( contar_bases("C    GAT  GG" ), {'A': 1, 'T': 1, 'C': 1, 'G': 3} )

    def test_contarbases_min(self):
        self.assertEqual( contar_bases("atcg"         ), {'A': 1, 'T': 1, 'C': 1, 'G': 1} )

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_contarbases_espaco (__main__.TestValidaData.test_contarbases_espaco) ... ok
test_contarbases_espaco1 (__main__.TestValidaData.test_contarbases_espaco1) ... ok
test_contarbases_invalido (__main__.TestValidaData.test_contarbases_invalido) ... ok
test_contarbases_min (__main__.TestValidaData.test_contarbases_min) ... ok
test_contarbases_min_e_maius (__main__.TestValidaData.test_contarbases_min_e_maius) ... ok
test_contarbases_num (__main__.TestValidaData.test_contarbases_num) ... ok
test_contarbases_vazio (__main__.TestValidaData.test_contarbases_vazio) ... ok
test_simbolos (__main__.TestValidaData.test_simbolos) ... ok

----------------------------------------------------------------------
Ran 8 tests in 0.006s

OK


<unittest.runner.TextTestResult run=8 errors=0 failures=0>

### - Frequência de Conteúdo GC

Nesta função, é definida uma função que tem como objetivo calcular, em percentagem, o conteúdo de guanina-citosina ([conteúdo GC](https://www.bionity.com/en/encyclopedia/GC-content.html)) presente numa sequência de DNA. 

Em primeiro lugar, a função executa uma verificação da validade da sequência de DNA através da função previamente feita ``validar_dna()``. Caso seja inválida, é levantado um ``ValueError`` que nos indica que a sequência utilizada é inválida. Depois, retorna a sequência de DNA com as bases em maiúsculas e sem espaços em branco através da função ``aprimorar_seq()``.

Após verificar a validade da sequência e ser feito o seu aprimoramento, a função conta as ocorrências das bases "G" e "C", respetivamente, através da função ``count()`` e armazenando o resultado em duas variáveis.

De seguida, o cálculo da percentagem de bases "G" e "C" presente na sequência de DNA é feito através da divisão da soma do número de ocorrências das bases "G" e "C" pelo número total de bases existentes na sequência, multiplicando por 100 e arredondando o resultado para uma casa decimal através da função ``round()``. 

O resultado é armazenado numa variável.

Por fim, o valor obtido é devolvido. 

In [59]:
def conteudo_gc(seq):
    
    """   
    Devolve a percentagem do conteúdo GC presente numa sequência de DNA

    
    Parâmetros
    -------------
    seq : str
        Uma string que representa a sequência de DNA

    
    Retorna
    -------------
    resultado : float
        Percentagem do conteúdo GC na sequência de DNA

        
    Levanta
    ----------
    ValueError
        No caso da string inserida não ser válida
    
    """

    if validar_dna(seq) is False:
        raise ValueError ("A sequência inserida é inválida")
    
    seq = aprimorar_seq(seq)
    
    conteudo_g = seq.count("G")
    conteudo_c = seq.count("C")
    conteudo_gc = round((conteudo_g + conteudo_c) / len(seq) * 100, 1)
    
        
    return conteudo_gc

conteudo_gc("gcta") 


50.0

In [64]:
# Testes de unidade

class TestValidaConteudoGC(unittest.TestCase):

    def test_conteudogc_vazio(self):
        with self.assertRaises(ValueError):
            conteudo_gc(""           )

    def test_conteudogc_invalido(self):
        with self.assertRaises(ValueError):
            conteudo_gc("ACTGH"      )

    def test_conteudogc_num_simbolos(self):
        with self.assertRaises(ValueError):
            conteudo_gc("ACTG 00  !!")

    def test_conteudogc_min_maiusc(self):
        self.assertTrue( conteudo_gc("GCGcGttgatggC"         )         )

    def test_conteudogc_espaco(self):
        self.assertTrue( conteudo_gc("GCGcG    ttgat     ggC")         )

    def test_conteudogc_gc(self):
        self.assertEqual( conteudo_gc("gcgcgc"               ), 100.0  )

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaConteudoGC)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_conteudogc_espaco (__main__.TestValidaConteudoGC.test_conteudogc_espaco) ... ok
test_conteudogc_gc (__main__.TestValidaConteudoGC.test_conteudogc_gc) ... ok
test_conteudogc_invalido (__main__.TestValidaConteudoGC.test_conteudogc_invalido) ... ok
test_conteudogc_min_maiusc (__main__.TestValidaConteudoGC.test_conteudogc_min_maiusc) ... ok
test_conteudogc_num_simbolos (__main__.TestValidaConteudoGC.test_conteudogc_num_simbolos) ... ok
test_conteudogc_vazio (__main__.TestValidaConteudoGC.test_conteudogc_vazio) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.005s

OK


<unittest.runner.TextTestResult run=6 errors=0 failures=0>

### - Tipo de sequência - DNA ou RNA

Esta função classifica uma sequência como DNA, RNA, uma sequência de aminoácidos ou a considera inválida, dependendo dos caracteres presentes na sequência. 

A classificação é baseada na presença ou ausência de caracteres específicos associados a cada tipo de sequência.

In [65]:
def tipo_seq(seq):
    """
    Função que a partir de uma sequência, classifica-a em DNA, RNA ou Sequência de Aminoácidos.

    Parâmetros
    ----------
    seq : str 
        A sequência a ser classificada.

    Retorna
    -------
    str
        A classificação da sequência.
    
        
    Levanta
    -------

    ValueError
        Caso a sequência seja inválida
        
    """

    if not bool(seq):
        raise ValueError("É uma sequência inválida")

    seq = aprimorar_seq(seq)
    
    if validar_dna(seq):
        return "DNA"
        
    if len([c for c in seq if c not in "ACGU"]) == 0:
        return "RNA"
        
    elif len([c for c in seq if c not in "ABCDEFGHIKLMNPQRSTVWYZ_"]) == 0:
        return "Sequência de Aminoácidos"
    
    else:
        raise ValueError("É uma sequência inválida")
    


In [71]:
# Testes de unidade

class TestTipoSeq(unittest.TestCase):
    def test_dna(self):
        result = tipo_seq("ATCG")
        self.assertEqual(result, "DNA")

    def test_rna(self):
        result = tipo_seq("AUCG")
        self.assertEqual(result, "RNA")

    def test_aminoacidos(self):
        result = tipo_seq("ACDEFGHIKLMNPQRSTVWY")
        self.assertEqual(result, "Sequência de Aminoácidos")

    def test_invalido(self):
        with self.assertRaises(ValueError):
            tipo_seq("")

    def test_misturado(self):
        with self.assertRaises(ValueError):
            tipo_seq("AC 420 BLAZE IT TG  !!")
        
suite = unittest.TestLoader().loadTestsFromTestCase(TestTipoSeq)
unittest.TextTestRunner( verbosity = 3 ).run( suite )
        

test_aminoacidos (__main__.TestTipoSeq.test_aminoacidos) ... ok
test_dna (__main__.TestTipoSeq.test_dna) ... ok
test_invalido (__main__.TestTipoSeq.test_invalido) ... ok
test_misturado (__main__.TestTipoSeq.test_misturado) ... ok
test_rna (__main__.TestTipoSeq.test_rna) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.004s

OK


<unittest.runner.TextTestResult run=5 errors=0 failures=0>

## Transcrição e Complemento Inverso


* Transcrição
   
O Python é uma ferramenta bastante utilizada no processamento básico de sequências e na transcrição de sequências de DNA em sequências de mRNA. Existem várias bibliotecas e algoritmos disponíveis que facilitam esse processo. 

Existem diversas formas de realizar esse processamento, citando as mais usadas: 

    - Algoritmo de transcrição com o Biopython;

    - Algoritmo de transcrição personalizado mediante a finalidade, o tipo de ser vivo ou devido a outras caracteristicas especificas.


- Algoritmo de transcrição personalizado:

Desenvolver: 
    Função que itera sobre uma sequência de DNA e devolve a sequência transcrita.

    Lógica:
    A -> U
    T -> A
    C -> G
    G -> C

No algortimo desenvolvido, primeiramente é utilizada a função ``validar_dna`` para garantir que a sequência não possui caracteres inválidos. Depois, a variável dna irá transportar a sequência aprimorada pela função definida anteriormente, ``aprimorar_seq``.

De seguida, é realizado um ciclo ``for`` com algumas condicionais, que irá iterar sobre a sequência inserida já aprimorada, e devolver uma variável, ``mrna``, sendo esse o resultado final da função.

Depois é ainda associada a variável ``resultado`` à função, para imprimir o output final.

In [76]:
def transc(seq):

    '''
        
    Função que itera sobre uma sequência de DNA e devolve a sequência transcrita.

    Parâmetros:
    -----------
    seq : str 
      Uma string que representa a sequência de DNA
    
    Retorna:
    --------
    str
      Sequência de mrna  

    '''

    if not validar_dna(seq):
        print("Sequência inválida")
        return None

    dna = aprimorar_seq(seq)
    mrna = ''


    for base in dna:
        if base == 'A':
          mrna += 'U'
        elif base == 'T':
          mrna += 'A'
        elif base == 'C':
          mrna += 'G'
        elif base == 'G':
          mrna += 'C'

    
    return mrna

resultado = transc('AACTGCGTGC')

if resultado is not None:
    print('A sequência de mRNA correspondente é:', resultado)

A sequência de mRNA correspondente é: UUGACGCACG


In [77]:
# Testes de unidade

import unittest

class TestValidarTransc(unittest.TestCase):
    def test_transc_vazio(self):                                           # Testa a existência de uma sequência vazia
        self.assertFalse( transc("") )
    
    def test_transc_caracter_invalido(self):                               # Testa a presença de caracteres inválidos
        self.assertFalse( transc("AAAT-TG-CG.TGG.TG-TGGT") )

    def test_transc_nucleotido_invalido(self):                             # Testa a existência de outras letras/nucleótidos 
        self.assertFalse( transc("RATAFAT") )
        
    def test_transc_input(self):                                           # Testa um input correto
        self.assertTrue( transc("AAACTGTCG") )

    def test_transc_minuscula(self):                                       # Testa o input de letras minusculas
        self.assertTrue( transc("atgctcgatagct") )
    
    def test_trans_correta(self):                                          # Testa o correto funcionamento da transcrição/função
        self.assertEqual( transc('AATTCCGG'), 'UUAAGGCC' )

    def test_trans_incorreta(self):                                        # Testa o correto funcionamento da transcrição/função    
        self.assertFalse( transc('AATTCCGG') == 'UUUAGGCC' ) 

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidarTransc)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_trans_correta (__main__.TestValidarTransc.test_trans_correta) ... ok
test_trans_incorreta (__main__.TestValidarTransc.test_trans_incorreta) ... ok
test_transc_caracter_invalido (__main__.TestValidarTransc.test_transc_caracter_invalido) ... ok
test_transc_input (__main__.TestValidarTransc.test_transc_input) ... ok
test_transc_minuscula (__main__.TestValidarTransc.test_transc_minuscula) ... ok
test_transc_nucleotido_invalido (__main__.TestValidarTransc.test_transc_nucleotido_invalido) ... ok
test_transc_vazio (__main__.TestValidarTransc.test_transc_vazio) ... ok

----------------------------------------------------------------------
Ran 7 tests in 0.005s

OK


Sequência inválida
Sequência inválida
Sequência inválida


<unittest.runner.TextTestResult run=7 errors=0 failures=0>

### Complemento inverso - o que é

O Complemento Inverso consiste no espelhamento de uma sequência de DNA ou RNA.

Isto permite-nos reconstruir a sua cadeia complementar a partir de uma cadeia simples como ponto de partida.

Esta função itera sobre uma string que represente uma cadeia de DNA válida e devolve a sua cadeia complementar pela **ordem inversa** com base nos nucleótidos complementares, ou seja:

- A -> T
- T -> A
- C -> G
- G -> C

No caso de RNA:
- A -> U
- U -> A
- C -> G
- G -> C

A forma mais simples de fazer isto é usando um ciclo ``for`` que irá iterar sobre cada elemento da cadeia e adicionar o seu complementar à ``string`` de resultado, ou seja:

```python
complementar = ''
for base in cadeia.upper():
    if base == 'A':
        complementar += 'T'
    elif base == 'T':
        complementar += 'A'
    elif base == 'C':
        complementar += 'G'
    elif base == 'G':
        complementar += 'C'
```

Assim, com uma cadeia  de DNA ``actgtctgtcaaa`` obteremos uma cadeia ``tttgacagacagt``, veja-se o exemplo abaixo do ciclo em funcionamento:

Escreve-se a função em baixo:

In [78]:
def complemento_inverso(sequencia : str) -> str:
    '''
    Função que itera sobre uma sequência de DNA e devolve
    o complemento reverso de cada nucleotido.

    Parâmetros 
    ----------

    sequencia : str
        sequência de DNA ou RNA válida

    Retorna
    -------
    str
        sequência de nucléotidos complementar invertida à cadeia fornecida

    Levanta
    -------

    ValueError
        caso não se trate de uma sequênica válida
        
    '''
    assert sequencia != '' or sequencia != ' '
    
    complementar = '' 

    if tipo_seq(sequencia) == 'DNA':
        for base in sequencia.upper():
            if base == 'A':
                complementar += 'T'
            elif base == 'T':
                complementar += 'A'
            elif base == 'C':
                complementar += 'G'
            elif base == 'G':
                complementar += 'C'
    
    elif tipo_seq(sequencia) == 'RNA':
        for base in sequencia.upper():
            if base == 'A':
                complementar += 'U'
            elif base == 'U':
                complementar += 'A'
            elif base == 'C':
                complementar += 'G'
            elif base == 'G':
                complementar += 'C'
    
    else:
        raise ValueError('É uma sequência inválida')

    return complementar[::-1]


In [79]:
# Demonostração do output da função complemento_inverso() 

print('ACCTG'.upper(),'->',complemento_inverso('ACCTG'))
print('UCCAG'.upper(),'->',complemento_inverso('UCCAG'))

ACCTG -> CAGGT
UCCAG -> CUGGA


In [82]:
# Testes de unidade

class TestComplementoInverso(unittest.TestCase):
    
    def test_sequencia_vazia(self):   
        with self.assertRaises(ValueError):
            complemento_inverso('')
    
    def test_sequencia_invalida(self):
        with self.assertRaises(ValueError):
            complemento_inverso('ACGHJTGH')
    
    def test_sequencia_com_numeros(self):
        with self.assertRaises(ValueError):
            complemento_inverso('12 ACT G0')
    
    def test_sequencia_com_espacos(self):
        self.assertTrue(  complemento_inverso('  AC  CTG   ')             )
    
    def test_complemento_correto(self):
        self.assertEqual( complemento_inverso('AATTCCGG'    ), 'CCGGAATT' )

    def test_complemento_rna(self):
        self.assertEqual( complemento_inverso('UUAGGA'      ), 'UCCUAA'   )
    

suite = unittest.TestLoader().loadTestsFromTestCase(TestComplementoInverso)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_complemento_correto (__main__.TestComplementoInverso.test_complemento_correto) ... ok
test_complemento_rna (__main__.TestComplementoInverso.test_complemento_rna) ... ok
test_sequencia_com_espacos (__main__.TestComplementoInverso.test_sequencia_com_espacos) ... ok
test_sequencia_com_numeros (__main__.TestComplementoInverso.test_sequencia_com_numeros) ... ok
test_sequencia_invalida (__main__.TestComplementoInverso.test_sequencia_invalida) ... ok
test_sequencia_vazia (__main__.TestComplementoInverso.test_sequencia_vazia) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.005s

OK


<unittest.runner.TextTestResult run=6 errors=0 failures=0>

## Tradução

Em bioinformática, o Python é bastante utilizado para o processamento básico de sequências e a tradução de sequências de DNA em sequências de aminoácidos. Existem várias bibliotecas e algoritmos disponíveis que facilitam esse processo. 

Existem diversas formas de realizar este processamento, citando as mais usadas: 

    - Algoritmo de tradução com o Biopython;

    - Algoritmo de tradução personalizado mediante a finalidade, o tipo de ser vivo ou devido a outras caracteristicas especificas.

In [83]:
# Sequência de DNA exemplo
sequencia_DNA = "AGATGGTCTACGTCGCATCGTAGCTGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCT"

- Algoritmo de tradução com o Biopython: 

Uma biblioteca em python que fornece uma ampla gama de funcionalidades para o processamento de sequências biológicas, incluindo tradução. 

In [86]:
import re
from Bio.Seq import Seq

def traducao_dna_para_aminoacido(sequencia_DNA):
    
    # Verifica se a sequência de DNA é válida
    if not validar_dna(sequencia_DNA):
        raise ValueError("Sequência de DNA inválida.")

    # Transcrição do DNA para RNA
    sequencia_rna = Seq(sequencia_DNA).transcribe()

    # Verifica se a sequência de RNA é válida
    if not validar_dna(str(sequencia_rna)):
        raise ValueError("Sequência de RNA inválida.")

    # Tradução do RNA para uma sequência de aminoácidos usando Biopython
    sequencia_aminoacido = str(sequencia_rna.translate())

    return sequencia_aminoacido

try:
    sequencia_aminoacido = traducao_dna_para_aminoacido(sequencia_DNA)
    print("Sequência de aminoácidos:", sequencia_aminoacido)
except ValueError as e:
    print("Erro:", str(e))

Erro: Sequência de RNA inválida.


- Algoritmo de tradução personalizado: 

Se tivermos requisitos específicos ou quisermos implementar o nosso próprio algoritmo de tradução, podemos criar um algoritmo personalizado para isso. 

In [96]:
def traducao_personalizada(sequencia_DNA):

    '''
     #TODO 
     - MUDAR PARA TRAD_DNA OU SIMILAR
     - ADD DOCSTRINGS
     - ADD VALIDAR_DNA()
     - ADD APRIMORAR_SEQ()
     - ADD TIPO_SEQ

    '''   
        

    # Tabela de tradução de codões para aminoácidos
    tabela_traducao = {
            "TTT": "F", "TTC": "F", "TTA": "L", "TTG": "L",
            "CTT": "L", "CTC": "L", "CTA": "L", "CTG": "L",
            "ATT": "I", "ATC": "I", "ATA": "I", "ATG": "M",
            "GTT": "V", "GTC": "V", "GTA": "V", "GTG": "V",
            "TCT": "S", "TCC": "S", "TCA": "S", "TCG": "S",
            "CCT": "P", "CCC": "P", "CCA": "P", "CCG": "P",
            "ACT": "T", "ACC": "T", "ACA": "T", "ACG": "T",
            "GCT": "A", "GCC": "A", "GCA": "A", "GCG": "A",
            "TAT": "Y", "TAC": "Y", "TAA": "*", "TAG": "*",
            "CAT": "H", "CAC": "H", "CAA": "Q", "CAG": "Q",
            "AAT": "N", "AAC": "N", "AAA": "K", "AAG": "K",
            "GAT": "D", "GAC": "D", "GAA": "E", "GAG": "E",
            "TGT": "C", "TGC": "C", "TGA": "*", "TGG": "W",
            "CGT": "R", "CGC": "R", "CGA": "R", "CGG": "R",
            "AGT": "S", "AGC": "S", "AGA": "R", "AGG": "R",
            "GGT": "G", "GGC": "G", "GGA": "G", "GGG": "G"
            }

    # Verifica se a sequência de DNA tem um número de bases múltiplo de 3
    if len(sequencia_DNA) % 3 != 0:
        raise ValueError("Sequência de DNA inválida: número de bases não é múltiplo de 3.")

    # Tradução do DNA para uma sequência de aminoácidos
    sequencia_aminoacido = "".join([tabela_traducao[sequencia_DNA[i:i+3]] for i in range(0, len(sequencia_DNA), 3)])

    return sequencia_aminoacido

'''
MOVER PARA TESTES DE UNIDADE
try:
    sequencia_aminoacido == traducao_personalizada(sequencia_DNA)
    print("Sequência de aminoácidos:", sequencia_aminoacido)

except ValueError as e:
    print("Erro:", str(e))'''

'\nMOVER PARA TESTES DE UNIDADE\ntry:\n    sequencia_aminoacido == traducao_personalizada(sequencia_DNA)\n    print("Sequência de aminoácidos:", sequencia_aminoacido)\n\nexcept ValueError as e:\n    print("Erro:", str(e))'

In [None]:
# Testes de unidade

'''
CORRIGIR NOMES ETC.

'''
class TestTraducaoDNA(unittest.TestCase):


    def test_traducao_dna_aminoacido_personalizada(self):
        # Teste com uma sequência de DNA válida e uma tabela de codões personalizada
        sequencia_input_inicial = 'ATGCGTACGTA'
        resultado_esperado = 'MXVX'
        resultado_obtido = traducao_personalizada(sequencia_input_inicial)
        self.assertEqual(resultado_obtido, resultado_esperado)

    def test_invalida_dna(self):
        # Verifica se uma exceção é levantada para uma sequência de DNA inválida
        sequencia_input_inicial_invalida = 'ACGX'
        with self.assertRaises(ValueError):
            traducao_dna_aminoacido_biopython(sequencia_input_inicial_invalida, 'Standard')

if __name__ == '__main__':
    unittest.main()


## Open Reading *Frames*

Um reading frame com um comprimento suficiente e sem codões stop é designado por *open reading frame* (ORF). Quando a sequência do genoma é conhecida, mas a localização dos genes ainda não foi anotada, os ORFs são de particular importância, pois indicam uma parte do genoma onde os genes estão potencialmente codificados.

Vai permitir procurar todas as possibilidades de regiões codificadoras de proteínas, dada uma região do genoma. Tendo os reading frames calculados, o próximo passo óbvio é encontrar possíveis proteínas que podem ser codificadas dentro desses frames. Esta tarefa consiste em encontrar as ORFs, que são reading frames que têm o potencial de serem traduzidos em proteínas.

Esta função tenta gerar diferentes ORFs a partir de uma sequência de DNA ou RNA.

O objetivo é devolver uma lista com as ORFs em formato de string, incluindo o complemento inverso.

In [99]:
def get_orfs(seq):
    """
    Função que a partir de uma sequência de DNA ou RNA origina diferentes tipos de ORFS.

    Parâmetro
    --------
    seq : str
        Sequência de DNA ou RNA.

    Returns
    -------
    lista
        Lista das ORFs geradas a partir da sequência.
    
    """
    seq_comp_inv = complemento_inverso(seq)
    lista_orfs = [
            seq[0:], seq[1:], seq[2:],
            seq_comp_inv[0:], seq_comp_inv[1:], seq_comp_inv[2:]
        ]
    return lista_orfs
    

In [109]:
print('DNA ->',get_orfs("AATCG"))
print()
print('RNA ->',get_orfs("UUGGA"))

DNA -> ['AATCG', 'ATCG', 'TCG', 'CGATT', 'GATT', 'ATT']

RNA -> ['UUGGA', 'UGGA', 'GGA', 'UCCAA', 'CCAA', 'CAA']


In [102]:
# Testes de unidade

class TestGetOrfs(unittest.TestCase):
    def test_get_orfs_dna(self):
        result = get_orfs("ATCG")
        expected = ["ATCG", "TCG", "CG", "CGAT", "GAT", "AT"]
        self.assertEqual(result, expected)

    def test_get_orfs_rna(self):
        result = get_orfs("AUCG")
        expected = ["AUCG", "UCG", "CG", "CGAU", "GAU", "AU"]
        self.assertEqual(result, expected)

    def test_get_orfs_invalid_seq(self):
        with self.assertRaises(ValueError):
            get_orfs("")

    def test_sub_funcoes(self):
        with self.assertRaises(ValueError):
            get_orfs("HERPA DERPA 13 !")


suite = unittest.TestLoader().loadTestsFromTestCase(TestGetOrfs)
unittest.TextTestRunner( verbosity=3 ).run( suite )


test_get_orfs_dna (__main__.TestGetOrfs.test_get_orfs_dna) ... ok
test_get_orfs_invalid_seq (__main__.TestGetOrfs.test_get_orfs_invalid_seq) ... ok
test_get_orfs_rna (__main__.TestGetOrfs.test_get_orfs_rna) ... ok
test_sub_funcoes (__main__.TestGetOrfs.test_sub_funcoes) ... ok

----------------------------------------------------------------------
Ran 4 tests in 0.003s

OK


<unittest.runner.TextTestResult run=4 errors=0 failures=0>

['AATCG', 'ATCG', 'TCG', 'CGATT', 'GATT', 'ATT']