# Tema 2 - **Processamento básico de sequências**

## Representação e algoritmos básicos

* Validação da sequência

Esta função tem como objetivo retornar a validade de uma sequência de ADN. Onde, caso seja válida retorna **True** e caso seja inválida retorna **False**. Nesta função, é verificado se a sequência contém somente os caractéres que representam os nucleótidos: A, T, C e G.

A função começa por verificar se a sequência introduzida não é uma string vazia, de seguida, susbtitui letras minúsculas por letras maiúsculas e remove enventuais espaços. No final, itera por cada base presente na sequência e verifica se pertencem ao conjunto de bases válidas (A, T, C e G). 

In [70]:
def validar_dna(seq):
    
    """
    Devolve a validade de uma sequência de ADN

    
    Parâmetro
    -------------
    seq : str
        Uma string que representa a sequência de ADN

    
    Retorna
    -------------
    bool : True se for uma sequência válida ou False se for uma sequência inválida
    
    """
    if not bool(seq): return False
    
    seq = seq.upper()        
    seq = seq.replace(" ","")   

    valido_dna = True
    
    for base in seq:                  
        if base not in "ATCG":         
            valido_dna = False
    
    if valido_dna == False:
        return False
    else:
        return True

In [69]:
import unittest

class TestValidarDNA(unittest.TestCase):
    def test_validardna_vazio(self):
        self.assertFalse( validar_dna("") )
    
    def test_validar_dna_separador_invalido(self):
        self.assertFalse( validar_dna("AAATTGCG.TGGTG-TGGT") )

    def test_validar_dna_nucleotido_invalido(self):
        self.assertFalse( validar_dna("DATAGAT") )
        
    def test_validar_dna_correta(self):
        self.assertTrue( validar_dna("AA TGT CG ") )

    def test_validar_dna_minuscula(self):
        self.assertTrue( validar_dna("atgctcgatagct") )


suite = unittest.TestLoader().loadTestsFromTestCase(TestValidarDNA)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_validar_dna_correta (__main__.TestValidarDNA.test_validar_dna_correta) ... ok
test_validar_dna_minuscula (__main__.TestValidarDNA.test_validar_dna_minuscula) ... ok
test_validar_dna_nucleotido_invalido (__main__.TestValidarDNA.test_validar_dna_nucleotido_invalido) ... ok
test_validar_dna_separador_invalido (__main__.TestValidarDNA.test_validar_dna_separador_invalido) ... ok
test_validardna_vazio (__main__.TestValidarDNA.test_validardna_vazio) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.006s

OK


<unittest.runner.TextTestResult run=5 errors=0 failures=0>

* Aprimoração de sequência de ADN

Para ser possível aprimorar a sequência de ADN nos códigos seguintes, foi criada uma função auxiliar que tem como intuito substituir as letras minúsculas por letras maiúsculas e a remoção dos espaços presentes na sequência inserida. A função intitula-se de: **aprimorar_dna()**.

Note-se que, nos códigos seguintes, a validação da sequência de ADN, será verificada utilizando a função **validar_dna()** antes da invocação da função aprimorar_dna().

In [67]:
def aprimorar_seq(seq):
    """
    Devolve uma sequência de ADN só com letras maiúsculas e sem espaços em branco

    Parameters
    -------------
    seq : str
        Uma string que representa a sequência de ADN

    Returns
    -------------
    str
        sequência de ADN com as bases em maiúsculas e sem espaços em branco
    
    """
    return seq.upper().replace(" ","")
     

In [66]:
# Testes de unidade

class TestAprimorarDNA(unittest.TestCase):
    def test_aprimorarseq_espaco(self):
        self.assertEqual( aprimorar_seq("AT     GC"), "ATGC" )
    
    def test_aprimorarseq_min(self):
        self.assertEqual( aprimorar_seq("atcg"), "ATCG" )
    
    def test_aprimorarseq_min_espaco(self):
        self.assertEqual( aprimorar_seq("at  cg"), "ATCG" )

suite = unittest.TestLoader().loadTestsFromTestCase(TestAprimorarDNA)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_aprimorarseq_espaco (__main__.TestAprimorarDNA.test_aprimorarseq_espaco) ... ok
test_aprimorarseq_min (__main__.TestAprimorarDNA.test_aprimorarseq_min) ... ok
test_aprimorarseq_min_espaco (__main__.TestAprimorarDNA.test_aprimorarseq_min_espaco) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.006s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

* Frequência das bases

Esta função permitirá calcular a frequência das bases de uma sequência de ADN. 

Em primeiro lugar, verifica se a sequência é válida através da função previamente feita **validar_dna()**. Caso seja inválida, é levantado um "ValueError" que nos indica que a sequência utilizada é inválida. Depois, retorna a sequência de ADN com as bases em maiúsculas e sem espaços em branco através da função **aprimorar_dna()**.

De seguida, através da função **count()** é contabilizado a frequência das bases válidas (A, T, C e G), cada frequência de base é guardada numa variável. 

Por fim, é criado um dicionário, onde as chaves são as bases de ADN e os valores as suas frequências.

In [27]:
def contar_bases(seq):

    """
    Devolve um dicionário com as frequências das bases de uma string de ADN (A, C, T e G)

    
    Parameters
    -------------
    seq : str
        Uma string que representa a sequência de ADN

    
    Returns
    -------------
    resultado : dict
        Dicionário com as frequências das bases da sequência introduzida
        As chaves são as bases "A", "T", "C" e "G" e os valores as frequências correspondentes

        
    Raises
    ----------
    ValueError
        No caso da string inserida não ser válida
    
    """

    if validar_dna(seq) is False:
        raise ValueError ("A sequência inserida é inválida")

    seq = aprimorar_seq(seq)
    
    contA = seq.count("A")
    contT = seq.count("T")
    contC = seq.count("C")
    contG = seq.count("G")
    
    resultado = {"A" : contA, "T" : contT, "C" : contC, "G" : contG}
    
    return resultado

In [71]:
# Testes de unidade

class TestValidaData(unittest.TestCase):
    def test_contarbases_vazio(self):
        with self.assertRaises(ValueError):
            contar_bases("")
    def test_contarbases_invalido(self):
        with self.assertRaises(ValueError):
            contar_bases("ACTGH")
    def test_contarbases_num(self):
        with self.assertRaises(ValueError):
            contar_bases("ACTG0")
    def test_contarbases_min_e_maius(self):
        self.assertTrue( contar_bases("atCgatGtG") )
    def test_contarbases_espaco(self):
        self.assertTrue( contar_bases("C    GAT  GG") )
    def test_contarbases_espaco1(self):
        self.assertEqual( contar_bases("C    GAT  GG" ), {'A': 1, 'T': 1, 'C': 1, 'G': 3} )
    def test_contarbases_min(self):
        self.assertEqual( contar_bases("atcg" ), {'A': 1, 'T': 1, 'C': 1, 'G': 1} )

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_contarbases_espaco (__main__.TestValidaData.test_contarbases_espaco) ... ERROR
test_contarbases_espaco1 (__main__.TestValidaData.test_contarbases_espaco1) ... ERROR
test_contarbases_invalido (__main__.TestValidaData.test_contarbases_invalido) ... ok
test_contarbases_min (__main__.TestValidaData.test_contarbases_min) ... ERROR
test_contarbases_min_e_maius (__main__.TestValidaData.test_contarbases_min_e_maius) ... ERROR
test_contarbases_num (__main__.TestValidaData.test_contarbases_num) ... ok
test_contarbases_vazio (__main__.TestValidaData.test_contarbases_vazio) ... ok

ERROR: test_contarbases_espaco (__main__.TestValidaData.test_contarbases_espaco)
----------------------------------------------------------------------
Traceback (most recent call last):
  File "/var/folders/dr/49zwrn252fl8h71zrm07td4m0000gn/T/ipykernel_22130/1628746060.py", line 16, in test_contarbases_espaco
    self.assertTrue( contar_bases("C    GAT  GG") )
                     ^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  Fi

<unittest.runner.TextTestResult run=7 errors=4 failures=0>

* Frequência de Conteúdo GC

Nesta função, é definida uma função que tem como objetivo calcular, em percentagem, o conteúdo de guanina-citosina ([conteúdo GC](https://www.bionity.com/en/encyclopedia/GC-content.html)) presente numa sequência de ADN. 

Em primeiro lugar, a função executa uma verificação da validade da sequência de ADN através da função previamente feita "validar_dna()". Caso seja inválida, é levantado um "ValueError" que nos indica que a sequência utilizada é inválida. Depois, retorna a sequência de ADN com as bases em maiúsculas e sem espaços em branco através da função **aprimorar_dna()**.


Após verificar a validade da sequência e o seu aprimoramento, a função conta as ocorrências das bases "G" e "C", respetivamente, através da função **count()** e armazenando o resultado em duas variáveis.

De seguida, o cálculo da percentagem de bases "G" e "C" presente na sequência de ADN é feito através da divisão da soma do número de ocorrências das bases "G" e "C" pelo número total de bases existentes na sequência, multiplicando por 100 e arredondando o resultado para uma casa decimal através da função **round()**. O resultado é armazenado numa variável.

Por fim, o valor obtido é devolvido. 




In [29]:
def conteudo_gc(seq):
    
    """   
    Devolve a percentagem do conteúdo GC presente numa sequência de ADN

    
    Parameters
    -------------
    seq : str
        Uma string que representa a sequência de ADN

    
    Returns
    -------------
    resultado : float
        Percentagem do conteúdo GC na sequência de ADN

        
    Raises
    ----------
    ValueError
        No caso da string inserida não ser válida
    
    """

    if validar_dna(seq) is False:
        raise ValueError ("A sequência inserida é inválida")
    
    seq = aprimorar_seq(seq)
    
    conteudo_g = seq.count("G")
    conteudo_c = seq.count("C")
    conteudo_gc = round((conteudo_g + conteudo_c) / len(seq) * 100, 1)
    
        
    return conteudo_gc

conteudo_gc("gcta") 


50.0

In [72]:
# Testes de unidade

class TestValidaData(unittest.TestCase):
    def test_conteudogc_vazio(self):
        with self.assertRaises(ValueError):
            conteudo_gc("")
    def test_conteudogc_invalido(self):
        with self.assertRaises(ValueError):
            conteudo_gc("ACTGH")
    def test_conteudogc_num(self):
        with self.assertRaises(ValueError):
            conteudo_gc("ACTG0")
    def test_conteudogc_min_maiusc(self):
        self.assertTrue( conteudo_gc("GCGcGttgatggC") )
    def test_conteudogc_espaco(self):
        self.assertTrue( conteudo_gc("GCGcG    ttgat     ggC") )
    def test_conteudogc_gc(self):
        self.assertEqual( conteudo_gc("gcgcgc"), 100.0  )

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_conteudogc_espaco (__main__.TestValidaData.test_conteudogc_espaco) ... ok
test_conteudogc_gc (__main__.TestValidaData.test_conteudogc_gc) ... ok
test_conteudogc_invalido (__main__.TestValidaData.test_conteudogc_invalido) ... ok
test_conteudogc_min_maiusc (__main__.TestValidaData.test_conteudogc_min_maiusc) ... ok
test_conteudogc_num (__main__.TestValidaData.test_conteudogc_num) ... ok
test_conteudogc_vazio (__main__.TestValidaData.test_conteudogc_vazio) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.006s

OK


<unittest.runner.TextTestResult run=6 errors=0 failures=0>

Tipo de sequência - DNA ou RNA

In [73]:
def tipo_seq(seq):
    """
    Função que a partir de uma sequência, classifica-a em DNA, RNA ou SEQUÊNCIA AMINÁCIDOS.

    Parâmetro
    ---------
    seq : str 
        A sequência a ser classificada.

    Retorna
    -------
    str
        A classificação da sequência.
        
    """

    if not bool(seq):
        raise ValueError("É uma sequência inválida")

    seq = aprimorar_seq(seq)
    
    if validar_dna(seq):
        return "DNA"
        
    if len([c for c in seq if c not in "ACGU"]) == 0:
        return "RNA"
        
    elif len([c for c in seq if c not in "ABCDEFGHIKLMNPQRSTVWYZ_"]) == 0:
        return "SEQUÊNCIA AMINOÁCIDOS"
    
    else:
        raise ValueError("É uma sequência inválida")
    


In [74]:
# Testes de unidade

class TestTipoSeq(unittest.TestCase):
    def test_dna(self):
        result = tipo_seq("ATCG")
        self.assertEqual(result, "DNA")

    def test_rna(self):
        result = tipo_seq("AUCG")
        self.assertEqual(result, "RNA")

    def test_aminoacidos(self):
        result = tipo_seq("ACDEFGHIKLMNPQRSTVWY")
        self.assertEqual(result, "SEQUÊNCIA AMINOÁCIDOS")

    def test_invalido(self):
        with self.assertRaises(ValueError):
            tipo_seq("")

    def test_misturado(self):
        with self.assertRaises(ValueError):
            tipo_seq("16")
        
suite = unittest.TestLoader().loadTestsFromTestCase(TestTipoSeq)
unittest.TextTestRunner( verbosity=3 ).run( suite )
        

test_aminoacidos (__main__.TestTipoSeq.test_aminoacidos) ... ok
test_dna (__main__.TestTipoSeq.test_dna) ... ok
test_invalido (__main__.TestTipoSeq.test_invalido) ... ok
test_misturado (__main__.TestTipoSeq.test_misturado) ... ok
test_rna (__main__.TestTipoSeq.test_rna) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.006s

OK


<unittest.runner.TextTestResult run=5 errors=0 failures=0>

## Transcrição e Complemento Inverso


* Transcrição
   
O Python é uma ferramenta bastante utilizada no processamento básico de sequências e na transcrição de sequências de DNA em sequências de mRNA. Existem várias bibliotecas e algoritmos disponíveis que facilitam esse processo. 

Existem diversas formas de realizar esse processamento, citando as mais usadas: 

            - Algoritmo de trancrição com o Biopython;
            - Algoritmo de trancrição personalizado mediante a finalidade, o tipo de ser vivo ou devido a outras caracteristicas especificas.



- Algoritmo de trancrição com o Biopython:

Através desta opção, primeiro realiza-se a importação da classe 'Seq' do módulo 'Bio.Seq' da biblioteca Biopython.
De seguida, é necessário criar uma variável para atribuir a sequência que se pretende transcrever.
A partir deste ponto, já é possível realizar várias operações na sequência de DNA conforme o desejado, neste caso utiliza-se o 'transcribe()'



- Algoritmo de trancrição personalizado:

In [None]:
'''
É possível utilizar funções predefinidas para a realização da transcrição, importando-as do BioPython:
'''

from Bio.Seq import Seq

'''
Assim basta definir a sequência a ser analisada
'''

# Sequência de DNA
dna_sequence = "ATGGTCTACGTCGATCGTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCT"

'''
E utilizar a função predefinida para realizar a transcrição 
'''

# Transcrição do DNA para RNA
rna_sequence = Seq(dna_sequence).transcribe()

In [35]:
def transc(seq):

    '''
        Função que itera sobre uma sequência de DNA e devolve
    a sequência transcrita.

    Lógica:
    A -> U
    T -> A
    C -> G
    G -> C

    Parameters:
    ------------
        seq : str Sequência de DNA
            Uma string que representa a sequência de DNA
    '''

    if not validar_dna(seq):
        print("Sequência inválida")
        return None

    '''
    Aqui é utilizada a função 'validar_dna' para garantir que a sequência não possui caracteres inválidos
    '''

    dna = aprimorar_seq(seq)
    mrna = ''

    '''
    A variável dna vai buscar a sequência aprimorada pela função definida anteriormente
    '''

    for base in dna:
        if base == 'A':
          mrna += 'U'
        elif base == 'T':
          mrna += 'A'
        elif base == 'C':
          mrna += 'G'
        elif base == 'G':
          mrna += 'C'
    '''
    Returns:
    --------
        str
          Sequência de mrna
    '''
    return mrna

'''
Chama a função 'transc' para fornecer uma varável, 'resultado'
'''

resultado = transc('ACCTG')

'''
Se a sequência transcrita for válida, imprime o resultado
'''
if resultado is not None:
    print('A sequência de mRNA correspondente é:', resultado)

A sequência de mRNA correspondente é: UGGAC


In [36]:
# Secção de testes de unidade

import unittest

class TestValidarData(unittest.TestCase):
    def test_transc_vazio(self):                                           # Testa a existência de uma sequência vazia
        self.assertFalse( transc("") )
    
    def test_transc_caracter_invalido(self):                               # Testa a presença de caracteres inválidos
        self.assertFalse( transc("AAAT-TG-CG.TGG.TG-TGGT") )

    def test_transc_nucleotido_invalido(self):                             # Testa a existência de outras letras/nucleótidos 
        self.assertFalse( transc("RATAFAT") )
        
    def test_transc_correta(self):                                         # Testa um input correto
        self.assertTrue( transc("AAACTGTCG") )

    def test_transc_minuscula(self):                                       # Testa o input de letras minusculas
        self.assertTrue( transc("atgctcgatagct") )
    
    def test_trans_correta(self):                                          # Testa o correto funcionamento da transcrição/função
        self.assertEqual( transc('AATTCCGG'), 'UUAAGGCC' )


suite = unittest.TestLoader().loadTestsFromTestCase(TestValidarData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_trans_correta (__main__.TestValidarData.test_trans_correta) ... ok
test_transc_caracter_invalido (__main__.TestValidarData.test_transc_caracter_invalido) ... ok
test_transc_correta (__main__.TestValidarData.test_transc_correta) ... ok
test_transc_minuscula (__main__.TestValidarData.test_transc_minuscula) ... ok
test_transc_nucleotido_invalido (__main__.TestValidarData.test_transc_nucleotido_invalido) ... ok
test_transc_vazio (__main__.TestValidarData.test_transc_vazio) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.005s

OK


Sequência inválida
Sequência inválida
Sequência inválida


<unittest.runner.TextTestResult run=6 errors=0 failures=0>

**Complemento reverso - o que é**

O Complemento Reverso consiste no espelhamento de uma sequência de DNA, permitindo-nos reconstruir a segunda cadeia da cadeia dupla de DNA a partir de uma cadeia simples que servirá como ponto de partida.

A lógica do complemento reverso é a de iterar sobre uma string que represente uma cadeia de DNA válida e devolver o seu inverso com base nos nucleótidos complementares, ou seja:

- A -> T
- T -> A
- C -> G
- G -> C

A forma mais simples de fazer isto é usando um ciclo ``for`` que irá iterar sobre cada elemento da cadeia e adicionar o seu complementar à ``string`` de resultado, ou seja:

```python
complementar = ''
for base in cadeia.upper():
    if base == 'A':
        complementar += 'T'
    elif base == 'T':
        complementar += 'A'
    elif base == 'C':
        complementar += 'G'
    elif base == 'G':
        complementar += 'C'
```

Assim, com uma cadeia ``actgtctgtcaaa`` obteremos uma cadeia ``tgacagacagttt``, veja-se o exemplo abaixo do ciclo em funcionamento:

In [38]:
cadeia = 'actgtctgtcaaa'
complementar = ''
for base in cadeia.upper():
    if base == 'A':
        complementar += 'T'
    elif base == 'T':
        complementar += 'A'
    elif base == 'C':
        complementar += 'G'
    elif base == 'G':
        complementar += 'C'

print(cadeia.upper(),'->',complementar[::-1])

ACTGTCTGTCAAA -> TTTGACAGACAGT


De forma a criar uma ferramenta que à qual possamos recorrer sempre que queiramos encontrar o complemento reverso de uma cadeia de DNA, escrevemos a função abaixo.



In [52]:
def complemento_inverso(sequencia : str) -> str:
    '''
    Função que itera sobre uma sequência de DNA e devolve
    o complemento reverso de cada nucleotido.

    Parametros 
    ----------

    sequencia : str
        sequência de DNA válida

    Retorna
    -------
    str
        sequência de nucléotidos complementar à cadeia fornecida

    Levanta
    -------

    ValueError
        caso não se trate de uma sequênica de DNA válida
        
    '''
    assert sequencia != '' or sequencia != ' '
    #assert validar_dna(sequencia)
    

    complementar = '' # inicializamos a cadeia complementar

    if tipo_seq(sequencia) == 'DNA':
        for base in sequencia.upper():
            if base == 'A':
                complementar += 'T'
            elif base == 'T':
                complementar += 'A'
            elif base == 'C':
                complementar += 'G'
            elif base == 'G':
                complementar += 'C'
    
    elif tipo_seq(sequencia) == 'RNA':
        for base in sequencia.upper():
            if base == 'A':
                complementar += 'U'
            elif base == 'U':
                complementar += 'A'
            elif base == 'C':
                complementar += 'G'
            elif base == 'G':
                complementar += 'C'
    
    else:
        raise ValueError('É uma sequência inválida')

    return complementar[::-1]


In [53]:
# Demonostração do output da função complemento_inverso() 

print('ACCTG'.upper(),'->',complemento_inverso('ACCTG'))
print('UCCAG'.upper(),'->',complemento_inverso('UCCAG'))

ACCTG -> CAGGT
UCCAG -> CUGGA


In [63]:
# Secção de testes de unidade

class TestComplementoInverso(unittest.TestCase):
    
    def test_sequencia_vazia(self):   
        with self.assertRaises(ValueError):
            complemento_inverso('')
    
    def test_sequencia_invalida(self):
        with self.assertRaises(ValueError):
            complemento_inverso('ACGHJTGH')
    
    def test_sequencia_com_numeros(self):
        with self.assertRaises(ValueError):
            complemento_inverso('12ACTG0')
    
    def test_sequencia_com_espacos(self):
        self.assertTrue(complemento_inverso('  AC  CTG   '))
    
    def test_complemento_correto(self):
        self.assertEqual( complemento_inverso('AATTCCGG'), 'CCGGAATT' )

    def test_complemento_rna(self):
        self.assertEqual(complemento_inverso('UUAGGA'), 'UCCUAA')
    

suite = unittest.TestLoader().loadTestsFromTestCase(TestComplementoInverso)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_complemento_correto (__main__.TestComplementoInverso.test_complemento_correto) ... ok
test_complemento_rna (__main__.TestComplementoInverso.test_complemento_rna) ... ok
test_sequencia_com_espacos (__main__.TestComplementoInverso.test_sequencia_com_espacos) ... ok
test_sequencia_com_numeros (__main__.TestComplementoInverso.test_sequencia_com_numeros) ... ok
test_sequencia_invalida (__main__.TestComplementoInverso.test_sequencia_invalida) ... ok
test_sequencia_vazia (__main__.TestComplementoInverso.test_sequencia_vazia) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.005s

OK


<unittest.runner.TextTestResult run=6 errors=0 failures=0>

## Tradução -> Diogo

Em bioinformática, o Python é bastante utilizado para o processamento básico de sequências e a tradução de sequências de DNA em sequências de aminoácidos. Existem várias bibliotecas e algoritmos disponíveis que facilitam esse processo. 

Existem diversas formas de realizar este processamento, citando as mais usadas: 

            - Algoritmo de tradução com o Biopython;

            - Algoritmo de tradução personalizado mediante a finalidade, o tipo de ser vivo ou devido a outras caracteristicas especificas.
            

Adicionei um bloco try-except para capturar exceções e lidar com erros em ambos os casos.     

In [None]:
# Sequência de DNA exemplo
sequencia_DNA = "AGATGGTCTACGTCGCATCGTAGCTGAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCTAGCT"

Algoritmo de tradução com o Biopython: Uma biblioteca em python que fornece uma ampla gama de funcionalidades para o processamento de sequências biológicas, incluindo tradução. 

In [None]:
import re
from Bio.Seq import Seq

def traducao_dna_para_aminoacido(sequencia_DNA):
    # Verifica se a sequência de DNA é válida
    if not is_valid_dna(sequencia_DNA):
        raise ValueError("Sequência de DNA inválida.")

    # Transcrição do DNA para RNA
    sequencia_rna = Seq(sequencia_DNA).transcribe()

    # Verifica se a sequência de RNA é válida
    if not is_valid_rna(str(sequencia_rna)):
        raise ValueError("Sequência de RNA inválida.")

    # Tradução do RNA para uma sequência de aminoácidos usando Biopython
    sequencia_aminoacido = str(sequencia_rna.translate())

    return sequencia_aminoacido

try:
    sequencia_aminoacido = traducao_dna_para_aminoacido(sequencia_DNA)
    print("Sequência de aminoácidos:", sequencia_aminoacido)
except ValueError as e:
    print("Erro:", str(e))

Algoritmo de tradução personalizado: Se tivermos requisitos específicos ou quisermos implementar o nosso próprio algoritmo de tradução, podemos criar um algoritmo personalizado para isso. 

In [None]:
def traducao_personalizada(sequencia_DNA):
    # Tabela de tradução de codões para aminoácidos
        tabela_traducao = {
            "TTT": "F", "TTC": "F", "TTA": "L", "TTG": "L",
            "CTT": "L", "CTC": "L", "CTA": "L", "CTG": "L",
            "ATT": "I", "ATC": "I", "ATA": "I", "ATG": "M",
            "GTT": "V", "GTC": "V", "GTA": "V", "GTG": "V",
            "TCT": "S", "TCC": "S", "TCA": "S", "TCG": "S",
            "CCT": "P", "CCC": "P", "CCA": "P", "CCG": "P",
            "ACT": "T", "ACC": "T", "ACA": "T", "ACG": "T",
            "GCT": "A", "GCC": "A", "GCA": "A", "GCG": "A",
            "TAT": "Y", "TAC": "Y", "TAA": "*", "TAG": "*",
            "CAT": "H", "CAC": "H", "CAA": "Q", "CAG": "Q",
            "AAT": "N", "AAC": "N", "AAA": "K", "AAG": "K",
            "GAT": "D", "GAC": "D", "GAA": "E", "GAG": "E",
            "TGT": "C", "TGC": "C", "TGA": "*", "TGG": "W",
            "CGT": "R", "CGC": "R", "CGA": "R", "CGG": "R",
            "AGT": "S", "AGC": "S", "AGA": "R", "AGG": "R",
            "GGT": "G", "GGC": "G", "GGA": "G", "GGG": "G"
            }

    # Verifica se a sequência de DNA tem um número de bases múltiplo de 3
        if len(sequencia_DNA) % 3 != 0:
            raise ValueError("Sequência de DNA inválida: número de bases não é múltiplo de 3.")

    # Tradução do DNA para uma sequência de aminoácidos
        sequencia_aminoacido = "".join([tabela_traducao[sequencia_DNA[i:i+3]] for i in range(0, len(sequencia_DNA), 3)])

        return sequencia_aminoacido

try:
    sequencia_aminoacido = traducao_personalizada(sequencia_DNA)
    print("Sequência de aminoácidos:", sequencia_aminoacido)
except ValueError as e:
    print("Erro:", str(e))

Por fim, decidi incorporar os dois casos num (nao faço ideia se é util ou não).

Este código inclui as duas formas de tradução: uma com a biblioteca Biopython e outra usando uma abordagem manual. Cada bloco de código é independente e pode ser executado separadamente. 

Além disso, há um bloco separado com uma lista de verificações no final.

In [None]:
from Bio.Seq import Seq

def valida_dna(sequencia_DNA):
    valida_bases = set('ACGT')
    return all(base in valida_bases for base in sequencia_DNA)

def traducao_dna_aminoacido_biopython(sequencia_DNA):
    if not valida_dna(sequencia_DNA):
        raise ValueError("Sequência de DNA inválida.")

    sequencia_rna = Seq(sequencia_DNA).transcribe()
    sequencia_aminoacido = str(sequencia_rna.translate())

    return sequencia_aminoacido

def traducao_dna_aminoacido_personalizada(sequencia_DNA):
    if not valida_dna(sequencia_DNA):
        raise ValueError("Sequência de DNA inválida.")

    tabela_codoes = {
        'TTT': 'F', 'TTC': 'F', 'TTA': 'L', 'TTG': 'L',
        'CTT': 'L', 'CTC': 'L', 'CTA': 'L', 'CTG': 'L',
        'ATT': 'I', 'ATC': 'I', 'ATA': 'I', 'ATG': 'M',
        'GTT': 'V', 'GTC': 'V', 'GTA': 'V', 'GTG': 'V',
        'TCT': 'S', 'TCC': 'S', 'TCA': 'S', 'TCG': 'S',
        'CCT': 'P', 'CCC': 'P', 'CCA': 'P', 'CCG': 'P',
        'ACT': 'T', 'ACC': 'T', 'ACA': 'T', 'ACG': 'T',
        'GCT': 'A', 'GCC': 'A', 'GCA': 'A', 'GCG': 'A',
        'TAT': 'Y', 'TAC': 'Y', 'TAA': '*', 'TAG': '*',
        'CAT': 'H', 'CAC': 'H', 'CAA': 'Q', 'CAG': 'Q',
        'AAT': 'N', 'AAC': 'N', 'AAA': 'K', 'AAG': 'K',
        'GAT': 'D', 'GAC': 'D', 'GAA': 'E', 'GAG': 'E',
        'TGT': 'C', 'TGC': 'C', 'TGA': '*', 'TGG': 'W',
        'CGT': 'R', 'CGC': 'R', 'CGA': 'R', 'CGG': 'R',
        'AGT': 'S', 'AGC': 'S', 'AGA': 'R', 'AGG': 'R',
        'GGT': 'G', 'GGC': 'G', 'GGA': 'G', 'GGG': 'G'
    }

    codoes = [sequencia_DNA[i:i+3] for i in range(0, len(sequencia_DNA), 3)]
    sequencia_aminoacido = ''.join(tabela_codoes.get(codon, 'X') for codon in codoes)

    return sequencia_aminoacido

# Tradução usando Biopython
try:
    sequencia_aminoacido_biopython = traducao_dna_aminoacido_biopython(sequencia_DNA)
    print("Sequência de aminoácidos (Biopython):", sequencia_aminoacido_biopython)
except ValueError as e:
    print("Erro:", str(e))

# Tradução manual
try:
    sequencia_aminoacido_personalizada = traducao_dna_aminoacido_personalizada(sequencia_DNA)
    print("Sequência de aminoácidos (Manual):", sequencia_aminoacido_personalizada)
except ValueError as e:
    print("Erro:", str(e))


# Secção de testes de unidade

class TestComplementoInverso(unittest.TestCase):
    
    def test_sequencia_vazia(self):
        with self.assertRaises(ValueError):
            complemento_inverso('')
    
    def test_sequencia_invalida(self):
        with self.assertRaises(ValueError):
            complemento_inverso('ACGHJTGH')
    
    def test_sequencia_com_numeros(self):
        with self.assertRaises(ValueError):
            complemento_inverso('12ACTG0')
    
    def test_sequencia_com_espacos(self):
        self.assertTrue(complemento_inverso('  AC  CTG   '))
    
    def test_complemento_correto(self):
        self.assertEqual( complemento_inverso('AATTCCGG'), 'TTAAGGCC' )
    

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

print("\nVerificações:")
print("1. Verifique se a sequência de DNA está correta.")
print("2. Verifique se a sequência de DNA é válida, contendo apenas as bases A, C, G, T.")
print("3. Verifique se a sequência de aminoácidos foi corretamente traduzida.")
print("4. Verifique se o código está bem comentado e de fácil compreensão.")
print("5. Verifique se todas as dependências foram instaladas corretamente.")
print("6. Verifique se a função de tradução está sendo chamada corretamente.")
print("7. Verifique se as exceções são tratadas corretamente.")
print("8. Verifique se os resultados são exibidos de forma adequada.")

Erros e falhas identificados:
Corrigido o erro AttributeError: 'Seq' object has no attribute 'is_valid_dna'
Adicionada função is_valid_dna para verificar a validade da sequência de DNA
Atualizada a chamada para a função de validação no início do código

Otimizações a fazer:
Verificar se há maneiras de otimizar o código para melhorar a eficiência
Verificar se há possíveis otimizações na manipulação de strings e listas
Considerar a adição de mais verificações específicas, dependendo dos requisitos do projeto

## Open Reading *Frames* -> Mindo

Um reading frame com um comprimento suficiente e sem códons stop é designado por open reading frame aberto (ORF). Quando a sequência do genoma é conhecida, mas a localização dos genes ainda não foi anotada, os ORFs são de particular importância, pois indicam uma parte do genoma onde os genes estão potencialmente codificados.

Vai permitir procurar todas as possibilidades de regiões codificadoras de proteínas, dada uma região do genoma. Tendo os reading frames calculados, o próximo passo óbvio é encontrar possíveis proteínas que podem ser codificadas dentro desses frames. Esta tarefa consiste em encontrar os ORFs, que são reading frames que têm o potencial de serem traduzidos em proteínas.

Esta função classifica uma sequência como DNA, RNA, uma sequência de aminoácidos ou a considera inválida, dependendo dos caracteres presentes na sequência. A classificação é baseada na presença ou ausência de caracteres específicos associados a cada tipo de sequência.

Esta função tenta gerar diferentes ORFs a partir de uma sequência de DNA ou RNA, tendo em conta os casos de DNA, RNA e sequências que não se encaixam em nenhum desses tipos. O objetivo é devolver uma lista com as ORFs em formato de string, incluindo o complemento reverso.

In [75]:
def get_orfs(seq):
    """
    Função que a partir de uma sequência de DNA ou RNA origina diferentes tipos de ORFS.

    Parâmetro
    --------
    seq : str
        Sequência de DNA ou RNA.

    Returns
    -------
    lista
        Lista das ORFs geradas a partir da sequência.
    
    """
    seq_comp_inv = complemento_inverso(seq)
    lista_orfs = [
            seq[0:], seq[1:], seq[2:],
            seq_comp_inv[0:], seq_comp_inv[1:], seq_comp_inv[2:]
        ]
    return lista_orfs
    

In [76]:
get_orfs("AUCG")

['AUCG', 'UCG', 'CG', 'CGAU', 'GAU', 'AU']

In [77]:
# Testes de unidade

class TestGetOrfs(unittest.TestCase):
    def test_get_orfs_dna(self):
        result = get_orfs("ATCG")
        expected = ["ATCG", "TCG", "CG", "CGAT", "GAT", "AT"]
        self.assertEqual(result, expected)

    def test_get_orfs_rna(self):
        result = get_orfs("AUCG")
        expected = ["AUCG", "UCG", "CG", "CGAU", "GAU", "AU"]
        self.assertEqual(result, expected)

    def test_get_orfs_invalid_seq(self):
        with self.assertRaises(ValueError):
            get_orfs("")


suite = unittest.TestLoader().loadTestsFromTestCase(TestGetOrfs)
unittest.TextTestRunner( verbosity=3 ).run( suite )


test_get_orfs_dna (__main__.TestGetOrfs.test_get_orfs_dna) ... ok
test_get_orfs_invalid_seq (__main__.TestGetOrfs.test_get_orfs_invalid_seq) ... ok
test_get_orfs_rna (__main__.TestGetOrfs.test_get_orfs_rna) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.004s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

In [57]:
get_orfs("AATCG")

['AATCG', 'ATCG', 'TCG', 'CGATT', 'GATT', 'ATT']