# Tema 2 - **Processamento básico de sequências**

## Representação e algoritmos básicos

* **Validação da sequência**

Esta função tem como objetivo retornar a validade de uma sequência de ADN. Onde, caso seja válida retorna **True** e caso seja inválida retorna **False**. Nesta função, é verificado se a sequência contém somente os caractéres que representam os nucleótidos: A, T, C e G.

A função começa por susbtituir letras minúsculas por letras maiúsculas e remove enventuais espaços. De seguida, verificar se a sequência introduzida não é uma string vazia e ,no final, itera por cada base presente na sequência e verifica se pertencem ao conjunto de bases válidas (A, T, C e G). 

In [13]:
def validar_dna(seq):
    
    """
    Devolve a validade de uma sequência de ADN

    
    Parâmetro
    -------------
    seq : str
        Uma string que representa a sequência de ADN

    
    Retorna
    -------------
    bool : True se for uma sequência válida, False se for uma sequência inválida
    
    """
    
    if not isinstance(seq, str):
        raise AssertionError("A sequência deve ser uma string")
    
    seq = seq.upper()        
    seq = seq.replace(" ","")   
    
    if not bool(seq): return False

    valido_dna = True
    
    for base in seq:                  
        if base not in "ATCG":         
            valido_dna = False
    
    if valido_dna == False:
        return False
    else:
        return True

**Exemplo**:

In [2]:
validar_dna("gcth")

False

**Testes de Unidade**:

In [21]:
import unittest

class TestValidaData(unittest.TestCase):
    def test_validardna_vazio(self):
        self.assertFalse( validar_dna("   ") )
    
    def test_validar_dna_separador_invalido(self):
        self.assertFalse( validar_dna("AAATTGCG.TGGTG-TGGT") )

    def test_validar_dna_nucleotido_invalido(self):
        self.assertFalse( validar_dna("DATAGAT") )
        
    def test_validar_dna_correta(self):
        self.assertTrue( validar_dna("AA TGT CG ") )

    def test_validar_dna_minuscula(self):
        self.assertTrue( validar_dna("atgctcgatagct") )


suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_validar_dna_correta (__main__.TestValidaData) ... ok
test_validar_dna_minuscula (__main__.TestValidaData) ... ok
test_validar_dna_nucleotido_invalido (__main__.TestValidaData) ... ok
test_validar_dna_separador_invalido (__main__.TestValidaData) ... ok
test_validardna_vazio (__main__.TestValidaData) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.008s

OK


<unittest.runner.TextTestResult run=5 errors=0 failures=0>

* **Aprimoração de sequências**

Para ser possível aprimorar as sequências nos códigos seguintes, foi criada uma função auxiliar que tem como intuito substituir as letras minúsculas por letras maiúsculas e a remoção dos espaços presentes na sequência inserida. A função intitula-se de: **aprimorar_seq()**.

Note-se que, nos códigos seguintes, a validação da sequência de ADN, será verificada utilizando a função **validar_dna()** antes da invocação da função aprimorar_seq().

In [26]:
def aprimorar_seq(seq):
    """
    Devolve uma sequência só com letras maiúsculas e sem espaços em branco

    
    Parâmetro
    -------------
    seq : str
        Uma string que representa a sequência

        
    Retorna
    -------------
    str
        sequência com as bases em maiúsculas e sem espaços em branco
    
    """
    return seq.upper().replace(" ","")
     

**Exemplo**:

In [20]:
aprimorar_seq("AcGtG  GC  cg")

'ACGTGGCCG'

**Testes de Unidade**:

In [7]:
class TestValidaData(unittest.TestCase):
    def test_aprimorarseq_espaco(self):
        self.assertEqual( aprimorar_seq("AT     GC"), "ATGC" )
    
    def test_aprimorarseq_min(self):
        self.assertEqual( aprimorar_seq("atcg"), "ATCG" )
    
    def test_aprimorarseq_min_espaco(self):
        self.assertEqual( aprimorar_seq("at  cg"), "ATCG" )

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_aprimorarseq_espaco (__main__.TestValidaData) ... ok
test_aprimorarseq_min (__main__.TestValidaData) ... ok
test_aprimorarseq_min_espaco (__main__.TestValidaData) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.015s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

* **Frequência das bases**

Esta função permitirá calcular a frequência das bases de uma sequência de ADN. 

Em primeiro lugar, verifica se a sequência é válida através da função previamente feita **validar_dna()**. Caso seja inválida, é levantado um "ValueError" que nos indica que a sequência utilizada é inválida. Depois, retorna a sequência de ADN com as bases em maiúsculas e sem espaços em branco através da função **aprimorar_seq()**.

De seguida, através da função **count()** é contabilizado a frequência das bases válidas (A, T, C e G), cada frequência de base é guardada numa variável. 

Por fim, é criado um dicionário, onde as chaves são as bases de ADN e os valores as suas frequências.

In [23]:
def contar_bases(seq):

    """
    Devolve um dicionário com as frequências das bases de uma string de ADN (A, C, T e G)

    
    Parâmetro
    -------------
    seq : str
        Uma string que representa a sequência de ADN

    
    Retorna
    -------------
    resultado : dict
        Dicionário com as frequências das bases da sequência introduzida

        
    Levanta
    ----------
    ValueError
        No caso da string inserida não ser válida
    
    """

    if validar_dna(seq) is False:
        raise ValueError ("A sequência inserida é inválida")

    seq = aprimorar_seq(seq)
    
    contA = seq.count("A")
    contT = seq.count("T")
    contC = seq.count("C")
    contG = seq.count("G")
    
    resultado = {"A" : contA, "T" : contT, "C" : contC, "G" : contG}
    
    return resultado

**Exemplo**:

In [24]:
contar_bases("ATCGATCG")

{'A': 2, 'T': 2, 'C': 2, 'G': 2}

**Testes de unidade**:

In [25]:
class TestValidaData(unittest.TestCase):
    def test_contarbases_vazio(self):
        with self.assertRaises(ValueError):
            contar_bases("")
    def test_contarbases_invalido(self):
        with self.assertRaises(ValueError):
            contar_bases("ACTGH")
    def test_contarbases_num(self):
        with self.assertRaises(ValueError):
            contar_bases("ACTG0")
    def test_contarbases_min_e_maius(self):
        self.assertTrue( contar_bases("atCgatGtG") )
    def test_contarbases_espaco(self):
        self.assertTrue( contar_bases("C    GAT  GG") )
    def test_contarbases_espaco1(self):
        self.assertEqual( contar_bases("C    GAT  GG" ), {'A': 1, 'T': 1, 'C': 1, 'G': 3} )
    def test_contarbases_min(self):
        self.assertEqual( contar_bases("atcg" ), {'A': 1, 'T': 1, 'C': 1, 'G': 1} )

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_contarbases_espaco (__main__.TestValidaData) ... ok
test_contarbases_espaco1 (__main__.TestValidaData) ... ok
test_contarbases_invalido (__main__.TestValidaData) ... ok
test_contarbases_min (__main__.TestValidaData) ... ok
test_contarbases_min_e_maius (__main__.TestValidaData) ... ok
test_contarbases_num (__main__.TestValidaData) ... ok
test_contarbases_vazio (__main__.TestValidaData) ... ok

----------------------------------------------------------------------
Ran 7 tests in 0.013s

OK


<unittest.runner.TextTestResult run=7 errors=0 failures=0>

* **Frequência de Conteúdo GC**

Nesta função, é definida uma função que tem como objetivo calcular, em percentagem, o conteúdo de guanina-citosina ([conteúdo GC](https://www.bionity.com/en/encyclopedia/GC-content.html)) presente numa sequência de ADN. 

Em primeiro lugar, a função executa uma verificação da validade da sequência de ADN através da função previamente feita "validar_dna()". Caso seja inválida, é levantado um "ValueError" que nos indica que a sequência utilizada é inválida. Depois, retorna a sequência de ADN com as bases em maiúsculas e sem espaços em branco através da função **aprimorar_seq()**.


Após verificar a validade da sequência e o seu aprimoramento, a função conta as ocorrências das bases "G" e "C", respetivamente, através da função **count()** e armazenando o resultado em duas variáveis.

De seguida, o cálculo da percentagem de bases "G" e "C" presente na sequência de ADN é feito através da divisão da soma do número de ocorrências das bases "G" e "C" pelo número total de bases existentes na sequência, multiplicando por 100 e arredondando o resultado para uma casa decimal através da função **round()**. O resultado é armazenado numa variável.

Por fim, o valor obtido é devolvido. 




In [12]:
def conteudo_gc(seq):
    
    """   
    Devolve a percentagem do conteúdo GC presente numa sequência de ADN

    
    Parâmetro
    -------------
    seq : str
        Uma string que representa a sequência de ADN

    
    Retorna
    -------------
    resultado : float
        Percentagem do conteúdo GC na sequência de ADN

        
    Levanta
    ----------
    ValueError
        No caso da string inserida não ser válida
    
    """

    if validar_dna(seq) is False:
        raise ValueError ("A sequência inserida é inválida")
    
    seq = aprimorar_seq(seq)
    
    conteudo_g = seq.count("G")
    conteudo_c = seq.count("C")
    conteudo_gc = round((conteudo_g + conteudo_c) / len(seq) * 100, 1)
    
        
    return conteudo_gc


**Exemplo**:

In [23]:
conteudo_gc("GC")

100.0

**Testes de unidade**:

In [13]:
class TestValidaData(unittest.TestCase):
    def test_conteudogc_vazio(self):
        with self.assertRaises(ValueError):
            conteudo_gc("")
    def test_conteudogc_invalido(self):
        with self.assertRaises(ValueError):
            conteudo_gc("ACTGH")
    def test_conteudogc_num(self):
        with self.assertRaises(ValueError):
            conteudo_gc("ACTG0")
    def test_conteudogc_min_maiusc(self):
        self.assertTrue( conteudo_gc("GCGcGttgatggC") )
    def test_conteudogc_espaco(self):
        self.assertTrue( conteudo_gc("GCGcG    ttgat     ggC") )
    def test_conteudogc_gc(self):
        self.assertEqual( conteudo_gc("gcgcgc"), 100.0  )

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_conteudogc_espaco (__main__.TestValidaData) ... ok
test_conteudogc_gc (__main__.TestValidaData) ... ok
test_conteudogc_invalido (__main__.TestValidaData) ... ok
test_conteudogc_min_maiusc (__main__.TestValidaData) ... ok
test_conteudogc_num (__main__.TestValidaData) ... ok
test_conteudogc_vazio (__main__.TestValidaData) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.023s

OK


<unittest.runner.TextTestResult run=6 errors=0 failures=0>

## Transcrição e Complemento Inverso

* **Transcrição**
   
O Python é uma ferramenta bastante utilizada no processamento básico de sequências e na transcrição de sequências de DNA em sequências de mRNA. Existem várias bibliotecas e algoritmos disponíveis que facilitam esse processo. 

Existem diversas formas de realizar esse processamento, citando as mais usadas: 

            - Algoritmo de trancrição com o Biopython;
            - Algoritmo de trancrição personalizado mediante a finalidade, o tipo de ser vivo ou outras características específicas.


- Algoritmo de transcrição personalizado:

Desenvolver: 
    Função que itera sobre uma sequência de ADN e devolve a sequência transcrita.

    Lógica:
    A -> U
    T -> A
    C -> G
    G -> C

No algoritmo desenvolvido, primeiramente é utilizada a função ``validar_dna`` para garantir que a sequência não possui caracteres inválidos. Depois, a variável dna irá transportar a sequência aprimorada pela função definida anteriormente, ``aprimorar_seq``.

De seguida, é realizado um ciclo ``for`` com algumas condicionais, que irá iterar sobre a sequência inserida já aprimorada, e devolver uma variável, ``mrna``, sendo esse o resultado final da função.

Depois é ainda associada a variável ``resultado`` à função, para imprimir o output final.

In [27]:
def transc(seq):

    '''
    Função que itera sobre uma sequência de DNA e devolve a sequência transcrita.

    
    Parâmetro:
    -----------
    seq : str 
      Uma string que representa a sequência de ADN
    
      
    Retorna:
    --------
    mrna ou None
      Se a sequência de DNA for válida, retorna a sequência de mRNA correspondente
      Se a sequência de DNA não for válida, imprime "Sequência inválida" e retorna None

    '''

    if not validar_dna(seq):
        print("Sequência inválida")
        return None


    dna = aprimorar_seq(seq)
    
    mrna = ''

    for base in dna:
        if base == 'A':
          mrna += 'U'
        elif base == 'T':
          mrna += 'A'
        elif base == 'C':
          mrna += 'G'
        elif base == 'G':
          mrna += 'C'

    
    return mrna

**Exemplo**:

In [28]:
transc('AAhj')

Sequência inválida


**Testes de unidade**:

In [29]:
class TestValidarData(unittest.TestCase):
    def test_transc_vazio(self):                                          
        self.assertFalse( transc("") )
    
    def test_transc_caracter_invalido(self):                               
        self.assertFalse( transc("AAAT-TG-CG.TGG.TG-TGGT") )

    def test_transc_nucleotido_invalido(self):                           
        self.assertFalse( transc("RATAFAT") )
        
    def test_transc_correta(self):                                       
        self.assertTrue( transc("AAACTGTCG") )

    def test_transc_minuscula(self):                                       
        self.assertTrue( transc("atgctcgatagct") )
    
    def test_trans_correta(self):                                    
        self.assertEqual( transc('AATTCCGG'), 'UUAAGGCC' )


suite = unittest.TestLoader().loadTestsFromTestCase(TestValidarData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_trans_correta (__main__.TestValidarData) ... ok
test_transc_caracter_invalido (__main__.TestValidarData) ... ok
test_transc_correta (__main__.TestValidarData) ... ok
test_transc_minuscula (__main__.TestValidarData) ... ok
test_transc_nucleotido_invalido (__main__.TestValidarData) ... ok
test_transc_vazio (__main__.TestValidarData) ... ok

----------------------------------------------------------------------
Ran 6 tests in 0.013s

OK


Sequência inválida
Sequência inválida
Sequência inválida


<unittest.runner.TextTestResult run=6 errors=0 failures=0>

* **Complemento Inverso**

O Complemento Inverso consiste no espelhamento de uma sequência de ADN, permitindo-nos reconstruir a segunda cadeia da cadeia dupla de ADN a partir de uma cadeia simples que servirá como ponto de partida.

A lógica do complemento reverso é a de iterar sobre uma string que represente uma cadeia de ADN válida e devolver o seu inverso com base nos nucleótidos complementares, ou seja:

- A -> T
- T -> A
- C -> G
- G -> C

A forma mais simples de fazer isto é usando um ciclo ``for`` que irá iterar sobre cada elemento da cadeia e adicionar o seu complementar à ``string`` de resultado, ou seja:

```python
complementar = ''
for base in cadeia.upper():
    if base == 'A':
        complementar += 'T'
    elif base == 'T':
        complementar += 'A'
    elif base == 'C':
        complementar += 'G'
    elif base == 'G':
        complementar += 'C'
```

Assim, com uma cadeia ``actgtctgtcaaa`` obteremos uma cadeia ``tgacagacagttt``, veja-se o exemplo abaixo do ciclo em funcionamento:

In [38]:
cadeia = 'actgtctgtcaaa'
complementar = ''
for base in cadeia.upper():
    if base == 'A':
        complementar += 'T'
    elif base == 'T':
        complementar += 'A'
    elif base == 'C':
        complementar += 'G'
    elif base == 'G':
        complementar += 'C'

print(cadeia.upper(),'->',complementar)

ACTGTCTGTCAAA -> TGACAGACAGTTT


De forma a criar uma ferramenta à qual possamos recorrer sempre que queiramos encontrar o complemento inverso de uma cadeia de ADN, escrevemos a função abaixo.



In [41]:
def complemento_inverso(sequencia):

    '''
    Função que itera sobre uma sequência de ADN e devolve o complemento inverso de cada nucleótido.

    Lógica:
    A -> T
    T -> A
    C -> G
    G -> C

    
    Parâmetros
    ----------
    sequencia : str
        sequência de ADN 

        
    Retorna
    ----------
    complementar : str
        sequência de nucléotidos complementar à cadeia fornecida
    
        
    Levanta
    ----------
    AssertionError:
        No caso da string inserida não ser válida
        

    '''

    assert validar_dna(sequencia), "Sequência Inválida"
    
    sequencia = aprimorar_seq(sequencia)
    
    complementar = '' 

    for base in sequencia.upper():
        if base == 'A':
            complementar += 'T'
        elif base == 'T':
            complementar += 'A'
        elif base == 'C':
            complementar += 'G'
        elif base == 'G':
            complementar += 'C'

    return complementar[::-1]


**Exemplo**:

In [42]:
complemento_inverso("ATuG")

AssertionError: Sequência Inválida

**Testes de unidade**:

In [43]:
class TestComplementoInverso(unittest.TestCase):
    
    def test_sequencia_vazia(self):   
        with self.assertRaises(ValueError):
            complemento_inverso('')
    
    def test_sequencia_invalida(self):
        with self.assertRaises(ValueError):
            complemento_inverso('ACGHJTGH')
    
    def test_sequencia_com_numeros(self):
        with self.assertRaises(ValueError):
            complemento_inverso('12ACTG0')
    
    def test_sequencia_com_espacos(self):
        self.assertTrue(complemento_inverso('  AC  CTG   '))
    
    def test_complemento_correto(self):
        self.assertEqual( complemento_inverso('AATTCCGG'), 'TTAAGGCC' )
    

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_contarbases_espaco (__main__.TestValidaData) ... ok
test_contarbases_espaco1 (__main__.TestValidaData) ... ok
test_contarbases_invalido (__main__.TestValidaData) ... ok
test_contarbases_min (__main__.TestValidaData) ... ok
test_contarbases_min_e_maius (__main__.TestValidaData) ... ok
test_contarbases_num (__main__.TestValidaData) ... ok
test_contarbases_vazio (__main__.TestValidaData) ... ok

----------------------------------------------------------------------
Ran 7 tests in 0.012s

OK


<unittest.runner.TextTestResult run=7 errors=0 failures=0>

## Tradução

Em bioinformática, o Python é bastante utilizado para o processamento básico de sequências e  para a tradução de sequências de ADN. Existem várias bibliotecas e algoritmos disponíveis que facilitam esse processo. 

Existem diversas formas de realizar este processamento, citando as mais usadas: 

            - Algoritmo de tradução com o Biopython;

            - Algoritmo de tradução personalizado mediante a finalidade, o tipo de ser vivo ou devido a outras características específicas.
            

* **Algoritmo de tradução personalizado**: 

Se tivermos requisitos específicos ou quisermos implementar o nosso próprio algoritmo de tradução, podemos criar um algoritmo personalizado para isso. 

A função **traducao_personalizada()** é responsável por traduzir uma sequência de ADN. A função utiliza uma tabela predefinida que mapeia codões de ADN para os aminoácidos específicos. Antes da tradução, a função verifica a validade da sequência de ADN e aprimora a sequência usando. De seguida, os codões são traduzidas conforme a tabela, gerando a sequência de aminoácidos. 


In [55]:
def traducao_personalizada(sequencia_DNA):
        
    """
    Traduz uma sequência de ADN na sua correspondente sequência de aminoácidos

    
    Parâmetro:
    -----------
    sequencia_DNA : str
        Uma string que representa a sequência de ADN a ser traduzida

        
    Retorna:
    --------
    str
        Sequência de aminoácidos resultante da tradução da sequência de ADN

        
    Levanta:
    ------
    AssertionError
        Se a sequência de ADN não for válida 

    ValueError
        Se a sequência de DNA não tiver um número de bases múltiplo de 3
        
    """

    tabela_traducao = {
            "TTT": "F", "TTC": "F", "TTA": "L", "TTG": "L",
            "CTT": "L", "CTC": "L", "CTA": "L", "CTG": "L",
            "ATT": "I", "ATC": "I", "ATA": "I", "ATG": "M",
            "GTT": "V", "GTC": "V", "GTA": "V", "GTG": "V",
            "TCT": "S", "TCC": "S", "TCA": "S", "TCG": "S",
            "CCT": "P", "CCC": "P", "CCA": "P", "CCG": "P",
            "ACT": "T", "ACC": "T", "ACA": "T", "ACG": "T",
            "GCT": "A", "GCC": "A", "GCA": "A", "GCG": "A",
            "TAT": "Y", "TAC": "Y", "TAA": "*", "TAG": "*",
            "CAT": "H", "CAC": "H", "CAA": "Q", "CAG": "Q",
            "AAT": "N", "AAC": "N", "AAA": "K", "AAG": "K",
            "GAT": "D", "GAC": "D", "GAA": "E", "GAG": "E",
            "TGT": "C", "TGC": "C", "TGA": "*", "TGG": "W",
            "CGT": "R", "CGC": "R", "CGA": "R", "CGG": "R",
            "AGT": "S", "AGC": "S", "AGA": "R", "AGG": "R",
            "GGT": "G", "GGC": "G", "GGA": "G", "GGG": "G"
            }

    assert validar_dna(sequencia_DNA), "Sequência inválida"

    sequencia_DNA = aprimorar_seq(sequencia_DNA)

    if len(sequencia_DNA) % 3 != 0:
        raise ValueError("Sequência de DNA inválida: número de bases não é múltiplo de 3.")

    # Tradução do DNA para uma sequência de aminoácidos
    sequencia_aminoacido = "".join([tabela_traducao[sequencia_DNA[i:i+3]] for i in range(0, len(sequencia_DNA), 3)])

    return sequencia_aminoacido

**Exemplo**:

In [57]:
traducao_personalizada("TTTCTT")

'FL'

**Testes de unidade**:

In [56]:
class TestTraducao(unittest.TestCase):
    
    def test_sequencia_vazia(self):
        with self.assertRaises(ValueError):
            traducao_personalizada('')
    
    def test_sequencia_invalida(self):
        with self.assertRaises(ValueError):
            traducao_personalizada('ACGHJTGH')
    
    def test_sequencia_com_numeros(self):
        with self.assertRaises(ValueError):
            traducao_personalizada('12ACTG0')
    
    def test_sequencia_com_espacos(self):
        self.assertTrue(traducao_personalizada('  AC  CTG   '))
    
    def test_complemento_correto(self):
        self.assertEqual(traducao_personalizada('ATAACG'), 'RYC' )
    

suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_contarbases_espaco (__main__.TestValidaData) ... ok
test_contarbases_espaco1 (__main__.TestValidaData) ... ok
test_contarbases_invalido (__main__.TestValidaData) ... ok
test_contarbases_min (__main__.TestValidaData) ... ok
test_contarbases_min_e_maius (__main__.TestValidaData) ... ok
test_contarbases_num (__main__.TestValidaData) ... ok
test_contarbases_vazio (__main__.TestValidaData) ... ok

----------------------------------------------------------------------
Ran 7 tests in 0.011s

OK


<unittest.runner.TextTestResult run=7 errors=0 failures=0>

## Open Reading *Frames* 

**Open Reading Frames** (ORFs) referem-se a segmentos específicos de uma sequência de ADN ou RNA que têm o potencial de serem traduzidos em proteínas durante o processo de síntese proteica. Um ORF é caracterizado por iniciar com um codão de início e estender-se por um comprimento suficiente sem a presença de codões stop.

A identificação de ORFs é essencial na análise genómica, uma vez que sugere que regiões do genoma podem estar associadas à codificação de genes, desempenhando um papel significativo na compreensão da estrutura e função dos genes em organismos. 

Em primeiro lugar, foi criada uma função auxiliar, **tipo_seq()** que classifica uma sequência como ADN, RNA, uma sequência de aminoácidos ou a considera inválida, dependendo dos caracteres presentes na sequência. A classificação é baseada na presença ou ausência de caracteres específicos associados a cada tipo de sequência.

In [64]:
def tipo_seq(seq):
    
    """
    A partir de uma sequência, classifica-a em ADN, RNA ou Sequência aminoácidos

    
    Parâmetro:
    ---------
    seq : str 
        A sequência a ser classificada

        
    Retorna:
    ---------
    str
        A classificação da sequência: 

        
    Levanta:
    ---------
    ValueError:
        Se a sequência for inválida

    """

    seq = aprimorar_seq(seq)

    if not bool(seq):
        raise ValueError("É uma sequência inválida")
    
    if validar_dna(seq):
        return "ADN"
        
    if len([c for c in seq if c not in "ACGU"]) == 0:
        return "RNA"
        
    elif len([c for c in seq if c not in "ABCDEFGHIKLMNPQRSTVWYZ_"]) == 0:
        return "Sequência aminoácidos"
    
    else:
        raise ValueError("É uma sequência inválida")
    


**Exemplo**:

In [69]:
tipo_seq("YY")

'Sequência aminoácidos'

**Testes de unidade**:

In [70]:
class TestTipoSeq(unittest.TestCase):
    def test_dna(self):
        result = tipo_seq("ATCG")
        self.assertEqual(result, "ADN")

    def test_rna(self):
        result = tipo_seq("AUCG")
        self.assertEqual(result, "RNA")

    def test_aminoacidos(self):
        result = tipo_seq("ACDEFGHIKLMNPQRSTVWY")
        self.assertEqual(result, "Sequência aminoácidos")

    def test_invalido(self):
        with self.assertRaises(ValueError):
            tipo_seq(" ")

    def test_misturado(self):
        with self.assertRaises(ValueError):
            tipo_seq("16")
        
suite = unittest.TestLoader().loadTestsFromTestCase(TestTipoSeq)
unittest.TextTestRunner( verbosity=3 ).run( suite )
        

test_aminoacidos (__main__.TestTipoSeq) ... ok
test_dna (__main__.TestTipoSeq) ... ok
test_invalido (__main__.TestTipoSeq) ... ok
test_misturado (__main__.TestTipoSeq) ... ok
test_rna (__main__.TestTipoSeq) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.009s

OK


<unittest.runner.TextTestResult run=5 errors=0 failures=0>

De seguida, foi criada a função **get_orfs()**. Esta função gera Open Reading Frames (ORFs) a partir de uma sequência de ADN ou RNA. 

Ao receber uma sequência, a função verifica o tipo da sequência usando a função **tipo_seq()** desenvolvida previamente. Se a sequência for de DNA, ela calcula o complemento inverso e produz seis ORFs distintos:

* Três ORFs iniciando nas posições 0, 1 e 2 da sequência original.
* Três ORFs iniciando nas posições 0, 1 e 2 do complemento inverso.

Se a sequência for de RNA, a função gera três ORFs iniciando nas posições 0, 1 e 2 da sequência original.

O resultado final é uma lista que contém os ORFs gerados a partir da sequência fornecida. No caso de a sequência não ser considerada válida, a função levanta um ValueError.

In [90]:
def get_orfs(seq):

    """
    Gera Open Reading Frames (ORFs) a partir de uma sequência de ADN ou de RNA


    Parâmetro:
    -----------
    seq : str
        Sequência de ADN ou RNA


    Retorna:
    --------
    lista
        Lista contendo ORFs gerados a partir da sequência.

        
    Levanta:
    ------
    ValueError
        Se a sequência não for uma sequência válida


    """

    
    if tipo_seq(seq) == "ADN":

        seq_comp_inv = complemento_inverso(seq)

        lista_orfs = [
            seq[0:], seq[1:], seq[2:],
            seq_comp_inv[0:], seq_comp_inv[1:], seq_comp_inv[2:]
        ]

        return lista_orfs

    elif tipo_seq(seq) == "RNA":

        lista_orfs = [
            seq[0:], seq[1:], seq[2:],
        ]
        return lista_orfs
    
    else:
       raise ValueError("Sequência inválida")

    

**Exemplo**:

In [91]:
get_orfs("AUCG")

['AUCG', 'UCG', 'CG']

**Testes de unidade**:

In [96]:
class TestGetOrfs(unittest.TestCase):
    def test_get_orfs_dna(self):
        result = get_orfs("ATCG")
        expected = ["ATCG", "TCG", "CG", "CGAT", "GAT", "AT"]
        self.assertEqual(result, expected)

    def test_get_orfs_rna(self):
        result = get_orfs("AUCG")
        expected = ["AUCG", "UCG", "CG"]
        self.assertEqual(result, expected)

    def test_get_orfs_invalid_seq(self):
        with self.assertRaises(ValueError):
            get_orfs(" ")

suite = unittest.TestLoader().loadTestsFromTestCase(TestGetOrfs)
unittest.TextTestRunner( verbosity=3 ).run( suite )


test_get_orfs_dna (__main__.TestGetOrfs) ... ok
test_get_orfs_invalid_seq (__main__.TestGetOrfs) ... ok
test_get_orfs_rna (__main__.TestGetOrfs) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.014s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>