# **Portefólio**

Grupo:
* Artur Gomes       | PG55692
* Catarina Gomes    | PG55694
* Maria Carvalho    | PG55130
* Pedro Pereira     | PG55703
* Sami Benkhellat   | PG55704


## Funções para tratamento de Sequências

##### **Função: validate_dna()**

<div style="text-align: justify;">
Esta função verifica se a sequência de DNA fornecida é válida. Para ser válida, a sequência precisa conter apenas os nucleotidos: A, T, C e G. Se algum nucleotidos não estiver no conjunto de caracteres válidos, a função retornará `False`.

A função começa por remover os espaços em branco e transforma a sequência em letras maiúsculas para garantir que a verificação não seja afetada por esses fatores. A conversão para maiúsculas também assegura que a verificação seja insensível ao *case* (minúsculas ou maiúsculas).

Após a limpeza e formatação da sequência, a função faz uma verificação inicial para garantir que a sequência não esteja vazia. Isso é feito com a expressão `if len(format_seq) == 0`. Se a sequência estiver vazia, a função retorna **False** imediatamente, indicando que a sequência fornecida não é válida. Este passo é importante porque uma sequência de DNA não pode ser vazia ou composta apenas por espaços em branco.

Depois, a função percorre cada nucleotidos da sequência utilizando um loop `for`. A função verifica se cada caractere da sequência está entre os nucleotidos válidos. Isto é feito com a expressão `if nucleotide not in dna`, onde `nucleotide` é o caractere atual da sequência e `dna` é a string `'ATCG'` que contém os nucleotidos válidos.

Se algum caractere não estiver nesse conjunto de nucleotidos válidos, a função retorna **False** imediatamente, indicando que a sequência é inválida. Caso contrário, após verificar todos os caracteres, a função retorna **True**, indicando que a sequência é válida.
</div>

In [16]:
import re

def validate_dna(seq: str) -> bool:
    '''
    Verifica se a sequência fornecida é uma sequência de DNA válida.
    Entrada:
        seq: str - Sequência a ser verificada.
    Saída:
        bool - True se a sequência for válida, False caso contrário.
    '''
    dna = 'ATCG'  # Define os nucleotidos válidos para uma sequência de DNA.
    
    # Remove espaços em branco e converte a sequência para letras maiúsculas.
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    # Verifica se a sequência está vazia após a formatação.
    if len(format_seq) == 0:
        return False  # Retorna False se a sequência estiver vazia.
    
    # Itera sobre cada caractere na sequência formatada.
    for nucleotide in format_seq:
        # Verifica se o nucleotídeo não está no conjunto válido.
        if nucleotide not in dna:
            return False  # Retorna False ao encontrar um caractere inválido.
    
    # Retorna True se todos os nucleotidos forem válidos e a sequência não estiver vazia.
    return True

##### **Função: count_bases()**

<div style="text-align: justify;">
Esta função recebe uma sequência de DNA e imprime o número de ocorrências de cada nucleotido (A, C, G e T) presente na sequência. Além disso, ela valida a sequência para garantir que ela não contenha caracteres inválidos e, caso existam, exibe o total de erros encontrados, incluindo os caracteres específicos que são inválidos.

A função começa removendo espaços em branco e transformando toda a sequência em letras maiúsculas para garantir uniformidade no processamento, utilizando a função `re.sub` e o método `.upper()`.

Antes de processar os dados, a função verifica a presença de caracteres inválidos (que não sejam A, C, G ou T) utilizando uma expressão regular. Se forem encontrados caracteres inválidos, a função levanta uma exceção do tipo `AssertionError`, informando quantos caracteres inválidos estão presentes e quais são esses caracteres.

Caso a sequência seja válida, a função então conta as ocorrências das bases válidas (A, C, G, T) na sequência. Para isso, utiliza-se uma compreensão de dicionário, onde cada base ('A', 'C', 'G', 'T') é mapeada ao número de vezes que ela aparece na sequência.

Por fim, a função itera sobre o dicionário de contagens e imprime o resultado no formato `Base: Número`, com cada base exibida em uma linha separada.
</div>

In [18]:
import re

def count_bases(seq: str):
    """
    Recebe uma sequência e imprime o número de A, C, G e T.
    Se houver caracteres inválidos, exibe o total de erros também, com 
    especificação da base com erro.
    Input: Sequência (string)
    Output: Impressão de resultados (por linha)
    """
    # Remove espaços em branco e converte a sequência para letras maiúsculas
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    # Identifica caracteres inválidos que não sejam A, C, G ou T
    invalid_bases = re.sub(r'[ACGT]', '', format_seq)  # Remove bases válidas
    error_count = len(invalid_bases)  # Conta quantos caracteres inválidos existem
    
    # Se houver caracteres inválidos, levanta uma exceção com detalhes do erro
    if error_count > 0:
        raise AssertionError(f"Erro: A sequência contém {error_count} caractere(s) inválido(s)! "
                             f"Caracteres inválidos: {', '.join(set(invalid_bases))}")
    
    # Cria um dicionário para contar as bases válidas (A, C, G, T)
    counts = {base: format_seq.count(base) for base in 'ACGT'}
    
    # Imprime o número de ocorrências de cada base
    for base, count in counts.items():
        print(f"{base}: {count}")
    
    return counts


##### **Função: frequency_calculator()**
<div style="text-align: justify;">
Esta função recebe uma sequência de DNA, valida-a para garantir que contenha apenas bases válidas (A, C, G e T), e em seguida, calcula e imprime as frequências relativas dessas bases (A, C, G, T) na sequência. A frequência relativa é obtida dividindo o número de vezes que cada base aparece pelo número total de bases válidas na sequência.

A função começa verificando a validade da sequência utilizando a função `validate_dna`. 
Se a sequência contiver bases inválidas (ou seja, qualquer caractere que não seja A, C, G ou T), a função exibe uma mensagem de erro e interrompe o processo. Caso a sequência seja válida, a função prossegue para a contagem das bases válidas.

A contagem de cada base (A, C, G, T) é realizada utilizando uma compreensão de dicionário, onde cada base é mapeada ao número de ocorrências dessa base na sequência. Após obter as contagens, a função calcula as frequências relativas, que são expressas como a razão entre o número de vezes que a base aparece e o número total de bases válidas.

Por fim, a função imprime as frequências relativas de cada base, formatadas com quatro casas decimais. Se a sequência não contiver bases válidas, a função exibe um erro indicando que não foi possível calcular as frequências.
</div>

In [19]:
import re
def frequency_calculator(seq: str):
    """
    Recebe uma sequência, valida com validate_dna e imprime apenas as frequências relativas de A, C, G e T.
    Frequência relativa é calculada como o número de vezes que a base aparece
    dividido pelo número total de bases válidas na sequência.
    
    Input: Sequência (string)
    Output: Impressão das frequências relativas das bases A, C, G e T (por linha)
    """
    try:
        # Validar a sequência e contar as bases válidas
        if not validate_dna(seq):
            print("Erro: A sequência contém bases inválidas, ou encontra-se vazia!")
            return None
        
        format_seq = re.sub(r'\s+', '', str(seq)).upper()
        counts = {base: format_seq.count(base) for base in 'ACGT'}
        total_bases = sum(counts.values())
        
        if total_bases == 0:
            print("Erro: A sequência não contém bases válidas!")
            return None
        
        # Calcular a frequência relativa de cada base
        frequencies = {base: round(count / total_bases, 2) for base, count in counts.items()}
        
        # Retorna as frequências relativas
        return frequencies
    
    except AssertionError as e:
        # Se ocorrer erro de validação, imprime o erro
        print(e)
        return None

##### **Função: to_rna()**

<div style="text-align: justify;">
A função recebe uma sequência de DNA, valida se ela contém apenas os nucleotídeos válidos (A, T, C, G), e converte a sequência de DNA para RNA. A conversão é realizada substituindo todas as ocorrências de 'T' (Timina) por 'U' (uracilo base correspondente ao DNA no RNA).

   - A sequência é validada usando a função `validate_dna()`. Se a sequência contiver qualquer base que não seja A, C, G ou T, a função imprime uma mensagem de erro indicando que a sequência é inválida e retorna, interrompendo o processo. 
   
   - A função também verifica se a sequência está vazia após a remoção de espaços. Se a sequência for vazia, ela exibe um erro específico para esse caso e retorna.

   - Se a sequência for válida e não estiver vazia, a função procede para converter o DNA em RNA. Isso é feito substituindo todas as ocorrências da base 'T' por 'U', utilizando o método `.replace('T', 'U')`.
</div>

In [20]:
import re
import pdb

def to_rna(seq):
    '''
    Converter uma sequência de DNA em RNA.

    A função recebe uma sequência de DNA, valida se ela contém apenas as bases válidas (A, C, G, T), e converte a sequência para RNA, substituindo todas as ocorrências de 'T' por 'U'.

    Input: Sequência de DNA (string)
    Output: Sequência de RNA (string) ou erro de validação se a sequência for inválida ou vazia.
    '''
    try:
        # Remove espaços em branco e converte a sequência para letras maiúsculas
        format_seq = re.sub(r'\s+', '', str(seq)).upper()
        
        # Verifica se a sequência é válida utilizando a função validate_dna
        if not validate_dna(format_seq):
            print("Erro: A sequência contém bases inválidas, ou encontra-se vazia!")
            return
        
        # Substitui 'T' por 'U' para realizar a conversão de DNA para RNA
        rna_seq = format_seq.replace('T', 'U')
        
        # Retorna a sequência de RNA formatada
        return f"Sequência de RNA: {rna_seq}"
    
    except AssertionError as e:
        # Captura e exibe erros de validação caso ocorram
        print(e)


##### **Função: rev_comp()**
<div style="text-align: justify;">
Esta função retorna o complemento inverso de uma sequência de DNA fornecida. Para calcular o complemento reverso, a função inverte a sequência de DNA e, em seguida, troca cada nucleotídeo pelo seu complemento correspondente.

A função começa por remover quaisquer espaços em branco e converte a sequência para maiúsculas para garantir que a verificação não seja afetada por esses fatores.

Após preparar a sequência, a função valida se a sequência contém apenas nucleotídeos válidos (A, T, C, G) utilizando a função `validate_dna()`. Caso a sequência seja inválida, a função imprime uma mensagem de erro.

Em seguida, a sequência é invertida, utilizando um loop que insere cada base no início de uma nova string, formando a sequência inversa. Após a inversão, um segundo loop percorre cada base da sequência inversa e substitui cada nucleótido pelo seu complemento correspondente. A troca é feita através da função `complementary_character(base)`, onde:  A → T, T → A, C → G, G → C
</div>

In [21]:
import re
import pdb

def revcomp(seq: str) -> str:
    """
    Calcula o complemento inverso de uma sequência de DNA.

    Parâmetros:
        seq: str
            Uma sequência de DNA, contendo apenas as bases A, C, G, T.
    
    Retorna:
        Uma string representando o complemento inverso da sequência de DNA fornecida.
        Retorna None se a sequência for inválida.
    """
    
    def complementary_character(base: str) -> str:
        """
        Retorna a base complementar de uma base de DNA.
        Exemplo:
        A → T, T → A, C → G, G → C
        
        Parâmetro:
            base: str
                Uma base de DNA (A, C, G ou T).
        
        Retorna:
            A base complementar correspondente.
        """
        # Definindo as bases normais e suas complementares
        norm = "ACGT"
        comp = "TGCA"

        # Criando um dicionário de tradução entre bases normais e complementares
        translation = dict(zip(norm, comp))
        
        # Retornando a base complementar
        return translation[base]

    # Remover espaços em branco e converter a sequência para letras maiúsculas
    format_seq = re.sub(r'\s+', '', str(seq)).upper()

    # Verificar se a sequência de DNA é válida
    if not validate_dna(format_seq):
        print("Erro: A sequência contém bases inválidas ou está vazia!")
        return None  # Retorna None para indicar erro
    
    # Criar a sequência reversa
    reverse = ""
    for base in format_seq:
        reverse = base + reverse  # Adiciona cada base no início para inverter a sequência
    
    # Criar o complemento da sequência reversa
    result = ""
    for base in reverse:
        result += complementary_character(base)  # Substitui cada base pela complementar
    
    # Retorna o complemento reverso
    return result


##### **Função: identify_sequence()**

<div style="text-align: justify;">

A função  identifica o tipo de sequência biológica recebida como entrada. Ela determina se a sequência pertence a um dos três grupos principais: DNA, RNA, ou Aminoácidos (AMINO). Caso a sequência contenha caracteres inválidos ou não pertença a nenhum desses grupos, a função classifica-a como **ERRO**.

A implementação segue uma abordagem sistemática:

1. **Formatação da Sequência**:
   A entrada é processada para remover espaços em branco e converter todos os caracteres para letras maiúsculas, utilizando `re.sub(r'\s+', '', seq).upper()`. Isso assegura que a verificação dos caracteres não seja sensível ao uso de maiúsculas ou minúsculas, e elimina interferências causadas por espaços.

2. **Definição dos Conjuntos Válidos**:
   Para identificar o tipo da sequência, a função compara os caracteres da sequência com os seguintes conjuntos:
   - **DNA**: Contém apenas os nucleotídeos `A, T, C, G`.
   - **RNA**: Contém apenas os nucleotídeos `A, U, C, G`.
   - **AMINOÁCIDOS**: Conjunto de letras representando os aminoácidos válidos: `I, M, T, N, K, S, R, L, P, H, Q, A, D, E, G, F, Y, C, W, _`.

3. **Classificação da Sequência**:
   A verificação utiliza expressões do tipo `all(base in dna for base in format_seq)` para determinar se todos os caracteres pertencem a um dos conjuntos válidos:
   - **DNA**: Caso todos os caracteres estejam em `dna`, a sequência é classificada como **DNA**.
   - **RNA**: Caso todos os caracteres estejam em `rna`, a sequência é classificada como **RNA**.
   - **AMINOÁCIDOS**: Caso todos os caracteres estejam em `aa`, a sequência é classificada como **AMINO**.
   - **ERRO**: Se qualquer caractere for inválido ou a sequência não pertencer a nenhum dos conjuntos acima.

4. **Retorno**:
   A função retorna uma mensagem no formato `<sequência formatada>: <tipo identificado>`, indicando o tipo de sequência ou erro.
</div>

In [22]:
import re
def identify_sequence(seq: str):
    """
    Identifica se uma sequência é DNA, RNA, AMINOÁCIDO ou ERRO.
    
    - DNA: Contém apenas A, T, C, G.
    - RNA: Contém apenas A, U, C, G.
    - AMINOÁCIDO: Contém apenas as letras representando aminoácidos válidos.
    - ERRO: Se contiver caracteres inválidos.
    
    Input: Sequência (string)
    Output: DNA, RNA, AMINO ou ERRO (string)
    """
    
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    if not format_seq:
        return "ERRO"
    
    # Verificar se a sequência é DNA
    if all(base in 'ATCG' for base in format_seq):
        return f"{format_seq}: DNA"
    
    # Verificar se a sequência é RNA
    elif all(base in 'AUCG' for base in format_seq):
        return f"{format_seq}: RNA"
    
    # Verificar se a sequência é de aminoácidos
    elif all(base in 'IMTNKSRLPHQADEGFYCW_' for base in format_seq):
        return f"{format_seq}: AMINO"
    else:
        return "ERRO"

##### **Função: get_codons()**

<div style="text-align: justify;">

A função **`get_codons`** divide uma sequência biológica (DNA ou RNA) em **codões**, ou seja, grupos de três nucleotidos consecutivos. Cada codão é considerado uma unidade que codifica para um aminoácido durante a tradução do código genético.

A função começa por remover todos os espaços da sequência e converte as letras para maiúsculas. A conversão para maiúsculas é importante para garantir que a verificação da sequência seja insensível ao *case* (minúsculas ou maiúsculas).

Em seguida, a função percorre a sequência de três em três nucleotidos. Para cada grupo de três nucleotidos, é verificado se o tamanho do grupo é 3. Se for, o grupo é adicionado à lista de resultados. Caso a sequência tenha menos de três nucleotidos no final, esses nucleotidos são ignorados, já que a função só retorna codões completos.

A função utiliza o loop `for pos in range(0, len(format_seq), 3)` para iterar sobre a sequência, criando os grupos de três e adicionando-os à lista **`result`**. O parâmetro `pos` indica a posição inicial de cada codão.

Por fim, a função retorna a lista de codões completos encontrados na sequência, permitindo que a sequência biológica seja dividida em unidades de leitura adequadas para a tradução de proteínas.

Caso a sequência tenha menos de três nucleotidos no final, ou a sequência contenha apenas espaços, a função retorna uma lista vazia, indicando que não é possível formar codões completos.
</div>

In [10]:
import re
def get_codons(seq: str) -> list:
    """
    Divide uma sequência biológica em códons (grupos de três nucleotídeos consecutivos).
    
    Parâmetros:
        seq (str): Uma string contendo a sequência de DNA ou RNA.
                   - A sequência pode conter letras maiúsculas ou minúsculas.
                   - Espaços em branco serão ignorados.
    
    Retorna:
        list: Uma lista de strings, onde cada string é um códon (grupo de três nucleotídeos).
              Apenas códons completos (de tamanho 3) serão incluídos na lista.
    
    Exemplo:
        Entrada: "ATCGTACG"
        Saída: ["ATC", "GTA"]
    """

# Remover espaços em branco e converter para maiúsculas
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    # Validação da sequência de DNA
    if not validate_dna(format_seq):
        return ["Erro: A sequência contém bases inválidas ou está vazia!"]
    
    result = []
    for pos in range(0, len(format_seq), 3):
        codon = format_seq[pos : pos + 3]
        if len(codon) == 3:
            result.append(codon)
    return result

### **Função: codon_to_amino()**

<div style="text-align: justify;">
Esta função recebe uma sequência de codões de DNA e retorna a sequência de aminoácidos correspondente. O processo é realizado com base na tabela de tradução fornecida, onde cada codão (sequência de 3 bases) é mapeado para um aminoácido específico.

A função começa com uma string de codões, que são agrupamentos consecutivos de 3 nucleotido. Em seguida, para cada codão na sequência, a função utiliza a tabela de tradução (um dicionário) para encontrar o aminoácido correspondente. Cada codão é traduzido da tabela, e o aminoácido correspondente é adicionado à string de resultado.

Passos realizados pela função:
1. **Entrada**: A função recebe uma lista ou sequência de codões de DNA, que são substrings de 3 caracteres representando as bases nitrogenadas (A, T, C, G).
2. **Busca na tabela**: Para cada codão, a função verifica se ele existe na tabela de tradução. A tabela mapeia cada codão para um aminoácido ou um código de parada (como "_").
3. **Concatenação do resultado**: A função então concatena os aminoácidos correspondentes para formar a sequência de aminoácidos que representa a tradução da sequência de DNA.

Se algum codão não estiver presente na tabela, a função  retorna um valor vazio. Se a sequência não for válida, será retornado um erro devido à falha na validação da função `validate_dna` (da função `get_codons`).
</div>

In [23]:
table = {
    'ATA': 'I', 'ATC': 'I', 'ATT': 'I', 'ATG': 'M',
    'ACA': 'T', 'ACC': 'T', 'ACG': 'T', 'ACT': 'T',
    'AAC': 'N', 'AAT': 'N', 'AAA': 'K', 'AAG': 'K',
    'AGC': 'S', 'AGT': 'S', 'AGA': 'R', 'AGG': 'R',
    'CTA': 'L', 'CTC': 'L', 'CTG': 'L', 'CTT': 'L',
    'CCA': 'P', 'CCC': 'P', 'CCG': 'P', 'CCT': 'P',
    'CAC': 'H', 'CAT': 'H', 'CAA': 'Q', 'CAG': 'Q',
    'CGA': 'R', 'CGC': 'R', 'CGG': 'R', 'CGT': 'R',
    'GTA': 'V', 'GTC': 'V', 'GTG': 'V', 'GTT': 'V',
    'GCA': 'A', 'GCC': 'A', 'GCG': 'A', 'GCT': 'A',
    'GAC': 'D', 'GAT': 'D', 'GAA': 'E', 'GAG': 'E',
    'GGA': 'G', 'GGC': 'G', 'GGG': 'G', 'GGT': 'G',
    'TCA': 'S', 'TCC': 'S', 'TCG': 'S', 'TCT': 'S',
    'TTC': 'F', 'TTT': 'F', 'TTA': 'L', 'TTG': 'L',
    'TAC': 'Y', 'TAT': 'Y', 'TAA': '_', 'TAG': '_',
    'TGC': 'C', 'TGT': 'C', 'TGA': '_', 'TGG': 'W',
}

def codon_to_amino(codons): 
    """
    Traduz uma sequência de codões para a sequência de aminoácidos correspondente.
    
    codons: lista ou string
        Uma sequência de codões (cada codão tem 3 bases de DNA: A, T, C, G).
        
    Retorna:
        Uma string contendo a sequência de aminoácidos.
    """
    res = ''
    for codon in codons:
        res += table.get(codon, '')  # Obtém o aminoácido correspondente ao codão
    return res

##### **Função: get_prots()**

<div style="text-align: justify;">
Esta função tem como objetivo identificar e retornar todas as proteínas encontradas em uma sequência de aminoácidos. Cada proteína começa com a letra 'M' (Metionina) e termina com o código de stop representado por '_'.

A função percorre cada aminoácido na sequência fornecida e, ao encontrar o marcador 'M', ela começa a construir uma nova proteína. A sequência continua sendo adicionada à proteína até o encontro do código de parada '_'. Quando o código de stop é encontrado, a proteína é adicionada à lista de proteínas e a construção da proteína é reiniciada.

Caso a sequência contenha outras letras além de 'M' e '_', elas são simplesmente ignoradas, a menos que se encontrem entre esses dois marcadores.

A função retorna uma lista contendo todas as proteínas encontradas, onde cada proteína é uma subsequência de aminoácidos que começa com 'M' e termina com '_'. Se nenhuma proteína for encontrada, a lista será vazia.

Explicação da Função `get_prots()`:

1. **Variáveis**:
   - `inside_prot`: Controla se estamos atualmente dentro de uma proteína. Inicialmente é `False`.
   - `prots`: Lista que armazenará as proteínas encontradas.
   - `prot`: String temporária que vai armazenar a proteína enquanto estamos dentro dela.

2. **Loop**:
   - O loop percorre cada aminoácido na sequência `amino`.
   - Quando encontra o marcador `'M'`, ele começa a armazenar os aminoácidos em `prot`.
   - Quando encontra o marcador de parada `'_'`, a proteína é adicionada à lista `prots` e a construção da proteína é reiniciada.
</div>

In [24]:
import pdb

def get_prots(amino):
    """
    Retorna uma lista de proteínas encontradas buma sequência de aminoácidos.
    
    amino: str
        A sequência de aminoácidos onde cada proteína começa com 'M' (Metionina) 
        e termina com '_' (codão de stop).
        
    Retorna:
        Uma lista de proteínas (subsequências de aminoácidos entre 'M' e '_').
    """
    inside_prot = False  # Indica se estamos dentro de uma proteína
    prots = []           # Lista para armazenar as proteínas
    prot = ''            # Variável para armazenar a proteína atual

    for aa in amino:     # Percorre cada aminoácido da sequência
        if aa == 'M':    # Início de uma nova proteína
            inside_prot = True

        if aa == '_':    # Fim de uma proteína
            if inside_prot:
                prots.append(prot + '_')  # Adiciona a proteína à lista com o código de parada
            inside_prot = False
            prot = ''    # Reseta a proteína atual

        if inside_prot:   # Se estamos dentro de uma proteína
            prot += aa    # Adiciona o aminoácido à proteína atual

    return prots

##### **Função: get_orfs()**

<div style="text-align: justify;">
Esta função recebe uma sequência de DNA e encontra todos os possíveis ORFs (Open Reading Frames, ou Quadros de Leitura Abertos) nas duas fitas de DNA, tanto a fita direta(5' -> 3') quanto a fita complementar inversa (3' -> 5). Os ORFs são sequências de codões que podem ser traduzidas em proteínas e são encontrados nos diferentes quadros de leitura da sequência.

A função itera sobre as duas fitas de DNA: a fita original (`seq`) e a fita complementar inversa (obtida utilizando a função `revcomp()`). Para cada uma dessas fitas, a função verifica três quadros de leitura diferentes. Esses quadros de leitura são criados pela leitura da sequência a partir de diferentes posições (0, 1 e 2), com base na primeira base de cada quadro.

Dentro de cada quadro de leitura, a função chama a função `get_codons()`, que divide a sequência em codões de três bases. A função então armazena esses codões como um ORF. Cada ORF encontrado é adicionado a uma lista que contém todos os ORFs encontrados nas duas fitas e para os três quadros de leitura.

Por fim, a função retorna uma lista contendo os ORFs encontrados. Caso não haja nenhum ORF, a lista retornada será vazia.
</div>

In [25]:
def get_orfs(seq):
    """
    Esta função encontra todos os ORFs
    a partir de uma sequência de DNA, considerando os dois sentidos da fitan (5' -> 3' e  3' -> 5) e três quadros de leitura possíveis.

    Parâmetros:
    seq (str): Uma sequência de DNA (string).

    Retorna:
    list: Uma lista contendo listas de ORFs encontrados. Cada ORF é representado por uma lista de codões.
    """
    
    all_orfs = []  # Lista para armazenar todas as listas de ORFs
    for strand in [seq, revcomp(seq)]:
        for frame in range(3):
            # Obtém os codões para o quadro de leitura específico
            orfs = get_codons(strand[frame:])

             # Verifica se o resultado é um erro
            if "Erro: A sequência contém bases inválidas ou está vazia!" in orfs:
                return orfs  # Retorna o erro diretamente
            else:
                all_orfs.append(orfs)
    return all_orfs

##### **Função: get_all_prots()**


<div style="text-align: justify;">
Esta função tem como objetivo encontrar todas as proteínas únicas em uma sequência de DNA fornecida. Ela considera todos os quadros de leitura possíveis (ORFs) e realiza a conversão dos codões para aminoácidos para identificar as proteínas presentes na sequência. A função retorna essas proteínas ordenadas de forma decrescente por seu comprimento, e, em caso de empate no comprimento, por ordem alfabética.

1. **Obtenção dos ORFs**: A função começa chamando a função `get_orfs(seq)`, que retorna todos os quadros de leitura (ORFs) da sequência de DNA fornecida. ORFs são sequências de DNA que podem ser traduzidas em proteínas.

2. **Conversão de ORFs em Aminoácidos**: Após obter os ORFs, a função os converte para sequências de aminoácidos utilizando a função `codon_to_amino(O)`, que converte cada sequência de codões em seus respectivos aminoácidos.

3. **Identificação das Proteínas**: Para cada sequência de aminoácidos obtida a partir de um ORF, a função utiliza a função `get_prots()` para identificar as proteínas presentes. As proteínas são sequências de aminoácidos que começam com 'M' (Metionina, o início da proteína) e terminam com '_' (um codão de stop).

4. **Criação de Proteínas Únicas**: A função usa um conjunto (`set`) para armazenar as proteínas, garantindo que apenas proteínas únicas sejam mantidas. O uso de um conjunto evita a duplicação de proteínas.

5. **Ordenação das Proteínas**: Após coletar todas as proteínas únicas, a função converte o conjunto em uma lista e ordena-as.

</div>

In [26]:
def get_all_prots(seq):
    """
    Encontra todas as proteínas únicas a partir de uma sequência de DNA, considerando todos os ORFs possíveis. Para cada ORF, converte 
    os codões em aminoácidos e identifica as proteínas (sequências de aminoácidos entre 'M' e '_').

    A função considera todos os ORFs encontrados, tanto na fita original (5' -> 3') quanto na fita complementar reversa (3' -> 5'), 
    e retorna uma lista com as proteínas únicas ordenadas por comprimento (decrescente) e, em caso de empate, pela sequência.

    Parâmetros:
    seq (str): A sequência de DNA (string) a ser analisada.

    Retorna:
    list: Uma lista de proteínas únicas encontradas na sequência.
    """
    
    # Obter todos os ORFs da sequência
    orfs = get_orfs(seq)
    
    # Converter os ORFs em sequências de aminoácidos
    orfs_amino = []
    for O in orfs:
        orfs_amino.append(codon_to_amino(O))
    
    # Obter as proteínas para cada sequência de aminoácidos
    prot_orfs = []
    for O in orfs_amino:
        prot_orfs.append(get_prots(O))
    
    # Criar um conjunto de proteínas únicas
    LPs = set()
    for LP in prot_orfs:
        for p in LP:
            LPs.add(p)
    
    # Converter o conjunto em lista e ordenar as proteínas
    LPs_list = list(LPs)
    LPs_list.sort(key=lambda P: (-len(P), P))
    
    return LPs_list

##### **Testes das Funções para tratamento de Sequências**

In [27]:
class TestSequenciaFunctions(unittest.TestCase):

    def test_validate_dna(self):
        self.assertTrue(validate_dna('ATCG'))
        self.assertTrue(validate_dna('AT CG'))
        self.assertTrue(validate_dna('atcg'))
        self.assertFalse(validate_dna('ATCX'))
        self.assertFalse(validate_dna('12345'))
        self.assertFalse(validate_dna(''))
        self.assertFalse(validate_dna('AGCT123'))
        self.assertFalse(validate_dna('NONSENSE'))

    def test_count_bases(self):
        # Teste de sequência válida
        self.assertEqual(count_bases('ATCG'), {'A': 1, 'T': 1, 'C': 1, 'G': 1})
        self.assertEqual(count_bases('AAAATTTT'), {'A': 4, 'T': 4, 'C': 0, 'G': 0})
        self.assertEqual(count_bases(''), {'A': 0, 'T': 0, 'C': 0, 'G': 0})
        
        # Teste de sequência com caracteres inválidos
        with self.assertRaises(AssertionError) as context:
            count_bases('ATBX')
        
        # Verifica se a mensagem contém a quantidade correta de caracteres inválidos
        self.assertTrue("Erro: A sequência contém 2 caractere(s) inválido(s)!" in str(context.exception))
        
        # Verifica se a mensagem contém os caracteres inválidos, sem se preocupar com a ordem
        invalid_bases_message = str(context.exception)
        self.assertTrue("B" in invalid_bases_message and "X" in invalid_bases_message)

        with self.assertRaises(AssertionError) as context:
            count_bases('XYZXYZ')
        
        # Verifica se a mensagem contém a quantidade correta de caracteres inválidos
        self.assertTrue("Erro: A sequência contém 6 caractere(s) inválido(s)!" in str(context.exception))
        
        # Verifica se a mensagem contém os caracteres inválidos, sem se preocupar com a ordem
        invalid_bases_message = str(context.exception)
        self.assertTrue("X" in invalid_bases_message and "Y" in invalid_bases_message and "Z" in invalid_bases_message)

    def test_frequency_calculator(self):
        self.assertEqual(frequency_calculator("ACGTACGT"), {'A': 0.25, 'C': 0.25, 'G': 0.25, 'T': 0.25})
        self.assertIsNone(frequency_calculator("ACGTX"))
        self.assertIsNone(frequency_calculator(""))
        self.assertEqual(frequency_calculator("A C G T A C G T"), {'A': 0.25, 'C': 0.25, 'G': 0.25, 'T': 0.25})
        self.assertEqual(frequency_calculator("acgtacgt"), {'A': 0.25, 'C': 0.25, 'G': 0.25, 'T': 0.25})
        self.assertIsNone(frequency_calculator("XXXX"))
        self.assertEqual(frequency_calculator("AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"), 
                         {'A': 0.29, 'T': 0.30, 'C': 0.17, 'G': 0.24})

    def test_to_rna(self):
        self.assertEqual(to_rna('ATCG'), 'Sequência de RNA: AUCG')
        self.assertEqual(to_rna('TTCC'), 'Sequência de RNA: UUCC')
        self.assertEqual(to_rna('aatc'), 'Sequência de RNA: AAUC')
        self.assertEqual(to_rna('AAA'), 'Sequência de RNA: AAA')
        self.assertIsNone(to_rna(''))
        self.assertIsNone(to_rna('ATBX'))
        self.assertIsNone(to_rna('XYZ'))

    def test_revcomp(self):
        self.assertEqual(revcomp('ATCG'), 'CGAT')
        self.assertEqual(revcomp('AT G'), 'CAT')
        self.assertEqual(revcomp('atcg'), 'CGAT')
        self.assertIsNone(revcomp(''))
        self.assertIsNone(revcomp('ATBX'))
        self.assertIsNone(revcomp('XYZ'))

    def test_identify_sequence(self):
        self.assertEqual(identify_sequence('ATGCCC ATTG'), 'ATGCCCATTG: DNA')
        self.assertEqual(identify_sequence('tttcggt'), 'TTTCGGT: DNA')
        self.assertEqual(identify_sequence('AuGCCCAuuG'), 'AUGCCCAUUG: RNA')
        self.assertEqual(identify_sequence('YCW_'), 'YCW_: AMINO')
        self.assertEqual(identify_sequence(''), 'ERRO')
        self.assertEqual(identify_sequence('XYZ'), 'ERRO')

    def test_get_codons(self):
        self.assertEqual(get_codons('ATGCCCATT'), ['ATG', 'CCC', 'ATT'])
        self.assertEqual(get_codons('ATGC CCAtt'), ['ATG', 'CCC', 'ATT'])
        self.assertEqual(get_codons(''), ["Erro: A sequência contém bases inválidas ou está vazia!"])  
        self.assertEqual(get_codons('ACU'), ["Erro: A sequência contém bases inválidas ou está vazia!"])  
        self.assertEqual(get_codons('XYZ'), ["Erro: A sequência contém bases inválidas ou está vazia!"])  
        
    def test_codon_to_amino(self):
        self.assertEqual(codon_to_amino(['ATA']), 'I')  
        self.assertEqual(codon_to_amino(['TTT']), 'F') 
        self.assertEqual(codon_to_amino([]), '')        
        self.assertEqual(codon_to_amino(['UUU']), '')   
        self.assertEqual(codon_to_amino(['ZZZ']), '') 
        
    def test_get_prots(self):
        self.assertEqual(get_prots('MATGCCTAA'), [])
        self.assertEqual(get_prots('GCTMATG_CAT_MX__'), ['MATG_', 'MX_'])
        self.assertEqual(get_prots('M_MATG'), ['M_'])
        self.assertEqual(get_prots('AUG'), [])
        self.assertEqual(get_prots(''), [])

    def test_get_orfs(self):
        self.assertEqual(
            get_orfs('ATGAA AtgA'),
            [['ATG', 'AAA', 'TGA'],  # 1 (sentido 5'->3')
             ['TGA', 'AAT'],         # 2 (sentido 5'->3')
             ['GAA', 'ATG'],         # 3 (sentido 5'->3')
             ['TCA', 'TTT', 'CAT'],  # 1 (sentido 3'->5')
             ['CAT', 'TTC'],         # 2 (sentido 3'->5')
             ['ATT', 'TCA']]         # 3 (sentido 3'->5')
        )
        
        self.assertEqual(get_orfs(''), ["Erro: A sequência contém bases inválidas ou está vazia!"]) 
        self.assertEqual(get_orfs('AUGAAAUGA'), ["Erro: A sequência contém bases inválidas ou está vazia!"]) 
        self.assertEqual(get_orfs('NONSENSE'), ["Erro: A sequência contém bases inválidas ou está vazia!"])  

    def test_get_all_prots(self):
        self.assertEqual(get_all_prots('ATGaa ATGA'), ['MK_'])
        self.assertEqual(get_all_prots('ATGGCCATGGCGTAA'), ['MAMA_'])
        self.assertEqual(get_all_prots(''), [])
        self.assertEqual(get_all_prots('XYZ'), [])
        self.assertEqual(get_all_prots('AUGAAAUGA'), [])



if __name__ == '__main__':
    unittest.main(argv=['first-arg-is-ignored'], exit=False)

...........
----------------------------------------------------------------------
Ran 11 tests in 0.107s

OK


A: 1
C: 1
G: 1
T: 1
A: 4
C: 0
G: 0
T: 4
A: 0
C: 0
G: 0
T: 0
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!


## Alinhamentos locais e globais

Markdown para explicar cada função nos seguintes niveis
- Descrição do algoritmo
- Projeto de alto nível
- Projeto de baixo nível

## Blast

Markdown para explicar cada função nos seguintes niveis
- Descrição do algoritmo
- Projeto de alto nível
- Projeto de baixo nível

In [None]:
from collections import defaultdict
from pprint import pprint

DEBUG = True
def query_map(seq, window_size):
    """
    Returns a dictionary of all key/value pairs where
        key is a substring of size window_size
        value is a list of occurrences (offsets)
    """

    res = defaultdict(list)
    size = len(seq)

    for position in range(size - window_size + 1):
        if DEBUG:
            print( position, seq[position : position + window_size])

        subseq = seq[position : position + window_size]
        res[subseq].append(position)
    if DEBUG:
        pprint(res)
    return res

def get_all_positions(subseq, seq):
    return [P for P in range(len(seq) - len(subseq) + 1) if seq[P : P + len(subseq)] == subseq]
        
def hits(qm, seq):
    """
    for all keys Q in qm
        for all positions in seq where Q exists
        add the tuple of corresponding positions
    """
    res = []
    for Q, LstPos in qm.items():
        for P1 in LstPos:
            for P2 in get_all_positions(Q, seq):
                res.append((P1, P2))
    return res

def extend_hit_direction(query, seq, hit, window_size):
    """
        query: first string
        seq: second string
        hit: tuple of offsets
        window_size:
        direction: +1 or -1


        try to extend in this direction one character at a time
        If both characters are the same, advance
        Otherwise continue if half the characters are the same


        returns a tuple with:
        - The initial position in query
        - The initial position in seq
        - The match size
        - The number of equal characters
    """
    pos_query, pos_seq = hit

    def extend_hit(direction):

        if direction == 1:
            query_extension = query[pos_query + window_size ::]
            seq_extension = seq[pos_seq+ window_size ::]

        elif direction == -1:

            query_extension = query[:pos_query:]
            query_extension = query_extension[::-1]

            seq_extension = seq[:pos_seq:]
            seq_extension = seq_extension[::-1]

        match_size = 0
        equal_char = 0
        waiting_match = 0

        while query_extension and seq_extension:

            if query_extension[0]==seq_extension[0]:
                match_size += 1 + waiting_match
                equal_char +=1
                waiting_match = 0
                
            else:
                waiting_match += 1

            if DEBUG:
                print(f"Possible extension(query/seq): {query_extension} {seq_extension}\n" 
                        f"Match size: {match_size} | Equal Bases: {equal_char} | Waiting match: {waiting_match} \n")
                
            query_extension = query_extension[1::]
            seq_extension = seq_extension[1::]
            
            if (match_size + waiting_match) // 2 > equal_char:
                break
            
        if direction == 1:
            return [match_size, equal_char]
            
        else:
            return [pos_query - match_size, pos_seq - match_size, match_size, equal_char]
    
    res = extend_hit(-1)
    res[-2] += window_size + extend_hit(1)[-2]
    res[-1] += window_size + extend_hit(1)[-1]
    return res

    def best_hit(query, seq, window_size):
        pass


if __name__ == "__main__":
    query = "AATATAT"
    seq = "AATATGTTATATAATAATATTT"

    qm = query_map(query, 3)
    # print(qm)
    # print(hits(qm, seq))
    print(extend_hit_direction(query,seq,(0,0),3))

## Motifs determinísticos e estocásticos

Markdown para explicar cada função nos seguintes niveis
- Descrição do algoritmo
- Projeto de alto nível
- Projeto de baixo nível

## Árvore Filogenética

Markdown para explicar cada função nos seguintes niveis
- Descrição do algoritmo
- Projeto de alto nível
- Projeto de baixo nível

Este algoritmo realiza o agrupamento hierárquico de sequências de DNA, utilizando a distância de Levenstein (lecionada em aula) para calcular a similaridade entre as sequências. O objetivo é gerar um dendrograma que ilustra como as sequências são agrupadas com base nas suas distâncias.
São usados três pacotes principais. O numpy (np) é utilizado para criar e manipular a matriz de distâncias entre as sequências de DNA, permitindo o cálculo eficiente de distâncias entre os pares de sequências. O scipy.cluster.hierarchy (sch) contém a função linkage, que executa o agrupamento hierárquico com base nas distâncias calculadas. Finalmente, o matplotlib.pyplot (plt) é utilizado para exibir o dendrograma resultante, permitindo uma visualização clara do processo de agrupamento. 

In [None]:
import numpy as np
import scipy.cluster.hierarchy as sch
import matplotlib.pyplot as plt

1. ___Cálculo de distâncias___

A distância entre pares de sequências é calculada utilizando o algoritmo de Levenstein, que determina o número mínimo de operações (inserções, deleções e substituições) necessárias para transformar uma sequência noutra.
Função distancia: Calcula a distância de Levenstein entre duas sequências de DNA.

        Função distancia(s1, s2):
        s1 e s2: Duas strings que representam as sequências de DNA.

O algoritmo começa por criar uma matriz de tamanho (len(s1)+1) x (len(s2)+1). As bordas da matriz são preenchidas com os custos de inserções e deleções. A seguir, a matriz é preenchida iterativamente, calculando o custo mínimo de cada posição com base nas operações de substituição, inserção e deleção. O valor no canto inferior direito da matriz será a distância final entre as duas sequências.
        

In [None]:
def distancia(s1, s2):
    """
    Calcula a distância de Levenstein (lecionada em aula) entre duas sequências
    """
    mat = [[0] * (len(s2) + 1) for _ in range(len(s1) + 1)]
    for i in range(len(s1) + 1):
        for j in range(len(s2) + 1):
            if i == 0:
                mat[i][j] = j
            elif j == 0:
                mat[i][j] = i
            else:
                mat[i][j] = min(mat[i - 1][j] + 1,
                                mat[i][j - 1] + 1,
                                mat[i - 1][j - 1] + (0 if s1[i - 1] == s2[j - 1] else 1))
    return mat[len(s1)][len(s2)]

2. ___Matriz de Distâncias___

A função cria uma matriz simétrica que armazena as distâncias entre todas as combinações de sequências na lista fornecida.
Função matriz_distancias: Calcula a matriz de distâncias entre todas as sequências.

        Função matriz_distancias(lista_seqs):
        lista_seqs: Lista de strings que representam as sequências de DNA.

A função começa por iniciar uma matriz de zeros de tamanho n x n, onde n é o número de sequências. Para cada par de sequências, a função distancia é chamada para calcular a distância de Levenstein e preencher a matriz. Como a matriz é simétrica, a distância entre seq1 e seq2 é atribuída à posição (i, j) e também à posição (j, i).

In [None]:
def matriz_distancias(lista_seqs):
    """ 
    Cria uma matriz de distências entre todas as combinações de sequências
    """
    n = len(lista_seqs)
    dist_matriz = np.zeros((n, n))
    for i in range(n):
        for j in range(i + 1, n):
            dist_matriz[i][j] = dist_matriz[j][i] = distancia(lista_seqs[i], lista_seqs[j])
    return dist_matriz

3. ___Agrupamento Hierárquico e Visualização___ :

O agrupamento hierárquico é realizado utilizando a função linkage da biblioteca scipy.cluster.hierarchy (sch), que calcula a matriz de ligação baseada nas distâncias entre as sequências. O método de agrupamento utilizado é o "average", que calcula a distância média entre clusters. Após calcular a matriz de distâncias com a função matriz_distancias, ela é convertida para o formato compacto usando squareform de scipy.cluster.hierarchy.distance, transformando a matriz de distâncias num vetor compacto. Em seguida, a função linkage é aplicada para calcular a matriz de ligação, essencial para o agrupamento hierárquico. Com a matriz de ligação, o dendrograma é gerado utilizando a função dendrogram da mesma biblioteca. Este dendrograma é um gráfico que visualiza como as sequências foram agrupadas ao longo do processo. O eixo horizontal do gráfico exibe as sequências, enquanto o eixo vertical mostra as distâncias entre os grupos de sequências. Por fim, a visualização do dendrograma é exibida com a função show() da biblioteca matplotlib, permitindo a interpretação visual dos agrupamentos formados.

In [None]:
def gerar_dendrograma(lista_seqs):
    """
    Gera e exibe um dendograma a partir das distâncias entre sequências previamente calculadas
    """
    lista_seqs = [seq.upper() for seq in lista_seqs]  
    dist_matriz = matriz_distancias(lista_seqs)
    dist_compacta = sch.distance.squareform(dist_matriz)
    matriz_ligacao = sch.linkage(dist_compacta, method='average') # A função `linkage` agrupa as sequências com base nas distâncias e cria a matriz de ligação.

    plt.figure(figsize=(10, 7))
    sch.dendrogram(matriz_ligacao, labels=lista_seqs)
    plt.title("Dendrograma de Sequências")
    plt.xlabel("Sequências")
    plt.ylabel("Distância")
    plt.show()

if __name__ == '__main__':
    sequencias = "CCG GT GTA AAT AT ACG ACGT".split()
    print("Matriz de Distâncias:")
    D = matriz_distancias(sequencias)
    print(D)
    print("\nDendrograma:")
    gerar_dendrograma(sequencias)

**Teste das funções para a Árvore Filogenética**

In [None]:
import unittest

class TestFuncoes(unittest.TestCase):

    def test_distancia(self):
        # Teste com sequências iguais
        self.assertEqual(distancia("ATCG", "ATCG"), 0)
        
        # Teste com sequências completamente diferentes
        self.assertEqual(distancia("AAA", "TTT"), 3)

    def test_matriz_distancias(self):
        sequencias = ["AAA", "AAT", "ATT", "TTT"]
        matriz = matriz_distancias(sequencias)
        
        # Verifica se a matriz é simétrica
        self.assertTrue(np.allclose(matriz, matriz.T))
        
        # Verifica se a diagonal principal é zero
        self.assertTrue(np.allclose(np.diag(matriz), 0))
        
        # Verifica valores específicos
        self.assertEqual(matriz[0][1], 1)  # Distância entre AAA e AAT
        self.assertEqual(matriz[0][3], 3)  # Distância entre AAA e TTT

    def test_gerar_dendrograma(self):
        sequencias = ["CCG", "GT", "GTA", "AAT", "AT", "ACG", "ACGT"]
        
        # Verifica se a função não originou exceções
        try:
            gerar_dendrograma(sequencias)
        except Exception as e:
            self.fail(f"gerar_dendrograma lançou uma exceção inesperada: {e}")
        
        # Verifica se um gráfico foi criado
        self.assertTrue(plt.gcf().number > 0)
        
        # Limpa a figura atual para não interferir com outros testes
        plt.close()

if __name__ == '__main__':
    unittest.main(argv=[''], exit=False)