# **Portefólio**

Grupo:
* Artur Gomes       | PG55692
* Catarina Gomes    | PG55694
* Maria Carvalho    | PG55130
* Pedro Pereira     | PG55703
* Sami Benkhellat   | PG55704


## Funções para tratamento de Sequências

##### **Função: validate_dna()**

<div style="text-align: justify;">
Esta função verifica se a sequência de DNA fornecida é válida. Para ser válida, a sequência precisa conter apenas os nucleotidos: A, T, C e G. Se algum nucleotidos não estiver no conjunto de caracteres válidos, a função retornará `False`.

A função começa por remover os espaços em branco e transforma a sequência em letras maiúsculas para garantir que a verificação não seja afetada por esses fatores. A conversão para maiúsculas também assegura que a verificação seja insensível ao *case* (minúsculas ou maiúsculas).

Após a limpeza e formatação da sequência, a função faz uma verificação inicial para garantir que a sequência não esteja vazia. Isso é feito com a expressão `if len(format_seq) == 0`. Se a sequência estiver vazia, a função retorna **False** imediatamente, indicando que a sequência fornecida não é válida. Este passo é importante porque uma sequência de DNA não pode ser vazia ou composta apenas por espaços em branco.

Depois, a função percorre cada nucleotidos da sequência utilizando um loop `for`. A função verifica se cada caractere da sequência está entre os nucleotidos válidos. Isto é feito com a expressão `if nucleotide not in dna`, onde `nucleotide` é o caractere atual da sequência e `dna` é a string `'ATCG'` que contém os nucleotidos válidos.

Se algum caractere não estiver nesse conjunto de nucleotidos válidos, a função retorna **False** imediatamente, indicando que a sequência é inválida. Caso contrário, após verificar todos os caracteres, a função retorna **True**, indicando que a sequência é válida.
</div>

In [16]:
import re

def validate_dna(seq: str) -> bool:
    '''
    Verifica se a sequência fornecida é uma sequência de DNA válida.
    Entrada:
        seq: str - Sequência a ser verificada.
    Saída:
        bool - True se a sequência for válida, False caso contrário.
    '''
    dna = 'ATCG'  # Define os nucleotidos válidos para uma sequência de DNA.
    
    # Remove espaços em branco e converte a sequência para letras maiúsculas.
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    # Verifica se a sequência está vazia após a formatação.
    if len(format_seq) == 0:
        return False  # Retorna False se a sequência estiver vazia.
    
    # Itera sobre cada caractere na sequência formatada.
    for nucleotide in format_seq:
        # Verifica se o nucleotídeo não está no conjunto válido.
        if nucleotide not in dna:
            return False  # Retorna False ao encontrar um caractere inválido.
    
    # Retorna True se todos os nucleotidos forem válidos e a sequência não estiver vazia.
    return True

##### **Função: count_bases()**

<div style="text-align: justify;">
Esta função recebe uma sequência de DNA e imprime o número de ocorrências de cada nucleotido (A, C, G e T) presente na sequência. Além disso, ela valida a sequência para garantir que ela não contenha caracteres inválidos e, caso existam, exibe o total de erros encontrados, incluindo os caracteres específicos que são inválidos.

A função começa removendo espaços em branco e transformando toda a sequência em letras maiúsculas para garantir uniformidade no processamento, utilizando a função `re.sub` e o método `.upper()`.

Antes de processar os dados, a função verifica a presença de caracteres inválidos (que não sejam A, C, G ou T) utilizando uma expressão regular. Se forem encontrados caracteres inválidos, a função levanta uma exceção do tipo `AssertionError`, informando quantos caracteres inválidos estão presentes e quais são esses caracteres.

Caso a sequência seja válida, a função então conta as ocorrências das bases válidas (A, C, G, T) na sequência. Para isso, utiliza-se uma compreensão de dicionário, onde cada base ('A', 'C', 'G', 'T') é mapeada ao número de vezes que ela aparece na sequência.

Por fim, a função itera sobre o dicionário de contagens e imprime o resultado no formato `Base: Número`, com cada base exibida em uma linha separada.
</div>

In [18]:
import re

def count_bases(seq: str):
    """
    Recebe uma sequência e imprime o número de A, C, G e T.
    Se houver caracteres inválidos, exibe o total de erros também, com 
    especificação da base com erro.
    Input: Sequência (string)
    Output: Impressão de resultados (por linha)
    """
    # Remove espaços em branco e converte a sequência para letras maiúsculas
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    # Identifica caracteres inválidos que não sejam A, C, G ou T
    invalid_bases = re.sub(r'[ACGT]', '', format_seq)  # Remove bases válidas
    error_count = len(invalid_bases)  # Conta quantos caracteres inválidos existem
    
    # Se houver caracteres inválidos, levanta uma exceção com detalhes do erro
    if error_count > 0:
        raise AssertionError(f"Erro: A sequência contém {error_count} caractere(s) inválido(s)! "
                             f"Caracteres inválidos: {', '.join(set(invalid_bases))}")
    
    # Cria um dicionário para contar as bases válidas (A, C, G, T)
    counts = {base: format_seq.count(base) for base in 'ACGT'}
    
    # Imprime o número de ocorrências de cada base
    for base, count in counts.items():
        print(f"{base}: {count}")
    
    return counts


##### **Função: frequency_calculator()**
<div style="text-align: justify;">
Esta função recebe uma sequência de DNA, valida-a para garantir que contenha apenas bases válidas (A, C, G e T), e em seguida, calcula e imprime as frequências relativas dessas bases (A, C, G, T) na sequência. A frequência relativa é obtida dividindo o número de vezes que cada base aparece pelo número total de bases válidas na sequência.

A função começa verificando a validade da sequência utilizando a função `validate_dna`. 
Se a sequência contiver bases inválidas (ou seja, qualquer caractere que não seja A, C, G ou T), a função exibe uma mensagem de erro e interrompe o processo. Caso a sequência seja válida, a função prossegue para a contagem das bases válidas.

A contagem de cada base (A, C, G, T) é realizada utilizando uma compreensão de dicionário, onde cada base é mapeada ao número de ocorrências dessa base na sequência. Após obter as contagens, a função calcula as frequências relativas, que são expressas como a razão entre o número de vezes que a base aparece e o número total de bases válidas.

Por fim, a função imprime as frequências relativas de cada base, formatadas com quatro casas decimais. Se a sequência não contiver bases válidas, a função exibe um erro indicando que não foi possível calcular as frequências.
</div>

In [19]:
import re
def frequency_calculator(seq: str):
    """
    Recebe uma sequência, valida com validate_dna e imprime apenas as frequências relativas de A, C, G e T.
    Frequência relativa é calculada como o número de vezes que a base aparece
    dividido pelo número total de bases válidas na sequência.
    
    Input: Sequência (string)
    Output: Impressão das frequências relativas das bases A, C, G e T (por linha)
    """
    try:
        # Validar a sequência e contar as bases válidas
        if not validate_dna(seq):
            print("Erro: A sequência contém bases inválidas, ou encontra-se vazia!")
            return None
        
        format_seq = re.sub(r'\s+', '', str(seq)).upper()
        counts = {base: format_seq.count(base) for base in 'ACGT'}
        total_bases = sum(counts.values())
        
        if total_bases == 0:
            print("Erro: A sequência não contém bases válidas!")
            return None
        
        # Calcular a frequência relativa de cada base
        frequencies = {base: round(count / total_bases, 2) for base, count in counts.items()}
        
        # Retorna as frequências relativas
        return frequencies
    
    except AssertionError as e:
        # Se ocorrer erro de validação, imprime o erro
        print(e)
        return None

##### **Função: to_rna()**

<div style="text-align: justify;">
A função recebe uma sequência de DNA, valida se ela contém apenas os nucleotídeos válidos (A, T, C, G), e converte a sequência de DNA para RNA. A conversão é realizada substituindo todas as ocorrências de 'T' (Timina) por 'U' (uracilo base correspondente ao DNA no RNA).

   - A sequência é validada usando a função `validate_dna()`. Se a sequência contiver qualquer base que não seja A, C, G ou T, a função imprime uma mensagem de erro indicando que a sequência é inválida e retorna, interrompendo o processo. 
   
   - A função também verifica se a sequência está vazia após a remoção de espaços. Se a sequência for vazia, ela exibe um erro específico para esse caso e retorna.

   - Se a sequência for válida e não estiver vazia, a função procede para converter o DNA em RNA. Isso é feito substituindo todas as ocorrências da base 'T' por 'U', utilizando o método `.replace('T', 'U')`.
</div>

In [20]:
import re
import pdb

def to_rna(seq):
    '''
    Converter uma sequência de DNA em RNA.

    A função recebe uma sequência de DNA, valida se ela contém apenas as bases válidas (A, C, G, T), e converte a sequência para RNA, substituindo todas as ocorrências de 'T' por 'U'.

    Input: Sequência de DNA (string)
    Output: Sequência de RNA (string) ou erro de validação se a sequência for inválida ou vazia.
    '''
    try:
        # Remove espaços em branco e converte a sequência para letras maiúsculas
        format_seq = re.sub(r'\s+', '', str(seq)).upper()
        
        # Verifica se a sequência é válida utilizando a função validate_dna
        if not validate_dna(format_seq):
            print("Erro: A sequência contém bases inválidas, ou encontra-se vazia!")
            return
        
        # Substitui 'T' por 'U' para realizar a conversão de DNA para RNA
        rna_seq = format_seq.replace('T', 'U')
        
        # Retorna a sequência de RNA formatada
        return f"Sequência de RNA: {rna_seq}"
    
    except AssertionError as e:
        # Captura e exibe erros de validação caso ocorram
        print(e)


##### **Função: rev_comp()**
<div style="text-align: justify;">
Esta função retorna o complemento inverso de uma sequência de DNA fornecida. Para calcular o complemento reverso, a função inverte a sequência de DNA e, em seguida, troca cada nucleotídeo pelo seu complemento correspondente.

A função começa por remover quaisquer espaços em branco e converte a sequência para maiúsculas para garantir que a verificação não seja afetada por esses fatores.

Após preparar a sequência, a função valida se a sequência contém apenas nucleotídeos válidos (A, T, C, G) utilizando a função `validate_dna()`. Caso a sequência seja inválida, a função imprime uma mensagem de erro.

Em seguida, a sequência é invertida, utilizando um loop que insere cada base no início de uma nova string, formando a sequência inversa. Após a inversão, um segundo loop percorre cada base da sequência inversa e substitui cada nucleótido pelo seu complemento correspondente. A troca é feita através da função `complementary_character(base)`, onde:  A → T, T → A, C → G, G → C
</div>

In [21]:
import re
import pdb

def revcomp(seq: str) -> str:
    """
    Calcula o complemento inverso de uma sequência de DNA.

    Parâmetros:
        seq: str
            Uma sequência de DNA, contendo apenas as bases A, C, G, T.
    
    Retorna:
        Uma string representando o complemento inverso da sequência de DNA fornecida.
        Retorna None se a sequência for inválida.
    """
    
    def complementary_character(base: str) -> str:
        """
        Retorna a base complementar de uma base de DNA.
        Exemplo:
        A → T, T → A, C → G, G → C
        
        Parâmetro:
            base: str
                Uma base de DNA (A, C, G ou T).
        
        Retorna:
            A base complementar correspondente.
        """
        # Definindo as bases normais e suas complementares
        norm = "ACGT"
        comp = "TGCA"

        # Criando um dicionário de tradução entre bases normais e complementares
        translation = dict(zip(norm, comp))
        
        # Retornando a base complementar
        return translation[base]

    # Remover espaços em branco e converter a sequência para letras maiúsculas
    format_seq = re.sub(r'\s+', '', str(seq)).upper()

    # Verificar se a sequência de DNA é válida
    if not validate_dna(format_seq):
        print("Erro: A sequência contém bases inválidas ou está vazia!")
        return None  # Retorna None para indicar erro
    
    # Criar a sequência reversa
    reverse = ""
    for base in format_seq:
        reverse = base + reverse  # Adiciona cada base no início para inverter a sequência
    
    # Criar o complemento da sequência reversa
    result = ""
    for base in reverse:
        result += complementary_character(base)  # Substitui cada base pela complementar
    
    # Retorna o complemento reverso
    return result


##### **Função: identify_sequence()**

<div style="text-align: justify;">

A função  identifica o tipo de sequência biológica recebida como entrada. Ela determina se a sequência pertence a um dos três grupos principais: DNA, RNA, ou Aminoácidos (AMINO). Caso a sequência contenha caracteres inválidos ou não pertença a nenhum desses grupos, a função classifica-a como **ERRO**.

A implementação segue uma abordagem sistemática:

1. **Formatação da Sequência**:
   A entrada é processada para remover espaços em branco e converter todos os caracteres para letras maiúsculas, utilizando `re.sub(r'\s+', '', seq).upper()`. Isso assegura que a verificação dos caracteres não seja sensível ao uso de maiúsculas ou minúsculas, e elimina interferências causadas por espaços.

2. **Definição dos Conjuntos Válidos**:
   Para identificar o tipo da sequência, a função compara os caracteres da sequência com os seguintes conjuntos:
   - **DNA**: Contém apenas os nucleotídeos `A, T, C, G`.
   - **RNA**: Contém apenas os nucleotídeos `A, U, C, G`.
   - **AMINOÁCIDOS**: Conjunto de letras representando os aminoácidos válidos: `I, M, T, N, K, S, R, L, P, H, Q, A, D, E, G, F, Y, C, W, _`.

3. **Classificação da Sequência**:
   A verificação utiliza expressões do tipo `all(base in dna for base in format_seq)` para determinar se todos os caracteres pertencem a um dos conjuntos válidos:
   - **DNA**: Caso todos os caracteres estejam em `dna`, a sequência é classificada como **DNA**.
   - **RNA**: Caso todos os caracteres estejam em `rna`, a sequência é classificada como **RNA**.
   - **AMINOÁCIDOS**: Caso todos os caracteres estejam em `aa`, a sequência é classificada como **AMINO**.
   - **ERRO**: Se qualquer caractere for inválido ou a sequência não pertencer a nenhum dos conjuntos acima.

4. **Retorno**:
   A função retorna uma mensagem no formato `<sequência formatada>: <tipo identificado>`, indicando o tipo de sequência ou erro.
</div>

In [22]:
import re
def identify_sequence(seq: str):
    """
    Identifica se uma sequência é DNA, RNA, AMINOÁCIDO ou ERRO.
    
    - DNA: Contém apenas A, T, C, G.
    - RNA: Contém apenas A, U, C, G.
    - AMINOÁCIDO: Contém apenas as letras representando aminoácidos válidos.
    - ERRO: Se contiver caracteres inválidos.
    
    Input: Sequência (string)
    Output: DNA, RNA, AMINO ou ERRO (string)
    """
    
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    if not format_seq:
        return "ERRO"
    
    # Verificar se a sequência é DNA
    if all(base in 'ATCG' for base in format_seq):
        return f"{format_seq}: DNA"
    
    # Verificar se a sequência é RNA
    elif all(base in 'AUCG' for base in format_seq):
        return f"{format_seq}: RNA"
    
    # Verificar se a sequência é de aminoácidos
    elif all(base in 'IMTNKSRLPHQADEGFYCW_' for base in format_seq):
        return f"{format_seq}: AMINO"
    else:
        return "ERRO"

##### **Função: get_codons()**

<div style="text-align: justify;">

A função **`get_codons`** divide uma sequência biológica (DNA ou RNA) em **codões**, ou seja, grupos de três nucleotidos consecutivos. Cada codão é considerado uma unidade que codifica para um aminoácido durante a tradução do código genético.

A função começa por remover todos os espaços da sequência e converte as letras para maiúsculas. A conversão para maiúsculas é importante para garantir que a verificação da sequência seja insensível ao *case* (minúsculas ou maiúsculas).

Em seguida, a função percorre a sequência de três em três nucleotidos. Para cada grupo de três nucleotidos, é verificado se o tamanho do grupo é 3. Se for, o grupo é adicionado à lista de resultados. Caso a sequência tenha menos de três nucleotidos no final, esses nucleotidos são ignorados, já que a função só retorna codões completos.

A função utiliza o loop `for pos in range(0, len(format_seq), 3)` para iterar sobre a sequência, criando os grupos de três e adicionando-os à lista **`result`**. O parâmetro `pos` indica a posição inicial de cada codão.

Por fim, a função retorna a lista de codões completos encontrados na sequência, permitindo que a sequência biológica seja dividida em unidades de leitura adequadas para a tradução de proteínas.

Caso a sequência tenha menos de três nucleotidos no final, ou a sequência contenha apenas espaços, a função retorna uma lista vazia, indicando que não é possível formar codões completos.
</div>

In [10]:
import re
def get_codons(seq: str) -> list:
    """
    Divide uma sequência biológica em códons (grupos de três nucleotídeos consecutivos).
    
    Parâmetros:
        seq (str): Uma string contendo a sequência de DNA ou RNA.
                   - A sequência pode conter letras maiúsculas ou minúsculas.
                   - Espaços em branco serão ignorados.
    
    Retorna:
        list: Uma lista de strings, onde cada string é um códon (grupo de três nucleotídeos).
              Apenas códons completos (de tamanho 3) serão incluídos na lista.
    
    Exemplo:
        Entrada: "ATCGTACG"
        Saída: ["ATC", "GTA"]
    """

# Remover espaços em branco e converter para maiúsculas
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    # Validação da sequência de DNA
    if not validate_dna(format_seq):
        return ["Erro: A sequência contém bases inválidas ou está vazia!"]
    
    result = []
    for pos in range(0, len(format_seq), 3):
        codon = format_seq[pos : pos + 3]
        if len(codon) == 3:
            result.append(codon)
    return result

### **Função: codon_to_amino()**

<div style="text-align: justify;">
Esta função recebe uma sequência de codões de DNA e retorna a sequência de aminoácidos correspondente. O processo é realizado com base na tabela de tradução fornecida, onde cada codão (sequência de 3 bases) é mapeado para um aminoácido específico.

A função começa com uma string de codões, que são agrupamentos consecutivos de 3 nucleotido. Em seguida, para cada codão na sequência, a função utiliza a tabela de tradução (um dicionário) para encontrar o aminoácido correspondente. Cada codão é traduzido da tabela, e o aminoácido correspondente é adicionado à string de resultado.

Passos realizados pela função:
1. **Entrada**: A função recebe uma lista ou sequência de codões de DNA, que são substrings de 3 caracteres representando as bases nitrogenadas (A, T, C, G).
2. **Busca na tabela**: Para cada codão, a função verifica se ele existe na tabela de tradução. A tabela mapeia cada codão para um aminoácido ou um código de parada (como "_").
3. **Concatenação do resultado**: A função então concatena os aminoácidos correspondentes para formar a sequência de aminoácidos que representa a tradução da sequência de DNA.

Se algum codão não estiver presente na tabela, a função  retorna um valor vazio. Se a sequência não for válida, será retornado um erro devido à falha na validação da função `validate_dna` (da função `get_codons`).
</div>

In [23]:
table = {
    'ATA': 'I', 'ATC': 'I', 'ATT': 'I', 'ATG': 'M',
    'ACA': 'T', 'ACC': 'T', 'ACG': 'T', 'ACT': 'T',
    'AAC': 'N', 'AAT': 'N', 'AAA': 'K', 'AAG': 'K',
    'AGC': 'S', 'AGT': 'S', 'AGA': 'R', 'AGG': 'R',
    'CTA': 'L', 'CTC': 'L', 'CTG': 'L', 'CTT': 'L',
    'CCA': 'P', 'CCC': 'P', 'CCG': 'P', 'CCT': 'P',
    'CAC': 'H', 'CAT': 'H', 'CAA': 'Q', 'CAG': 'Q',
    'CGA': 'R', 'CGC': 'R', 'CGG': 'R', 'CGT': 'R',
    'GTA': 'V', 'GTC': 'V', 'GTG': 'V', 'GTT': 'V',
    'GCA': 'A', 'GCC': 'A', 'GCG': 'A', 'GCT': 'A',
    'GAC': 'D', 'GAT': 'D', 'GAA': 'E', 'GAG': 'E',
    'GGA': 'G', 'GGC': 'G', 'GGG': 'G', 'GGT': 'G',
    'TCA': 'S', 'TCC': 'S', 'TCG': 'S', 'TCT': 'S',
    'TTC': 'F', 'TTT': 'F', 'TTA': 'L', 'TTG': 'L',
    'TAC': 'Y', 'TAT': 'Y', 'TAA': '_', 'TAG': '_',
    'TGC': 'C', 'TGT': 'C', 'TGA': '_', 'TGG': 'W',
}

def codon_to_amino(codons): 
    """
    Traduz uma sequência de codões para a sequência de aminoácidos correspondente.
    
    codons: lista ou string
        Uma sequência de codões (cada codão tem 3 bases de DNA: A, T, C, G).
        
    Retorna:
        Uma string contendo a sequência de aminoácidos.
    """
    res = ''
    for codon in codons:
        res += table.get(codon, '')  # Obtém o aminoácido correspondente ao codão
    return res

##### **Função: get_prots()**

<div style="text-align: justify;">
Esta função tem como objetivo identificar e retornar todas as proteínas encontradas em uma sequência de aminoácidos. Cada proteína começa com a letra 'M' (Metionina) e termina com o código de stop representado por '_'.

A função percorre cada aminoácido na sequência fornecida e, ao encontrar o marcador 'M', ela começa a construir uma nova proteína. A sequência continua sendo adicionada à proteína até o encontro do código de parada '_'. Quando o código de stop é encontrado, a proteína é adicionada à lista de proteínas e a construção da proteína é reiniciada.

Caso a sequência contenha outras letras além de 'M' e '_', elas são simplesmente ignoradas, a menos que se encontrem entre esses dois marcadores.

A função retorna uma lista contendo todas as proteínas encontradas, onde cada proteína é uma subsequência de aminoácidos que começa com 'M' e termina com '_'. Se nenhuma proteína for encontrada, a lista será vazia.

Explicação da Função `get_prots()`:

1. **Variáveis**:
   - `inside_prot`: Controla se estamos atualmente dentro de uma proteína. Inicialmente é `False`.
   - `prots`: Lista que armazenará as proteínas encontradas.
   - `prot`: String temporária que vai armazenar a proteína enquanto estamos dentro dela.

2. **Loop**:
   - O loop percorre cada aminoácido na sequência `amino`.
   - Quando encontra o marcador `'M'`, ele começa a armazenar os aminoácidos em `prot`.
   - Quando encontra o marcador de parada `'_'`, a proteína é adicionada à lista `prots` e a construção da proteína é reiniciada.
</div>

In [24]:
import pdb

def get_prots(amino):
    """
    Retorna uma lista de proteínas encontradas buma sequência de aminoácidos.
    
    amino: str
        A sequência de aminoácidos onde cada proteína começa com 'M' (Metionina) 
        e termina com '_' (codão de stop).
        
    Retorna:
        Uma lista de proteínas (subsequências de aminoácidos entre 'M' e '_').
    """
    inside_prot = False  # Indica se estamos dentro de uma proteína
    prots = []           # Lista para armazenar as proteínas
    prot = ''            # Variável para armazenar a proteína atual

    for aa in amino:     # Percorre cada aminoácido da sequência
        if aa == 'M':    # Início de uma nova proteína
            inside_prot = True

        if aa == '_':    # Fim de uma proteína
            if inside_prot:
                prots.append(prot + '_')  # Adiciona a proteína à lista com o código de parada
            inside_prot = False
            prot = ''    # Reseta a proteína atual

        if inside_prot:   # Se estamos dentro de uma proteína
            prot += aa    # Adiciona o aminoácido à proteína atual

    return prots

##### **Função: get_orfs()**

<div style="text-align: justify;">
Esta função recebe uma sequência de DNA e encontra todos os possíveis ORFs (Open Reading Frames, ou Quadros de Leitura Abertos) nas duas fitas de DNA, tanto a fita direta(5' -> 3') quanto a fita complementar inversa (3' -> 5). Os ORFs são sequências de codões que podem ser traduzidas em proteínas e são encontrados nos diferentes quadros de leitura da sequência.

A função itera sobre as duas fitas de DNA: a fita original (`seq`) e a fita complementar inversa (obtida utilizando a função `revcomp()`). Para cada uma dessas fitas, a função verifica três quadros de leitura diferentes. Esses quadros de leitura são criados pela leitura da sequência a partir de diferentes posições (0, 1 e 2), com base na primeira base de cada quadro.

Dentro de cada quadro de leitura, a função chama a função `get_codons()`, que divide a sequência em codões de três bases. A função então armazena esses codões como um ORF. Cada ORF encontrado é adicionado a uma lista que contém todos os ORFs encontrados nas duas fitas e para os três quadros de leitura.

Por fim, a função retorna uma lista contendo os ORFs encontrados. Caso não haja nenhum ORF, a lista retornada será vazia.
</div>

In [25]:
def get_orfs(seq):
    """
    Esta função encontra todos os ORFs
    a partir de uma sequência de DNA, considerando os dois sentidos da fitan (5' -> 3' e  3' -> 5) e três quadros de leitura possíveis.

    Parâmetros:
    seq (str): Uma sequência de DNA (string).

    Retorna:
    list: Uma lista contendo listas de ORFs encontrados. Cada ORF é representado por uma lista de codões.
    """
    
    all_orfs = []  # Lista para armazenar todas as listas de ORFs
    for strand in [seq, revcomp(seq)]:
        for frame in range(3):
            # Obtém os codões para o quadro de leitura específico
            orfs = get_codons(strand[frame:])

             # Verifica se o resultado é um erro
            if "Erro: A sequência contém bases inválidas ou está vazia!" in orfs:
                return orfs  # Retorna o erro diretamente
            else:
                all_orfs.append(orfs)
    return all_orfs

##### **Função: get_all_prots()**


<div style="text-align: justify;">
Esta função tem como objetivo encontrar todas as proteínas únicas em uma sequência de DNA fornecida. Ela considera todos os quadros de leitura possíveis (ORFs) e realiza a conversão dos codões para aminoácidos para identificar as proteínas presentes na sequência. A função retorna essas proteínas ordenadas de forma decrescente por seu comprimento, e, em caso de empate no comprimento, por ordem alfabética.

1. **Obtenção dos ORFs**: A função começa chamando a função `get_orfs(seq)`, que retorna todos os quadros de leitura (ORFs) da sequência de DNA fornecida. ORFs são sequências de DNA que podem ser traduzidas em proteínas.

2. **Conversão de ORFs em Aminoácidos**: Após obter os ORFs, a função os converte para sequências de aminoácidos utilizando a função `codon_to_amino(O)`, que converte cada sequência de codões em seus respectivos aminoácidos.

3. **Identificação das Proteínas**: Para cada sequência de aminoácidos obtida a partir de um ORF, a função utiliza a função `get_prots()` para identificar as proteínas presentes. As proteínas são sequências de aminoácidos que começam com 'M' (Metionina, o início da proteína) e terminam com '_' (um codão de stop).

4. **Criação de Proteínas Únicas**: A função usa um conjunto (`set`) para armazenar as proteínas, garantindo que apenas proteínas únicas sejam mantidas. O uso de um conjunto evita a duplicação de proteínas.

5. **Ordenação das Proteínas**: Após coletar todas as proteínas únicas, a função converte o conjunto em uma lista e ordena-as.

</div>

In [26]:
def get_all_prots(seq):
    """
    Encontra todas as proteínas únicas a partir de uma sequência de DNA, considerando todos os ORFs possíveis. Para cada ORF, converte 
    os codões em aminoácidos e identifica as proteínas (sequências de aminoácidos entre 'M' e '_').

    A função considera todos os ORFs encontrados, tanto na fita original (5' -> 3') quanto na fita complementar reversa (3' -> 5'), 
    e retorna uma lista com as proteínas únicas ordenadas por comprimento (decrescente) e, em caso de empate, pela sequência.

    Parâmetros:
    seq (str): A sequência de DNA (string) a ser analisada.

    Retorna:
    list: Uma lista de proteínas únicas encontradas na sequência.
    """
    
    # Obter todos os ORFs da sequência
    orfs = get_orfs(seq)
    
    # Converter os ORFs em sequências de aminoácidos
    orfs_amino = []
    for O in orfs:
        orfs_amino.append(codon_to_amino(O))
    
    # Obter as proteínas para cada sequência de aminoácidos
    prot_orfs = []
    for O in orfs_amino:
        prot_orfs.append(get_prots(O))
    
    # Criar um conjunto de proteínas únicas
    LPs = set()
    for LP in prot_orfs:
        for p in LP:
            LPs.add(p)
    
    # Converter o conjunto em lista e ordenar as proteínas
    LPs_list = list(LPs)
    LPs_list.sort(key=lambda P: (-len(P), P))
    
    return LPs_list

##### **Testes das Funções para tratamento de Sequências**

In [27]:
class TestSequenciaFunctions(unittest.TestCase):

    def test_validate_dna(self):
        self.assertTrue(validate_dna('ATCG'))
        self.assertTrue(validate_dna('AT CG'))
        self.assertTrue(validate_dna('atcg'))
        self.assertFalse(validate_dna('ATCX'))
        self.assertFalse(validate_dna('12345'))
        self.assertFalse(validate_dna(''))
        self.assertFalse(validate_dna('AGCT123'))
        self.assertFalse(validate_dna('NONSENSE'))

    def test_count_bases(self):
        # Teste de sequência válida
        self.assertEqual(count_bases('ATCG'), {'A': 1, 'T': 1, 'C': 1, 'G': 1})
        self.assertEqual(count_bases('AAAATTTT'), {'A': 4, 'T': 4, 'C': 0, 'G': 0})
        self.assertEqual(count_bases(''), {'A': 0, 'T': 0, 'C': 0, 'G': 0})
        
        # Teste de sequência com caracteres inválidos
        with self.assertRaises(AssertionError) as context:
            count_bases('ATBX')
        
        # Verifica se a mensagem contém a quantidade correta de caracteres inválidos
        self.assertTrue("Erro: A sequência contém 2 caractere(s) inválido(s)!" in str(context.exception))
        
        # Verifica se a mensagem contém os caracteres inválidos, sem se preocupar com a ordem
        invalid_bases_message = str(context.exception)
        self.assertTrue("B" in invalid_bases_message and "X" in invalid_bases_message)

        with self.assertRaises(AssertionError) as context:
            count_bases('XYZXYZ')
        
        # Verifica se a mensagem contém a quantidade correta de caracteres inválidos
        self.assertTrue("Erro: A sequência contém 6 caractere(s) inválido(s)!" in str(context.exception))
        
        # Verifica se a mensagem contém os caracteres inválidos, sem se preocupar com a ordem
        invalid_bases_message = str(context.exception)
        self.assertTrue("X" in invalid_bases_message and "Y" in invalid_bases_message and "Z" in invalid_bases_message)

    def test_frequency_calculator(self):
        self.assertEqual(frequency_calculator("ACGTACGT"), {'A': 0.25, 'C': 0.25, 'G': 0.25, 'T': 0.25})
        self.assertIsNone(frequency_calculator("ACGTX"))
        self.assertIsNone(frequency_calculator(""))
        self.assertEqual(frequency_calculator("A C G T A C G T"), {'A': 0.25, 'C': 0.25, 'G': 0.25, 'T': 0.25})
        self.assertEqual(frequency_calculator("acgtacgt"), {'A': 0.25, 'C': 0.25, 'G': 0.25, 'T': 0.25})
        self.assertIsNone(frequency_calculator("XXXX"))
        self.assertEqual(frequency_calculator("AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"), 
                         {'A': 0.29, 'T': 0.30, 'C': 0.17, 'G': 0.24})

    def test_to_rna(self):
        self.assertEqual(to_rna('ATCG'), 'Sequência de RNA: AUCG')
        self.assertEqual(to_rna('TTCC'), 'Sequência de RNA: UUCC')
        self.assertEqual(to_rna('aatc'), 'Sequência de RNA: AAUC')
        self.assertEqual(to_rna('AAA'), 'Sequência de RNA: AAA')
        self.assertIsNone(to_rna(''))
        self.assertIsNone(to_rna('ATBX'))
        self.assertIsNone(to_rna('XYZ'))

    def test_revcomp(self):
        self.assertEqual(revcomp('ATCG'), 'CGAT')
        self.assertEqual(revcomp('AT G'), 'CAT')
        self.assertEqual(revcomp('atcg'), 'CGAT')
        self.assertIsNone(revcomp(''))
        self.assertIsNone(revcomp('ATBX'))
        self.assertIsNone(revcomp('XYZ'))

    def test_identify_sequence(self):
        self.assertEqual(identify_sequence('ATGCCC ATTG'), 'ATGCCCATTG: DNA')
        self.assertEqual(identify_sequence('tttcggt'), 'TTTCGGT: DNA')
        self.assertEqual(identify_sequence('AuGCCCAuuG'), 'AUGCCCAUUG: RNA')
        self.assertEqual(identify_sequence('YCW_'), 'YCW_: AMINO')
        self.assertEqual(identify_sequence(''), 'ERRO')
        self.assertEqual(identify_sequence('XYZ'), 'ERRO')

    def test_get_codons(self):
        self.assertEqual(get_codons('ATGCCCATT'), ['ATG', 'CCC', 'ATT'])
        self.assertEqual(get_codons('ATGC CCAtt'), ['ATG', 'CCC', 'ATT'])
        self.assertEqual(get_codons(''), ["Erro: A sequência contém bases inválidas ou está vazia!"])  
        self.assertEqual(get_codons('ACU'), ["Erro: A sequência contém bases inválidas ou está vazia!"])  
        self.assertEqual(get_codons('XYZ'), ["Erro: A sequência contém bases inválidas ou está vazia!"])  
        
    def test_codon_to_amino(self):
        self.assertEqual(codon_to_amino(['ATA']), 'I')  
        self.assertEqual(codon_to_amino(['TTT']), 'F') 
        self.assertEqual(codon_to_amino([]), '')        
        self.assertEqual(codon_to_amino(['UUU']), '')   
        self.assertEqual(codon_to_amino(['ZZZ']), '') 
        
    def test_get_prots(self):
        self.assertEqual(get_prots('MATGCCTAA'), [])
        self.assertEqual(get_prots('GCTMATG_CAT_MX__'), ['MATG_', 'MX_'])
        self.assertEqual(get_prots('M_MATG'), ['M_'])
        self.assertEqual(get_prots('AUG'), [])
        self.assertEqual(get_prots(''), [])

    def test_get_orfs(self):
        self.assertEqual(
            get_orfs('ATGAA AtgA'),
            [['ATG', 'AAA', 'TGA'],  # 1 (sentido 5'->3')
             ['TGA', 'AAT'],         # 2 (sentido 5'->3')
             ['GAA', 'ATG'],         # 3 (sentido 5'->3')
             ['TCA', 'TTT', 'CAT'],  # 1 (sentido 3'->5')
             ['CAT', 'TTC'],         # 2 (sentido 3'->5')
             ['ATT', 'TCA']]         # 3 (sentido 3'->5')
        )
        
        self.assertEqual(get_orfs(''), ["Erro: A sequência contém bases inválidas ou está vazia!"]) 
        self.assertEqual(get_orfs('AUGAAAUGA'), ["Erro: A sequência contém bases inválidas ou está vazia!"]) 
        self.assertEqual(get_orfs('NONSENSE'), ["Erro: A sequência contém bases inválidas ou está vazia!"])  

    def test_get_all_prots(self):
        self.assertEqual(get_all_prots('ATGaa ATGA'), ['MK_'])
        self.assertEqual(get_all_prots('ATGGCCATGGCGTAA'), ['MAMA_'])
        self.assertEqual(get_all_prots(''), [])
        self.assertEqual(get_all_prots('XYZ'), [])
        self.assertEqual(get_all_prots('AUGAAAUGA'), [])



if __name__ == '__main__':
    unittest.main(argv=['first-arg-is-ignored'], exit=False)

...........
----------------------------------------------------------------------
Ran 11 tests in 0.107s

OK


A: 1
C: 1
G: 1
T: 1
A: 4
C: 0
G: 0
T: 4
A: 0
C: 0
G: 0
T: 0
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!


## Alinhamentos locais e globais

Markdown para explicar cada função nos seguintes niveis
- Descrição do algoritmo
- Projeto de alto nível
- Projeto de baixo nível

## Blosum62
Matrizes blosum são matrizes de substituição usadas para alinhamento de sequencias de proteinas. São usadas para avaliar a divergência evolutiva entre duas sequências. Baseando-se em alinhamentos locais.

In [1]:
from collections import defaultdict

def blosum62():
    """
    Passa a BLOSUM62 scoring matrix para um dicionário de dicionários que contém
    o score para cada alinhamento de um a.a com todos os restantes. 
    """
    
    tabela = """
       A  R  N  D  C  Q  E  G  H  I  L  K  M  F  P  S  T  W  Y  V  B  Z  X  -
    A  4 -1 -2 -2  0 -1 -1  0 -2 -1 -1 -1 -1 -2 -1  1  0 -3 -2  0 -2 -1  0 -4
    R -1  5  0 -2 -3  1  0 -2  0 -3 -2  2 -1 -3 -2 -1 -1 -3 -2 -3 -1  0 -1 -4
    N -2  0  6  1 -3  0  0  0  1 -3 -3  0 -2 -3 -2  1  0 -4 -2 -3  3  0 -1 -4
    D -2 -2  1  6 -3  0  2 -1 -1 -3 -4 -1 -3 -3 -1  0 -1 -4 -3 -3  4  1 -1 -4
    C  0 -3 -3 -3  9 -3 -4 -3 -3 -1 -1 -3 -1 -2 -3 -1 -1 -2 -2 -1 -3 -3 -2 -4
    Q -1  1  0  0 -3  5  2 -2  0 -3 -2  1  0 -3 -1  0 -1 -2 -1 -2  0  3 -1 -4
    E -1  0  0  2 -4  2  5 -2  0 -3 -3  1 -2 -3 -1  0 -1 -3 -2 -2  1  4 -1 -4
    G  0 -2  0 -1 -3 -2 -2  6 -2 -4 -4 -2 -3 -3 -2  0 -2 -2 -3 -3 -1 -2 -1 -4
    H -2  0  1 -1 -3  0  0 -2  8 -3 -3 -1 -2 -1 -2 -1 -2 -2  2 -3  0  0 -1 -4
    I -1 -3 -3 -3 -1 -3 -3 -4 -3  4  2 -3  1  0 -3 -2 -1 -3 -1  3 -3 -3 -1 -4
    L -1 -2 -3 -4 -1 -2 -3 -4 -3  2  4 -2  2  0 -3 -2 -1 -2 -1  1 -4 -3 -1 -4
    K -1  2  0 -1 -3  1  1 -2 -1 -3 -2  5 -1 -3 -1  0 -1 -3 -2 -2  0  1 -1 -4
    M -1 -1 -2 -3 -1  0 -2 -3 -2  1  2 -1  5  0 -2 -1 -1 -1 -1  1 -3 -1 -1 -4
    F -2 -3 -3 -3 -2 -3 -3 -3 -1  0  0 -3  0  6 -4 -2 -2  1  3 -1 -3 -3 -1 -4
    P -1 -2 -2 -1 -3 -1 -1 -2 -2 -3 -3 -1 -2 -4  7 -1 -1 -4 -3 -2 -2 -1 -2 -4
    S  1 -1  1  0 -1  0  0  0 -1 -2 -2  0 -1 -2 -1  4  1 -3 -2 -2  0  0  0 -4
    T  0 -1  0 -1 -1 -1 -1 -2 -2 -1 -1 -1 -1 -2 -1  1  5 -2 -2  0 -1 -1  0 -4
    W -3 -3 -4 -4 -2 -2 -3 -2 -2 -3 -2 -3 -1  1 -4 -3 -2 11  2 -3 -4 -3 -2 -4
    Y -2 -2 -2 -3 -2 -1 -2 -3  2 -1 -1 -2 -1  3 -3 -2 -2  2  7 -1 -3 -2 -1 -4
    V  0 -3 -3 -3 -1 -2 -2 -3 -3  3  1 -2  1 -1 -2 -2  0 -3 -1  4 -3 -2 -1 -4
    B -2 -1  3  4 -3  0  1 -1  0 -3 -4  0 -3 -3 -2  0 -1 -4 -3 -3  4  1 -1 -4
    Z -1  0  0  1 -3  3  4 -2  0 -3 -3  1 -1 -3 -1  0 -1 -3 -2 -2  1  4 -1 -4
    X  0 -1 -1 -1 -2 -1 -1 -1 -1 -1 -1 -1 -1 -1 -2  0  0 -2 -1 -1 -1 -1 -1 -4
    - -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4 -4  1
    """
# Cria uma lista com todas as linhas da a matriz 
    rows = [line.split() for line in tabela.strip().split("\n")] 
    #strip ==> tira os espaços antes e depois da coluna. Split vai dividir nas linhas. 

# Separa o nome das linhas (cabeçario) do resto da matriz
    headers, *matrix_rows = rows

 # Cria um dicionários de dicionários para armazenar a scoring_matrix
    scoring_matrix = defaultdict(dict) #permite nos adicionar chaves a um dicionário vazio. Algo que seria impossível com dicionário normal. 

    #Associar a cada a.a (row_label)(chave) o seu score quando alinhado com outro a.a(col_label)
    for row in matrix_rows:
        row_label = row[0]  # First element is the row label (e.g., 'A')
        for col_label, score in zip(headers, row[1:]):  #separa o início da lista do resto
            scoring_matrix[row_label][col_label] = int(score)
    return  scoring_matrix
    

In [2]:
def subst(scoring_matrix, x, y):            #talvez não seja necessário 
    """
    Retorna o score do valor (x,y) da scoring_matrix
    """
    return scoring_matrix[x][y] #scoring matrix é um dicionário

## Algoritmo de Needleman-Wunsch (NW)

O algoritmo Needleman-Wunsch é usado para alinhamento global, ou seja, compara duas sequências inteiras, maximizando a pontuação global. As etapas incluem:

 -Inicialização da primeira linha e coluna com penalidades cumulativas de gaps.

 -Preenchimento da matriz com base em substituições e penalidades por gaps.

 -Rastreamento para reconstruir o alinhamento global baseado na matriz de rastreamento

In [3]:
def NW(seq1, seq2, scoing_matix, g):
    """
   Implementa o algoritmo Needleman-Wunsch para alinhamento global
    """
    
    #Adição de gap ao início da seq 
    seq1 = "-" +seq1
    seq2 = "-" + seq2

    #Definir número de linhas e colunas em nossa matriz 
    n_lins =len(seq1)
    n_cols = len(seq2)
    
    #Construção das matrizes score e trace de tamanho (n_lins x n_cols)
    score = [[0] * (n_cols) for _ in range(n_lins)]
    trace = [[''] * (n_cols) for _ in range(n_lins)]

    #Inicialização da 1a linha das matrizes score e trace
    for L in range(n_lins):
        score[0][L] = L * g
        trace[0][L] = 'E' if L >0 else " "  #Garante que tenhamos o gap na posição (0,0)

    #Inicialização da 1a coluna das matrizes score e trace 
    for C in range(n_cols):
        score[C][0] = C * g
        trace[C][0] = 'A' if C >0 else " " #Garante que tenhamos o gap na posição (0,0)

    #Preenchimento da matriz score 
    for L in range(1, n_lins):
        for C in range(1, n_cols):
            # Calculo dos scores diagonal, esquerda, e ascendente
            D = score[L - 1][C - 1] + subst(scoing_matix, seq1[C], seq2[L])  # Diagonal #pqq eu fiz s1[C] e s2[L]
            E = score[L][C - 1] + g                                          # Esquerda == gap em seq1
            A = score[L - 1][C] + g                                          # Ascendente == gap em seq2

            # Escolha valor máximo dos scores já calculados e associação à posição (L,C) da matriz score
            direcao_final = max(D, E, A)
            score[L][C] = direcao_final

            # Preenchimento da matriz trace 
            if direcao_final == D:
                trace[L][C] = "D"
            elif direcao_final == E:
                trace[L][C] = "E"
            elif direcao_final == A:
                trace[L][C] = "A"

    return score , trace


In [4]:
def matrix_print(matriz):
    """
    Imprime uma matriz linha a linha
    """
    for linha in matriz:
        print(linha)


In [5]:
def score_NW(score):
    """
    Retorna o valor de score de matrizes Needleman Wunsch 
    """
    return score[-1][-1]    #canto inferior direito 

In [6]:
def reconstruct_NW(seq1, seq2, trace):
     """
     Reconstroi os alinhamentos baseando-se na matriz de rastreamento gerada
     pelo algoritmo Needleman-Waller.
     
     """

    #Encontra o índice correspondente ao canto inferior direito das matrizes geradas em NW
     C = len(seq1) 
     L = len(seq2)

     #Percorre a partir do canto inferior direito e reconstroi a matriz gerando o alinhamente 
     A1 = ''
     A2 = ''

     while C > 0 or L > 0:
          # print(f"L={L}, C={C}, Trace={trace[L][C]}")  # Debugging print
          if trace[L][C] == 'D':
               L -= 1
               C -= 1
               A1 = seq1[C] + A1
               A2 = seq2[L] + A2
          elif trace[L][C] == 'E':
               C -= 1
               A1 = seq1[C] + A1
               A2 = '-' + A2
          elif trace[L][C] == 'A':
               L -= 1
               A1 = '-' + A1
               A2 = seq2[L] + A2
          else:
               ValueError(f"Unexpected trace value at L={L}, C={C}: {trace[L][C]}")  # Handle unexpected cases

     print(A1)
     print(A2)


In [7]:
S_nw, T_nw= NW("HGWAG","PHSWG", blosum62(), g=-8)       #colocar prints
matrix_print(S_nw)
matrix_print(T_nw)
score_NW(S_nw)
reconstruct_NW("HGWAG","PHSWG", T_nw)

[0, -8, -16, -24, -32, -40]
[-8, -2, -10, -18, -25, -33]
[-16, 0, -4, -12, -20, -27]
[-24, -8, 0, -7, -11, -19]
[-32, -16, -8, 11, 3, -5]
[-40, -24, -10, 3, 11, 9]
[' ', 'E', 'E', 'E', 'E', 'E']
['A', 'D', 'D', 'E', 'D', 'E']
['A', 'D', 'D', 'D', 'D', 'D']
['A', 'A', 'D', 'D', 'D', 'E']
['A', 'A', 'A', 'D', 'E', 'E']
['A', 'A', 'D', 'A', 'D', 'D']
-HGWAG
PHSW-G


## Algoritmo de Smith-Waterman (SW)

O algoritmo Smith-Waterman é utilizado para alinhamento local de sequências. Ele identifica a região de maior similaridade entre duas sequências, sendo especialmente útil em casos onde apenas uma porção de cada sequência é relevante para o alinhamento. As principais etapas incluem:

 -Inicialização de uma matriz de pontuação preenchida com zeros.

 -Preenchimento da matriz baseado em uma função de substituição (substitution matrix) e penalidades por gaps.

 -Identificação da pontuação máxima para determinar o fim do alinhamento.

 -Rastreamento para reconstruir o alinhamento a partir da pontuação máxima.

In [8]:
def SW(seq1, seq2, scoring_matrix, g):
    """
    Implementa o algoritmo Smith-Waterman para alinhamento local.
    """

    #Adição de gap ao início da seq
    seq1 = "-" +seq1
    seq2 = "-" + seq2
    
    #Definir número de linhas e colunas em nossa matriz 
    n_lins=len(seq1)
    n_cols=len(seq2)

    #Construção das matrizes score e trace de tamanho (n_lins x n_cols)
    score = [[0] * (n_cols) for _ in range(n_lins)]
    trace = [[''] * (n_cols) for _ in range(n_lins)]


    #Preenchimento da matriz score
    for L in range(1, n_lins):
        for C in range(1, n_cols):
            # Calculo dos scores diagonal, esquerda, e ascendente
            D = score[L - 1][C - 1] + subst(scoring_matrix, seq1[C], seq2[L])  # Diagonal #pqq eu fiz seq1[C] e seq2[L]
            E = score[L][C - 1] + g                                            # Esquerda == gap em seq1
            A = score[L - 1][C] + g                                            # Ascendente == gap em seq2

            # Escolha da do melhor score e preenchimento da matriz score 
            direcao_final = max(D, E, A, 0)     # 0 impede valores negativos
            score[L][C] = direcao_final

            #Preenchimento da matriz trace 
            if direcao_final == D:
                trace[L][C] = "D"
            elif direcao_final == E:
                trace[L][C] = "E"
            elif direcao_final == A:
                trace[L][C] = "A"
            elif direcao_final ==0:
                trace[L][C]==""
            else:
                ValueError(f"Unexpected trace value at L={L}, C={C}: {trace[L][C]}")  # Handle unexpected cases

    return score, trace

In [9]:
def score_SW(score):
    """
    Retorna o valor de score de matrizes Smith Waterman 
    """
    max_value = max(max(row) for row in score)
    return max_value

In [10]:

def reconstruct_SW(seq1, seq2, score, trace):
     """
     Reconstroi os alinhamentos baseando-se nas matrizes geradas
     pelo algoritmo Smith-Waterman.
     """
     
     #Permite encontrar os índices do/s valore/s máximo/s
     indices = []
     maximo=score_SW(score)             
     for i in range(len(score)):
        for j in range(len(score[i])):
            if score[i][j] == maximo:
                indices.append((i, j))
     
     #Associa a posição inicial para reconstrução ao/s máximo/s da matriz
     for pos_max in indices:
          L,C= pos_max

          A1 = ''
          A2 = ''

          #Reconstrução da matriz e geração do alinhamento
          while C > 0 or L > 0:
               # print(f"L={L}, C={C}, Trace={trace[L][C]}")  # Debugging print
               if trace[L][C] == 'D':
                    L -= 1
                    C -= 1
                    A1 = seq1[C] + A1
                    A2 = seq2[L] + A2
               elif trace[L][C] == 'E':
                    C -= 1
                    A1 = seq1[C] + A1
                    A2 = '-' + A2
               elif trace[L][C] == 'U':
                    L -= 1
                    A1 = '-' + A1
                    A2 = seq2[L] + A2
               elif trace[L][C]=='':    #garante que reconstrução termine se encontrar um 0
                    break
               else:
                    ValueError(f"Unexpected trace value at L={L}, C={C}: {trace[L][C]}")  # Handle unexpected cases

          print(A1)
          print(A2)



In [11]:
S_sw, T_sw= SW("HGWAG","PHSWG", blosum62(), g=-8 )
matrix_print(S_sw)
matrix_print(T_sw)
score_SW(S_sw)
reconstruct_SW("HGWAG" ,"PHSWG", S_sw, T_sw)

[0, 0, 0, 0, 0, 0]
[0, 0, 0, 0, 0, 0]
[0, 8, 0, 0, 0, 0]
[0, 0, 8, 0, 1, 0]
[0, 0, 0, 19, 11, 3]
[0, 0, 6, 11, 19, 17]
['', '', '', '', '', '']
['', '', '', '', '', '']
['', 'D', 'E', '', '', '']
['', 'A', 'D', 'E', 'D', 'D']
['', '', 'A', 'D', 'E', 'E']
['', '', 'D', 'A', 'D', 'D']
HGW
HSW
HGWA
HSWG


In [14]:
import unittest

class TestAlignmentFunctions(unittest.TestCase):
    def setUp(self):
        # Inicializa a matriz BLOSUM62 para os testes
        self.blosum = blosum62()
        self.gap_penalty = -1

    def test_blosum62_matrix(self):
        # Verifica se a matriz contém o score correto para pares conhecidos
        self.assertEqual(self.blosum['A']['A'], 4)
        self.assertEqual(self.blosum['A']['R'], -1)
        self.assertEqual(self.blosum['W']['W'], 11)
        self.assertEqual(self.blosum['-']['-'], 1)

    def test_subst_function(self):
        # Testa se a função subst retorna o score correto
        self.assertEqual(subst(self.blosum, 'A', 'A'), 4)
        self.assertEqual(subst(self.blosum, 'A', 'R'), -1)
        self.assertEqual(subst(self.blosum, 'W', 'W'), 11)

    def test_NW_alignment(self):
        # Testa o algoritmo de Needleman-Wunsch com sequências simples
        seq1 = "AC"
        seq2 = "AG"
        score, trace = NW(seq1, seq2, self.blosum, self.gap_penalty)
        
        # Verifica se a matriz score foi construída corretamente
        self.assertEqual(score[2][2], 3)  # Alinhamento ótimo esperado
        
        # Verifica se a matriz trace foi preenchida corretamente
        self.assertEqual(trace[2][2], 'D')

suite = unittest.TestLoader().loadTestsFromTestCase(TestAlignmentFunctions)
unittest.TextTestRunner( verbosity=2 ).run( suite )

test_NW_alignment (__main__.TestAlignmentFunctions.test_NW_alignment) ... ok
test_blosum62_matrix (__main__.TestAlignmentFunctions.test_blosum62_matrix) ... ok
test_subst_function (__main__.TestAlignmentFunctions.test_subst_function) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.010s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

## Blast

# Descrição do Algoritmo (BLAST)

**BLAST (Basic Local Alignment Search Tool)** é um algoritmo amplamente utilizado em bioinformática para encontrar regiões de similaridade local entre sequências biológicas, como DNA, RNA ou proteínas. Ele utiliza uma abordagem heurística para identificar rapidamente os alinhamentos locais mais significativos entre uma sequência de consulta (query) e uma base de dados (database). A natureza heurística do BLAST reduz o tempo de execução ao evitar o alinhamento completo, analisando apenas as subsequências mais promissoras.

Nesta implementação específica, a busca é realizada em uma única sequência em vez de uma base de dados completa. Isso simplifica o algoritmo, mas mantém o objetivo de encontrar alinhamentos locais significativos.

### Etapas principais do BLAST:
1. **Criação de subsequências**: A sequência de consulta é dividida em subsequências de tamanho fixo (`w`), utilizando o conceito de **sliding windows** (janelas deslizantes).
2. **Mapeamento**: As subsequências geradas são comparadas com as subsequências na sequência alvo para encontrar correspondências exatas.
3. **Identificação de hits**: Quando uma subsequência da query corresponde a uma subsequência na sequência alvo, ela é marcada como um hit.
4. **Extensão de hits**: Os hits iniciais são estendidos em ambas as direções para verificar se formam alinhamentos mais longos e significativos. O número de matches deve ser de pelo menos metade do tamanho da extensão.
5. **Pontuação e classificação**: Apenas a extensão do hit mais significativo (maior número de matches e menor extensão em caso de empate) é devolvida.

---

## Projeto de Alto Nível (BLAST)

### 1. **Entrada e Saída:**
- **Entrada:**
  - Sequência de consulta (query).
  - Sequência alvo onde será realizada a busca.
  - Tamanho da palavra (`w`).
- **Saída:**
  - Devolve a extensão de maior score.

### 2. **Componentes Principais:**
- **Query Mapping**: Dividir a sequência de consulta em subsequências (`w`) e guardar as suas posições.
- **Hit Detection**: Identificar subsequências correspondentes na sequência alvo.
- **Hit Extension**: Expandir hits em ambas as direções para formar alinhamentos locais mais longos, considerando o critério de pelo menos metade do tamanho como matches.
- **Filtragem e Classificação**: Ordenar alinhamentos com base no número de matches e tamanho.

### 3. **Fluxo de Dados:**
Entrada da query → Criação de janelas deslizantes → Mapeamento na sequência alvo → Identificação de hits → Extensão de hits → Devolve melhor hit.

---

## Projeto de Baixo Nível (BLAST)

### 1. **Query Mapping**:
- **Descrição**: Dividir a query em subsequências de tamanho `w` utilizando janelas deslizantes (**sliding windows**) e criar um dicionário com as subsequências como chaves e índices como valores.
- **Estruturas de Dados**: `defaultdict` para armazenar as subsequências e índices.

### 2. **Hit Detection**:
- **Descrição**: Para cada subsequência da query, procurar todas as ocorrências correspondentes na sequência alvo.
- **Algoritmo**:
  - Iterar sobre todas as subsequências da sequência alvo e armazenar as que são iguais à subsequência da query.

### 3. **Hit Extension**:
- **Descrição**: Expandir os hits para verificar o alinhamento máximo em ambas as direções. O número de matches deve ser de pelo menos metade do tamanho da extensão.
- **Algoritmo**:
  - Iniciar no índice do inicio e final do hit.
  - Expandir para a esquerda e direita enquanto o critério de matches for mantido.
  - Retornar o índice inicial, índice final, tamanho e número de matches do alinhamento estendido.

### 4. **Filtragem e Classificação**:
- **Descrição**: Determinar a melhor extensão de hit considerando:
  - Maior número de matches.
  - Em caso de empate, menor tamanho.
  - Priorizar o primeiro hit encontrado em caso de novo empate.
- **Algoritmo**:
  - Iterar sobre todas as extensões de hits.
  - Comparar a pontuação de cada extensão e selecionar o melhor alinhamento.

---

## Implementação

In [51]:
from collections import defaultdict
from pprint import pprint

def query_map(seq, window_size):
    """
    Cria um dicionário onde as chaves são subsequências de tamanho fixo (window_size)
    e os valores são listas dos índices de ocorrência dessas subsequências na sequência.

    Args:
        seq (str): Sequência de entrada.
        window_size (int): Tamanho da janela deslizante.

    Returns:
        defaultdict: Dicionário com subsequências como chaves e listas de índices como valores.
    """
    res = defaultdict(list)
    size = len(seq)

    for position in range(size - window_size + 1):
        subseq = seq[position: position + window_size]
        res[subseq].append(position)

    return res


def get_all_positions(subseq, seq):
    """
    Encontra todas as posições onde uma subsequência aparece numa sequência alvo

    Args:
        subseq (str): Subsequência a ser procura.
        seq (str): Sequência alvo.

    Returns:
        list: Lista de índices onde ocorre a correspondência.
    """
    return [P for P in range(len(seq) - len(subseq) + 1) if seq[P: P + len(subseq)] == subseq]

        
def hits(query_map, seq):
    """
    Encontra correspondências entre subsequências mapeadas e a sequência alvo.

    Args:
        query_map (dict): Dicionário gerado pela função query_map.
        seq (str): Sequência alvo.

    Returns:
        list: Lista de tuplos com os indices das posições de correspondência na query e na sequência alvo.
    """
    res = []
    for subseq, query_positions in query_map.items():
        seq_positions = get_all_positions(subseq, seq)
        for query_pos in query_positions:
            for seq_pos in seq_positions:
                res.append((query_pos, seq_pos))

    return res


def extend_hit(query, seq, hit, window_size):
    """
    Estende um hit em ambas as direções com base no critério de correspondência.

    Args:
        query (str): Sequência de consulta.
        seq (str): Sequência alvo.
        hit (tuple): Tuplo com as posições iniciais na query e na sequência.
        window_size (int): Tamanho da janela inicial.

    Returns:
        tuple: Índice inicial, tamanho da extensão e número de correspondências.
    """
    start_query, start_seq = hit

    def extend_in_direction(query, seq, pos_query, pos_seq, direction):
        match_size = 0
        num_matches = 0
        mismatch_count = 0

        while 0 <= pos_query < len(query) and 0 <= pos_seq < len(seq):
            if query[pos_query] == seq[pos_seq]:
                num_matches += 1
                mismatch_count = 0
            else:
                mismatch_count += 1

            match_size += 1

            if mismatch_count > match_size // 2:
                break

            pos_query += direction
            pos_seq += direction

        return match_size - mismatch_count, num_matches

    # Extend left
    left_match_size, left_num_matches = extend_in_direction(query, seq, start_query - 1, start_seq - 1, -1)
    # Extend right
    right_match_size, right_num_matches = extend_in_direction(query, seq, start_query + window_size, start_seq + window_size, 1)

    total_length = left_match_size + window_size + right_match_size
    total_matches = left_num_matches + window_size + right_num_matches

    return (start_query - left_match_size, start_seq - left_match_size, total_length, total_matches)

def best_hit(query, seq, window_size):
    """
    Devolve o melhor hit baseado na maior pontuação de correspondências.

    Args:
        query (str): Sequência de consulta.
        seq (str): Sequência alvo.
        window_size (int): Tamanho da janela inicial.

    Returns:
        tuple: Extensão do melhor hit com indices do hit, tamanho e número de matches.
    """
    qm = query_map(query, window_size)
    hit_list = hits(qm, seq)

    best = None
    for hit in hit_list:
        extended_hit = extend_hit(query, seq, hit, window_size)
        if (best is None or 
            extended_hit[3] > best[3] or 
            (extended_hit[3] == best[3] and extended_hit[2] < best[2])):
            best = extended_hit

    return best

## Testes Unitários

In [61]:
import unittest

class TestBLASTFunctions(unittest.TestCase):
    def setUp(self):
        self.query = "AATATAT"
        self.seq = "AATATGTTATATAATAATATTT"
        self.window_size = 3

    def test_query_map(self):
        seq = self.query
        window_size = self.window_size
        expected = {
            'AAT': [0],
            'ATA': [1, 3],
            'TAT': [2, 4],
        }

        result = query_map(seq, window_size)
        self.assertEqual(dict(result), expected, f"query_map failed for input: {seq}, {window_size}")

    def test_get_all_positions(self):
        seq = "ACGTACGT"
        subseq = "ACG"
        expected = [0, 4]
        result = get_all_positions(subseq, seq)
        self.assertEqual(result, expected, f"get_all_positions failed for input: {subseq}, {seq}")

    def test_hits(self):
        qm = query_map(self.query, self.window_size)
        expected = [(0, 0), (0, 12), (0, 15), (1, 1), (1, 8), (1, 10), (1, 13), 
                    (1, 16), (3, 1), (3, 8), (3, 10), (3, 13), (3, 16), (2, 2), 
                    (2, 7), (2, 9), (2, 17), (4, 2), (4, 7), (4, 9), (4, 17)]
        result = hits(qm, self.seq)
        self.assertEqual(sorted(result), sorted(expected), f"hits failed for input: {qm}, {self.seq}")

    def test_extend_hit(self):
        hit = (1, 16)
        expected = (0, 15, 7, 6) 
        result = extend_hit(self.query, self.seq, hit, self.window_size)
        self.assertEqual(result, expected, f"extend_hit failed for input: {self.query}, {self.seq}, {hit}, {self.window_size}")

    def test_best_hit(self):
        expected = (0, 0, 7, 6)
        result = best_hit(self.query, self.seq, self.window_size)
        self.assertEqual(result, expected, f"best_hit failed for input: {self.query}, {self.seq}, {self.window_size}")

suite = unittest.TestLoader().loadTestsFromTestCase(TestBLASTFunctions)
unittest.TextTestRunner( verbosity=2 ).run( suite )

test_best_hit (__main__.TestBLASTFunctions.test_best_hit) ... ok
test_extend_hit (__main__.TestBLASTFunctions.test_extend_hit) ... ok
test_get_all_positions (__main__.TestBLASTFunctions.test_get_all_positions) ... ok
test_hits (__main__.TestBLASTFunctions.test_hits) ... ok
test_query_map (__main__.TestBLASTFunctions.test_query_map) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.005s

OK


<unittest.runner.TextTestResult run=5 errors=0 failures=0>

## Motifs determinísticos e estocásticos

Motifs probabilísticos são padrões recorrentes ou sequências específicas encontrados em moléculas biológicas, como DNA, RNA e proteínas. Esses padrões desempenham um papel crucial na compreensão dos mecanismos regulatórios dos genes, na identificação de domínios funcionais em proteínas e na análise da evolução molecular. Já os motifs probabilísticos consideram a variação natural nas sequências biológicas, capturando a flexibilidade e a aleatoriedade inerentes aos sistemas biológicos.

Esses motifs são amplamente utilizados para representar regiões de ligação de proteínas, elementos regulatórios, promotores genéticos e outras regiões funcionais importantes nas sequências de DNA e RNA. A principal característica que diferencia os motifs probabilísticos é a incorporação de probabilidades associadas à ocorrência de nucleotídeos ou aminoácidos em posições específicas, refletindo a variabilidade observada nos dados biológicos.

Neste contexto, desenvolvemos um conjunto de funções computacionais para análise de motifs probabilísticos. A função `alfabeto` foi criada para retornar o conjunto de caracteres correspondente ao tipo de sequência (DNA, RNA ou proteína). Em seguida, a função `pwm` (Position Weight Matrix) gera uma matriz de pesos a partir de sequências alinhadas, indicando a probabilidade de cada símbolo biológico ocorrer em posições específicas. Posteriormente, a função `prob_seq` calcula a probabilidade de uma determinada sequência ter sido gerada pela PWM. Complementando essa análise, a função `seq_mais_provavel` identifica a subsequência com maior probabilidade de ocorrência em uma sequência maior, utilizando a PWM como referência. Por fim, a função `pssm` (Position-Specific Scoring Matrix) foi implementada para calcular uma matriz de pontuação que leva em consideração a variabilidade das sequências, utilizando logaritmos para ajustar as probabilidades e realçar posições mais informativas.

Essas ferramentas oferecem uma abordagem robusta e avançada para a análise de sequências biológicas, permitindo a identificação de padrões funcionais e contribuindo para avanços em bioinformática, biologia molecular e genética.

##### **Função: print_profile**

A função print_profile é usada para exibir tabelas formatadas a partir de listas de dicionários. Isso é útil para visualizar as matrizes geradas por PWM ou PSSM.

In [42]:
def print_profile(perfil):
    """
    Formata e exibe uma tabela a partir de uma lista de dicionários.
    """
    bases = sorted(perfil[0].keys())
    tab = [[f"{p[b]:-5.2f}" for b in bases] for p in perfil]
    for p in zip(*([bases] + tab)):
        print(*p)

##### **Função: pwm**
A função pwm cria uma matriz de pesos baseada na frequência das bases nucleotídicas num alinhamento de sequências.

In [43]:
def pwm(alinhamento: list[str], pseudo: float = 0) -> list[dict]:
    """
    Calcula a PWM para um alinhamento de sequências de DNA.
    """
    bases = 'ATCG'
    lista = []

    # Validação e pré-processamento
    for seq in alinhamento:
        seq = seq.upper().replace(' ', '')
        assert len(seq) == len(alinhamento[0]), "Sequências com tamanhos diferentes!"
    
    # Cálculo da PWM
    for pos in zip(*alinhamento):
        dicionario = {b: round((pos.count(b) + pseudo) / (len(alinhamento) + len(bases) * pseudo), 2) for b in bases}
        lista.append(dicionario)
    return lista

Exemplo de uso:

In [44]:
P = pwm(['ATTG', 'ATCG', 'ATTC', 'ACTC'], 0.5)
print_profile(P)

A  0.75  0.08  0.08  0.08
C  0.08  0.25  0.25  0.42
G  0.08  0.08  0.08  0.42
T  0.08  0.58  0.58  0.08


##### **Função: prob_seq**
Esta função calcula a probabilidade de uma sequência específica com base na PWM gerada.

In [45]:
def prob_seq(seq: str, PWM: list[dict]) -> float:
    """
    Calcula a probabilidade de uma sequência ser gerada pela PWM.
    """
    produto = 1
    seq = seq.upper()
    for pos, elem in enumerate(seq):
        produto *= PWM[pos][elem]
    return produto

##### **Função: seq_mais_provavel**
Utiliza expressões regulares para determinar a subsequência mais provável de uma sequência maior.

In [46]:
import re

def seq_mais_provavel(seq: str, PWM: list[dict]) -> str:
    """
    Encontra a subsequência mais provável baseada na PWM.
    """
    dicionario = {}
    for subset in re.findall('(?=(....))', seq):
        dicionario[subset] = prob_seq(subset, PWM)
    return max(dicionario, key=dicionario.get)


Exemplo de uso:

In [47]:
mais_provavel = seq_mais_provavel("TACCGTGCA", P)
print(mais_provavel)

ACCG


##### **Função: pssm**
A PSSM adiciona uma camada logarítmica para calcular a probabilidade de ocorrência de cada base.

In [48]:
import math

def pssm(alinhamento: list[str], pseudo: float = 1) -> list[dict]:
    """
    Calcula a matriz de escore específico de posição (PSSM).
    """
    bases = 'ATCG'
    lista = []

    # Validação e pré-processamento
    for seq in alinhamento:
        seq = seq.upper().replace(' ', '')
        assert len(seq) == len(alinhamento[0]), "Sequências com tamanhos diferentes!"
    
    # Cálculo da PSSM
    for pos in zip(*alinhamento):
        dicionario = {b: math.log2(((pos.count(b) + pseudo) / (len(alinhamento) + len(bases) * pseudo)) / 0.25) for b in bases}
        lista.append(dicionario)
    return lista

Exemplo de uso:

In [49]:
PSSM = pssm(['ATTG', 'ATCG', 'ATTC', 'ACTC'], 0.5)
print_profile(PSSM)

A  1.58 -1.58 -1.58 -1.58
C -1.58  0.00  0.00  0.74
G -1.58 -1.58 -1.58  0.74
T -1.58  1.22  1.22 -1.58


##### **Testes das Funções para Motifs determinísticos e estocásticos**

In [50]:
import unittest

class TestMotifsProbabilistic(unittest.TestCase):
    def setUp(self):
        self.alinhamento = ['ATTG', 'ATCG', 'ATTC', 'ACTC']
        self.PWM = pwm(self.alinhamento, 0.5)
        self.PSSM = pssm(self.alinhamento, 0.5)

    def test_pwm_output(self):
        expected_pwm = [
            {'A': 0.75, 'C': 0.08, 'G': 0.08, 'T': 0.08},
            {'A': 0.08, 'C': 0.25, 'G': 0.08, 'T': 0.58},
            {'A': 0.08, 'C': 0.25, 'G': 0.08, 'T': 0.58},
            {'A': 0.08, 'C': 0.42, 'G': 0.42, 'T': 0.08}
        ]
        self.assertEqual(self.PWM, expected_pwm)

    def test_prob_seq(self):
        prob = prob_seq('AT', self.PWM)
        self.assertAlmostEqual(prob, 0.435, places=3)

    def test_seq_mais_provavel(self):
        result = seq_mais_provavel("TACCGTGCA", self.PWM)
        self.assertEqual(result, 'ACCG')

    def test_pssm_output(self):
        expected_pssm = [
            {'A': 1.58, 'C': -1.58, 'G': -1.58, 'T': -1.58},
            {'A': -1.58, 'C': 0.00, 'G': -1.58, 'T': 1.22},
            {'A': -1.58, 'C': 0.00, 'G': -1.58, 'T': 1.22},
            {'A': -1.58, 'C': 0.74, 'G': 0.74, 'T': -1.58}
        ]
        for pos1, pos2 in zip(self.PSSM, expected_pssm):
            for base in pos1:
                self.assertAlmostEqual(pos1[base], pos2[base], places=2)

if __name__ == '__main__':
    unittest.main(argv=['first-arg-is-ignored'], exit=False)

  return datetime.utcnow().replace(tzinfo=utc)
........
----------------------------------------------------------------------
Ran 9 tests in 0.004s

OK


## Árvore Filogenética

Este algoritmo realiza o agrupamento hierárquico de sequências de DNA, utilizando a distância de Levenstein (lecionada em aula) para calcular a similaridade entre as sequências. O objetivo é gerar um dendrograma que ilustra como as sequências são agrupadas com base nas suas distâncias.
São usados três pacotes principais. O numpy (np) é utilizado para criar e manipular a matriz de distâncias entre as sequências de DNA, permitindo o cálculo eficiente de distâncias entre os pares de sequências. O scipy.cluster.hierarchy (sch) contém a função linkage, que executa o agrupamento hierárquico com base nas distâncias calculadas. Finalmente, o matplotlib.pyplot (plt) é utilizado para exibir o dendrograma resultante, permitindo uma visualização clara do processo de agrupamento. 

In [None]:
import numpy as np
import scipy.cluster.hierarchy as sch
import matplotlib.pyplot as plt

1. ___Cálculo de distâncias___

A distância entre pares de sequências é calculada utilizando o algoritmo de Levenstein, que determina o número mínimo de operações (inserções, deleções e substituições) necessárias para transformar uma sequência noutra.
Função distancia: Calcula a distância de Levenstein entre duas sequências de DNA.

        Função distancia(s1, s2):
        s1 e s2: Duas strings que representam as sequências de DNA.

O algoritmo começa por criar uma matriz de tamanho (len(s1)+1) x (len(s2)+1). As bordas da matriz são preenchidas com os custos de inserções e deleções. A seguir, a matriz é preenchida iterativamente, calculando o custo mínimo de cada posição com base nas operações de substituição, inserção e deleção. O valor no canto inferior direito da matriz será a distância final entre as duas sequências.
        

In [None]:
def distancia(s1, s2):
    """
    Calcula a distância de Levenstein (lecionada em aula) entre duas sequências
    """
    mat = [[0] * (len(s2) + 1) for _ in range(len(s1) + 1)]
    for i in range(len(s1) + 1):
        for j in range(len(s2) + 1):
            if i == 0:
                mat[i][j] = j
            elif j == 0:
                mat[i][j] = i
            else:
                mat[i][j] = min(mat[i - 1][j] + 1,
                                mat[i][j - 1] + 1,
                                mat[i - 1][j - 1] + (0 if s1[i - 1] == s2[j - 1] else 1))
    return mat[len(s1)][len(s2)]

2. ___Matriz de Distâncias___

A função cria uma matriz simétrica que armazena as distâncias entre todas as combinações de sequências na lista fornecida.
Função matriz_distancias: Calcula a matriz de distâncias entre todas as sequências.

        Função matriz_distancias(lista_seqs):
        lista_seqs: Lista de strings que representam as sequências de DNA.

A função começa por iniciar uma matriz de zeros de tamanho n x n, onde n é o número de sequências. Para cada par de sequências, a função distancia é chamada para calcular a distância de Levenstein e preencher a matriz. Como a matriz é simétrica, a distância entre seq1 e seq2 é atribuída à posição (i, j) e também à posição (j, i).

In [None]:
def matriz_distancias(lista_seqs):
    """ 
    Cria uma matriz de distências entre todas as combinações de sequências
    """
    n = len(lista_seqs)
    dist_matriz = np.zeros((n, n))
    for i in range(n):
        for j in range(i + 1, n):
            dist_matriz[i][j] = dist_matriz[j][i] = distancia(lista_seqs[i], lista_seqs[j])
    return dist_matriz

3. ___Agrupamento Hierárquico e Visualização___ :

O agrupamento hierárquico é realizado utilizando a função linkage da biblioteca scipy.cluster.hierarchy (sch), que calcula a matriz de ligação baseada nas distâncias entre as sequências. O método de agrupamento utilizado é o "average", que calcula a distância média entre clusters. Após calcular a matriz de distâncias com a função matriz_distancias, ela é convertida para o formato compacto usando squareform de scipy.cluster.hierarchy.distance, transformando a matriz de distâncias num vetor compacto. Em seguida, a função linkage é aplicada para calcular a matriz de ligação, essencial para o agrupamento hierárquico. Com a matriz de ligação, o dendrograma é gerado utilizando a função dendrogram da mesma biblioteca. Este dendrograma é um gráfico que visualiza como as sequências foram agrupadas ao longo do processo. O eixo horizontal do gráfico exibe as sequências, enquanto o eixo vertical mostra as distâncias entre os grupos de sequências. Por fim, a visualização do dendrograma é exibida com a função show() da biblioteca matplotlib, permitindo a interpretação visual dos agrupamentos formados.

In [None]:
def gerar_dendrograma(lista_seqs):
    """
    Gera e exibe um dendograma a partir das distâncias entre sequências previamente calculadas
    """
    lista_seqs = [seq.upper() for seq in lista_seqs]  
    dist_matriz = matriz_distancias(lista_seqs)
    dist_compacta = sch.distance.squareform(dist_matriz)
    matriz_ligacao = sch.linkage(dist_compacta, method='average') # A função `linkage` agrupa as sequências com base nas distâncias e cria a matriz de ligação.

    plt.figure(figsize=(10, 7))
    sch.dendrogram(matriz_ligacao, labels=lista_seqs)
    plt.title("Dendrograma de Sequências")
    plt.xlabel("Sequências")
    plt.ylabel("Distância")
    plt.show()

if __name__ == '__main__':
    sequencias = "CCG GT GTA AAT AT ACG ACGT".split()
    print("Matriz de Distâncias:")
    D = matriz_distancias(sequencias)
    print(D)
    print("\nDendrograma:")
    gerar_dendrograma(sequencias)

**Teste das funções para a Árvore Filogenética**

In [None]:
import unittest

class TestFuncoes(unittest.TestCase):

    def test_distancia(self):
        # Teste com sequências iguais
        self.assertEqual(distancia("ATCG", "ATCG"), 0)
        
        # Teste com sequências completamente diferentes
        self.assertEqual(distancia("AAA", "TTT"), 3)

    def test_matriz_distancias(self):
        sequencias = ["AAA", "AAT", "ATT", "TTT"]
        matriz = matriz_distancias(sequencias)
        
        # Verifica se a matriz é simétrica
        self.assertTrue(np.allclose(matriz, matriz.T))
        
        # Verifica se a diagonal principal é zero
        self.assertTrue(np.allclose(np.diag(matriz), 0))
        
        # Verifica valores específicos
        self.assertEqual(matriz[0][1], 1)  # Distância entre AAA e AAT
        self.assertEqual(matriz[0][3], 3)  # Distância entre AAA e TTT

    def test_gerar_dendrograma(self):
        sequencias = ["CCG", "GT", "GTA", "AAT", "AT", "ACG", "ACGT"]
        
        # Verifica se a função não originou exceções
        try:
            gerar_dendrograma(sequencias)
        except Exception as e:
            self.fail(f"gerar_dendrograma lançou uma exceção inesperada: {e}")
        
        # Verifica se um gráfico foi criado
        self.assertTrue(plt.gcf().number > 0)
        
        # Limpa a figura atual para não interferir com outros testes
        plt.close()

if __name__ == '__main__':
    unittest.main(argv=[''], exit=False)