# **Portefólio**

Grupo:
* Artur Gomes       | PG55692
* Catarina Gomes    | PG55694
* Maria Carvalho    | PG55130
* Pedro Pereira     | PG55703
* Sami Benkhellat   | PG55704


# Funções para tratamento de Sequências

# Descrição da Função `validate_dna`

A função `validate_dna` é utilizada para verificar se uma determinada sequência é uma sequência de DNA válida. Sequências de DNA contêm apenas os nucleotídeos `A`, `T`, `C`, e `G`. Esta função ajuda a assegurar que a entrada seja compatível com análises e operações subsequentes que assumem que a sequência fornecida é válida.

## Etapas principais da função `validate_dna`

1. **Formatação da sequência**:
   - Remove espaços em branco da entrada.
   - Converte a sequência para letras maiúsculas.

2. **Verificação de caracteres**:
   - Confere se cada caractere na sequência formatada pertence ao conjunto de nucleotídeos válidos (`A`, `T`, `C`, `G`).

3. **Validação de resultado**:
   - Retorna `False` se a sequência estiver vazia ou contiver caracteres inválidos.
   - Caso contrário, retorna `True`.

---

## Projeto de Alto Nível (`validate_dna`)

### 1. **Entrada e Saída**:
- **Entrada:**
  - Uma string contendo a sequência a ser validada.
- **Saída:**
  - Um valor booleano (`True` ou `False`) indicando se a sequência é válida.

### 2. **Componentes Principais:**
- **Formatação da Sequência:**
  - Remove espaços e converte a string para maiúsculas.
- **Verificação de Vazio:**
  - Confirma se a sequência possui conteúdo após a formatação.
- **Validação de Nucleotídeos:**
  - Confere se todos os caracteres pertencem ao conjunto válido.

### 3. **Fluxo de Dados:**
Entrada da sequência → Formatação → Verificação de vazio → Validação de nucleotídeos → Retorna o resultado.

---

## Projeto de Baixo Nível (`validate_dna`)

### 1. **Formatação da Sequência:**
- **Descrição:**
  - Remove espaços em branco usando a função `re.sub`.
  - Converte todos os caracteres para maiúsculas.
- **Algoritmo:**
  - Aplicar `re.sub(r'\s+', '', seq)` para remover espaços.
  - Usar `.upper()` para garantir que a sequência esteja em maiúsculas.

### 2. **Verificação de Sequência Vazia:**
- **Descrição:**
  - Se a sequência estiver vazia após a formatação, retornar `False`.
- **Algoritmo:**
  - Checar `if len(format_seq) == 0`.

### 3. **Validação de Nucleotídeos:**
- **Descrição:**
  - Iterar por cada caractere da sequência formatada e verificar se pertence ao conjunto `ATCG`.
- **Algoritmo:**
  - Para cada `nucleotide` em `format_seq`, verificar se `nucleotide not in dna`.
  - Retornar `False` se encontrar algum caractere inválido.

### 4. **Retorno Final:**
- **Descrição:**
  - Se nenhuma condição de invalidez for encontrada, retornar `True`.
- **Algoritmo:**
  - Retornar `True` ao final da função.

---

## Implementação



In [16]:
import re

def validate_dna(seq: str) -> bool:
    '''
    Verifica se a sequência fornecida é uma sequência de DNA válida.
    Entrada:
        seq: str - Sequência a ser verificada.
    Saída:
        bool - True se a sequência for válida, False caso contrário.
    '''
    dna = 'ATCG'  # Define os nucleotidos válidos para uma sequência de DNA.
    
    # Remove espaços em branco e converte a sequência para letras maiúsculas.
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    # Verifica se a sequência está vazia após a formatação.
    if len(format_seq) == 0:
        return False  # Retorna False se a sequência estiver vazia.
    
    # Itera sobre cada caractere na sequência formatada.
    for nucleotide in format_seq:
        # Verifica se o nucleotídeo não está no conjunto válido.
        if nucleotide not in dna:
            return False  # Retorna False ao encontrar um caractere inválido.
    
    # Retorna True se todos os nucleotidos forem válidos e a sequência não estiver vazia.
    return True

# Descrição da Função `count_bases`

A função `count_bases` é utilizada para contar a quantidade de cada um dos nucleotídeos (`A`, `C`, `G`, `T`) em uma sequência de DNA fornecida. Além disso, identifica e relata quaisquer caracteres inválidos na sequência, levantando uma exceção caso erros sejam detectados.

## Etapas principais da função `count_bases`

1. **Formatação da sequência**:
   - Remove espaços em branco.
   - Converte a sequência para letras maiúsculas.

2. **Identificação de caracteres inválidos**:
   - Remove os caracteres válidos (`A`, `C`, `G`, `T`) da sequência para identificar erros.
   - Conta o número de caracteres inválidos e os agrupa.

3. **Validação e levantamento de exceção**:
   - Levanta uma exceção detalhada se forem encontrados caracteres inválidos.

4. **Contagem de bases**:
   - Conta o número de ocorrências de cada base válida na sequência.

5. **Impressão de resultados**:
   - Exibe o total de cada base em linhas separadas.

---

## Projeto de Alto Nível (`count_bases`)

### 1. **Entrada e Saída**:
- **Entrada:**
  - Uma string contendo a sequência de DNA a ser analisada.
- **Saída:**
  - Retorna um dicionário com as contagens de cada base válida.
  - Levanta uma exceção caso a sequência contenha caracteres inválidos.

### 2. **Componentes Principais:**
- **Formatação da Sequência:**
  - Remove espaços e converte para maiúsculas.
- **Identificação de Erros:**
  - Identifica e conta caracteres inválidos.
- **Levantamento de Exceção:**
  - Detalha o número e tipo de caracteres inválidos.
- **Contagem de Bases:**
  - Conta as ocorrências de `A`, `C`, `G`, `T`.
- **Impressão de Resultados:**
  - Exibe as contagens no console.

### 3. **Fluxo de Dados:**
Entrada da sequência → Formatação → Identificação de erros → Levantamento de exceção (se necessário) → Contagem de bases → Impressão de resultados.

---

## Projeto de Baixo Nível (`count_bases`)

### 1. **Formatação da Sequência:**
- **Descrição:**
  - Remove espaços em branco usando a função `re.sub`.
  - Converte todos os caracteres para maiúsculas.
- **Algoritmo:**
  - Aplicar `re.sub(r'\s+', '', seq)` para remover espaços.
  - Usar `.upper()` para garantir que a sequência esteja em maiúsculas.

### 2. **Identificação de Caracteres Inválidos:**
- **Descrição:**
  - Remove todas as bases válidas da sequência e coleta os caracteres restantes.
- **Algoritmo:**
  - Aplicar `re.sub(r'[ACGT]', '', format_seq)` para identificar os caracteres inválidos.

### 3. **Levantamento de Exceção:**
- **Descrição:**
  - Se caracteres inválidos forem encontrados, uma exceção detalhada é levantada.
- **Algoritmo:**
  - Verificar `if error_count > 0`.
  - Levantar `AssertionError` com os detalhes dos erros.

### 4. **Contagem de Bases:**
- **Descrição:**
  - Conta as ocorrências de cada uma das bases válidas na sequência.
- **Algoritmo:**
  - Criar um dicionário com a contagem: `{base: format_seq.count(base) for base in 'ACGT'}`.

### 5. **Impressão de Resultados:**
- **Descrição:**
  - Exibe o total de cada base em linhas separadas.
- **Algoritmo:**
  - Iterar pelo dicionário de contagens e imprimir cada par base-contagem.

---

## Implementação



In [18]:
import re

def count_bases(seq: str):
    """
    Recebe uma sequência e imprime o número de A, C, G e T.
    Se houver caracteres inválidos, exibe o total de erros também, com 
    especificação da base com erro.
    Input: Sequência (string)
    Output: Impressão de resultados (por linha)
    """
    # Remove espaços em branco e converte a sequência para letras maiúsculas
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    # Identifica caracteres inválidos que não sejam A, C, G ou T
    invalid_bases = re.sub(r'[ACGT]', '', format_seq)  # Remove bases válidas
    error_count = len(invalid_bases)  # Conta quantos caracteres inválidos existem
    
    # Se houver caracteres inválidos, levanta uma exceção com detalhes do erro
    if error_count > 0:
        raise AssertionError(f"Erro: A sequência contém {error_count} caractere(s) inválido(s)! "
                             f"Caracteres inválidos: {', '.join(set(invalid_bases))}")
    
    # Cria um dicionário para contar as bases válidas (A, C, G, T)
    counts = {base: format_seq.count(base) for base in 'ACGT'}
    
    # Imprime o número de ocorrências de cada base
    for base, count in counts.items():
        print(f"{base}: {count}")
    
    return counts


# Descrição da Função `frequency_calculator`

A função `frequency_calculator` calcula as frequências relativas dos nucleotídeos (`A`, `C`, `G`, `T`) em uma sequência de DNA fornecida, validando-a previamente com a função `validate_dna`. Caso a sequência seja inválida, a função relata o erro ao usuário.

## Etapas principais da função `frequency_calculator`

1. **Validação da sequência**:
   - Utiliza a função `validate_dna` para garantir que a sequência contém apenas bases válidas.
   - Retorna um erro se a sequência for inválida ou vazia.

2. **Formatação da sequência**:
   - Remove espaços em branco.
   - Converte a sequência para letras maiúsculas.

3. **Contagem de bases válidas**:
   - Conta o número de ocorrências de cada base válida (`A`, `C`, `G`, `T`).

4. **Cálculo das frequências relativas**:
   - Divide a contagem de cada base pelo total de bases válidas na sequência.

5. **Retorno dos resultados**:
   - Retorna um dicionário com as frequências relativas de cada base válida.

---

## Projeto de Alto Nível (`frequency_calculator`)

### 1. **Entrada e Saída**:
- **Entrada:**
  - Uma string contendo a sequência de DNA a ser analisada.
- **Saída:**
  - Um dicionário com as frequências relativas das bases válidas (`A`, `C`, `G`, `T`).
  - Retorna `None` e exibe mensagens de erro caso a sequência seja inválida.

### 2. **Componentes Principais:**
- **Validação da Sequência:**
  - Usa a função `validate_dna` para validar a sequência.
- **Formatação da Sequência:**
  - Remove espaços e converte para maiúsculas.
- **Contagem de Bases:**
  - Conta as ocorrências de cada base válida.
- **Cálculo das Frequências Relativas:**
  - Divide a contagem de cada base pelo total de bases válidas.
- **Retorno dos Resultados:**
  - Retorna um dicionário com as frequências relativas.

### 3. **Fluxo de Dados:**
Entrada da sequência → Validação → Formatação → Contagem de bases → Cálculo de frequências → Retorno dos resultados.

---

## Projeto de Baixo Nível (`frequency_calculator`)

### 1. **Validação da Sequência:**
- **Descrição:**
  - Usa a função `validate_dna` para garantir que a sequência seja válida.
- **Algoritmo:**
  - Verificar `if not validate_dna(seq):`.
  - Exibir mensagem de erro e retornar `None` se a sequência for inválida.

### 2. **Formatação da Sequência:**
- **Descrição:**
  - Remove espaços em branco e converte para maiúsculas.
- **Algoritmo:**
  - Aplicar `re.sub(r'\s+', '', seq)` para remover espaços.
  - Usar `.upper()` para converter para maiúsculas.

### 3. **Contagem de Bases:**
- **Descrição:**
  - Conta o número de ocorrências de cada base válida.
- **Algoritmo:**
  - Criar um dicionário com a contagem: `{base: format_seq.count(base) for base in 'ACGT'}`.

### 4. **Cálculo das Frequências Relativas:**
- **Descrição:**
  - Calcula a frequência relativa de cada base válida.
- **Algoritmo:**
  - Dividir cada contagem pelo total de bases válidas: `{base: round(count / total_bases, 2) for base, count in counts.items()}`.

### 5. **Retorno dos Resultados:**
- **Descrição:**
  - Retorna um dicionário com as frequências relativas.
- **Algoritmo:**
  - Retornar o dicionário gerado.

---

## Implementação

In [19]:
import re
def frequency_calculator(seq: str):
    """
    Recebe uma sequência, valida com validate_dna e imprime apenas as frequências relativas de A, C, G e T.
    Frequência relativa é calculada como o número de vezes que a base aparece
    dividido pelo número total de bases válidas na sequência.
    
    Input: Sequência (string)
    Output: Impressão das frequências relativas das bases A, C, G e T (por linha)
    """
    try:
        # Validar a sequência e contar as bases válidas
        if not validate_dna(seq):
            print("Erro: A sequência contém bases inválidas, ou encontra-se vazia!")
            return None
        
        format_seq = re.sub(r'\s+', '', str(seq)).upper()
        counts = {base: format_seq.count(base) for base in 'ACGT'}
        total_bases = sum(counts.values())
        
        if total_bases == 0:
            print("Erro: A sequência não contém bases válidas!")
            return None
        
        # Calcular a frequência relativa de cada base
        frequencies = {base: round(count / total_bases, 2) for base, count in counts.items()}
        
        # Retorna as frequências relativas
        return frequencies
    
    except AssertionError as e:
        # Se ocorrer erro de validação, imprime o erro
        print(e)
        return None

# Descrição da Função `to_rna`

A função `to_rna` converte uma sequência de DNA válida em uma sequência de RNA, substituindo todas as ocorrências de `T` (timina) por `U` (uracila). A função também valida a sequência de entrada utilizando a função `validate_dna` e retorna um erro se a sequência for inválida ou vazia.

## Etapas principais da função `to_rna`

1. **Formatação da sequência**:
   - Remove espaços em branco.
   - Converte a sequência para letras maiúsculas.

2. **Validação da sequência**:
   - Utiliza a função `validate_dna` para garantir que a sequência contém apenas bases válidas (`A`, `C`, `G`, `T`).
   - Retorna um erro se a sequência for inválida ou vazia.

3. **Conversão de DNA para RNA**:
   - Substitui todas as ocorrências de `T` por `U`.

4. **Retorno dos resultados**:
   - Retorna a sequência de RNA convertida.

---

## Projeto de Alto Nível (`to_rna`)

### 1. **Entrada e Saída**:
- **Entrada:**
  - Uma string contendo a sequência de DNA a ser convertida.
- **Saída:**
  - Uma string contendo a sequência de RNA convertida.
  - Retorna `None` e exibe mensagens de erro caso a sequência seja inválida.

### 2. **Componentes Principais:**
- **Formatação da Sequência:**
  - Remove espaços em branco e converte para maiúsculas.
- **Validação da Sequência:**
  - Usa a função `validate_dna` para validar a sequência.
- **Conversão para RNA:**
  - Substitui `T` por `U`.
- **Retorno dos Resultados:**
  - Retorna a sequência de RNA convertida.

### 3. **Fluxo de Dados:**
Entrada da sequência → Formatação → Validação → Conversão → Retorno da sequência de RNA.

---

## Projeto de Baixo Nível (`to_rna`)

### 1. **Formatação da Sequência:**
- **Descrição:**
  - Remove espaços em branco e converte para maiúsculas.
- **Algoritmo:**
  - Aplicar `re.sub(r'\s+', '', seq)` para remover espaços.
  - Usar `.upper()` para converter para maiúsculas.

### 2. **Validação da Sequência:**
- **Descrição:**
  - Usa a função `validate_dna` para garantir que a sequência seja válida.
- **Algoritmo:**
  - Verificar `if not validate_dna(seq):`.
  - Exibir mensagem de erro e retornar `None` se a sequência for inválida.

### 3. **Conversão para RNA:**
- **Descrição:**
  - Substitui todas as ocorrências de `T` por `U` para realizar a conversão de DNA para RNA.
- **Algoritmo:**
  - Usar `format_seq.replace('T', 'U')` para substituir os nucleotídeos.

### 4. **Retorno dos Resultados:**
- **Descrição:**
  - Retorna a sequência de RNA convertida.
- **Algoritmo:**
  - Retornar a sequência resultante com a mensagem: `f"Sequência de RNA: {rna_seq}"`.

---

## Implementação



In [20]:
import re
import pdb

def to_rna(seq):
    '''
    Converter uma sequência de DNA em RNA.

    A função recebe uma sequência de DNA, valida se ela contém apenas as bases válidas (A, C, G, T), e converte a sequência para RNA, substituindo todas as ocorrências de 'T' por 'U'.

    Input: Sequência de DNA (string)
    Output: Sequência de RNA (string) ou erro de validação se a sequência for inválida ou vazia.
    '''
    try:
        # Remove espaços em branco e converte a sequência para letras maiúsculas
        format_seq = re.sub(r'\s+', '', str(seq)).upper()
        
        # Verifica se a sequência é válida utilizando a função validate_dna
        if not validate_dna(format_seq):
            print("Erro: A sequência contém bases inválidas, ou encontra-se vazia!")
            return
        
        # Substitui 'T' por 'U' para realizar a conversão de DNA para RNA
        rna_seq = format_seq.replace('T', 'U')
        
        # Retorna a sequência de RNA formatada
        return f"Sequência de RNA: {rna_seq}"
    
    except AssertionError as e:
        # Captura e exibe erros de validação caso ocorram
        print(e)


# Descrição da Função `revcomp`

A função `revcomp` calcula o complemento inverso de uma sequência de DNA. Ela utiliza uma abordagem sistemática para validar a sequência de entrada, inverter sua ordem e substituir cada base pela sua complementar correspondente.

## Etapas principais da função `revcomp`

1. **Definição de base complementar**:
   - Subfunção `complementary_character` que retorna a base complementar para uma base de DNA.

2. **Formatação da sequência**:
   - Remove espaços em branco e converte a sequência para letras maiúsculas.

3. **Validação da sequência**:
   - Utiliza a função `validate_dna` para garantir que a sequência contém apenas bases válidas (`A`, `C`, `G`, `T`).
   - Retorna um erro se a sequência for inválida ou vazia.

4. **Criação da sequência reversa**:
   - Inverte a ordem das bases na sequência.

5. **Criação do complemento inverso**:
   - Substitui cada base pela sua complementar utilizando a subfunção `complementary_character`.

6. **Retorno dos resultados**:
   - Retorna a sequência complementar invertida.

---

## Projeto de Alto Nível (`revcomp`)

### 1. **Entrada e Saída**:
- **Entrada:**
  - Uma string contendo a sequência de DNA a ser processada.
- **Saída:**
  - Uma string contendo o complemento inverso da sequência de DNA.
  - Retorna `None` e exibe mensagens de erro caso a sequência seja inválida.

### 2. **Componentes Principais:**
- **Definição de base complementar:**
  - Subfunção `complementary_character` para determinar a base complementar.
- **Formatação da Sequência:**
  - Remove espaços em branco e converte para maiúsculas.
- **Validação da Sequência:**
  - Usa a função `validate_dna` para validar a sequência.
- **Criação da Sequência Reversa:**
  - Inverte a ordem das bases na sequência.
- **Criação do Complemento Inverso:**
  - Substitui cada base pela complementar.
- **Retorno dos Resultados:**
  - Retorna a sequência complementar invertida.

### 3. **Fluxo de Dados:**
Entrada da sequência → Formatação → Validação → Criação da sequência reversa → Substituição por complementares → Retorno do complemento inverso.

---

## Projeto de Baixo Nível (`revcomp`)

### 1. **Definição de base complementar:**
- **Descrição:**
  - Determina a base complementar para uma base específica usando um dicionário de tradução.
- **Algoritmo:**
  - Criar um dicionário com mapeamento `{"A": "T", "C": "G", "G": "C", "T": "A"}`.
  - Retornar o valor correspondente para a base de entrada.

### 2. **Formatação da Sequência:**
- **Descrição:**
  - Remove espaços em branco e converte a sequência para letras maiúsculas.
- **Algoritmo:**
  - Aplicar `re.sub(r'\s+', '', seq)` para remover espaços.
  - Usar `.upper()` para converter para maiúsculas.

### 3. **Validação da Sequência:**
- **Descrição:**
  - Usa a função `validate_dna` para garantir que a sequência seja válida.
- **Algoritmo:**
  - Verificar `if not validate_dna(seq):`.
  - Exibir mensagem de erro e retornar `None` se a sequência for inválida.

### 4. **Criação da Sequência Reversa:**
- **Descrição:**
  - Inverte a ordem das bases na sequência.
- **Algoritmo:**
  - Iterar sobre cada base e construir a sequência invertida adicionando ao início de uma nova string.

### 5. **Criação do Complemento Inverso:**
- **Descrição:**
  - Substitui cada base pela sua complementar.
- **Algoritmo:**
  - Iterar sobre cada base da sequência invertida.
  - Aplicar a função `complementary_character` para substituir por sua base complementar.

### 6. **Retorno dos Resultados:**
- **Descrição:**
  - Retorna a sequência complementar invertida.
- **Algoritmo:**
  - Retornar a sequência processada como resultado final.

---

## Implementação



In [21]:
import re
import pdb

def revcomp(seq: str) -> str:
    """
    Calcula o complemento inverso de uma sequência de DNA.

    Parâmetros:
        seq: str
            Uma sequência de DNA, contendo apenas as bases A, C, G, T.
    
    Retorna:
        Uma string representando o complemento inverso da sequência de DNA fornecida.
        Retorna None se a sequência for inválida.
    """
    
    def complementary_character(base: str) -> str:
        """
        Retorna a base complementar de uma base de DNA.
        Exemplo:
        A → T, T → A, C → G, G → C
        
        Parâmetro:
            base: str
                Uma base de DNA (A, C, G ou T).
        
        Retorna:
            A base complementar correspondente.
        """
        # Definindo as bases normais e suas complementares
        norm = "ACGT"
        comp = "TGCA"

        # Criando um dicionário de tradução entre bases normais e complementares
        translation = dict(zip(norm, comp))
        
        # Retornando a base complementar
        return translation[base]

    # Remover espaços em branco e converter a sequência para letras maiúsculas
    format_seq = re.sub(r'\s+', '', str(seq)).upper()

    # Verificar se a sequência de DNA é válida
    if not validate_dna(format_seq):
        print("Erro: A sequência contém bases inválidas ou está vazia!")
        return None  # Retorna None para indicar erro
    
    # Criar a sequência reversa
    reverse = ""
    for base in format_seq:
        reverse = base + reverse  # Adiciona cada base no início para inverter a sequência
    
    # Criar o complemento da sequência reversa
    result = ""
    for base in reverse:
        result += complementary_character(base)  # Substitui cada base pela complementar
    
    # Retorna o complemento reverso
    return result


# Descrição da Função `identify_sequence`

A função `identify_sequence` classifica uma sequência biológica como sendo DNA, RNA, aminoácido ou inválida (erro). Ela analisa o conteúdo da sequência fornecida e verifica se todos os caracteres pertencem ao conjunto de bases válidas para DNA, RNA ou aminoácidos.

## Etapas principais da função `identify_sequence`

1. **Formatação da sequência**:
   - Remove espaços em branco e converte a sequência para letras maiúsculas.

2. **Verificação de conteúdo**:
   - Verifica se a sequência é composta exclusivamente por bases de DNA, RNA ou aminoácidos.

3. **Classificação**:
   - Classifica a sequência como DNA, RNA, aminoácido ou erro, com base na validação realizada.

4. **Retorno do resultado**:
   - Retorna uma string indicando a classificação da sequência ou "ERRO" se a sequência não for válida.

---

## Projeto de Alto Nível (`identify_sequence`)

### 1. **Entrada e Saída**:
- **Entrada:**
  - Uma string contendo a sequência biológica a ser analisada.
- **Saída:**
  - Uma string indicando a classificação da sequência: `DNA`, `RNA`, `AMINO`, ou `ERRO`.

### 2. **Componentes Principais:**
- **Formatação da Sequência:**
  - Remove espaços e converte para maiúsculas.
- **Classificação da Sequência:**
  - Verifica o tipo de sequência com base nos caracteres presentes.
- **Retorno do Resultado:**
  - Retorna a classificação correspondente ou "ERRO".

### 3. **Fluxo de Dados:**
Entrada da sequência → Formatação → Verificação de conteúdo → Classificação → Retorno da classificação.

---

## Projeto de Baixo Nível (`identify_sequence`)

### 1. **Formatação da Sequência:**
- **Descrição:**
  - Remove espaços e converte a sequência para letras maiúsculas.
- **Algoritmo:**
  - Aplicar `re.sub(r'\s+', '', seq)` para remover espaços.
  - Usar `.upper()` para converter para maiúsculas.

### 2. **Classificação da Sequência:**
- **Descrição:**
  - Determina se a sequência é DNA, RNA, aminoácido ou inválida.
- **Algoritmo:**
  - Verificar se todos os caracteres pertencem ao conjunto `ATCG` (DNA).
  - Verificar se todos os caracteres pertencem ao conjunto `AUCG` (RNA).
  - Verificar se todos os caracteres pertencem ao conjunto de aminoácidos `IMTNKSRLPHQADEGFYCW_`.
  - Retornar "ERRO" caso contenha caracteres fora desses conjuntos.

### 3. **Retorno do Resultado:**
- **Descrição:**
  - Retorna a classificação da sequência ou "ERRO".
- **Algoritmo:**
  - Construir e retornar uma string indicando o tipo de sequência ou "ERRO".

---

## Implementação

In [22]:
import re
def identify_sequence(seq: str):
    """
    Identifica se uma sequência é DNA, RNA, AMINOÁCIDO ou ERRO.
    
    - DNA: Contém apenas A, T, C, G.
    - RNA: Contém apenas A, U, C, G.
    - AMINOÁCIDO: Contém apenas as letras representando aminoácidos válidos.
    - ERRO: Se contiver caracteres inválidos.
    
    Input: Sequência (string)
    Output: DNA, RNA, AMINO ou ERRO (string)
    """
    
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    if not format_seq:
        return "ERRO"
    
    # Verificar se a sequência é DNA
    if all(base in 'ATCG' for base in format_seq):
        return f"{format_seq}: DNA"
    
    # Verificar se a sequência é RNA
    elif all(base in 'AUCG' for base in format_seq):
        return f"{format_seq}: RNA"
    
    # Verificar se a sequência é de aminoácidos
    elif all(base in 'IMTNKSRLPHQADEGFYCW_' for base in format_seq):
        return f"{format_seq}: AMINO"
    else:
        return "ERRO"

# Descrição da Função `get_codons`

A função `get_codons` divide uma sequência biológica em códons (grupos de três nucleotídeos consecutivos). Ela valida a sequência, verifica se contém apenas bases válidas de DNA e retorna os códons completos.

## Etapas principais da função `get_codons`

1. **Formatação da sequência**:
   - Remove espaços em branco e converte a sequência para letras maiúsculas.

2. **Validação da sequência**:
   - Verifica se a sequência contém apenas bases válidas de DNA (A, C, G, T).

3. **Divisão em códons**:
   - Divide a sequência formatada em grupos de três nucleotídeos consecutivos.
   - Apenas grupos completos são incluídos no resultado.

4. **Retorno dos códons**:
   - Retorna uma lista contendo os códons gerados ou uma mensagem de erro caso a sequência seja inválida.

---

## Projeto de Alto Nível (`get_codons`)

### 1. **Entrada e Saída**:
- **Entrada:**
  - Uma string contendo a sequência biológica a ser processada.
- **Saída:**
  - Uma lista de strings representando os códons gerados.
  - Retorna uma mensagem de erro caso a sequência seja inválida.

### 2. **Componentes Principais:**
- **Formatação da Sequência:**
  - Remove espaços e converte para maiúsculas.
- **Validação da Sequência:**
  - Verifica se a sequência contém apenas bases válidas (A, C, G, T).
- **Divisão em Códons:**
  - Gera grupos de três nucleotídeos consecutivos.
- **Retorno do Resultado:**
  - Retorna a lista de códons ou mensagem de erro.

### 3. **Fluxo de Dados:**
Entrada da sequência → Formatação → Validação → Divisão em códons → Retorno do resultado.

---

## Projeto de Baixo Nível (`get_codons`)

### 1. **Formatação da Sequência:**
- **Descrição:**
  - Remove espaços e converte a sequência para letras maiúsculas.
- **Algoritmo:**
  - Aplicar `re.sub(r'\s+', '', seq)` para remover espaços.
  - Usar `.upper()` para converter para maiúsculas.

### 2. **Validação da Sequência:**
- **Descrição:**
  - Verifica se a sequência contém apenas bases válidas de DNA.
- **Algoritmo:**
  - Usar `validate_dna` para validar a sequência.
  - Retornar uma mensagem de erro caso a sequência seja inválida.

### 3. **Divisão em Códons:**
- **Descrição:**
  - Divide a sequência em grupos de três nucleotídeos consecutivos.
- **Algoritmo:**
  - Iterar sobre a sequência em passos de três.
  - Adicionar grupos completos de tamanho três a uma lista.

### 4. **Retorno do Resultado:**
- **Descrição:**
  - Retorna uma lista com os códons ou uma mensagem de erro caso a sequência seja inválida.
- **Algoritmo:**
  - Retornar a lista de códons ou uma mensagem indicando erro na sequência.

---

## Implementação



In [10]:
import re
def get_codons(seq: str) -> list:
    """
    Divide uma sequência biológica em códons (grupos de três nucleotídeos consecutivos).
    
    Parâmetros:
        seq (str): Uma string contendo a sequência de DNA ou RNA.
                   - A sequência pode conter letras maiúsculas ou minúsculas.
                   - Espaços em branco serão ignorados.
    
    Retorna:
        list: Uma lista de strings, onde cada string é um códon (grupo de três nucleotídeos).
              Apenas códons completos (de tamanho 3) serão incluídos na lista.
    
    Exemplo:
        Entrada: "ATCGTACG"
        Saída: ["ATC", "GTA"]
    """

# Remover espaços em branco e converter para maiúsculas
    format_seq = re.sub(r'\s+', '', str(seq)).upper()
    
    # Validação da sequência de DNA
    if not validate_dna(format_seq):
        return ["Erro: A sequência contém bases inválidas ou está vazia!"]
    
    result = []
    for pos in range(0, len(format_seq), 3):
        codon = format_seq[pos : pos + 3]
        if len(codon) == 3:
            result.append(codon)
    return result

# Descrição da Função `codon_to_amino`

A função `codon_to_amino` traduz uma sequência de códons (grupos de três nucleotídeos) para a sequência de aminoácidos correspondente, utilizando uma tabela de tradução padrão para códons de DNA.

## Etapas principais da função `codon_to_amino`

1. **Entrada da sequência de códons**:
   - Recebe uma lista ou string de códons.
   - Cada códon deve conter exatamente três bases de DNA (A, T, C, G).

2. **Tradução dos códons**:
   - Para cada códon, consulta a tabela de tradução fornecida.
   - Substitui o códon pelo aminoácido correspondente.
   - Ignora códons inválidos ou incompletos.

3. **Construção da sequência de aminoácidos**:
   - Combina os aminoácidos traduzidos em uma única string.

4. **Retorno da sequência de aminoácidos**:
   - Retorna a sequência de aminoácidos traduzida.

---

## Projeto de Alto Nível (`codon_to_amino`)

### 1. **Entrada e Saída**:
- **Entrada:**
  - Uma lista ou string contendo a sequência de códons.
- **Saída:**
  - Uma string representando a sequência de aminoácidos correspondente.

### 2. **Componentes Principais:**
- **Consulta à Tabela de Tradução:**
  - Cada códon é mapeado para o aminoácido correspondente com base na tabela de tradução.
- **Construção da String de Aminoácidos:**
  - Os aminoácidos traduzidos são concatenados em uma string final.
- **Ignorar Códons Inválidos:**
  - Códons que não estão na tabela são ignorados.

### 3. **Fluxo de Dados:**
Entrada de códons → Tradução usando tabela → Construção da sequência de aminoácidos → Retorno da sequência.

---

## Projeto de Baixo Nível (`codon_to_amino`)

### 1. **Consulta à Tabela de Tradução:**
- **Descrição:**
  - Utiliza a tabela de tradução para mapear códons a aminoácidos.
- **Algoritmo:**
  - Iterar sobre a lista de códons.
  - Para cada códon, buscar o aminoácido correspondente na tabela.

### 2. **Construção da String de Aminoácidos:**
- **Descrição:**
  - Concatena os aminoácidos em uma string única.
- **Algoritmo:**
  - Inicializar uma string vazia.
  - Adicionar cada aminoácido traduzido à string.

### 3. **Ignorar Códons Inválidos:**
- **Descrição:**
  - Caso o códon não seja encontrado na tabela, não adicioná-lo à string final.
- **Algoritmo:**
  - Verificar se o códon está presente na tabela antes de adicionar o aminoácido correspondente.

---

## Implementação

In [23]:
table = {
    'ATA': 'I', 'ATC': 'I', 'ATT': 'I', 'ATG': 'M',
    'ACA': 'T', 'ACC': 'T', 'ACG': 'T', 'ACT': 'T',
    'AAC': 'N', 'AAT': 'N', 'AAA': 'K', 'AAG': 'K',
    'AGC': 'S', 'AGT': 'S', 'AGA': 'R', 'AGG': 'R',
    'CTA': 'L', 'CTC': 'L', 'CTG': 'L', 'CTT': 'L',
    'CCA': 'P', 'CCC': 'P', 'CCG': 'P', 'CCT': 'P',
    'CAC': 'H', 'CAT': 'H', 'CAA': 'Q', 'CAG': 'Q',
    'CGA': 'R', 'CGC': 'R', 'CGG': 'R', 'CGT': 'R',
    'GTA': 'V', 'GTC': 'V', 'GTG': 'V', 'GTT': 'V',
    'GCA': 'A', 'GCC': 'A', 'GCG': 'A', 'GCT': 'A',
    'GAC': 'D', 'GAT': 'D', 'GAA': 'E', 'GAG': 'E',
    'GGA': 'G', 'GGC': 'G', 'GGG': 'G', 'GGT': 'G',
    'TCA': 'S', 'TCC': 'S', 'TCG': 'S', 'TCT': 'S',
    'TTC': 'F', 'TTT': 'F', 'TTA': 'L', 'TTG': 'L',
    'TAC': 'Y', 'TAT': 'Y', 'TAA': '_', 'TAG': '_',
    'TGC': 'C', 'TGT': 'C', 'TGA': '_', 'TGG': 'W',
}

def codon_to_amino(codons): 
    """
    Traduz uma sequência de codões para a sequência de aminoácidos correspondente.
    
    codons: lista ou string
        Uma sequência de codões (cada codão tem 3 bases de DNA: A, T, C, G).
        
    Retorna:
        Uma string contendo a sequência de aminoácidos.
    """
    res = ''
    for codon in codons:
        res += table.get(codon, '')  # Obtém o aminoácido correspondente ao codão
    return res

## Descrição da Função `get_prots`

A função `get_prots` identifica e retorna as proteínas encontradas em uma sequência de aminoácidos. Cada proteína é considerada uma subsequência que começa com a metionina ('M') e termina com um codão de stop ('_').

## Etapas principais da função `get_prots`

1. **Entrada da sequência de aminoácidos**:
   - A função recebe uma sequência de aminoácidos em formato de string.

2. **Identificação das proteínas**:
   - A função percorre cada aminoácido na sequência.
   - Se encontrar um 'M', começa a registrar uma proteína.
   - Quando encontrar um '_', a proteína é encerrada e adicionada à lista de proteínas.

3. **Construção da lista de proteínas**:
   - As proteínas são armazenadas como subsequências completas (com 'M' no início e '_' no final).

4. **Retorno das proteínas**:
   - Retorna a lista contendo as proteínas identificadas.

---

## Projeto de Alto Nível (`get_prots`)

### 1. **Entrada e Saída**:
- **Entrada**:
  - Uma string contendo a sequência de aminoácidos.
- **Saída**:
  - Uma lista com as proteínas (subsequências de aminoácidos entre 'M' e '_').

### 2. **Componentes Principais**:
- **Identificação do Início e Fim das Proteínas**:
  - A proteína começa com 'M' e termina com '_'.
- **Armazenamento das Proteínas**:
  - Cada proteína é adicionada à lista quando encontrada.

### 3. **Fluxo de Dados**:
Entrada da sequência de aminoácidos → Identificação das proteínas → Armazenamento na lista → Retorno da lista.

---

## Projeto de Baixo Nível (`get_prots`)

### 1. **Identificação do Início e Fim das Proteínas**:
- **Descrição**:
  - Se o aminoácido for 'M', começa uma nova proteína.
  - Se o aminoácido for '_', a proteína é finalizada.
- **Algoritmo**:
  - Iterar sobre a sequência de aminoácidos e monitorar se está dentro de uma proteína.

### 2. **Armazenamento das Proteínas**:
- **Descrição**:
  - As proteínas são acumuladas em uma string até encontrar o codão de stop.
  - A proteína é então adicionada à lista de proteínas.
- **Algoritmo**:
  - Concatenar os aminoácidos até encontrar o codão de stop e adicionar à lista.

---

## Implementação

In [24]:
import pdb

def get_prots(amino):
    """
    Retorna uma lista de proteínas encontradas buma sequência de aminoácidos.
    
    amino: str
        A sequência de aminoácidos onde cada proteína começa com 'M' (Metionina) 
        e termina com '_' (codão de stop).
        
    Retorna:
        Uma lista de proteínas (subsequências de aminoácidos entre 'M' e '_').
    """
    inside_prot = False  # Indica se estamos dentro de uma proteína
    prots = []           # Lista para armazenar as proteínas
    prot = ''            # Variável para armazenar a proteína atual

    for aa in amino:     # Percorre cada aminoácido da sequência
        if aa == 'M':    # Início de uma nova proteína
            inside_prot = True

        if aa == '_':    # Fim de uma proteína
            if inside_prot:
                prots.append(prot + '_')  # Adiciona a proteína à lista com o código de parada
            inside_prot = False
            prot = ''    # Reseta a proteína atual

        if inside_prot:   # Se estamos dentro de uma proteína
            prot += aa    # Adiciona o aminoácido à proteína atual

    return prots

## Descrição da Função `get_orfs`

A função `get_orfs` encontra todos os ORFs (Open Reading Frames) a partir de uma sequência de DNA. Ela considera tanto o sentido direto (5' -> 3') quanto o complementar (3' -> 5'), além de analisar os três quadros de leitura possíveis.

## Etapas principais da função `get_orfs`

1. **Entrada da sequência de DNA**:
   - Recebe uma sequência de DNA representada por uma string de bases (A, T, C, G).

2. **Consideração dos dois sentidos e quadros de leitura**:
   - A função considera tanto o sentido direto da fita (5' -> 3') quanto o complementar (3' -> 5').
   - Para cada sentido, a função analisa os três quadros de leitura possíveis (deslocamento de 0, 1 e 2 bases).

3. **Identificação dos ORFs**:
   - Para cada quadro de leitura, obtém os codões e verifica se são ORFs válidos (sequências de codões que começam com 'ATG' e terminam com um codão de stop).

4. **Retorno dos ORFs encontrados**:
   - Retorna uma lista contendo listas de ORFs encontrados. Cada ORF é uma lista de codões.

---

## Projeto de Alto Nível (`get_orfs`)

### 1. **Entrada e Saída**:
- **Entrada**:
  - Uma string representando a sequência de DNA.
- **Saída**:
  - Uma lista de listas de ORFs encontrados, onde cada ORF é representado por uma lista de codões.

### 2. **Componentes Principais**:
- **Análise do Sentido e Quadro de Leitura**:
  - Considera os dois sentidos da fita (direto e complementar) e os três quadros de leitura.
- **Identificação e Armazenamento dos ORFs**:
  - A função encontra os ORFs e os armazena na lista final.

### 3. **Fluxo de Dados**:
Entrada da sequência de DNA → Análise dos dois sentidos e quadros de leitura → Identificação e armazenamento dos ORFs → Retorno dos ORFs encontrados.

---

## Projeto de Baixo Nível (`get_orfs`)

### 1. **Análise do Sentido e Quadro de Leitura**:
- **Descrição**:
  - Para cada sentido (direto e complementar), percorre os três quadros de leitura possíveis.
  - Para cada quadro, a sequência é ajustada de acordo com o deslocamento de bases.
  
### 2. **Identificação dos ORFs**:
- **Descrição**:
  - Obtém os codões para o quadro de leitura específico e verifica se são ORFs válidos.
- **Algoritmo**:
  - A função `get_codons` é chamada para obter os codões para cada quadro e sentido.

---

## Implementação



In [25]:
def get_orfs(seq):
    """
    Esta função encontra todos os ORFs
    a partir de uma sequência de DNA, considerando os dois sentidos da fitan (5' -> 3' e  3' -> 5) e três quadros de leitura possíveis.

    Parâmetros:
    seq (str): Uma sequência de DNA (string).

    Retorna:
    list: Uma lista contendo listas de ORFs encontrados. Cada ORF é representado por uma lista de codões.
    """
    
    all_orfs = []  # Lista para armazenar todas as listas de ORFs
    for strand in [seq, revcomp(seq)]:
        for frame in range(3):
            # Obtém os codões para o quadro de leitura específico
            orfs = get_codons(strand[frame:])

             # Verifica se o resultado é um erro
            if "Erro: A sequência contém bases inválidas ou está vazia!" in orfs:
                return orfs  # Retorna o erro diretamente
            else:
                all_orfs.append(orfs)
    return all_orfs

## Descrição da Função `get_all_prots`

A função `get_all_prots` encontra todas as proteínas únicas a partir de uma sequência de DNA, considerando todos os ORFs (Open Reading Frames) possíveis. Para cada ORF, converte os codões em aminoácidos e identifica as proteínas (sequências de aminoácidos entre 'M' e '_'). A função retorna uma lista das proteínas únicas ordenadas por comprimento (decrescente) e, em caso de empate, pela sequência.

## Etapas principais da função `get_all_prots`

1. **Entrada da sequência de DNA**:
   - Recebe uma sequência de DNA representada por uma string de bases (A, T, C, G).

2. **Obtenção dos ORFs**:
   - A função `get_orfs` é chamada para encontrar todos os ORFs presentes na sequência de DNA, tanto no sentido direto quanto complementar.

3. **Conversão dos ORFs em aminoácidos**:
   - Cada ORF é traduzido em uma sequência de aminoácidos usando a função `codon_to_amino`.

4. **Identificação das proteínas**:
   - Para cada sequência de aminoácidos, a função `get_prots` é chamada para identificar as proteínas (sequências de aminoácidos entre 'M' e '_').

5. **Remoção de duplicatas e ordenação das proteínas**:
   - As proteínas únicas são armazenadas em um conjunto, eliminando duplicatas.
   - A lista de proteínas é ordenada primeiro por comprimento (de forma decrescente) e, em caso de empate, pela sequência de aminoácidos.

6. **Retorno das proteínas**:
   - A função retorna uma lista contendo as proteínas únicas ordenadas.

---

## Projeto de Alto Nível (`get_all_prots`)

### 1. **Entrada e Saída**:
- **Entrada**:
  - Uma string representando a sequência de DNA.
- **Saída**:
  - Uma lista de proteínas únicas ordenadas, com base no comprimento e na sequência.

### 2. **Componentes Principais**:
- **Obtenção dos ORFs**:
  - A função `get_orfs` é usada para encontrar todos os ORFs possíveis.
- **Conversão e Identificação das Proteínas**:
  - A função `codon_to_amino` converte os ORFs em aminoácidos e a função `get_prots` identifica as proteínas.
- **Remoção de Duplicatas e Ordenação**:
  - Utiliza um conjunto para garantir proteínas únicas e depois ordena a lista de acordo com os critérios desejados.

### 3. **Fluxo de Dados**:
Entrada da sequência de DNA → Obtenção dos ORFs → Conversão dos ORFs em aminoácidos → Identificação das proteínas → Remoção de duplicatas e ordenação → Retorno das proteínas.

---

## Projeto de Baixo Nível (`get_all_prots`)

### 1. **Obtenção dos ORFs**:
- **Descrição**:
  - A função `get_orfs` retorna todos os ORFs encontrados, considerando os dois sentidos e os três quadros de leitura.
  
### 2. **Conversão dos ORFs em Sequências de Aminoácidos**:
- **Descrição**:
  - Para cada ORF, a função `codon_to_amino` é utilizada para obter a sequência correspondente de aminoácidos.

### 3. **Identificação das Proteínas**:
- **Descrição**:
  - A função `get_prots` é chamada para cada sequência de aminoácidos, identificando as proteínas que começam com 'M' e terminam com '_'.

### 4. **Remoção de Duplicatas e Ordenação**:
- **Descrição**:
  - As proteínas são armazenadas em um conjunto para garantir que sejam únicas e depois ordenadas pela função `sort` de acordo com o comprimento e sequência.

---

## Implementação

In [26]:
def get_all_prots(seq):
    """
    Encontra todas as proteínas únicas a partir de uma sequência de DNA, considerando todos os ORFs possíveis. Para cada ORF, converte 
    os codões em aminoácidos e identifica as proteínas (sequências de aminoácidos entre 'M' e '_').

    A função considera todos os ORFs encontrados, tanto na fita original (5' -> 3') quanto na fita complementar reversa (3' -> 5'), 
    e retorna uma lista com as proteínas únicas ordenadas por comprimento (decrescente) e, em caso de empate, pela sequência.

    Parâmetros:
    seq (str): A sequência de DNA (string) a ser analisada.

    Retorna:
    list: Uma lista de proteínas únicas encontradas na sequência.
    """
    
    # Obter todos os ORFs da sequência
    orfs = get_orfs(seq)
    
    # Converter os ORFs em sequências de aminoácidos
    orfs_amino = []
    for O in orfs:
        orfs_amino.append(codon_to_amino(O))
    
    # Obter as proteínas para cada sequência de aminoácidos
    prot_orfs = []
    for O in orfs_amino:
        prot_orfs.append(get_prots(O))
    
    # Criar um conjunto de proteínas únicas
    LPs = set()
    for LP in prot_orfs:
        for p in LP:
            LPs.add(p)
    
    # Converter o conjunto em lista e ordenar as proteínas
    LPs_list = list(LPs)
    LPs_list.sort(key=lambda P: (-len(P), P))
    
    return LPs_list

##### **Teste Unitário das Funções para tratamento de Sequências**

In [27]:
class TestSequenciaFunctions(unittest.TestCase):

    def test_validate_dna(self):
        self.assertTrue(validate_dna('ATCG'))
        self.assertTrue(validate_dna('AT CG'))
        self.assertTrue(validate_dna('atcg'))
        self.assertFalse(validate_dna('ATCX'))
        self.assertFalse(validate_dna('12345'))
        self.assertFalse(validate_dna(''))
        self.assertFalse(validate_dna('AGCT123'))
        self.assertFalse(validate_dna('NONSENSE'))

    def test_count_bases(self):
        # Teste de sequência válida
        self.assertEqual(count_bases('ATCG'), {'A': 1, 'T': 1, 'C': 1, 'G': 1})
        self.assertEqual(count_bases('AAAATTTT'), {'A': 4, 'T': 4, 'C': 0, 'G': 0})
        self.assertEqual(count_bases(''), {'A': 0, 'T': 0, 'C': 0, 'G': 0})
        
        # Teste de sequência com caracteres inválidos
        with self.assertRaises(AssertionError) as context:
            count_bases('ATBX')
        
        # Verifica se a mensagem contém a quantidade correta de caracteres inválidos
        self.assertTrue("Erro: A sequência contém 2 caractere(s) inválido(s)!" in str(context.exception))
        
        # Verifica se a mensagem contém os caracteres inválidos, sem se preocupar com a ordem
        invalid_bases_message = str(context.exception)
        self.assertTrue("B" in invalid_bases_message and "X" in invalid_bases_message)

        with self.assertRaises(AssertionError) as context:
            count_bases('XYZXYZ')
        
        # Verifica se a mensagem contém a quantidade correta de caracteres inválidos
        self.assertTrue("Erro: A sequência contém 6 caractere(s) inválido(s)!" in str(context.exception))
        
        # Verifica se a mensagem contém os caracteres inválidos, sem se preocupar com a ordem
        invalid_bases_message = str(context.exception)
        self.assertTrue("X" in invalid_bases_message and "Y" in invalid_bases_message and "Z" in invalid_bases_message)

    def test_frequency_calculator(self):
        self.assertEqual(frequency_calculator("ACGTACGT"), {'A': 0.25, 'C': 0.25, 'G': 0.25, 'T': 0.25})
        self.assertIsNone(frequency_calculator("ACGTX"))
        self.assertIsNone(frequency_calculator(""))
        self.assertEqual(frequency_calculator("A C G T A C G T"), {'A': 0.25, 'C': 0.25, 'G': 0.25, 'T': 0.25})
        self.assertEqual(frequency_calculator("acgtacgt"), {'A': 0.25, 'C': 0.25, 'G': 0.25, 'T': 0.25})
        self.assertIsNone(frequency_calculator("XXXX"))
        self.assertEqual(frequency_calculator("AGCTTTTCATTCTGACTGCAACGGGCAATATGTCTCTGTGTGGATTAAAAAAAGAGTGTCTGATAGCAGC"), 
                         {'A': 0.29, 'T': 0.30, 'C': 0.17, 'G': 0.24})

    def test_to_rna(self):
        self.assertEqual(to_rna('ATCG'), 'Sequência de RNA: AUCG')
        self.assertEqual(to_rna('TTCC'), 'Sequência de RNA: UUCC')
        self.assertEqual(to_rna('aatc'), 'Sequência de RNA: AAUC')
        self.assertEqual(to_rna('AAA'), 'Sequência de RNA: AAA')
        self.assertIsNone(to_rna(''))
        self.assertIsNone(to_rna('ATBX'))
        self.assertIsNone(to_rna('XYZ'))

    def test_revcomp(self):
        self.assertEqual(revcomp('ATCG'), 'CGAT')
        self.assertEqual(revcomp('AT G'), 'CAT')
        self.assertEqual(revcomp('atcg'), 'CGAT')
        self.assertIsNone(revcomp(''))
        self.assertIsNone(revcomp('ATBX'))
        self.assertIsNone(revcomp('XYZ'))

    def test_identify_sequence(self):
        self.assertEqual(identify_sequence('ATGCCC ATTG'), 'ATGCCCATTG: DNA')
        self.assertEqual(identify_sequence('tttcggt'), 'TTTCGGT: DNA')
        self.assertEqual(identify_sequence('AuGCCCAuuG'), 'AUGCCCAUUG: RNA')
        self.assertEqual(identify_sequence('YCW_'), 'YCW_: AMINO')
        self.assertEqual(identify_sequence(''), 'ERRO')
        self.assertEqual(identify_sequence('XYZ'), 'ERRO')

    def test_get_codons(self):
        self.assertEqual(get_codons('ATGCCCATT'), ['ATG', 'CCC', 'ATT'])
        self.assertEqual(get_codons('ATGC CCAtt'), ['ATG', 'CCC', 'ATT'])
        self.assertEqual(get_codons(''), ["Erro: A sequência contém bases inválidas ou está vazia!"])  
        self.assertEqual(get_codons('ACU'), ["Erro: A sequência contém bases inválidas ou está vazia!"])  
        self.assertEqual(get_codons('XYZ'), ["Erro: A sequência contém bases inválidas ou está vazia!"])  
        
    def test_codon_to_amino(self):
        self.assertEqual(codon_to_amino(['ATA']), 'I')  
        self.assertEqual(codon_to_amino(['TTT']), 'F') 
        self.assertEqual(codon_to_amino([]), '')        
        self.assertEqual(codon_to_amino(['UUU']), '')   
        self.assertEqual(codon_to_amino(['ZZZ']), '') 
        
    def test_get_prots(self):
        self.assertEqual(get_prots('MATGCCTAA'), [])
        self.assertEqual(get_prots('GCTMATG_CAT_MX__'), ['MATG_', 'MX_'])
        self.assertEqual(get_prots('M_MATG'), ['M_'])
        self.assertEqual(get_prots('AUG'), [])
        self.assertEqual(get_prots(''), [])

    def test_get_orfs(self):
        self.assertEqual(
            get_orfs('ATGAA AtgA'),
            [['ATG', 'AAA', 'TGA'],  # 1 (sentido 5'->3')
             ['TGA', 'AAT'],         # 2 (sentido 5'->3')
             ['GAA', 'ATG'],         # 3 (sentido 5'->3')
             ['TCA', 'TTT', 'CAT'],  # 1 (sentido 3'->5')
             ['CAT', 'TTC'],         # 2 (sentido 3'->5')
             ['ATT', 'TCA']]         # 3 (sentido 3'->5')
        )
        
        self.assertEqual(get_orfs(''), ["Erro: A sequência contém bases inválidas ou está vazia!"]) 
        self.assertEqual(get_orfs('AUGAAAUGA'), ["Erro: A sequência contém bases inválidas ou está vazia!"]) 
        self.assertEqual(get_orfs('NONSENSE'), ["Erro: A sequência contém bases inválidas ou está vazia!"])  

    def test_get_all_prots(self):
        self.assertEqual(get_all_prots('ATGaa ATGA'), ['MK_'])
        self.assertEqual(get_all_prots('ATGGCCATGGCGTAA'), ['MAMA_'])
        self.assertEqual(get_all_prots(''), [])
        self.assertEqual(get_all_prots('XYZ'), [])
        self.assertEqual(get_all_prots('AUGAAAUGA'), [])



if __name__ == '__main__':
    unittest.main(argv=['first-arg-is-ignored'], exit=False)

...........
----------------------------------------------------------------------
Ran 11 tests in 0.107s

OK


A: 1
C: 1
G: 1
T: 1
A: 4
C: 0
G: 0
T: 4
A: 0
C: 0
G: 0
T: 0
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas ou está vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!
Erro: A sequência contém bases inválidas, ou encontra-se vazia!


## Alinhamentos locais e globais

Markdown para explicar cada função nos seguintes niveis
- Descrição do algoritmo
- Projeto de alto nível
- Projeto de baixo nível

## Blast

# Descrição do Algoritmo (BLAST)

**BLAST (Basic Local Alignment Search Tool)** é um algoritmo amplamente utilizado em bioinformática para encontrar regiões de similaridade local entre sequências biológicas, como DNA, RNA ou proteínas. Ele utiliza uma abordagem heurística para identificar rapidamente os alinhamentos locais mais significativos entre uma sequência de consulta (query) e uma base de dados (database). A natureza heurística do BLAST reduz o tempo de execução ao evitar o alinhamento completo, analisando apenas as subsequências mais promissoras.

Nesta implementação específica, a busca é realizada em uma única sequência em vez de uma base de dados completa. Isso simplifica o algoritmo, mas mantém o objetivo de encontrar alinhamentos locais significativos.

### Etapas principais do BLAST:
1. **Criação de subsequências**: A sequência de consulta é dividida em subsequências de tamanho fixo (`w`), utilizando o conceito de **sliding windows** (janelas deslizantes).
2. **Mapeamento**: As subsequências geradas são comparadas com as subsequências na sequência alvo para encontrar correspondências exatas.
3. **Identificação de hits**: Quando uma subsequência da query corresponde a uma subsequência na sequência alvo, ela é marcada como um hit.
4. **Extensão de hits**: Os hits iniciais são estendidos em ambas as direções para verificar se formam alinhamentos mais longos e significativos. O número de matches deve ser de pelo menos metade do tamanho da extensão.
5. **Pontuação e classificação**: Apenas a extensão do hit mais significativo (maior número de matches e menor extensão em caso de empate) é devolvida.

---

## Projeto de Alto Nível (BLAST)

### 1. **Entrada e Saída:**
- **Entrada:**
  - Sequência de consulta (query).
  - Sequência alvo onde será realizada a busca.
  - Tamanho da palavra (`w`).
- **Saída:**
  - Devolve a extensão de maior score.

### 2. **Componentes Principais:**
- **Query Mapping**: Dividir a sequência de consulta em subsequências (`w`) e guardar as suas posições.
- **Hit Detection**: Identificar subsequências correspondentes na sequência alvo.
- **Hit Extension**: Expandir hits em ambas as direções para formar alinhamentos locais mais longos, considerando o critério de pelo menos metade do tamanho como matches.
- **Filtragem e Classificação**: Ordenar alinhamentos com base no número de matches e tamanho.

### 3. **Fluxo de Dados:**
Entrada da query → Criação de janelas deslizantes → Mapeamento na sequência alvo → Identificação de hits → Extensão de hits → Devolve melhor hit.

---

## Projeto de Baixo Nível (BLAST)

### 1. **Query Mapping**:
- **Descrição**: Dividir a query em subsequências de tamanho `w` utilizando janelas deslizantes (**sliding windows**) e criar um dicionário com as subsequências como chaves e índices como valores.
- **Estruturas de Dados**: `defaultdict` para armazenar as subsequências e índices.

### 2. **Hit Detection**:
- **Descrição**: Para cada subsequência da query, procurar todas as ocorrências correspondentes na sequência alvo.
- **Algoritmo**:
  - Iterar sobre todas as subsequências da sequência alvo e armazenar as que são iguais à subsequência da query.

### 3. **Hit Extension**:
- **Descrição**: Expandir os hits para verificar o alinhamento máximo em ambas as direções. O número de matches deve ser de pelo menos metade do tamanho da extensão.
- **Algoritmo**:
  - Iniciar no índice do inicio e final do hit.
  - Expandir para a esquerda e direita enquanto o critério de matches for mantido.
  - Retornar o índice inicial, índice final, tamanho e número de matches do alinhamento estendido.

### 4. **Filtragem e Classificação**:
- **Descrição**: Determinar a melhor extensão de hit considerando:
  - Maior número de matches.
  - Em caso de empate, menor tamanho.
  - Priorizar o primeiro hit encontrado em caso de novo empate.
- **Algoritmo**:
  - Iterar sobre todas as extensões de hits.
  - Comparar a pontuação de cada extensão e selecionar o melhor alinhamento.

---

## Implementação

In [51]:
from collections import defaultdict
from pprint import pprint

def query_map(seq, window_size):
    """
    Cria um dicionário onde as chaves são subsequências de tamanho fixo (window_size)
    e os valores são listas dos índices de ocorrência dessas subsequências na sequência.

    Args:
        seq (str): Sequência de entrada.
        window_size (int): Tamanho da janela deslizante.

    Returns:
        defaultdict: Dicionário com subsequências como chaves e listas de índices como valores.
    """
    res = defaultdict(list)
    size = len(seq)

    for position in range(size - window_size + 1):
        subseq = seq[position: position + window_size]
        res[subseq].append(position)

    return res


def get_all_positions(subseq, seq):
    """
    Encontra todas as posições onde uma subsequência aparece numa sequência alvo

    Args:
        subseq (str): Subsequência a ser procura.
        seq (str): Sequência alvo.

    Returns:
        list: Lista de índices onde ocorre a correspondência.
    """
    return [P for P in range(len(seq) - len(subseq) + 1) if seq[P: P + len(subseq)] == subseq]

        
def hits(query_map, seq):
    """
    Encontra correspondências entre subsequências mapeadas e a sequência alvo.

    Args:
        query_map (dict): Dicionário gerado pela função query_map.
        seq (str): Sequência alvo.

    Returns:
        list: Lista de tuplos com os indices das posições de correspondência na query e na sequência alvo.
    """
    res = []
    for subseq, query_positions in query_map.items():
        seq_positions = get_all_positions(subseq, seq)
        for query_pos in query_positions:
            for seq_pos in seq_positions:
                res.append((query_pos, seq_pos))

    return res


def extend_hit(query, seq, hit, window_size):
    """
    Estende um hit em ambas as direções com base no critério de correspondência.

    Args:
        query (str): Sequência de consulta.
        seq (str): Sequência alvo.
        hit (tuple): Tuplo com as posições iniciais na query e na sequência.
        window_size (int): Tamanho da janela inicial.

    Returns:
        tuple: Índice inicial, tamanho da extensão e número de correspondências.
    """
    start_query, start_seq = hit

    def extend_in_direction(query, seq, pos_query, pos_seq, direction):
        match_size = 0
        num_matches = 0
        mismatch_count = 0

        while 0 <= pos_query < len(query) and 0 <= pos_seq < len(seq):
            if query[pos_query] == seq[pos_seq]:
                num_matches += 1
                mismatch_count = 0
            else:
                mismatch_count += 1

            match_size += 1

            if mismatch_count > match_size // 2:
                break

            pos_query += direction
            pos_seq += direction

        return match_size - mismatch_count, num_matches

    # Extend left
    left_match_size, left_num_matches = extend_in_direction(query, seq, start_query - 1, start_seq - 1, -1)
    # Extend right
    right_match_size, right_num_matches = extend_in_direction(query, seq, start_query + window_size, start_seq + window_size, 1)

    total_length = left_match_size + window_size + right_match_size
    total_matches = left_num_matches + window_size + right_num_matches

    return (start_query - left_match_size, start_seq - left_match_size, total_length, total_matches)

def best_hit(query, seq, window_size):
    """
    Devolve o melhor hit baseado na maior pontuação de correspondências.

    Args:
        query (str): Sequência de consulta.
        seq (str): Sequência alvo.
        window_size (int): Tamanho da janela inicial.

    Returns:
        tuple: Extensão do melhor hit com indices do hit, tamanho e número de matches.
    """
    qm = query_map(query, window_size)
    hit_list = hits(qm, seq)

    best = None
    for hit in hit_list:
        extended_hit = extend_hit(query, seq, hit, window_size)
        if (best is None or 
            extended_hit[3] > best[3] or 
            (extended_hit[3] == best[3] and extended_hit[2] < best[2])):
            best = extended_hit

    return best

##### **Testes Unitários**

In [61]:
import unittest

class TestBLASTFunctions(unittest.TestCase):
    def setUp(self):
        self.query = "AATATAT"
        self.seq = "AATATGTTATATAATAATATTT"
        self.window_size = 3

    def test_query_map(self):
        seq = self.query
        window_size = self.window_size
        expected = {
            'AAT': [0],
            'ATA': [1, 3],
            'TAT': [2, 4],
        }

        result = query_map(seq, window_size)
        self.assertEqual(dict(result), expected, f"query_map failed for input: {seq}, {window_size}")

    def test_get_all_positions(self):
        seq = "ACGTACGT"
        subseq = "ACG"
        expected = [0, 4]
        result = get_all_positions(subseq, seq)
        self.assertEqual(result, expected, f"get_all_positions failed for input: {subseq}, {seq}")

    def test_hits(self):
        qm = query_map(self.query, self.window_size)
        expected = [(0, 0), (0, 12), (0, 15), (1, 1), (1, 8), (1, 10), (1, 13), 
                    (1, 16), (3, 1), (3, 8), (3, 10), (3, 13), (3, 16), (2, 2), 
                    (2, 7), (2, 9), (2, 17), (4, 2), (4, 7), (4, 9), (4, 17)]
        result = hits(qm, self.seq)
        self.assertEqual(sorted(result), sorted(expected), f"hits failed for input: {qm}, {self.seq}")

    def test_extend_hit(self):
        hit = (1, 16)
        expected = (0, 15, 7, 6) 
        result = extend_hit(self.query, self.seq, hit, self.window_size)
        self.assertEqual(result, expected, f"extend_hit failed for input: {self.query}, {self.seq}, {hit}, {self.window_size}")

    def test_best_hit(self):
        expected = (0, 0, 7, 6)
        result = best_hit(self.query, self.seq, self.window_size)
        self.assertEqual(result, expected, f"best_hit failed for input: {self.query}, {self.seq}, {self.window_size}")

suite = unittest.TestLoader().loadTestsFromTestCase(TestBLASTFunctions)
unittest.TextTestRunner( verbosity=2 ).run( suite )

test_best_hit (__main__.TestBLASTFunctions.test_best_hit) ... ok
test_extend_hit (__main__.TestBLASTFunctions.test_extend_hit) ... ok
test_get_all_positions (__main__.TestBLASTFunctions.test_get_all_positions) ... ok
test_hits (__main__.TestBLASTFunctions.test_hits) ... ok
test_query_map (__main__.TestBLASTFunctions.test_query_map) ... ok

----------------------------------------------------------------------
Ran 5 tests in 0.005s

OK


<unittest.runner.TextTestResult run=5 errors=0 failures=0>

## Descrição do Algoritmo (Análise de Motifs Probabilísticos)

**Análise de motifs probabilísticos** é uma abordagem essencial na bioinformática para identificar padrões recorrentes ou regiões conservadas em sequências biológicas, como DNA, RNA ou proteínas. Ao contrário de métodos determinísticos, essa abordagem considera a variabilidade natural das sequências, permitindo capturar a natureza estocástica dos processos biológicos. Esses motifs são fundamentais para compreender mecanismos de regulação genética, identificar sítios de ligação de proteínas e analisar a evolução molecular.

Nesta implementação específica, diversas funções foram desenvolvidas para construir e analisar matrices de motifs probabilísticos:

#### Etapas principais da Análise de Motifs Probabilísticos:
1.	**Definição do Alfabeto:** A função alfabeto retorna o conjunto de caracteres correspondentes ao tipo de sequência (DNA, RNA ou proteína), garantindo a análise correta das sequências.
2.	**Cálculo da PWM (Position Weight Matrix):** A função pwm gera uma matriz de pesos que indica a probabilidade de ocorrência de cada nucleotídeo em posições específicas a partir de sequências alinhadas.
3.	**Cálculo da Probabilidade de Sequência:** A função prob_seq avalia a probabilidade de uma sequência específica ter sido gerada pela PWM, multiplicando as probabilidades das bases em cada posição.
4.	**Identificação da Subsequência Mais Provável:** A função seq_mais_provavel utiliza a PWM para identificar a subsequência de maior probabilidade dentro de uma sequência maior.
5.	**Cálculo da PSSM (Position-Specific Scoring Matrix):** A função pssm calcula uma matriz de pontuação ajustada por logaritmo, destacando posições mais informativas e relevantes nas sequências analisadas.
--------------------------

### Projeto de Alto Nível (Análise de Motifs Probabilísticos):
##### **1.	Entrada e Saída:**
- **Entrada:** 
Alinhamento de sequências biológicas (DNA, RNA ou proteínas).

- **Saída:**
Matrizes PWM e PSSM, probabilidades de sequências e subsequência mais provável.

### **2.	Componentes Principais:**
-	**Definição do Alfabeto:** Determina o conjunto de caracteres adequado.
-	**Criação da PWM:** Calcula a matriz de pesos das sequências.
-	**Cálculo da Probabilidade de Sequências:** Avalia a compatibilidade de uma sequência com a PWM.
-	**Identificação de Subsequentemente Mais Provável:** Detecta padrões relevantes na sequência.
-	Criação da PSSM: Calcula a matriz de pontuação ajustada.

### 3.	**Fluxo de Dados:** Alinhamento de sequências 
- Gerar da PWM 
- Cálculo de probabilidades 
- Identificação de subsequências 
- Cálculo da PSSM.
-------------------------------

### Projeto de Baixo Nível (Análise de Motifs Probabilísticos):
1.	**Definição do Alfabeto:**
-	Descrição: Retorna o conjunto de caracteres específico para DNA, RNA ou proteínas.
-	**Estruturas de Dados:** String ou lista com os caracteres biológicos.
2.	**Criação da PWM:**
-	**Descrição:** Calcula as probabilidades de ocorrência das bases em cada posição.
-	**Algoritmo:** Percorrer as sequências alinhadas e contar as ocorrências das bases com adição de pseudo-contagem.
3.	**Cálculo da Probabilidade de Sequência:**
-	Descrição: Multiplica as probabilidades das bases de uma sequência usando a PWM.
-	**Algoritmo:** Iterar sobre a sequência e multiplicar os valores correspondentes na PWM.
4.	**Identificação da Subsequentemente Mais Provável:**
-	Descrição: Detecta a subsequência com maior probabilidade dentro de uma sequência maior.
-	Algoritmo: Gerar todas as subsequências possíveis e calcular a probabilidade usando a PWM.
5.	**Criação da PSSM:**
-	Descrição: Calcula uma matriz logarítmica ajustada para destacar posições informativas.
-	**Algoritmo:** Aplicar a função log2 nas probabilidades ajustadas por uma distribuição uniforme.

----
### Implementação

##### **Função: print_profile**

In [42]:
def print_profile(perfil):
    """
    Formata e exibe uma tabela a partir de uma lista de dicionários.
    """
    bases = sorted(perfil[0].keys())
    tab = [[f"{p[b]:-5.2f}" for b in bases] for p in perfil]
    for p in zip(*([bases] + tab)):
        print(*p)

##### **Função: pwm**

In [43]:
def pwm(alinhamento: list[str], pseudo: float = 0) -> list[dict]:
    """
    Calcula a PWM para um alinhamento de sequências de DNA.
    """
    bases = 'ATCG'
    lista = []

    # Validação e pré-processamento
    for seq in alinhamento:
        seq = seq.upper().replace(' ', '')
        assert len(seq) == len(alinhamento[0]), "Sequências com tamanhos diferentes!"
    
    # Cálculo da PWM
    for pos in zip(*alinhamento):
        dicionario = {b: round((pos.count(b) + pseudo) / (len(alinhamento) + len(bases) * pseudo), 2) for b in bases}
        lista.append(dicionario)
    return lista

Exemplo de uso:

In [44]:
P = pwm(['ATTG', 'ATCG', 'ATTC', 'ACTC'], 0.5)
print_profile(P)

A  0.75  0.08  0.08  0.08
C  0.08  0.25  0.25  0.42
G  0.08  0.08  0.08  0.42
T  0.08  0.58  0.58  0.08


##### **Função: prob_seq**

In [45]:
def prob_seq(seq: str, PWM: list[dict]) -> float:
    """
    Calcula a probabilidade de uma sequência ser gerada pela PWM.
    """
    produto = 1
    seq = seq.upper()
    for pos, elem in enumerate(seq):
        produto *= PWM[pos][elem]
    return produto

##### **Função: seq_mais_provavel**

In [46]:
import re

def seq_mais_provavel(seq: str, PWM: list[dict]) -> str:
    """
    Encontra a subsequência mais provável baseada na PWM.
    """
    dicionario = {}
    for subset in re.findall('(?=(....))', seq):
        dicionario[subset] = prob_seq(subset, PWM)
    return max(dicionario, key=dicionario.get)


Exemplo de uso:

In [47]:
mais_provavel = seq_mais_provavel("TACCGTGCA", P)
print(mais_provavel)

ACCG


##### **Função: pssm**

In [48]:
import math

def pssm(alinhamento: list[str], pseudo: float = 1) -> list[dict]:
    """
    Calcula a matriz de escore específico de posição (PSSM).
    """
    bases = 'ATCG'
    lista = []

    # Validação e pré-processamento
    for seq in alinhamento:
        seq = seq.upper().replace(' ', '')
        assert len(seq) == len(alinhamento[0]), "Sequências com tamanhos diferentes!"
    
    # Cálculo da PSSM
    for pos in zip(*alinhamento):
        dicionario = {b: math.log2(((pos.count(b) + pseudo) / (len(alinhamento) + len(bases) * pseudo)) / 0.25) for b in bases}
        lista.append(dicionario)
    return lista

Exemplo de uso:

In [49]:
PSSM = pssm(['ATTG', 'ATCG', 'ATTC', 'ACTC'], 0.5)
print_profile(PSSM)

A  1.58 -1.58 -1.58 -1.58
C -1.58  0.00  0.00  0.74
G -1.58 -1.58 -1.58  0.74
T -1.58  1.22  1.22 -1.58


##### **Testes das Funções para Motifs determinísticos e estocásticos**

In [50]:
import unittest

class TestMotifsProbabilistic(unittest.TestCase):
    def setUp(self):
        self.alinhamento = ['ATTG', 'ATCG', 'ATTC', 'ACTC']
        self.PWM = pwm(self.alinhamento, 0.5)
        self.PSSM = pssm(self.alinhamento, 0.5)

    def test_pwm_output(self):
        expected_pwm = [
            {'A': 0.75, 'C': 0.08, 'G': 0.08, 'T': 0.08},
            {'A': 0.08, 'C': 0.25, 'G': 0.08, 'T': 0.58},
            {'A': 0.08, 'C': 0.25, 'G': 0.08, 'T': 0.58},
            {'A': 0.08, 'C': 0.42, 'G': 0.42, 'T': 0.08}
        ]
        self.assertEqual(self.PWM, expected_pwm)

    def test_prob_seq(self):
        prob = prob_seq('AT', self.PWM)
        self.assertAlmostEqual(prob, 0.435, places=3)

    def test_seq_mais_provavel(self):
        result = seq_mais_provavel("TACCGTGCA", self.PWM)
        self.assertEqual(result, 'ACCG')

    def test_pssm_output(self):
        expected_pssm = [
            {'A': 1.58, 'C': -1.58, 'G': -1.58, 'T': -1.58},
            {'A': -1.58, 'C': 0.00, 'G': -1.58, 'T': 1.22},
            {'A': -1.58, 'C': 0.00, 'G': -1.58, 'T': 1.22},
            {'A': -1.58, 'C': 0.74, 'G': 0.74, 'T': -1.58}
        ]
        for pos1, pos2 in zip(self.PSSM, expected_pssm):
            for base in pos1:
                self.assertAlmostEqual(pos1[base], pos2[base], places=2)

if __name__ == '__main__':
    unittest.main(argv=['first-arg-is-ignored'], exit=False)

  return datetime.utcnow().replace(tzinfo=utc)
........
----------------------------------------------------------------------
Ran 9 tests in 0.004s

OK


## Árvore Filogenética

# Descrição do Algoritmo (Árvore Filogenética)

**Árvore Filogenética** 
 O algoritmo de árvores filogéticas descrito realiza a análise de similaridade entre sequências de DNA com base na distância de Levenstein, originando um dendrograma que visualiza os agrupamentos formados. O algoritmo combina o cálculo de distâncias entre sequências, a construção de uma matriz de distâncias e a aplicação de técnicas de agrupamento hierárquico para representar as relações entre as sequências de forma gráfica.


### Etapas principais:
1. **Cálculo de distâncias**: A distância entre pares de sequências é calculada utilizando o algoritmo de Levenstein, que determina o número mínimo de operações (inserções, deleções e substituições) necessárias para transformar uma sequência noutra.
2. **Matriz de Distâncias**: A função cria uma matriz simétrica que armazena as distâncias entre todas as combinações de sequências na lista fornecida.
3. **Agrupamento Hierárquico e Visualização**: O agrupamento hierárquico é realizado utilizando a função linkage da biblioteca scipy.cluster.hierarchy (sch), que calcula a matriz de ligação baseada nas distâncias entre as sequências. O método de agrupamento utilizado é o "average", que calcula a distância média entre clusters. Após calcular a matriz de distâncias com a função matriz_distancias, ela é convertida para o formato compacto usando squareform de scipy.cluster.hierarchy.distance, transformando a matriz de distâncias num vetor compacto. Em seguida, a função linkage é aplicada para calcular a matriz de ligação, essencial para o agrupamento hierárquico. Com a matriz de ligação, o dendrograma é gerado utilizando a função dendrogram da mesma biblioteca. Por fim, a visualização do dendrograma é exibida com a função show() da biblioteca matplotlib, permitindo a interpretação visual dos agrupamentos formados.

---

## Projeto de Alto Nível

### 1. **Entrada e Saída:**
- **Entrada:**
  - Lista de sequências de DNA.
- **Saída:**
  - Dendograma que representa os agrupamentos hierárquicos das sequências.

### 2. **Componentes Principais:**
- **Cálculo de Distâncias (Função distancia)**: Implementação do algoritmo de Levenstein para determinar a distância entre duas sequências.
- **Matriz de Distâncias (Função matriz_distancias)**: Criação de uma matriz simétrica que armazena as distâncias de todas as combinações de sequências
- **Agrupamento Hierárquico**: Utilização do método de agrupamento "average" para calcular a matriz de ligação.
- **Visualização com Dendrograma**: Produção e exibição o dendrograma usando a biblioteca matplotlib.

### 3. **Fluxo de Dados:**
Entrada das sequências → Cálculo da matriz de distâncias → Aplicação do agrupamento hierárquico → Produção do dendrograma → Visualização do dendrograma.

---

## Projeto de Baixo Nível

### 1. **Cálculo de Distâncias (Função distancia)**:
- **Descrição**: Implementa o algoritmo de Levenstein para calcular a distância mínima necessária para transformar uma sequência noutra, considerando operações de inserção, deleção e substituição.
- **Algoritmo**: 
  - Inicializa uma matriz de tamanho (len(s1)+1) x (len(s2)+1) com valores iniciais correspondentes ao custo cumulativo de inserções e deleções;
  - Preenche a matriz iterativamente, calculando o custo mínimo para cada posição com base nas operações possíveis;
  - O valor na posição inferior direita da matriz é a distância final.

### 2. **Matriz de Distâncias (Função matriz_distancias)**:
- **Descrição**: Cria uma matriz simétrica onde cada célula [i][j] representa a distância de Levenstein entre as sequências i e j.
- **Algoritmo**:
  - Inicializa uma matriz de zeros de tamanho n x n, onde n é o número de sequências;
  - Itera sobre todos os pares de sequências e calcula a distância usando a função distancia;
  - Preenche a matriz simetricamente, atribuindo os valores calculados às posições [i][j] e [j][i].

### 3. **Agrupamento Hierárquico e Visualização**:
- **Descrição**: Realiza o agrupamento hierárquico com base na matriz de distâncias e gera um dendrograma para visualizar os agrupamentos.
- **Algoritmo**:
  - Converte a matriz de distâncias para um vetor compacto usando a função squareform do módulo scipy.cluster.hierarchy.
  - Aplica a função linkage ao vetor compacto com o método "average" para calcular a matriz de ligação.
  - Gera o dendrograma usando a função dendrogram e ajustar os rótulos e visualizações.
  - Mostra o dendrograma utilizando a função show() da biblioteca matplotlib.
  
---

## Implementação

In [None]:
import numpy as np
import scipy.cluster.hierarchy as sch
import matplotlib.pyplot as plt

In [None]:
def distancia(s1, s2):
    """
    Calcula a distância de Levenstein (lecionada em aula) entre duas sequências
    """
    mat = [[0] * (len(s2) + 1) for _ in range(len(s1) + 1)]
    for i in range(len(s1) + 1):
        for j in range(len(s2) + 1):
            if i == 0:
                mat[i][j] = j
            elif j == 0:
                mat[i][j] = i
            else:
                mat[i][j] = min(mat[i - 1][j] + 1,
                                mat[i][j - 1] + 1,
                                mat[i - 1][j - 1] + (0 if s1[i - 1] == s2[j - 1] else 1))
    return mat[len(s1)][len(s2)]

In [None]:
def matriz_distancias(lista_seqs):
    """ 
    Cria uma matriz de distências entre todas as combinações de sequências
    """
    n = len(lista_seqs)
    dist_matriz = np.zeros((n, n))
    for i in range(n):
        for j in range(i + 1, n):
            dist_matriz[i][j] = dist_matriz[j][i] = distancia(lista_seqs[i], lista_seqs[j])
    return dist_matriz

In [None]:
def gerar_dendrograma(lista_seqs):
    """
    Gera e exibe um dendograma a partir das distâncias entre sequências previamente calculadas
    """
    lista_seqs = [seq.upper() for seq in lista_seqs]  
    dist_matriz = matriz_distancias(lista_seqs)
    dist_compacta = sch.distance.squareform(dist_matriz)
    matriz_ligacao = sch.linkage(dist_compacta, method='average') # A função `linkage` agrupa as sequências com base nas distâncias e cria a matriz de ligação.

    plt.figure(figsize=(10, 7))
    sch.dendrogram(matriz_ligacao, labels=lista_seqs)
    plt.title("Dendrograma de Sequências")
    plt.xlabel("Sequências")
    plt.ylabel("Distância")
    plt.show()

if __name__ == '__main__':
    sequencias = "CCG GT GTA AAT AT ACG ACGT".split()
    print("Matriz de Distâncias:")
    D = matriz_distancias(sequencias)
    print(D)
    print("\nDendrograma:")
    gerar_dendrograma(sequencias)

**Teste das funções para a Árvore Filogenética**

In [None]:
import unittest

class TestFuncoes(unittest.TestCase):

    def test_distancia(self):
        # Teste com sequências iguais
        self.assertEqual(distancia("ATCG", "ATCG"), 0)
        
        # Teste com sequências completamente diferentes
        self.assertEqual(distancia("AAA", "TTT"), 3)

    def test_matriz_distancias(self):
        sequencias = ["AAA", "AAT", "ATT", "TTT"]
        matriz = matriz_distancias(sequencias)
        
        # Verifica se a matriz é simétrica
        self.assertTrue(np.allclose(matriz, matriz.T))
        
        # Verifica se a diagonal principal é zero
        self.assertTrue(np.allclose(np.diag(matriz), 0))
        
        # Verifica valores específicos
        self.assertEqual(matriz[0][1], 1)  # Distância entre AAA e AAT
        self.assertEqual(matriz[0][3], 3)  # Distância entre AAA e TTT

    def test_gerar_dendrograma(self):
        sequencias = ["CCG", "GT", "GTA", "AAT", "AT", "ACG", "ACGT"]
        
        # Verifica se a função não originou exceções
        try:
            gerar_dendrograma(sequencias)
        except Exception as e:
            self.fail(f"gerar_dendrograma lançou uma exceção inesperada: {e}")
        
        # Verifica se um gráfico foi criado
        self.assertTrue(plt.gcf().number > 0)
        
        # Limpa a figura atual para não interferir com outros testes
        plt.close()

if __name__ == '__main__':
    unittest.main(argv=[''], exit=False)