### BLAST: Basic Local Alignment Search Tool

Consiste numa ferramenta para comparar sequências biológicas, conjunto de algoritmos e ferramentas para procurar sequências similares em bases de dados de grande dimensão. 

**Como funciona o [BLAST?](https://edu.taugc.com/blog/voce-sabe-como-o-blast-funciona/)**

O algoritmo identifica similaridades entre sequências por meio de correspondências curtas. De seguida, ocorre a procura por alinhamentos locais utilizando conjuntos de um tamanho definifo pelo utilizador, normalmente é de 3 letras para aminoácidos e 11 para nucleótidos. 

* Exemplo:
    * GLFKA seria analisada em conjuntos de três letras: GLK, LKF, KFA.

Os alinhamentos locais são construídos a partir de correspondências comuns, servindo como ponto de partida para uma extensão em ambas as direções. Essa extensão continua até que o alinhamento atinja um valor de pontuação pré-definido. 

Nesta UC, foi-nos proposto a criação de um algoritmo BLAST versão simplificada que assenta em três pontos principais:
* Considera apenas matches perfeitos entre a query e as sequências da BD
* Critérios simples usados para a extensão dos hits
* Score será a contagem do nº de matches

* **Query map**

A primeira função criada, **query_map()**, procura mapear as sequências através de uma janela de tamanho **w** para identificar as subsequências e os seus índices correspondentes. 

Inicialmente, a função verifica se a sequência de entrada é do tipo "ADN" ou "sequência de aminoácidos", utilizando a função auxiliar **tipo_seq()**. Em caso de não ser nenhum desses tipos, a função levanta um erro. Além disso, verifica se o valor inserido em w é um inteiro positivo válido. Após realizar um aprimoramento na sequência para prepará-la para a análise subsequente, a função divide a sequência em todas as possíveis sub-sequências de tamanho w e armazena-as numa lista.

É então criado um dicionário vazio para armazenar as subsequências e seus índices correspondentes. A função percorre a sequência e, para cada sub-sequência de tamanho w, verifica se ela já está presente no dicionário. Se estiver, adiciona o índice atual à lista de índices associada a essa sub-sequência. Se não estiver, cria uma nova entrada no dicionário com a sub-sequência como chave e uma lista contendo o índice atual como valor.

Finalmente, a função retorna o dicionário resultante, que contém as subsequências como chaves e os índices onde essas subsequências são encontradas na sequência inserida.

In [9]:
def query_map(query, w): 
    """
    Mapeia as sequências numa janela  para identificar subsequências

    
    Parâmetros:
    -------------
    query : str 
        Sequência a ser mapeada
    w : int 
        Tamanho da janela

        
    Retorna:
    -------------
    dict: Dicionário de subsequências mapeadas com seus índices.


    Levanta:
    -------------
    ValueError
        Caso sequência inserida seja inválida ou tamanho da janela não ser um inteiro positivo

        
    """

    from scripts.auxiliares import tipo_seq
    from scripts.auxiliares import aprimorar_seq

    if not isinstance(query, str):
        raise TypeError("A sequência deve ser uma string")
    if not isinstance(w, int) or w <= 0:
        raise ValueError("O tamanho da janela deve ser um inteiro positivo")

    
    if tipo_seq(query) not in ["DNA", "Sequência de aminoácidos"] :

        query = aprimorar_seq(query)

        seq_dic = {}

        for i in range(len(query) - w + 1):
            
            subsequence = query[i:i + w]

            if subsequence in seq_dic:

                seq_dic[subsequence].append(i)
            else:
                seq_dic[subsequence] = [i]

        return seq_dic

    else:
        raise ValueError("Sequência Inválida")

**Exemplo**:

In [10]:
query_map("ATCGCTG", 3)

{'ATC': [0], 'TCG': [1], 'CGC': [2], 'GCT': [3], 'CTG': [4]}

**Testes de unidade**:

In [25]:
import unittest

class TestBLASTFunctions(unittest.TestCase):
    def test_query_map_vazio(self):
        # Testa se a função lança um erro ao receber uma sequência vazia
        with self.assertRaises(ValueError):
            query_map("", 3)

    def test_w_vazio(self):
        # Testa se a função lança um erro ao receber um valor vazio para w
        with self.assertRaises(ValueError):
            query_map("ACT", "")

    def test_query_numerico(self):
        # Testa se a função lança um erro ao receber um valor não string para a sequência
        with self.assertRaises(TypeError):
            query_map(1, 3)
            
suite = unittest.TestLoader().loadTestsFromTestCase(TestBLASTFunctions)
unittest.TextTestRunner(verbosity=3).run(suite)

test_query_map_vazio (__main__.TestBLASTFunctions) ... ok
test_query_numerico (__main__.TestBLASTFunctions) ... ok
test_w_vazio (__main__.TestBLASTFunctions) ... ok

----------------------------------------------------------------------
Ran 3 tests in 0.016s

OK


<unittest.runner.TextTestResult run=3 errors=0 failures=0>

* **Hits**

De seguida, foi criada uma função denominada **hits()** que realiza a análise dos hits entre as subsequências identificadas na sequência de consulta (query) e a sequência da base de dados.

A função recebe dois parâmetros:

* dic_query: Um dicionário proveniente da função anterior, query_map(), que mapeia as subsequências e seus índices na sequência de consulta.
* seq: A sequência da base de dados a ser analisada.

A função percorre cada entrada no dicionário, onde cada chave representa uma subsequência e o valor é uma lista de índices onde essa subsequência ocorre na sequência de consulta. Para cada valor na lista de índices, a função verifica se a chave (subsequência) está presente na sequência da base de dados (seq). Se estiver, utiliza expressões regulares para encontrar todas as ocorrências da subsequência na base de dados, obtendo uma lista de índices dessas ocorrências.

Em seguida, a função cria tuplos contendo os índices da subsequência na sequência de consulta e os índices correspondentes na sequência da base de dados. Esses tuplos são adicionados a uma lista.

Finalmente, a função retorna uma lista de tuplos, onde cada tuplo representa um hit entre a sequência de consulta e a sequência da base de dados, contendo os índices onde a subsequência foi encontrada em ambas as sequências.

In [None]:
def hits(qm : dict , seq : str) -> list: 

  """
  Devolve uma lista em que cada elemento é um tuplo com dois valores:
  1. O Offset na query
  2. O offset na seq

  Parâmetros
  ----------
  qm : dict 
    mapa de substrings que é devolvido ao invocar a função query_map
  
  seq : str
    sequência-alvo válida de DNA

  Returns
  -------
  res : list
    lista que contém um conjunto de tuplos que correspondem aos offsets correspondentes na query e sequência
  
  
  """

  res = []                                                # Lista de resultado que será populada com os tuplos

  for codon in qm:                                        # Cicla por todos os codons mapeados na query
    
    if codon in seq:                                      # Apenas itera se o codon estiver na sequência
      # Converter isto para uma função auxiliar
      for offset_q in qm[codon]:                          # Cicla por todos os offsets da query para cada codon 

        offset_seq = seq.find(codon)                      # Primeira instância do codon na sequência - devolve o índice

        while offset_seq != -1:                           # Enquanto for encontrada a instância do codon (o valor não é -1)
          
          res.append((offset_q,offset_seq))               # Adiciona um tuplo offset_query , offset_sequencia à lista de resultado
          # print(codon,'encontrado em', offset_seq)
          offset_seq = seq.find(codon, offset_seq + 1 )   # Procuramos pela próxima instância
  
  return res

De seguida, foi desenvolvida uma função denominada **expande_direcao()** que recebe um alinhamento (representado por um intervalo de índices), uma sequência e uma direção ('esquerda', 'direita' ou 'ambas'). 

O objetivo é expandir a sequência original na direção indicada, considerando os caractéres de alinhamento representados pelo caractere '-'. A implementação utiliza estruturas condicionais para iterar e ajustar os índices de início e fim, assegurando que permaneçam dentro dos limites da sequência original. 

No final, a função retorna a subsequência expandida da sequência original, abrangendo os caracteres de alinhamento. A manipulação de exceções é incorporada para prevenir erros relacionados aos limites da sequência.

In [None]:
# RUI 

''' Faz falta declarar funções auxiliares, que vamos acrescentando na secção abaixo '''

def codons(query : str , window : int) -> list :
    '''
    Itera sobre uma sequence ao longo de uma determinada janela 
    e devolve uma lista com todas as substrings com tamanho window

    Parâmetros
    ----------
    query : str
        sequencia válida de DNA
    
    window : int
        grupo de bases nas quais queremos dividir a nossa query

    Returns
    -------
    list 
        lista de substrings possíveis de tamanho window possíveis 
        a partir da query
        
    
    
    '''
    substrings = []                                          # Criamos a lista vazia 

    for indice in range(len(query) - window + 1):            # Iteramos sobre a query, já "trimmed" ao tamanho da janela
        substrings.append(query[indice : indice + window])   # Adicionamos as substrings à lista
    
    return substrings                                        # Obtemos assim a lista com as substrings

    '''
    Descomentar a linha abaixo para ter a versão mais eficiente com uma lista por compreensão já com o enumerate.
    Não esquecer de apagar o anterior.'''
#     return  enumerate([ query[indice : indice + window] for indice in range(len(query) - window + 1) ])
    



In [None]:
# RUI 
def expande_dir(query : str , seq : str , off_q : int , off_s : int, way : int) -> tuple:
    '''
    Função que estende para a esquerda se recebe -1 ou para a direita se 1

    Itera sobre a query e a sequência e casa as diferentes posições de modo a procurar
    hits possíveis

    Devolve o número de bases iguais entre a query e a sequência do hit e respetivo tamanho

    Parâmetros
    ----------
    query : str 
        sequencia válida de DNA
    
    seq : str 
        sequencia válida de DNA
    
    off_q : int
        offset inicial na query
    
    off_s : int
        offset inicial na sequência
    
    way : int
        assume o valor 1 ou -1 indicando a direção para qual a 
        função irá estender (direita ou esquerda respetivamente)

        
    Retorna
    ----------
    tuple
        devolve um tuplo com o tamanho do hit e o número de bases que 
        correspondem
    
    Levanta
    ----------
    AssertionError:
        

    '''

    assert way == 1 or way == -1                                                           # Garantimos que apenas é dado à função o valor "legal" para a variável-direção

    tam     = 0                                                                            # Iniciamos a variável que corresponde ao tamanho do hit   

    matches = 0                                                                            # Iniciamos a variável que corresponde ao número de matches

    while 0 < off_q and 0 < off_s and 0 <= off_q < len(query) and 0 <= off_s < len(seq):   # Garante que nenhum dos offsets será negativo ou estará fora dos índices possíveis das strings sobre as quais iremos iterar
                                                                                            
        '''0 < off_q and 0 < off_s 

        é importante garantir que nenhum dos números assume caracter negativo, para evitar
        casos em que uma das sequencias tem um tamanho maior que a outra.'''
        
        tam += 1                        # O tamanho do hit aumenta logo no início independentemente de haverem matches
            
        if query[off_q] == seq[off_s]:
            matches += 1                # O número de matches aumenta se e só se a base for igual em ambas as strings
            
        # Passamos ao próximo indice acrescentando a variável-direção
        off_q += way
        off_s += way
       
    return tam, matches 

In [None]:
# RUI
# Testamos a função expande_dir() com um hit = (1,16)
h1,h2 = (1,16)

print('à esquerda', expande_dir(query,seq,h1  ,h2  ,-1))
print('á direita' , expande_dir(query,seq,h1+w,h2+w, 1))

In [6]:
def expande_direcao(alinhamento, sequencia, direcao):
    """
    Função para expandir o alinhamento numa direção específica

    
    Parâmetros
    -------------
    alinhamento : tuple
        Tuplo representando o alinhamento, por exemplo, (inicio, fim)
    sequencia : str
        Sequência original do alinhamento
    direcao : str
        Direção para expandir o alinhamento (por exemplo: 'esquerda', 'direita', 'ambas')

        
    Retorna
    -------------
    str
        Sequência expandida na direção especificada


    """


    # Adicionar manipulação de exceções para garantir que os índices não ultrapassem os limites da sequência

    inicio, fim = alinhamento
    
    if direcao == 'esquerda':
        while inicio > 0 and sequencia[inicio-1] != '-':
            inicio -= 1
    elif direcao == 'direita':
        while fim < len(sequencia) - 1 and sequencia[fim+1] != '-':
            fim += 1
    elif direcao == 'ambas':
        while inicio > 0 and sequencia[inicio-1] != '-':
            inicio -= 1
        while fim < len(sequencia) - 1 and sequencia[fim+1] != '-':
            fim += 1

    return sequencia[inicio:fim+1]


**Exemplo**:

In [None]:
expande_direcao()

In [None]:
# RUI
def extend_hit(query : str , seq :str , hit : tuple, window : int) -> tuple: 
  
    
    """
    Parâmetros
    ----------

    query : str 
      sequencia de DNA válida correspondente à sequência de busca

    seq   : str
      sequencia de DNA válida correspondente à sequência alvo
      
    hit   : tuple
      Um dos elementos devolvidos pela invocação da função hits

    w     : int
      o tamanho da janela para a criação de dicionários de substrings na função query map

    Returns:
    --------

    tuple:
      Devolve um tuplo com:
        1. O offset inicial na query
        2. O offset inicial na seq
        3. O tamanho do resultado
        4. O nº de matches corretos
    """
      
    h1 , h2 = hit
    
    tam_esq, matches_esq = expande_dir(query , seq , h1     , h2     , -1)

    tam_dt , matches_dt  = expande_dir(query , seq , h1 + w , h2 + w ,  1) 

    #print(h1 - tam_esq)
    #print(h2 - tam_esq)
    #print('h1:',h1,'h2',h2,'w:',w,'tam_esq',tam_esq,'tam_dt:',tam_dt)


    return (h1 - tam_esq , h2 - tam_esq , tam_esq + w + tam_dt , matches_esq + w + matches_dt)


In [4]:
def extended_hits(alinhamentos, sequencia, w, k, threshold):
    """
    Identifica hits estendidos com base em um limiar de similaridade.

    Args:
    alinhamentos (list): Lista de alinhamentos do BLAST.
    sequencia (str): Sequência original.
    w (int): Tamanho da janela.
    k (int): Fator de expansão.
    threshold (float): Limiar de similaridade.

    Returns:
    list: Lista de hits estendidos que atendem ao limiar de similaridade especificado.
    """
    # CRIAR a função calculate_similarity(subsequence, query) para calcular a similaridade, wunch ou waterman? se ja criada substituir pelo nome correto.
    expanded_regions = expanded_hits(alinhamentos, sequencia, w, k)
    similar_hits = []
    for start, end in expanded_regions:
        subsequence = sequencia[start:end]
        if calculate_similarity(subsequence, query) >= threshold:
            similar_hits.append((start, end))
    return similar_hits

In [None]:
# RUI 
def best_hit(query : str , seq : str , window : int) -> tuple:
    
  """
  Itera sobre todos os hits extendidos e encontra o mais próximo do início
  e o maior / mais preciso.

  Para isso pode invocar todas as funções para receber menos argumentos
  
  Parametros
  ----------
  query : str 
    sequencia de DNA válida correspondente à sequência de busca

  seq   : str
    sequencia de DNA válida correspondente à sequência alvo

  w     : int
    o tamanho da janela para a criação de dicionários de substrings na função query map

  Returns:
  --------
  tuple
    Devolve um tuplo com:
      1. O offset inicial na query
      2. O offset inicial na seq
      3. O tamanho do resultado
      4. O nº de matches corretos
  """
  
  # Versão longa

  '''qm = query_map(query,w)                                          # Mapeamos a query

  allhits = hits(qm, seq)                                          # Mapeamos os hits

  extended_hits = [extend_hit(query,seq,hit,w) for hit in allhits] # Extendemos os hits'''

  # Outra alternativa - mais eficiente

  # Começamos pela lista de extended hits invocando a função:

  extended_hits = [extend_hit(query,seq,hit,window) for hit in hits(query_map(query,window),seq)]

  best_hit = (0,0,0,0)             # Iniciamos o tuplo-resultado

  for hit in extended_hits:        # Itera por todos os hits e mantém o que tem o match score maior
    if hit[3] > best_hit[3]:
        best_hit = hit
  
  return best_hit
    

In [None]:
# RUI

# TODO Testes de unidade

# Secção com as variáveis de teste
query   = 'AATATAT'                   # Sequência onde queremos procurar
seq     = 'AATATGTTATATAATAATATTT'    # Sequência-alvo
w = 3  

# Testamos a função query_map, criando um query map que será usado na próxima função

qm = query_map(query,w)
qm

''' Para a função best hit precisamos de uma lista de todos os hits estendidos'''
extended_hits = [extend_hit(query,seq,hit,w) for hit in hits(qm,seq)]
# extended_hits


In [None]:
# RUI
# Para encontrar o melhor hit com base no maior numero de matches iteramos por todos os hits estendidos e vamos guardando o melhor
best_hit = (0,0,0,0)
for hit in extended_hits:
    if hit[3] > best_hit[3]:
        best_hit = hit
best_hit

(0, 0, 7, 6)

In [None]:
# RUI
# Testamos a função best_hit()

best_hit(query,seq,w)

In [5]:
def best_hits(hits, criterio='pontuacao', top_n=1):
    """
    Função alternativa para encontrar os melhores hits com base em critérios específicos.

    Parâmetros
    -------------
    hits : list
        Lista de tuplos representando os hits, por exemplo, [(indice_seq_query, indice_seq_db, pontuacao), ...]
    criterio : str, opcional
        Critério para selecionar os melhores hits (por exemplo: 'pontuacao', 'identidade', 'tamanho_alinhamento', etc.)
    top_n : int, opcional
        Número de melhores hits a serem retornados

    Returns
    -------------
    list
        Lista dos melhores hits do blast
    """
    if criterio == 'pontuacao':
        # Ordena os hits com base na pontuação
        hits_ordenados = sorted(hits, key=lambda x: x[2], reverse=True)
    elif criterio == 'identidade':
        # Ordena os hits com base na identidade
        # Substitua esta lógica com o cálculo da identidade
        hits_ordenados = sorted(hits, key=lambda x: calcular_identidade(x), reverse=True)
    # Verificar se a função calcular_identidade está definida em algum lugar do código, waterman ou wunch? Se ja criada substituir pelo nome correto.
    # Adiciona mais critérios aqui, se existirem?

    # Retornar os top N melhores hits
    return hits_ordenados[:top_n]

In [6]:
def expanded_hits(alinhamentos, sequencia, w, k):
    """
    Expande os hits do BLAST para identificar regiões similares na sequência original.

    Args:
    alinhamentos (list): Lista de alinhamentos do BLAST.
    sequencia (str): Sequência original.
    w (int): Tamanho da janela.
    k (int): Fator de expansão.

    Returns:
    list: Lista de regiões expandidas que correspondem aos hits do BLAST.
    """
    expanded_regions = []
    for hit in alinhamentos:
        start, end = hit  # assumindo que hit é um tuplo com posições de inicio e fim estabelecidas.
        expanded_start = max(0, start - k * w)
        expanded_end = min(len(sequencia), end + k * w)
        expanded_regions.append((expanded_start, expanded_end))

    return expanded_regions


In [7]:
def visualize_results(hits):  
    for hit in hits:
        print('Hit encontrado:', hit)

In [None]:
import unittest

class TestBLASTFunctions(unittest.TestCase):
    def test_query_map_vazio(self):
        # Testa se a função lança um erro ao receber uma sequência vazia
        with self.assertRaises(AssertionError):
            query_map("", 3)

    def test_w_vazio(self):
        # Testa se a função lança um erro ao receber um valor vazio para w
        with self.assertRaises(AssertionError):
            query_map("ACT", "")

    def test_query_numerico(self):
        # Testa se a função lança um erro ao receber um valor não string para a sequência
        with self.assertRaises(AssertionError):
            query_map(1, 3)

    def test_hits(self):
        # Teste para a função hits
        dic_query = {'ATC': [0, 4], 'TCG': [1, 5], 'CGA': [2, 6]}
        seq = "ATCGATCGA"
        expected_result = [(0, 0), (0, 4), (1, 1), (1, 5), (2, 2), (2, 6)]
        self.assertEqual(hits(dic_query, seq), expected_result)

    def test_expanded_hits(self):
        # Teste para a função expanded_hits
        alinhamentos = [(3, 6), (8, 10)]
        sequencia = "ATCGATCGA"
        w = 3
        k = 2
        expected_result = [(0, 9), (5, 12)]
        self.assertEqual(expanded_hits(alinhamentos, sequencia, w, k), expected_result)

suite = unittest.TestLoader().loadTestsFromTestCase(TestBLASTFunctions)
unittest.TextTestRunner(verbosity=3).run(suite)