## Blast


In [52]:
query= "AATATAT"
seq = "AATATGTTATATAATAATATTT"
w = 3

In [53]:
def query_map(query : str, w : int) -> dict[str, list[int]]:
    """
    query: a string que procuramos
    w: o tamanho alvo
    Devolve um dicionário
        cuja chave são todas as strings de tamanho w da query e
        cujo valor é uma lista com todos os offsets onde aparecem
    """
    qm = {}                               # Inicia-se um dicionário vazio; 

    for i in range(len(query) - w + 1):   # Inicia-se um for loop para ler cada ocorrência;
        substring = query[i : i + w]      # Inicia-se a substring que vai ser lida em comprimentos de w (iteração i até i + w, ou seja, se w = 3, vai ler da iteração 0 até 0 + 3);
        #print(substring)           
        if substring not in qm:           # Vai ler a substring e procurar se ele não ocorre em qm;
            qm[substring] = [i]           # Se não encontrar repetições da ocorrência, retorna a única ocorrência dela;
        else:
            qm[substring].append(i)       # Se encontrar repetições da ocorrência, ADICIONA as posições do primeiro caracter de cada substring.

    return qm

example = query_map("AATATAT",3)
print(example)

{'AAT': [0], 'ATA': [1, 3], 'TAT': [2, 4]}


In [54]:
def hits(qm, seq):
    """
        qm: o que é devolvido ao invocar a função query_map
        seq: a sequência alvo

        Devolve uma lista em que cada elemento é um tuplo com dois valores:
            1. O Offset na query
            2. O offset na seq
            
        snip: valor do dicionário qm
        pos_qm: posição do snip, tal revelado no dicionário qm

        Algoritmo
        Navegar pelos pares chave/valor (snip, posições) do qm
            Descobrir todas as posições (P2) em seq onde o snip se encontra
            Navegar (P1) pela lista de posições
                Navegar por essas posições (P2)
                    Adicionar o par (P1, P2) à lista dos resultados
    """
    results = []
    for snip, pos_qm in qm.items(): # Iteração dos pares key/value do dict qm
        if snip in seq: # Verifica se a substring está presente na sequência 'seq'
            pos_seq = [i for i in range(len(seq) - len(snip) + 1) if seq[i:i+len(snip)] == snip] # Encontra todas as posições na sequência dada onde a substring ocorre
            
            for P1 in pos_qm: # Itera sobre as posições na query (pos_qm)
                for P2 in pos_seq: # Itera sobre as posições em 'seq'
                    results.append((P1, P2)) # Adiciona o par (P1, P2) à lista 'results'
                    
    return results

hit=hits(example,"AATATGTTATATAATAATATTT")
print(hit)

[(0, 0), (0, 12), (0, 15), (1, 1), (1, 8), (1, 10), (1, 13), (1, 16), (3, 1), (3, 8), (3, 10), (3, 13), (3, 16), (2, 2), (2, 7), (2, 9), (2, 17), (4, 2), (4, 7), (4, 9), (4, 17)]


In [55]:
def extends_hit(seq, hit, query, w):
    """
    query: a string que procuramos
    seq: a sequência alvo
    hit: Um dos elementos devolvidos pela invocação da função hits
    w: o tamanho_extensão da janela

    Devolve um tuplo com:
      1. Devolve a posição inicial da chave na query
      2. Devolve a posição inicial da chave na seq
      3. O tamanho_extensão do resultado
      4. O nº de matches corretos
    """
    
    # Extrai as posições iniciais da correspondência
    start_query, start_seq = hit[0], hit[1]

    # Mover para frente
    match_forward = 0  # Contador para correspondências para frente
    tamanho_extensão = 0  # Tamanho atual da extensão
    melhor_tamanho = 0  # Melhor tamanho_extensão encontrado
    while 2 * match_forward >= tamanho_extensão and start_query + w + tamanho_extensão < len(query) and start_seq + w + tamanho_extensão < len(seq):
        # Verifica correspondência entre a consulta e a sequência
        if query[start_query + w + tamanho_extensão] == seq[start_seq + w + tamanho_extensão]:
            match_forward += 1
            melhor_tamanho = tamanho_extensão + 1
        tamanho_extensão += 1
    size = w + melhor_tamanho  # Calcula o tamanho_extensão total da correspondência estendida para frente

    # Mover para trás
    tamanho_extensão = 0  # Reinicia o tamanho_extensão para a contagem para trás
    match_backwards = 0  # Contador para correspondências para trás
    melhor_tamanho = 0  # Reinicia o melhor tamanho_extensão encontrado
    while 2 * match_backwards >= tamanho_extensão and start_query > tamanho_extensão and start_seq > tamanho_extensão:
        # Verifica correspondência entre a consulta e a sequência para trás
        if query[start_query - tamanho_extensão - 1] == seq[start_seq - tamanho_extensão - 1]:
            match_backwards += 1
            melhor_tamanho = tamanho_extensão + 1
        tamanho_extensão += 1
    size += melhor_tamanho  # Adiciona o melhor tamanho_extensão encontrado para a extensão para trás

    return (start_query - melhor_tamanho, start_seq - melhor_tamanho, size, w + match_forward + match_backwards)

ex = extends_hit("AATATGTTATATAATAATATTT", (1, 16), "AATATAT", 3)
print(ex)


(0, 15, 7, 6)


In [58]:
def best_hit(query: str, seq: str, qm: dict[str, list[int]], w: int) -> tuple[int, int, int, int]:
    """
    Encontra a melhor correspondência entre uma sequência de consulta (query) e uma sequência alvo (seq).

    Parâmetros:
    - query: A string que procuramos.
    - seq: A sequência alvo.
    - qm: O dicionário gerado pela função query_map, contendo as substrings da query e seus offsets.
    - w: O tamanho da janela.

    Retorna um tuplo com:
      1. O offset inicial na query.
      2. O offset inicial na sequência alvo.
      3. O tamanho do resultado.
      4. O número de matches corretos.

    A função utiliza as funções hits e extends_hit para encontrar a melhor correspondência,
    considerando o número de matches corretos e o tamanho total da correspondência.
    """
    get_hits = hits(qm, seq)  # Obtém as correspondências entre a query e a sequência alvo.
    bestScore = -1.0          
    best = ()                 

    # Itera sobre todas as correspondências encontradas.
    for h in get_hits:
        # Estende a correspondência para obter mais informações.
        ext = extends_hit(seq, h, query, w)
        score = ext[3]  # O score é o número de matches corretos.

        # Atualiza a melhor correspondência se o score for maior ou se o tamanho for menor.
        if score > bestScore or (score == bestScore and ext[2] < best[2]):
            bestScore = score
            best = ext

    return best

print(best_hit(query,seq,example,w))

(0, 0, 7, 6)


In [59]:
import unittest

class TestQueryFunctions(unittest.TestCase):
    def setUp(self):
        self.query = "AATATAT"
        self.seq = "AATATGTTATATAATAATATTT"
        self.w = 3
        self.qm = query_map(self.query, self.w)

    def test_query_map(self):
        result = query_map(self.query, self.w)
        expected = {'AAT': [0], 'ATA': [1, 3], 'TAT': [2, 4]}
        self.assertEqual(result, expected)

    def test_hits(self):
        result = hits(self.qm, self.seq)
        expected = [(0, 0), (0, 12), (0, 15), (1, 1), (1, 8), (1, 10), (1, 13), (1, 16), (3, 1), (3, 8), (3, 10), (3, 13), (3, 16), (2, 2), (2, 7), (2, 9), (2, 17), (4, 2), (4, 7), (4, 9), (4, 17)]
        self.assertEqual(result, expected)

    def test_extends_hit(self):
        hit = (1, 16)
        result = extends_hit(self.seq, hit, self.query, self.w)
        expected = (0, 15, 7, 6)
        self.assertEqual(result, expected)

    def test_best_hit(self):
        result = best_hit(self.query, self.seq, self.qm, self.w)
        expected = (0, 0, 7, 6)
        self.assertEqual(result, expected)

test_suite = unittest.TestLoader().loadTestsFromTestCase(TestQueryFunctions)


unittest.TextTestRunner().run(test_suite)


....
----------------------------------------------------------------------
Ran 4 tests in 0.002s

OK


<unittest.runner.TextTestResult run=4 errors=0 failures=0>