### BLAST: Basic Local Alignment Search Tool

Consiste numa ferramenta para comparar sequências biológicas, conjunto de algoritmos e ferramentas para procurar sequências similares em bases de dados de grande dimensão. 

**Como funciona o [BLAST?](https://edu.taugc.com/blog/voce-sabe-como-o-blast-funciona/)**

O algoritmo identifica similaridades entre sequências por meio de correspondências curtas. De seguida, ocorre a procura por alinhamentos locais utilizando conjuntos de um tamanho definifo pelo utilizador, normalmente é de 3 letras para aminoácidos e 11 para nucleótidos. 

* Exemplo:
    * GLFKA seria analisada em conjuntos de três letras: GLK, LKF, KFA.

Os alinhamentos locais são construídos a partir de correspondências comuns, servindo como ponto de partida para uma extensão em ambas as direções. Essa extensão continua até que o alinhamento atinja um valor de pontuação pré-definido. 

Nesta UC, foi-nos proposto a criação de um algoritmo BLAST versão simplificada que assenta em três pontos principais:
* Considera apenas matches perfeitos entre a query e as seuquências da BD
* Critérios simples usados para a extensão dos hits
* Score será a contagem do nº de matches

A primeira função criada, **query_map()**, procura devolver um dicionário em que as chaves são as sequências com **w** tamanho que originaram da divisão da sequência inserida. Os valores do dicionário são a lista dos índices onde as subsequências se encontram comparativamente à sequência inserida. 

Em primeiro lugar, a função verifica se a sequência é do tipo DNA ou aminoácidos, utilizando a função **tipo_seq()**. Caso não seja nenhum desses tipos, a função levanta um erro. Também verifica se o valor introduzido em **w** não é um valor inexistente. De seguida, realiza um aprimoramento para prepará-la para a análise subsequente. Posteriormente, a sequência é dividida em todas as possíveis sub-sequências de tamanho **"w"** e armazena-as numa lista.

Depois, é criado um dicionário vazio para armazenar as subsequências e os seus índices. Por fim, retorna o dicionário contendo as subsequências como chaves e os índices onde essas subsequências são encontradas na sequência inserida.



In [37]:
def valid_dna(seq):
    return True
def aprimorar_seq(seq):
    return seq
def tipo_seq(seq):
    if len([c for c in seq if c not in "ACGU"]) == 0:
        return "RNA"
        
    elif len([c for c in seq if c not in "ABCDEFGHIKLMNPQRSTVWYZ_"]) == 0:
        return "Sequência de aminoácidos"
    else:
        return "Não válido"

In [60]:
def query_map(query, w):

    """
    Função que devolve dicionário com as subsequências e os respetivos indíces que originaram da sequência inserida
    
    Parâmetros:
    query : str 
        sequência de DNA ou aminoácidos
    
    w : int
        número que corresponde ao tamanho da window

    Returns:
    dicionario : dict
        dicionario em que as chaves são as subsequências e os valores são os seus índices na query

    """
    
    if tipo_seq(query) == "DNA":
        pass
    elif tipo_seq(query) == "Sequência de aminoácidos":
        pass
    else:
        raise AssertionError("Sequência Inválida")
    
    #NÃO DÁ, REVER
    if not isinstance(query, str) or not query.isalpha():
        raise ValueError("Só sao aceites caractéres alfabéticos para a query")
    
    assert type(w) is int, "Só são aceites números inteiros"        

    if not bool(w):
        raise AssertionError("É necessário inserir um valor de 'w'")

    query = aprimorar_seq(query)

    lista_w = []

    for x in range(len(query)):
        seq = query[x : x + w]
        if len(seq) == w:
            lista_w.append(seq)

    dicionario = {}

    for indice, sequencias in enumerate(lista_w):
        if sequencias not in dicionario:
            dicionario[sequencias] = []
        dicionario[sequencias].append(indice)

    return dicionario

query_map(1, 4)

TypeError: 'int' object is not iterable

In [42]:
import unittest

class TestValidaData(unittest.TestCase):
    def test_query_vazio(self):
        with self.assertRaises(AssertionError):
            query_map("", 3)
    def test_w_vazio(self):
        with self.assertRaises(AssertionError):
            query_map("ACT", "")
    def test_query_numerico(self):
        with self.assertRaises(AssertionError):
            query_map(1, 3)
    



suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

test_query_numerico (__main__.TestValidaData) ... ERROR
test_query_vazio (__main__.TestValidaData) ... ok
test_w_vazio (__main__.TestValidaData) ... ok

ERROR: test_query_numerico (__main__.TestValidaData)
----------------------------------------------------------------------
Traceback (most recent call last):
  File "C:\Users\olive\AppData\Local\Temp\ipykernel_2596\1062910657.py", line 12, in test_query_numerico
    query_map(1, 3)
  File "C:\Users\olive\AppData\Local\Temp\ipykernel_2596\848886674.py", line 19, in query_map
    if tipo_seq(query) == "DNA":
  File "C:\Users\olive\AppData\Local\Temp\ipykernel_2596\1280948619.py", line 6, in tipo_seq
    if len([c for c in seq if c not in "ACGU"]) == 0:
TypeError: 'int' object is not iterable

----------------------------------------------------------------------
Ran 3 tests in 0.006s

FAILED (errors=1)


<unittest.runner.TextTestResult run=3 errors=1 failures=0>

De seguida, foi criada uma função denominada **hits()** que recebe o dicionário da função anterior (**query_map()**) e uma sequência da BD e devolve uma lista de hits em que cada elemento é um tuplo com os índices.

In [31]:
def hits(dic_query, seq):
    """ 
    Função que devolve lista de hits em que cada elemento é um tuplo com os índices na sequência query e na sequência da base da dados

    Parâmetros
    -------------
    dic_query : dict
        dicionário proveniente da função anterior, query_map()
    seq : str
        sequência da base de dados
    
        
    Returns
    -------------
    list
        lista de tuples com hits da sequência query e da seuqência da base de dasos

    """
    import re

    lista_tuplos = []

    for chave, valor in dic_query.items():
        print(chave, valor)
        for valor_unico in valor:
            if chave in seq:
                lista_ocorrencias = [m.start() for m in re.finditer(chave, seq)]
                for index in lista_ocorrencias:
                    tuplo = (valor_unico, index)
                    lista_tuplos.append(tuplo)

    return lista_tuplos