### BLAST: Basic Local Alignment Search Tool

Consiste numa ferramenta para comparar sequências biológicas, conjunto de algoritmos e ferramentas para procurar sequências similares em bases de dados de grande dimensão. 

**Como funciona o [BLAST?](https://edu.taugc.com/blog/voce-sabe-como-o-blast-funciona/)**

O algoritmo identifica similaridades entre sequências por meio de correspondências curtas. De seguida, ocorre a procura por alinhamentos locais utilizando conjuntos de um tamanho definifo pelo utilizador, normalmente é de 3 letras para aminoácidos e 11 para nucleótidos. 

* Exemplo:
    * GLFKA seria analisada em conjuntos de três letras: GLK, LKF, KFA.

Os alinhamentos locais são construídos a partir de correspondências comuns, servindo como ponto de partida para uma extensão em ambas as direções. Essa extensão continua até que o alinhamento atinja um valor de pontuação pré-definido. 

Nesta UC, foi-nos proposto a criação de um algoritmo BLAST versão simplificada que assenta em três pontos principais:
* Considera apenas matches perfeitos entre a query e as seuquências da BD
* Critérios simples usados para a extensão dos hits
* Score será a contagem do nº de matches

A primeira função criada, **query_map()**, procura devolver um dicionário em que as chaves são as sequências com **w** tamanho que originaram da divisão da sequência inserida. Os valores do dicionário são a lista dos índices onde as subsequências se encontram comparativamente à sequência inserida. 

Em primeiro lugar, a função verifica se a sequência é do tipo DNA ou aminoácidos, utilizando a função **tipo_seq()**. Caso não seja nenhum desses tipos, a função levanta um erro. Também verifica se o valor introduzido em **w** não é um valor inexistente. De seguida, realiza um aprimoramento para prepará-la para a análise subsequente. Posteriormente, a sequência é dividida em todas as possíveis sub-sequências de tamanho **"w"** e armazena-as numa lista.

Depois, é criado um dicionário vazio para armazenar as subsequências e os seus índices. Por fim, retorna o dicionário contendo as subsequências como chaves e os índices onde essas subsequências são encontradas na sequência inserida.



In [None]:
if validar_dna(seq) is False:
    raise ValueError("A sequência inserida é inválida")

def aprimorar_seq(seq):
    """
    Devolve uma sequência de ADN só com letras maiúsculas e sem espaços em branco

    Parameters
    -------------
    seq : str
        Uma string que representa a sequência de ADN

    Returns
    -------------
    str
        sequência de ADN com as bases em maiúsculas e sem espaços em branco
    """
    if validar_dna(seq) is False:
        raise ValueError("A sequência inserida é inválida")
    return seq.upper().replace(" ", "")

def tipo_seq(seq):
    if len([c for c in seq if c not in "ACGU"]) == 0:
        return "RNA"
    elif len([c for c in seq if c not in "ABCDEFGHIKLMNPQRSTVWYZ_"]) == 0:
        return "Sequência de aminoácidos"
    else:
        return "Não válido"

In [None]:
def expande_direcao(alinhamento, sequencia, direcao):
    """
    Função para expandir o alinhamento em uma direção específica.
    Recebe um alinhamento, a sequência original e a direção para expandir.
    Retorna a sequência expandida na direção especificada.

    Parâmetros
    -------------
    alinhamento : tuple
        Tuplo representando o alinhamento, por exemplo, (inicio, fim)
    sequencia : str
        Sequência original do alinhamento
    direcao : str
        Direção para expandir o alinhamento (por exemplo: 'esquerda', 'direita', 'ambas')

    Returns
    -------------
    str
        Sequência expandida na direção especificada
    """
    inicio, fim = alinhamento
    if direcao == 'esquerda':
        while inicio > 0 and sequencia[inicio-1] != '-':
            inicio -= 1
    elif direcao == 'direita':
        while fim < len(sequencia) - 1 and sequencia[fim+1] != '-':
            fim += 1
    elif direcao == 'ambas':
        while inicio > 0 and sequencia[inicio-1] != '-':
            inicio -= 1
        while fim < len(sequencia) - 1 and sequencia[fim+1] != '-':
            fim += 1

    return sequencia[inicio:fim+1]


*Apagar estas mensagens depois*

Foram feitas alterações no proximo bloco:

+ A verificação do tipo da sequência foi simplificada para aceitar apenas "DNA" e "Sequência de aminoácidos"
+ A verificação do tipo de w foi ajustada para usar isinstance e também verificar se w é maior que zero.
+ A geração da lista de subsequências foi simplificada usando uma lista de compreensão.
+ A lógica para criar o dicionário de subsequências e índices foi mantida, mas o código simplificado.

In [None]:
def query_map(query, w): #alterei esta tua função, a original está no fim desta celula em aspas. 
'''
Mapeia as subsequências de uma sequência de entrada com base em um tamanho de janela especificado.
Realiza verificações de validade de entrada, incluindo o tipo de sequência e o valor de 'w'.
Gera um dicionário com as subsequências como chaves e as posições como valores.
'''
    if tipo_seq(query) not in ["DNA", "Sequência de aminoácidos"]: #ao passar para o principal verificar estes termos se batem certo!!!!!!!!!!!!!!!!!!!!!!!!
        raise AssertionError("Sequência Inválida")

    assert isinstance(w, int) and w > 0, "O valor de 'w' deve ser um número inteiro maior que zero"
        
    query = aprimorar_seq(query)

    dicionario = {}
    for indice in range(len(query) - w + 1):
        sequencia = query[indice : indice + w]
        if sequencia not in dicionario:
            dicionario[sequencia] = []
        dicionario[sequencia].append(indice)

    return dicionario

# teste
resultado = query_map("ATGCTGATCGATCG", 4)
print(resultado)

#a tua versão está aqui em baixo
'''
def query_map(query, w):

    """
    Função que devolve dicionário com as subsequências e os respetivos indíces que originaram da sequência inserida
    
    Parâmetros:
    query : str 
        sequência de DNA ou aminoácidos
    
    w : int
        número que corresponde ao tamanho da window

    Returns:
    dicionario : dict
        dicionario em que as chaves são as subsequências e os valores são os seus índices na query

    """
    
    if tipo_seq(query) == "DNA":
        pass
    elif tipo_seq(query) == "Sequência de aminoácidos":
        pass
    else:
        raise AssertionError("Sequência Inválida")
    
    assert type(w) is int, "Só são aceites números inteiros"        

    if not bool(w):
        raise AssertionError("É necessário inserir um valor de 'w'")

    query = aprimorar_seq(query)

    lista_w = []

    for x in range(len(query)):
        seq = query[x : x + w]
        if len(seq) == w:
            lista_w.append(seq)

    dicionario = {}

    for indice, sequencias in enumerate(lista_w):
        if sequencias not in dicionario:
            dicionario[sequencias] = []
        dicionario[sequencias].append(indice)

    return dicionario

query_map(1, 4)
'''

In [None]:
import unittest

class TestValidaData(unittest.TestCase):
    def test_query_vazio(self):
        with self.assertRaises(AssertionError):
            query_map("", 3)
    def test_w_vazio(self):
        with self.assertRaises(AssertionError):
            query_map("ACT", "")
    def test_query_numerico(self):
        with self.assertRaises(AssertionError):
            query_map(1, 3)
    
# acho que falta testar a saída para uma sequência de DNA válida e um tamanho de janela válido, mas ainda não processei como faço isso aqui...


suite = unittest.TestLoader().loadTestsFromTestCase(TestValidaData)
unittest.TextTestRunner( verbosity=3 ).run( suite )

De seguida, foi criada uma função denominada **hits()** que recebe o dicionário da função anterior (**query_map()**) e uma sequência da BD e devolve uma lista de hits em que cada elemento é um tuplo com os índices.

In [None]:
def hits(dic_query, seq):
    """ 
    Função que devolve lista de hits em que cada elemento é um tuplo com os índices na sequência query e na sequência da base da dados

    Parâmetros
    -------------
    dic_query : dict
        dicionário proveniente da função anterior, query_map()
    seq : str
        sequência da base de dados
    
        
    Returns
    -------------
    list
        lista de tuples com hits da sequência query e da seuqência da base de dasos

    """
    import re

    lista_tuplos = []

    for chave, valor in dic_query.items():
        print(chave, valor)
        for valor_unico in valor:
            if chave in seq:
                lista_ocorrencias = [m.start() for m in re.finditer(chave, seq)]
                for index in lista_ocorrencias:
                    tuplo = (valor_unico, index)
                    lista_tuplos.append(tuplo)

    return lista_tuplos

In [None]:
def best_hits(hits, criterio='pontuacao', top_n=1):
    """
    Função alternativa para encontrar os melhores hits com base em critérios específicos.

    Parâmetros
    -------------
    hits : list
        Lista de tuplos representando os hits, por exemplo, [(indice_seq_query, indice_seq_db, pontuacao), ...]
    criterio : str, opcional
        Critério para selecionar os melhores hits (por exemplo: 'pontuacao', 'identidade', 'tamanho_alinhamento', etc.)
    top_n : int, opcional
        Número de melhores hits a serem retornados

    Returns
    -------------
    list
        Lista dos melhores hits do blast
    """
    if criterio == 'pontuacao':
        # Ordenar os hits com base na pontuação
        hits_ordenados = sorted(hits, key=lambda x: x[2], reverse=True)
    elif criterio == 'identidade':
        # Ordenar os hits com base na identidade
        # Substitua esta lógica com o cálculo da identidade
        hits_ordenados = sorted(hits, key=lambda x: calcular_identidade(x), reverse=True)
    # Adicione mais critérios, se necessário

    # Retornar os top N melhores hits
    return hits_ordenados[:top_n]

In [None]:
def visualize_results(hits): #Para visualizar os resultados do BLAST
       for hit in hits:
           print('Hit encontrado:', hit)