In [1]:
import numpy as np

# Needleman-Wunsch original

O algoritmo Needleman-Wunsch é um método utilizado para o alinhamento de sequências, frequentemente aplicado na bioinformática para alinhar sequências de proteínas ou nucleotídeos (DNA ou RNA). Ele foi desenvolvido por Saul Needleman e Christian Wunsch em 1970 como uma técnica para encontrar o melhor alinhamento global entre duas sequências, maximizando a pontuação de similaridade entre elas.  

## Hiperparâmetros

Antes de darmos a sua implementação, precisamos definir alguns hiperparâmetros para sua execução:

### Matriz de pontuação

Dependendo do problema (alinhamento de aminoácidos, proteínas, sequências abstratas, etc), o algoritmo precisa de uma matriz que defina a **pontuação** recebida ao fazer o alinhamento entre dois elementos, sejam eles idênticos (*match*) ou não (*mismatch*). Nos exemplos que iremos estudar a seguir, desejamos fazer o alinhamento entre proteínas, compostas por sequências de aminoácidos e, na literatura, vários autores já propuzeram diversas matrizes de pontuação, chamadas de ***BLOSUM*** (**BLO**cks of Amino Acid **SU**bstitution **M**atrix) e a principal versão que usaremos nesse projeto será a BLOSUM62, definida a seguir.

![BLOSUM62](imagens/BLOSUM62.png "Tabela BLOSUM62")

Vale ressaltar que essa matriz é simétrica e contém valores negativos.

### Penalidade *indel*

Um conceito essencial para o algoritmo é o *indel*: em um alinhamento entre duas sequências, podemos incluir ***indels*** que representam *gaps* ou intervalos de **in**serção/**del**eção nas *strings*, ou seja, em vez de "casar" um elemento com outro de cada sequência, insere-se um "espaço em branco" em uma sequência e faz o *match* com um elemento da outra sequência. Assim como para o *match* de elementos, essa operação tem um custo fixo pré-definido. Para padronizar os testes que realizaremos a seguir, definimos o valor desse parâmetro como **0**.

[[1]](https://pt.wikipedia.org/wiki/BLOSUM)

In [3]:
import os
import sys
module_path = os.path.abspath(os.path.join('..'))
if module_path not in sys.path:
    sys.path.append(module_path)


In [4]:
from src.constantes import batata

ModuleNotFoundError: No module named 'src.constantes'

## Implementação Recursiva

O algoritmo Needleman-Wunsch aplica o paradigma da Programação Dinâmica para encontrar o alinhamento global ótimo entre duas sequências. Usualmente, um sequência é representada como uma *string* e cada caractere é um elemento que pode ser casado com outro elemento ou com um *gap* na outra sequência, assumindo um valor de penalidade ou ganho pré-definido. A estratégia do algoritmo é subdividir o problema original em sub-problemas e resolvê-los individualmente e recursivamente, agregando seus resultados para compor a solução final do alinhamento. Os subproblemas não são mutuamente exclusivos e podem se sobrepor, logo, podemos armazenar seus resultados em uma matriz de memoização e reutilizá-los quando necessário.  

Formalmente, o objetivo do algoritmo é encontrar o alinhamento que maximiza a somatória total dos custos/ganhos de *match*, portanto, podemos definir a seguintes regras de implementação: dadas duas strings $v$ e $w$, seus tamanhos são $|v|$ e $|w|$ e podemos acessar seus elementos com $v[i] ~ (0 \leq i \lt |v|)$ e $w[j] ~ (0 \leq j \lt |w|)$. A operação `v[:-1]` retorna a *string* v sem o seu último caractere, sendo que se v tiver apenas um elemento, a regra retorna a string vazia.  Seja `pontuacao[v[i], w[j]]` o ganho ou custo de se fazer o casamento entre o i-ésimo elemento de v e o j-ésimo elemento de w (*match* quando são iguais e *mismatch* quando são diferentes), e seja `PENALIDADE_INDEL` um valor constante que representa o custo ou penalidade de se realizar um *indel*, conforme definido acima. Podemos, portanto, definir a **relação de recorrência**:

$$
nw\_rec(a, b) =\begin{equation}
\left\{
  \begin{aligned}
    ~0~se~a~=~"" e~b =~""\\
    ~PENALIDADE\_INDEL+nw\_rec(a, b[:-1])~se~a~=~"" e~b \neq~""\\
    ~PENALIDADE\_INDEL+nw\_rec(a[:-1], b)~se~a \neq~"" e~b~=~""\\
    ~se~a \neq~"" e~b\neq~"": max
        \left\{
          \begin{aligned}
            pontuacao[a[|a|-1], b[|b|-1]] + nw\_rec(a[:-1], b[:-1])\\
            ~PENALIDADE\_INDEL + nw\_rec(a[:-1], b)\\
            ~PENALIDADE\_INDEL + nw\_rec(a, b[:-1])
          \end{aligned}
        \right.
  \end{aligned}
  \right.
\end{equation}
$$

Por fim, basta resolver o problema para $v$ e $w$ ao chamar esse algoritmo recursivo como `nw_rec(v, w)`.

In [None]:
class NeedlemanWunschRecursivo:
    """
    Classe que implementa o algoritmo Needleman-Wunsch Recursivo
    """

    def __init__(self, matriz_pontuacao, dicionario_indice_alfabeto, penalidade_indel):
        """Construtor da classe que implementa o Needleman-Wunsch Recursivo
        
        matriz_pontuacao: A matriz que armazena os custos/ganhos de se fazer o casamento
        (seja ele um match ou um mismatch) entre cada um dos caracteres do alfabetos que
        formam os elementos das sequências sob análise. Deve ser uma matriz numérica
        simétrica k * k, onde k é o número de caracteres no alfabeto.
        
        dicionario_indice_alfabeto: Um dicionário auxiliar que mapeia o caractere textual
        à sua posição/índice na matriz de potuação
        
        penalidade_indel: O valor da penalidade de se fazer um indel ou um casamento com
        um gap durante a execução algoritmo. Deve ser um valor MAIOR ou IGUAL a zero.
        
        """
        self.matriz_pontuacao = matriz_pontuacao
        self.dicionario_indice_alfabeto = dicionario_indice_alfabeto
        self.penalidade_indel = penalidade_indel
        self.matriz_memoizacao = None
    
    def nw_rec(self, a, b):
        """
        Parte recursiva do Algoritmo Needleman-Wunsch para construir o alinhamento global
        par-a-par de sequências. Esse método assume que alguns valores da classe foram
        inicializados corretamente, logo, NÃO CHAME ESSE MÉTODO DIRETAMENTE. Em vez disso,
        chame self.needleman_wunsch_recursivo
        """
        
        len_a = len(a)
        len_b = len(b)

        if not np.isnan(self.matriz_memoizacao[len_a, len_b]): # Se esse elemento já foi processado, apenas retorne
            return self.matriz_memoizacao[len_a, len_b]
        
        if a == "" and b == "": # Se as duas sequências são vazias: Passo base
            self.matriz_memoizacao[len_a, len_b] = 0
        elif a == "": # Se a é vazia
            self.matriz_memoizacao[len_a, len_b] = self.nw_rec(a, b[:-1]) - self.penalidade_indel
        elif b == "": # Se b é vazia
            self.matriz_memoizacao[len_a, len_b] = self.nw_rec(a[:-1], b) - self.penalidade_indel
        else: # Se ambas as sequências NÃO são vazias
            self.matriz_memoizacao[len_a, len_b] = max(
                self.matriz_pontuacao[self.dicionario_indice_alfabeto[a[len_a-1]], self.dicionario_indice_alfabeto[b[len_b-1]]] + self.nw_rec(a[:-1], b[:-1]),
                self.nw_rec(a[:-1], b) - self.penalidade_indel,
                self.nw_rec(a, b[:-1]) - self.penalidade_indel
            )

        return self.matriz_memoizacao[len_a, len_b]

    def needleman_wunsch_recursivo(self, v, w):
        """
        Método principal da classe NeedlemanWunschRecursivo que implementa e executa
        o Algoritmo Needleman-Wunsch para construir o alinhamento global par-a-par
        de sequências.
        """
        len_v = len(v)
        len_w = len(w)

        self.matriz_memoizacao = np.ones((len_v+1, len_w+1)) * np.nan

        return self.nw_rec(v, w)

In [None]:
nw_rec = NeedlemanWunschRecursivo(matriz_pontuacao=matriz_pontuacao_blosum62, 
                    dicionario_indice_alfabeto=dicionario_indice_alfabeto_all_amino,
                    penalidade_indel=PENALIDADE_INDEL)

In [None]:
nw_rec.needleman_wunsch_recursivo(v="DRET", w="DRET")

In [None]:
nw_rec.needleman_wunsch_recursivo(v="DRET", w="DRQT")

In [None]:
nw_rec.needleman_wunsch_recursivo(v="DRNTAQLLGTDTT", w="DRQTAQAAGTTTIT")

In [None]:
nw_rec.needleman_wunsch_recursivo(v="DRQTAKAAGTD", w="ERQLAKAAAGTD")

## Implementação Iterativa

As regras de implementação e a sua relação de recorrência permitem que ele possa ser implementado de forma simples e intuitiva como um algoritmo recursivo, porém, sua implementação é geralmente dada de forma iterativa. Além disso, é comum salvar informações adicionais que permitam definir a sequência de passos que devem ser feitos para gerar o alinhamento final, além do resultado da somatória total. A implementação desse algoritmo em pseudocódigo é dada a seguir.

In [None]:
def needleman_wunsch_iterativo(
    v,
    w,
    matriz_pontuacao=matriz_pontuacao_blosum62,
    dicionario_indice_alfabeto=dicionario_indice_alfabeto_all_amino, 
    penalidade_indel=PENALIDADE_INDEL):
    """
    Implementação iterativa do Algoritmo Needleman-Wunsch para construir alinhamentos
    globais par-a-par entre sequências.
    """

    len_v = len(v)
    len_w = len(w)

    # A matriz que armazena as regras de posicionamento ou direcionamento do caminho
    # 0 = "north", 1 = "west" e 2 = "northwest"
    matriz_posicionamento = np.zeros((len_v+1, len_w+1))
    matriz_posicionamento[0, :] = np.ones((len_w+1))


    # Inicializando a matriz de recorrencia ou memoização
    matriz_similaridade = np.zeros((len_v+1, len_w+1))
    for i in range(1, len_v+1):
        matriz_similaridade[i, 0] = matriz_similaridade[i-1, 0] - penalidade_indel

    for j in range(1, len_w+1):
        matriz_similaridade[0, j] = matriz_similaridade[0, j-1] - penalidade_indel

    for i in range(1, len_v+1):
        for j in range(1, len_w+1):

            # Inserção em v:
            valor_insercao_v = matriz_similaridade[i-1, j] - penalidade_indel

            # Inserção em w:
            valor_insercao_w = matriz_similaridade[i, j-1] - penalidade_indel

            # Casamento (Se vai dar match mesmo ('T' == 'T') ou deu mismatch ('G' != 'T'),
            # não importa. Isso está mapeado na matriz de pontuação)
            valor_match = matriz_similaridade[i-1, j-1] + matriz_pontuacao[dicionario_indice_alfabeto[v[i-1]], dicionario_indice_alfabeto[w[j-1]]]

            # Atualizando o valor na matriz de similaridade
            matriz_similaridade[i, j] = max(valor_insercao_v, valor_insercao_w, valor_match)

            # Atualizando a operação que deve ser feita no caminhamento
            if matriz_similaridade[i, j] == valor_match:
                matriz_posicionamento[i, j] = 2
            elif matriz_similaridade[i, j] == valor_insercao_w:
                matriz_posicionamento[i, j] = 1
            elif matriz_similaridade[i, j] == valor_insercao_v:
                matriz_posicionamento[i, j] = 0

            """
            Observação IMPORTANTE: A ordem dos if-elif acima INFLUENCIAM no caminhamento final, no sentido de
            que alguns caminhos terão prioridade quando houver algum empate nos valores. Por exemplo, para o
            exemplo no livro (Jones, Pevzner, p. 173), a configuração acima dá um resultado DIFERENTE (mas eu
            acho que é tão bom quanto!), porém, ao trocar a ordem de verificação do valor_insercao_w pelo
            valor_insercao_v acima, o resultado se iguala ao exemplo do livro!
            """

    return matriz_posicionamento, matriz_similaridade

### Funções auxiliares para printar os valores

In [None]:
def computar_mapa_posicionamento(matriz_posicionamento):
    """
    Dada a matriz bidimensional de posicionamento gerada após um algoritmo de
    um alinhamento par-a-par, essa função printa no console o mapa de posicionamento
    que descreve os passos para realizar o caminhamento para cada elemento 
    processado na matriz. Os valores possíveis nessa matriz são 2 (direção
    "northwest"), 1 ("west") e 0 ("north"). Para qualquer outro valor (como
    np.nan, -np.inf, etc), assume-se que o elemento não foi processado e um
    espaço em branco " " será printado.
    """
    
    str_mapa = ""
    for i in range(matriz_posicionamento.shape[0]):
        for j in range(matriz_posicionamento.shape[1]):
            if matriz_posicionamento[i, j] == 2:
                str_mapa += "\\ "
            elif matriz_posicionamento[i, j] == 1:
                str_mapa += "_ "
            elif matriz_posicionamento[i, j] == 0:
                str_mapa += "| "
            else:
                str_mapa += "  " # Isso inclui -inf

        str_mapa+="\n"

    return str_mapa

In [None]:
def computar_alinhamento(v, w, matriz_posicionamento):
    """
    Dadas as sequências v e w originais e a matriz de posicionamento gerada após
    o alinhamento de v e w, essa função computa a representação do alinhamento
    par-a-par entre as sequências, adicionando "_" em gaps.
    """
    str_v = ""
    str_w = ""

    contador_v = len(v)
    contador_w = len(w)

    while contador_v > 0 or contador_w > 0:
        if matriz_posicionamento[contador_v, contador_w] == 2:
            str_v += v[contador_v-1]
            str_w += w[contador_w-1]
            contador_v-=1
            contador_w-=1
        elif matriz_posicionamento[contador_v, contador_w] == 1:
            str_v += "-"
            str_w += w[contador_w-1]
            contador_w-=1
        elif matriz_posicionamento[contador_v, contador_w] == 0:
            str_v += v[contador_v-1]
            str_w += "-"
            contador_v-=1

    return str_v[::-1], str_w[::-1]

In [None]:
def executar_alinhamento_e_printar_valores(v, w):
    
    print("Alinhamento global par-a-par das strings a seguir:")
    print(v)
    print(w)
    print("----------------------")
    
    matriz_posicionamento, matriz_similaridade = needleman_wunsch_iterativo(v, w)

    print("\nMatriz de posicionamento (equivale ao mapa de posicionamento):")
    print(matriz_posicionamento)

    print("\nMapa de Posicionamento")
    print(computar_mapa_posicionamento(matriz_posicionamento))
    print("----------------------")

    print("Matriz de similaridade:")
    print(matriz_similaridade)

    print("\nMaior Pontuação: ", matriz_similaridade[len(v), len(w)])

    alin_v, alin_w = computar_alinhamento(v, w, matriz_posicionamento)
    print("\nAlinhamento")
    print(alin_v)
    print(alin_w)

In [None]:
executar_alinhamento_e_printar_valores(v="DRET", w="DRET")

In [None]:
executar_alinhamento_e_printar_valores(v="DRET", w="DRQT")

In [None]:
executar_alinhamento_e_printar_valores(v="DRNTAQLLGTDTT", w="DRQTAQAAGTTTIT")

In [None]:
executar_alinhamento_e_printar_valores(v="DRQTAKAAGTD", w="ERQLAKAAAGTD")

Tanto para sua versão recursiva quanto para sua versão iterativa, podemos afirmar que o principal objetivo do *loop* de execução envolve preencher a tabela de similaridade (ou tabela de memoização), logo, a complexidade de tempo e espaço de ambas as versões do algoritmo é $O(|v| \times |w|)$