# 1 - Explicação

O alinhamento global é uma técnica utilizada para comparar duas sequências de DNA, RNA ou proteínas, buscando o melhor alinhamento possível ao longo de toda a sua extensão. A programação dinâmica é usada para facilitar esse processo, dividindo o problema em subproblemas menores e calculando uma matriz de escores que ajuda a encontrar o alinhamento ótimo.

Etapas do Alinhamento Global:
Inicialização:

Cria-se uma matriz, onde cada célula representa um ponto de comparação entre as sequências.
A primeira linha e a primeira coluna são preenchidas com escores iniciais, que consideram gaps, ou seja, espaços vazios que representam inserções ou deleções.
Preenchimento da Matriz:

Cada célula é preenchida com base em três possíveis movimentos:
Diagonal (match ou mismatch): quando as bases são comparadas diretamente.
Para a esquerda ou para cima: inserindo um gap em uma das sequências.
O valor máximo entre esses movimentos é escolhido, representando o melhor alinhamento até aquela posição.
Traceback:

A partir do último ponto da matriz, traça-se o caminho de volta até o início, reconstruindo o alinhamento ótimo com base nos movimentos que geraram os maiores escores.
Importância dos Pênaltis e Ganhos:
Match: Adiciona um ganho ao escore quando as bases são iguais.
Mismatch: Penaliza o escore quando as bases são diferentes.
Gap: Penaliza o escore ao inserir um espaço vazio.
Esses valores são fundamentais para encontrar um alinhamento que faça sentido biologicamente, equilibrando similaridades com a necessidade de gaps.

# 2 - Algoritmo

1. Inicialização: Cria uma matriz e inicializa a primeira linha e coluna com penalidades de gap.
2. Preenchimento: Calcula o score para cada célula com base nos scores das células adjacentes, considerando match, mismatch e gap.
3. Traceback: Reconstrói o alinhamento ótimo a partir da última célula, seguindo o caminho de scores máximos.
4. Retorno: Retorna as duas sequências alinhadas.

# Código

In [1]:
def alinhamento_global(seq1, seq2, match_score = 1, mismatch_score = -1, gap_penalty = -2):
    """
    Aplica o algoritmo de alinhamento global de Needleman-Wunsch para duas sequências.

    Args:
        seq1: A primeira sequência.
        seq2: A segunda sequência.
        match_score: Pontuação para um match (correspondência).
        mismatch_score: Pontuação para um mismatch (não correspondência).
        gap_penalty: Penalidade para um gap (inserção ou deleção).

    Returns:
        Uma tupla contendo as duas sequências alinhadas.
    """

    m = len(seq1)
    n = len(seq2)

    # Inicializa a matriz de scores
    matriz = [[0] * (n + 1) for _ in range(m + 1)]

    # Preenche a primeira linha e coluna com penalidades de gap
    for i in range(1, m + 1):
        matriz[i][0] = gap_penalty * i
    for j in range(1, n + 1):
        matriz[0][j] = gap_penalty * j

    # Preenche a matriz de scores
    for i in range(1, m + 1):
        for j in range(1, n + 1):
            match = matriz[i - 1][j - 1] + (match_score if seq1[i - 1] == seq2[j - 1] else mismatch_score)
            delete = matriz[i - 1][j] + gap_penalty
            insert = matriz[i][j - 1] + gap_penalty
            matriz[i][j] = max(match, delete, insert)

    # Reconstrói o alinhamento ótimo
    alinhamento1 = ""
    alinhamento2 = ""
    i = m
    j = n
    while i > 0 and j > 0:
        score = matriz[i][j]
        score_diagonal = matriz[i - 1][j - 1]
        score_cima = matriz[i - 1][j]
        score_esquerda = matriz[i][j - 1]

        if score == score_diagonal + (match_score if seq1[i - 1] == seq2[j - 1] else mismatch_score):
            alinhamento1 = seq1[i - 1] + alinhamento1
            alinhamento2 = seq2[j - 1] + alinhamento2
            i -= 1
            j -= 1
        elif score == score_cima + gap_penalty:
            alinhamento1 = seq1[i - 1] + alinhamento1
            alinhamento2 = "-" + alinhamento2
            i -= 1
        elif score == score_esquerda + gap_penalty:
            alinhamento1 = "-" + alinhamento1
            alinhamento2 = seq2[j - 1] + alinhamento2
            j -= 1

    # Adiciona os gaps restantes no início das sequências
    while i > 0:
        alinhamento1 = seq1[i - 1] + alinhamento1
        alinhamento2 = "-" + alinhamento2
        i -= 1
    while j > 0:
        alinhamento1 = "-" + alinhamento1
        alinhamento2 = seq2[j - 1] + alinhamento2
        j -= 1

    return alinhamento1, alinhamento2, matriz

In [3]:
seq1 = "AGCT"
seq2 = "ATGCT"

alinhamento1, alinhamento2, matriz = alinhamento_global(seq1, seq2)
print("Alinhamento 1:", alinhamento1)
print("Alinhamento 2:", alinhamento2)
print("Matriz de Scores:")
for linha in matriz:
    print(linha)

Alinhamento 1: A-GCT
Alinhamento 2: ATGCT
Matriz de Scores:
[0, -2, -4, -6, -8, -10]
[-2, 1, -1, -3, -5, -7]
[-4, -1, 0, 0, -2, -4]
[-6, -3, -2, -1, 1, -1]
[-8, -5, -2, -3, -1, 2]


# Aplicações adicionais

In [4]:
seq1 = "ATCG"
seq2 = "ATCG"

alinhamento1, alinhamento2, matriz = alinhamento_global(seq1, seq2)
print("Alinhamento 1:", alinhamento1)
print("Alinhamento 2:", alinhamento2)
print("Matriz de Scores:")
for linha in matriz:
    print(linha)

Alinhamento 1: ATCG
Alinhamento 2: ATCG
Matriz de Scores:
[0, -2, -4, -6, -8]
[-2, 1, -1, -3, -5]
[-4, -1, 2, 0, -2]
[-6, -3, 0, 3, 1]
[-8, -5, -2, 1, 4]
