In [1]:
import pprint
from typing import Callable      

""" 
Função dist: Calcula a distância entre duas sequências, 
contando o número de posições nas quais os caracteres das sequências são diferentes.
"""

#calcular a distancia entre duas strings e retorna um valor inteiro
def dist(s1 : str, s2 : str) -> int: 
    #inicia a contagem com zero
    cont = 0   
    #cria um loop for que percorrre os elementos das seqs s1 e s2 usando a função zip
    #em que cada iteração, x1 recebe um elemento de s1 e x2 recebe o elemento correspondente de s2  
    for x1, x2 in zip(s1, s2):
        #caso x1 seja diferente de x2 conta +1
        if x1 != x2: 
            cont += 1
    return cont
# calculo do score 


"""
Função mat_dist_seqs: 
Gera uma matriz de distância entre todas as sequências fornecidas usando 
a função de distância especificada.
função chamada mat_dist_seqs que aceita uma lista de sequências de texto (seqs) 
e uma função de distância (fun_dist). 
A função retorna um dicionário que representa as distâncias calculadas 
entre todas as combinações de sequências na lista.
"""

def mat_dist_seqs(seqs : list[str], fun_dist : Callable[[str, str], int]) -> dict[str, dict[str, int]]: 
    res = dict() #Cria um novo dicionário chamado res.
    for seq1 in seqs: #Itera sobre cada sequência na lista seqs
        res[seq1]= dict()  
#Para cada sequência seq1, cria um novo dicionário vazio dentro do dicionário res associado à chave seq1
        for seq2 in seqs:  #Para cada sequência seq2 na lista seqs, executa o seguinte bloco de código:
            res[seq1][seq2] = fun_dist(seq1, seq2) 
#Calcula a distância entre seq1 e seq2 usando a função de distância fornecida (fun_dist) 
#e armazena o resultado no dicionário associado às chaves seq1 e seq2 em res
    return res

""""
Função mat_dist: 
Gera uma matriz de distância apenas para as combinações de todas as seqs 

"""
##função chamada mat_dist que aceita uma lista de sequências de texto (seqs) e uma função de distância (fun_dist). 
#A função retorna um dicionário que representa as distâncias calculadas entre todas as combinações 
def mat_dist(seqs : list[str], fun_dist : Callable[[str, str], int]) -> dict[int, dict[int, int]]: 
    res = dict() #Cria um novo dicionário chamado res.
    for idx1, seq1 in enumerate(seqs): #Itera sobre cada índice (idx1) e sequência (seq1) na lista seqs
        res[str(idx1)]= dict() 
#Para cada índice idx1, cria um novo dicionário vazio dentro do dicionário res
        for idx2, seq2 in enumerate(seqs): 
    #Para cada índice (idx2) e sequência (seq2) na lista seqs, executa o seguinte bloco de código
            if int(idx1) < int(idx2): 
#Verifica se o índice idx1 é menor que o índice idx2. .
                res[str(idx1)][str(idx2)] = fun_dist(seq1, seq2) 
#Calcula a distância entre seq1 e seq2 usando a função de distância fornecida (fun_dist) 
#armazena o resultado no dicionário associado às chaves idx1 e idx2 em res
    return res

"""
Função seqs_mais_prox: 
Encontra o par de sequências mais próximas na matriz de distância
#função chamada seqs_mais_prox que aceita um dicionário de distâncias (dist) e 
retorna uma tupla contendo os índices das duas sequências mais próximas
"""


def seqs_mais_prox(dist : dict[int, dict[int, int]]) -> tuple[int, int]: 
        menor = None 
#Inicializa a variável menor como None, sendo que será usada para rastrear a menor distância 
        par = None 
#Inicializa a variável par como None, sendo que será usada para armazenar o par de sequências mais próximas.
        for idx1, D in dist.items(): #Itera sobre cada índice (idx1) e dicionário (D) no dicionário externo dist
            for idx2, val in D.items(): 
#Para cada índice (idx2) e valor (val) no dicionário interno D, executa o seguinte bloco de código:
                if menor is None or menor > val: 
#Verifica se menor é None ou se o valor atual (val) é menor que o valor atual de menor. 
# Se for o caso, atualiza menor e par com os valores atuais.
                    menor = val #Atualiza menor com o valor atual.
                    par = idx1, idx2 # Atualiza par com a tupla contendo os índices atuais.
        return par

"""
Função qdist: 
Obtém a distância entre duas sequências na matriz de distância, tratando casos onde a entrada pode ser invertida.
#função chamada qdist que aceita um dicionário (D) e dois índices (idx1 e idx2). 
A função tenta acessar a distância correspondente aos índices fornecidos no dicionário. 
Se a distância existir, ela é retornada. 
Caso contrário, a função tenta acessar a distância na ordem inversa (com os índices trocados) 
retorna o valor correspondente. 
Se ocorrer qualquer exceção durante esse processo, a função imprime os parâmetros e encerra o program
"""


def qdist(D, idx1, idx2): 
    try:
        if idx1 in D and idx2 in D[idx1]: 
#Verifica se idx1 existe como uma chave em D e se idx2 existe associado a idx1. 
# Se sim, retorna a distância correspondente.
            return D[idx1][idx2] #Retorna a distância correspondente aos índices fornecidos.
        return D[idx2][idx1] 
#Se o codigo anterior não for executado (indicando que a distância não foi encontrada com os índices originais), 
# tenta retornar a distância com os índices trocados.
    except Exception as e: 
#Se ocorrer uma exceção durante a execução do bloco try, captura a exceção e executa o seguinte bloco de código:
        print(D, idx1, idx2) #Imprime os parâmetros que causaram a exceção.
        exit()

"""
Função nova_matriz: 
Gera uma nova matriz de distância após a fusão de duas sequências mais próximas.
#função chamada nova_matriz que aceita um dicionário de distâncias (dist) e dois índices (idx1 e idx2). 
A função cria uma nova matriz de distâncias (novo) combinando as distâncias dos índices fornecidos
"""
        
def nova_matriz(dist : dict[int, dict[int, int]], idx1 : str, idx2 : str) -> dict[int, dict[int, int]]: 
    novo = dict() #Cria um novo dicionário chamado novo que representará a nova matriz de distâncias
    nchave = f"{idx1}+{idx2}" 
#Cria uma nova chave para a nova distância, concatenando os índices idx1 e idx2 com um sinal de adição.
    for chave, valor in dist.items(): # Itera sobre cada chave e valor no dicionário de distâncias dist
        if chave != idx1 and chave != idx2: 
#Verifica se a chave atual não é igual a idx1 e não é igual a idx2. Se verdadeiro, executa o seguinte bloco de código:
            d1 = qdist(dist, idx1, chave) #Calcula a distância entre idx1 e a chave atual usando a função qdist
            d2 = qdist(dist, idx2, chave) #Calcula a distância entre idx2 e a chave atual usando a função qdist
            novo[chave] = {nchave : (d1 + d2) / 2 } 
#Atualiza o dicionário novo com uma nova chave e um novo dicionário como valor. 
# Este novo dicionário tem uma chave (nchave) e um valor que é a média de d1 e d2.
            for k, v in valor.items(): 
#Itera sobre as chaves e valores no dicionário valor associado à chave atual em dist
                novo[chave][k] = v
#Atualiza o dicionário associado a chave em novo com as chaves e valores originais de dist
    novo[nchave] = {} 
#Adiciona uma entrada ao dicionário novo para a nova chave nchave, associando um dicionário vazio como valor
    return novo

"""
Criação das Matrizes e Fusões: O código inicializa uma matriz de distância D0 entre as sequências fornecidas, 
encontra as duas sequências mais próximas (I1 e I2), 
cria uma nova matriz D1 após a fusão dessas sequências, e repete esse processo para criar D2 e D3
"""

D0 = mat_dist('aatc aacc AGTT aagc agtc acgc'.upper().split(), dist) 
#Cria uma matriz de distâncias usando a função mat_dist com as sequências fornecidas e a função de distância dist
I1, I2 = seqs_mais_prox(D0) 
#Encontra os índices das duas sequências mais próximas na matriz de distâncias D0 
# usando a função seqs_mais_prox e atribui os valores a I1 e I2
D1 = nova_matriz(D0, I1, I2) 
#Cria uma nova matriz de distâncias (D1) combinando as distâncias 
# das sequências identificadas por I1 e I2 na matriz D0 usando a função nova_matriz
print(I1, I2) #mprime os índices das duas sequências mais próximas
print(D1) #Imprime a nova matriz de distâncias D1.


I1, I2 = seqs_mais_prox(D1) 
#Encontra os índices das duas sequências mais próximas na matriz de distâncias D1 
# usando a função seqs_mais_prox e atribui os valores a I1 e I2
D2 = nova_matriz(D1, I1, I2) 
#Cria uma nova matriz de distâncias (D2) combinando as distâncias 
# das sequências identificadas por I1 e I2 na matriz D1 usando a função nova_matriz.

print(I1, I2) #Imprime os índices das duas sequências mais próximas na matriz D1
print(D2) #Imprime a nova matriz de distâncias D2

I1, I2 = seqs_mais_prox(D2) 
#Encontra os índices das duas sequências mais próximas na matriz de distâncias D2 
# usando a função seqs_mais_prox e atribui os valores a I1 e I2
D3 = nova_matriz(D2, I1, I2) 
#Cria uma nova matriz de distâncias (D3) combinando as distâncias das sequências identificadas por I1 e I2 
# na matriz D2 usando a função nova_matriz

print(I1, I2) #Imprime os índices das duas sequências mais próximas na matriz D2
print(D3) #Imprime a nova matriz de distâncias D3

0 1
{'2': {'0+1': 2.5, '3': 3, '4': 1, '5': 3}, '3': {'0+1': 1.0, '4': 2, '5': 1}, '4': {'0+1': 1.5, '5': 2}, '5': {'0+1': 2.0}, '0+1': {}}
2 4
{'3': {'2+4': 2.5, '0+1': 1.0, '4': 2, '5': 1}, '5': {'2+4': 2.5, '0+1': 2.0}, '0+1': {'2+4': 2.0}, '2+4': {}}
3 0+1
{'5': {'3+0+1': 1.5, '2+4': 2.5, '0+1': 2.0}, '2+4': {'3+0+1': 2.25}, '3+0+1': {}}


In [None]:
#A partir das matrizes de distâncias podemos recorrer ao biopython para contruír a arvore filogenética.