In [None]:
'''
A instação da biblioteca *tabulate* permite a utilização de um conjunto de ferramentas de forma a ter um output mais organizado
'''

# pip install tabulate

In [2]:
'''
O *import* do módulo tabulate irá permitir a utilização das funções e classes fornecidas pelo *tabulate* para formatar e exibir dados tabulares
'''
# from tabulate import tabulate

seqs = ['TGACTATACGTATGGTAGAT', 'ATCGTATACGTAGGTAGAC', 'TAGCTAGTCGTATGGTAGAT']
pseudo = 0.5

def pwm(seqs: list[str], pseudo: float = 0) -> list[dict[str, float]]:
  alfabeto = 'ACGT'

  """
  Calcula a matriz PWM (Matriz de Peso e Posição) para as sequências fornecidas

  Parâmetros
  -------------
  seqs : list[str]
      Recebe uma lista de strings que representam as sequências

  pseudo : float = 0
      Recebe um valor opcional, pseudo, que em caso de omissão é = 0


  Retorna
  -------------
  pwm_matrix : list[dict[str, float]]
      Retorna uma *lista de dicionários*, onde cada *dicionário* terá uma chave no formato de *string*, e um valor no formato de *float*

  """

  for seq in seqs:
    for idx, b in enumerate(seq):
      assert b in alfabeto, f'Caracter {b} na posição {idx} da sequência {seq} inválido!'

  pwm_matrix = [{b: (pos.count(b) + pseudo) / (len(seqs) + len(alfabeto) * pseudo)
    for b in alfabeto}
      for pos in zip(*seqs)]

  return pwm_matrix

resultado = pwm(seqs, pseudo)  # Associação do resultado da função a uma variável de forma a ser mais fácil imprimir o resultado

# Impressão da matriz formatada com o módulo tabulate
headers = ["Base"] + [f"Posição {i+1}" for i in range(len(seqs[0]))]
table = [[base] + [round(resultado[i][base], 3) for i in range(len(resultado))] for base in "ACGT"]
print(tabulate(table, headers))

Base      Posição 1    Posição 2    Posição 3    Posição 4    Posição 5    Posição 6    Posição 7    Posição 8    Posição 9    Posição 10    Posição 11    Posição 12    Posição 13    Posição 14    Posição 15    Posição 16    Posição 17    Posição 18    Posição 19
------  -----------  -----------  -----------  -----------  -----------  -----------  -----------  -----------  -----------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------  ------------
A               0.3          0.3          0.3          0.1          0.1          0.7          0.1          0.5          0.1           0.1           0.1           0.7           0.1           0.1           0.1           0.3           0.5           0.3           0.5
C               0.1          0.1          0.3          0.5          0.1          0.1          0.1          0.1          0.7           0.1           0.1           0.1           0.1           0.1           0.1 

In [44]:
def prob_seq(sequence, resultado):
    """
    Calcula a probabilidade de uma sequência utilizando como base a função PWM

    Parâmetros
    -------------
    sequence : str 
        A sequência de DNA 
     
    resultado : list[dict[str, float]] 
        Variável que contém o resultado da função PWM, onde cada dicionário representa as probabilidades para cada base em uma posição

    Retorna
    -------------
    probabilidade : float 
        A probabilidade da sequência com base na PWM
    
    """
    
    probabilidade = 1.0

    for position, base in enumerate(sequence):
        if base in resultado[position]:
            probabilidade *= resultado[position][base]
        else:
            probabilidade *= 0.01  # Atribui uma probabilidade mínima de 0.01 para bases ausentes.

    return probabilidade

seq = 'ATA'
probabilidade = prob_seq(seq, resultado)

print(f"A probabilidade da sequência '{seq}' é de: \n{probabilidade}")

A probabilidade da sequência 'ATA' é de: 
0.027


In [43]:
# import re

def seq_provavel(seq, resultado):
  
  '''
  Calcula qual a Sequência mais provável

  Parâmetros
  -------------
  seq : str
    A sequência de DNA
  
  resultado : list[dict[str, float]] 
    Variável que contém o resultado da função PWM, onde cada dicionário representa as probabilidades para cada base em uma posição
  
  
  Retorna
  -------------
  str 
    A Sequência mais provável dentro da Sequência dada
  '''
  
  dicionario = {}
  for subset in re.findall('(?=(....))', seq):
    dicionario[subset] = (prob_seq(subset, resultado))
  return max(dicionario, key=dicionario.get)


seq = "CATTGT"
mais_provavel = seq_provavel(seq, resultado)

print(f'A Sequência mais provável, dentro da Sequência {seq}, é {mais_provavel}.')

A Sequência mais provável, dentro da Sequência CATTGT, é TTGT.
