# Motifs Probabilísticos

Os **motifs** probabilísticos em Python referem-se a padrões ou sequências de eventos que ocorrem com uma certa probabilidade num conjunto de dados. 

Em bioinformática, por exemplo, os **motifs** podem representar padrões de nucleótidos em sequências de ADN, podendo também ser utilizados para encontrar regiões conservadas em sequências de ADN ou RNA.

As funções, **PWM** e **PSSM**, são ferramentas essenciais na análise de dados genómicos, na identificação de elementos regulatórios importantes nas sequências do ADN e na identificação de **motifs** conservados em regiões regulatórias do ADN. 

> ### Função PWM

A **função PWM** (Position Weight Matrix) é uma técnica amplamente utilizada na bioinformática para modelar padrões de consenso em sequências biológicas, como ADN ou proteínas. 

Consiste numa matriz que representa a frequência relativa de cada base em cada posição ao longo de um conjunto de sequências alinhadas.

Em primeiro lugar, procedeu-se à instalação da biblioteca tabulate que permite a utilização de um conjunto de ferramentas de forma a ter um output mais organizado.

In [6]:
pip install tabulate

Collecting tabulate
  Downloading tabulate-0.9.0-py3-none-any.whl (35 kB)
Installing collected packages: tabulate
Successfully installed tabulate-0.9.0
Note: you may need to restart the kernel to use updated packages.



A função **pwm** tem como objetivo calcular a matriz PWM (Matriz de Peso e Posição) para um conjunto de sequências fornecidas. Ela recebe uma lista de strings que representam as sequências (seqs) e um valor opcional chamado pseudo (pseudo), que por padrão é igual a 0.

A função realiza algumas verificações iniciais, garantindo que as sequências fornecidas são válidas. Em caso de sequências inválidas, a função lança um AssertionError. Além disso, ela verifica se cada elemento da lista de sequências é uma string.

A função utiliza um alfabeto padrão de DNA ('ACGT') e, para cada posição em todas as sequências, calcula a frequência relativa de cada base (A, C, G, T) naquela posição. O cálculo considera um termo de pseudo contabilizado para evitar divisões por zero. O resultado é uma lista de dicionários, onde cada dicionário representa uma posição na matriz PWM. As chaves dos dicionários são as bases do DNA ('A', 'C', 'G', 'T'), e os valores são as frequências relativas calculadas.

Por fim, a função retorna a matriz PWM como uma lista de dicionários.

In [1]:
def pwm(seqs: list[str], pseudo: float = 0) -> list[dict[str, float]]:
  
  """
  Calcula a matriz PWM (Matriz de Peso e Posição) para as sequências fornecidas

  Parâmetros
  -------------
  seqs : list[str]
      Recebe uma lista de strings que representam as sequências

  pseudo : float
      Recebe um valor opcional, pseudo, que em caso de omissão é = 0


  Retorna
  -------------
  pwm_matrix : list[dict[str, float]]
      Retorna uma *lista de dicionários*, onde cada *dicionário* terá uma chave no formato de *string*, e um valor no formato de *float*

  Levanta
  -------------
  AssertError
      Caso a lista de sequências contenha sequências inválida
  

  """
  
  from scripts.auxiliares import validar_dna

  for seq in seqs:
    assert validar_dna(seq), ("Sequência inválida")
    
    
  alfabeto = 'ACGT'

  for seq in seqs:
    for idx, b in enumerate(seq):
      assert b in alfabeto, f'Caracter {b} na posição {idx} da sequência {seq} inválido!'

  pwm_matrix = [{b: (pos.count(b) + pseudo) / (len(seqs) + len(alfabeto) * pseudo)
    for b in alfabeto}
      for pos in zip(*seqs)]

  return pwm_matrix

**Exemplo**:

In [9]:
seqs = ['TGACTATACGTATGGTAGAT', 'ATCGTATACGTAGGTAGAC', 'TAGCTAGTCGTATGGTAGAT']
pseudo = 0
# Associação do resultado da função a uma variável de forma a ser mais fácil imprimir o resultado
resultado = pwm(seqs, pseudo)
print(resultado)
# Impressão da matriz formatada com o módulo tabulate
from tabulate import tabulate
headers = ["Base"] + [f"Posição {i+1}" for i in range(len(seqs[0]))]
table = [[base] + [round(resultado[i][base], 3) for i in range(len(resultado))] for base in "ACGT"]
print(tabulate(table, headers))


[{'A': 0.3333333333333333, 'C': 0.0, 'G': 0.0, 'T': 0.6666666666666666}, {'A': 0.3333333333333333, 'C': 0.0, 'G': 0.3333333333333333, 'T': 0.3333333333333333}, {'A': 0.3333333333333333, 'C': 0.3333333333333333, 'G': 0.3333333333333333, 'T': 0.0}, {'A': 0.0, 'C': 0.6666666666666666, 'G': 0.3333333333333333, 'T': 0.0}, {'A': 0.0, 'C': 0.0, 'G': 0.0, 'T': 1.0}, {'A': 1.0, 'C': 0.0, 'G': 0.0, 'T': 0.0}, {'A': 0.0, 'C': 0.0, 'G': 0.3333333333333333, 'T': 0.6666666666666666}, {'A': 0.6666666666666666, 'C': 0.0, 'G': 0.0, 'T': 0.3333333333333333}, {'A': 0.0, 'C': 1.0, 'G': 0.0, 'T': 0.0}, {'A': 0.0, 'C': 0.0, 'G': 1.0, 'T': 0.0}, {'A': 0.0, 'C': 0.0, 'G': 0.0, 'T': 1.0}, {'A': 1.0, 'C': 0.0, 'G': 0.0, 'T': 0.0}, {'A': 0.0, 'C': 0.0, 'G': 0.3333333333333333, 'T': 0.6666666666666666}, {'A': 0.0, 'C': 0.0, 'G': 1.0, 'T': 0.0}, {'A': 0.0, 'C': 0.0, 'G': 0.6666666666666666, 'T': 0.3333333333333333}, {'A': 0.3333333333333333, 'C': 0.0, 'G': 0.0, 'T': 0.6666666666666666}, {'A': 0.6666666666666666, '

**Testes de unidade**:

Foi desenvolvida uma função denominada **prob_seq** que calcula a probabilidade de uma sequência utilizando como base a função PWM.

A função calcula a probabilidade de uma determinada sequência de ADN com base na matriz PWM (Matriz de Peso e Posição). Em primeiro lugar,inicializa a variável probabilidade com o valor 1.0. De seguida, itera sobre cada posição e base na sequência fornecida. Para cada base, a função verifica se a base está presente no dicionário correspondente à posição na matriz PWM (resultado). Se estiver, multiplica a probabilidade acumulada pela probabilidade da base naquela posição. Se a base não estiver presente, atribui uma probabilidade mínima de 0.01 à base ausente.

Ao percorrer toda a sequência, a função retorna a probabilidade final da sequência com base na matriz PWM fornecida.

In [27]:
def prob_seq(sequence, resultado):
    """
    Calcula a probabilidade de uma sequência utilizando como base a função PWM

    Parâmetros
    -------------
    sequence : str 
        sequência de DNA 
     
    resultado : list[dict[str, float]] 
        Variável que contém o resultado da função PWM, onde cada dicionário representa as probabilidades para cada base numa posição

    Retorna
    -------------
    probabilidade : float 
        A probabilidade da sequência com base na PWM
    
    """
    
    from scripts.auxiliares import validar_dna

    if not isinstance(seq, str):
        raise AssertionError("A sequência deve ser uma string")
    
    assert validar_dna(seq), ("Sequência inválida")
    
    probabilidade = 1.0

    for position, base in enumerate(sequence):
        if base in resultado[position]:
            probabilidade *= resultado[position][base]
        else:
            probabilidade *= 0.01  # Atribui uma probabilidade mínima de 0.01 para bases ausentes.

    return probabilidade

**Exemplo**:

In [7]:
seq = 'ATA'
probabilidade = prob_seq(seq, resultado)

print(f"A probabilidade da sequência '{seq}' é de: \n{probabilidade}")

A probabilidade da sequência 'ATA' é de: 
0.037037037037037035


**Testes de unidade**:

In [13]:
import re

'''
O import do módulo re (expressões regulares) é realizado para procurar em todas as posições da sequência, onde é possível encontrar um grupo de quatro caracteres
'''

def seq_provavel(seq, resultado):
  
  '''
  Calcula qual a Sequência mais provável

  Parâmetros
  -------------
  seq : str
    A sequência de DNA
  
  resultado : list[dict[str, float]] 
    Variável que contém o resultado da função PWM, onde cada dicionário representa as probabilidades para cada base em uma posição
  
  
  Retorna
  -------------
  str 
    A Sequência mais provável dentro da Sequência dada
  '''
  
  dicionario = {}
  for subset in re.findall('(?=(....))', seq):
    dicionario[subset] = (prob_seq(subset, resultado))
  return max(dicionario, key=dicionario.get)

**Exemplo**:

In [12]:
seq = "CATTGT"
mais_provavel = seq_provavel(seq, resultado)

print(f'A Sequência mais provável, dentro da Sequência {seq}, é: {mais_provavel}.')

A Sequência mais provável, dentro da Sequência CATTGT, é: CATT.


**Testes de unidade**:

>### Função PSSM

A **função PSSM** (Position-Specific Scoring Matrix) é uma extensão da PWM. 

Enquanto a PWM representa a frequência relativa das bases, a PSSM atribui uma pontuação para cada base em cada posição, levando em consideração a probabilidade logarítmica da ocorrência de uma base em relação a uma distribuição de probabilidade de fundo.

In [None]:
import math

'''
O import do módulo math é realizado para a utilização da função log2, necessária para o cálculo da função
'''

seqs = ['TGACTATACGTATGGTAGAT', 'ATCGTATACGTAGGTAGAC', 'TAGCTAGTCGTATGGTAGAT']

def pssm(seqs, pseudo = 1):

  """
  Calcula a Matriz de Pontuação de Posição Específica (PSSM) para um conjunto de sequências de DNA.

  Parâmetros
  -------------
  seqs : list[str]
    Lista de sequências de DNA.

  pseudo : float 
    Valor de pseudocount a ser adicionado para evitar problemas com probabilidades zero.


  Retorna
  -------------
  lista : list[dict[str, float]]
    Uma lista de dicionários que representa a PSSM.
  """

  bases = 'ATCG'
  lista = []

  for pos in list(zip(*seqs)):
    dicionario = {}
    for b in bases:
      # Fórmula da PSSM: log2((contagem da base + pseudocount) / (total de sequências + total de bases * pseudocount)) / 0.25
      dicionario[b] = math.log2((pos.count(b) + pseudo) / (len(seqs) + len(bases)*pseudo)) / 0.25

    lista.append(dicionario)
  return lista

matriz_pssm = pssm(seqs, pseudo = 1)

# O Table e o Headers já foram definidos para a função PWM

headers = ["Base"] + [f"Posição {i+1}" for i in range(len(seqs[0]))]
table = [[base] + [round(matriz_pssm[i][base], 3) for i in range(len(matriz_pssm))] for base in "ACGT"]
print(tabulate(table, headers))