# Motifs

### Motifs Probabilísticos 

Motifs probabilísticos são padrões em sequências biológicas, como DNA ou proteínas, modelados com base em probabilidades. Eles representam a probabilidade de ocorrência de diferentes nucleotídeos ou aminoácidos em cada posição de um padrão. Estes são geralmente expressos por meio de PWM (Matriz de Probabilidade Ponderada) ou por PSSM (Matriz de Pontuação de Posição Específica). Os motifs proporcionam uma representação mais realista da variabilidade biológica.

Na área de bioinformática, esses motifs podem representar padrões de nucleótidos em sequências de DNA, sendo úteis para identificar regiões conservadas nesses ácidos nucleicos. Revelando-se como ferramentas indispensaveis para compreender a regulação genética e identificar características fundamentais em estudos genômicos.

In [26]:
class Mat:
    """Implementação de uma matriz. 
    Definimos a classe Mat que para representar uma matriz, e ela possui métodos para obter 
    o número de linhas, o número de colunas, uma representação de string da matriz e permite a indexação usando [].
    """

    def __init__(self, rows, cols):
        #Inicia a matriz com zeros.
        self.mat = [[0 for c in range(cols)]
                    for r in range(rows)]

    def numRows(self):
        # Retorna o número de linhas na matriz
        return len(self.mat)

    def numCols(self):
        # Retorna o número de colunas na matriz
        return len(self.mat[0])

    def __str__(self):
        # Converte a matriz para uma representação de string
        return '\n'.join(' '.join(str(val) for val in row)
                         for row in self.mat)

    def __getitem__(self, n):
        # Interface para a indexação [], retorna a linha n da matriz
        return self.mat[n]

In [38]:
seqs = ['ATTG','ATCG','ATTC','ACTC']

seqs2 = """HEM13 CCCATTGTTCTC
HEM13 TTTCTGGTTCTC
HEM13 TCAATTGTTTAG
ANB1 CTCATTGTTGTC
ANB1 TCCATTGTTCTC
ANB1 CCTATTGTTCTC
ANB1 TCCATTGTTCGT
ROX1 CCAATTGTTTTG"""

seqs2 = [x.split()[1] for x in seqs2.splitlines()]

seqs3 = ["cfgd","cdss","qwel"]

seqs4 = ['ATTGT','ATCGT','ATTCT','ACTCT']

In [39]:
class Motifs:
    """Classe que permite gerar Motifs probabilisticos 
    """
    def __init__(self, list_seqs):
        """Contrutor do Motifs onde criámos o nosso Alfabeto(letters) e onde gerámos a nossa Matriz vazia (mat)

        Args:
            list_seqs (list): Lista contendo diferentes sequências biológicas
        """
        from collections import Counter
        # Inicializa a classe com a lista de sequências
        self.seqs = list_seqs
        # Cria um alfabeto único a partir das sequências
        self.letters = list(Counter([a for c in list_seqs for a in c]))
        # Inicializa uma matriz vazia com base no tamanho do alfabeto e das sequências
        self.mat = Mat(len(self.letters)+1, len(list_seqs[0])+1)
    
    def __repr__(self):
        # Retorna uma representação string da matriz ao chamar a função repr
        return print(self.mat)

    def __str__(self) -> str:
        # Retorna uma representação string da matriz ao chamar a função str
        return print(self.mat)

    def contagens(self):
        """Função que permite devolver a frequência dos elementos das sequências

        Returns:
            list: Matriz das Contagens 
        """
        # Atualiza a matriz com contagens de frequência dos elementos das sequências
        # A primeira linha e coluna são utilizadas para rotular as posições
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = coluna +1 
                self.mat[0][0] = "."                
                self.mat[linha +1][0] = self.letters[linha]
        return print(self.mat)

    def PWM (self, pseudo_count = 0):
        """Função que permite gerar a Matriz PWM

        Args:
            pseudo_count (int, optional): pseudocontagem. Defaults to 0.

        Returns:
            list: Matriz PWM
        """
        self.mat = Mat(len(self.letters)+1,len(self.seqs[0])+1)
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = f"  {coluna +1} "   " "  
                self.mat[0][0] = "."                
                self.mat[linha +1][0] = self.letters[linha] 
        try:      
            for c in range(1,len(self.letters)+ 1):
                for a in range(1,len(self.seqs)+ 1): 
                    self.mat[c][a] = round(float(self.mat[c][a] + pseudo_count + 0.01) / float(len(self.seqs)),3)
            return print(self.mat)

        except:
            for c in range(1,len(self.letters)+ 1):
                for a in range(1,len(self.seqs)+ 2): 
                    self.mat[c][a] = round(float(self.mat[c][a] + pseudo_count + 0.01) / float(len(self.seqs)),3)
            return print(self.mat)

    def PSSM(self, pseudo_count=0):
        """Função que permite gerar a Matriz PSSM

        Args:
            pseudo_count (int, optional): pseudocontagem. Defaults to 0.

        Returns:
            list: Matriz PSSM
        """
        # Atualiza a matriz com contagens de frequência e aplica pseudocounts
        self.mat = Mat(len(self.letters)+1, len(self.seqs[0])+1)
        from math import log2
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = f"  {coluna +1} "
                self.mat[0][0] = "."               
                self.mat[linha +1][0] = self.letters[linha] 
        try:
            for c in range(1, len(self.letters) + 1):
                for a in range(1, len(self.seqs) + 1): 
                    self.mat[c][a] = round((log2(((self.mat[c][a] + pseudo_count) / (len(self.seqs) + len(self.letters) * pseudo_count) / (1 / len(self.letters))))), 3)
            return print(self.mat)
        except:
            for c in range(1, len(self.letters) + 1):
                for a in range(1, len(self.seqs) + 2): 
                    self.mat[c][a] = round((log2(((self.mat[c][a] + pseudo_count) / (len(self.seqs) + len(self.letters) * pseudo_count) / (1 / len(self.letters))))), 3)
            return print(self.mat)

    def prob_seq(self, seq):
        """Função que permite devolver a probabilidade de uma sequência

        Args:
            seq (str): Sequência 

        Returns:
            float: Probabilidade da sequência 
        """

        self.mat = Mat(len(self.letters)+1, len(self.seqs[0])+1)
        prob = 1 
        # Atualiza a matriz com contagens de frequência
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = f"  {coluna +1} "   " " 
                self.mat[0][0] = "."               
                self.mat[linha +1][0] = self.letters[linha] 
        # Normaliza as frequências para probabilidades
        for c in range(1, len(self.letters) + 1):
            for a in range(1, len(self.seqs) + 1):
                self.mat[c][a] = round(float(self.mat[c][a] + 0.01) / float(len(self.seqs)), 3)
        
        # Calcula a probabilidade da sequência
        for c in range(1, len(self.seqs[0]) + 1):
            a = self.letters.index(seq[c - 1])
            prob *= self.mat[a + 1][c]
        return round(prob, 4)

    def most_prob_seq(self, pseudo_count=0):
        """Função que permite devolver a sequência mais provável de ocorrer

        Args:
            pseudo_count (int, optional): pseudocontagem. Defaults to 0.

        Returns:
            str: Sequência mais provável de ocorrer
        """

        self.mat = Mat(len(self.letters)+1, len(self.seqs[0])+1)
        resul = ""
        # Atualiza a matriz com contagens de frequência e aplica pseudocounts
        for c in self.seqs:
            for coluna in range(len(self.seqs[0])):
                linha = self.letters.index(c[coluna])
                self.mat[linha + 1][coluna + 1] += 1
                self.mat[0][coluna + 1] = f"  {coluna +1} "   " "  
                self.mat[0][0] = "."               
                self.mat[linha +1][0] = self.letters[linha] 
        # Normaliza as frequências para probabilidades
        for c in range(1, len(self.letters) + 1):
            for a in range(1, len(self.seqs) + 1):
                self.mat[c][a] = round(float(self.mat[c][a] + pseudo_count + 0.01) / float(len(self.seqs)), 3)
        list_temp= []
        list_final = []
        # Encontra a posição mais provável para cada coluna
        for c in range(1, len(self.seqs) + 1):
            for a in range(1, len(self.seqs) + 1):
                list_temp.append((self.mat[a][c], a))
            list_final.append(max(list_temp))
            list_temp =[]
        
        # Constrói a sequência mais provável
        for c in list_final:
            for a in range(1, len(self.seqs[0]) + 1):
                if a == c[1]:
                    resul += self.mat[a][0]
        return resul

In [40]:
a = Motifs(seqs)
a.contagens()

. 1 2 3 4
A 4 0 0 0
T 0 3 3 0
G 0 0 0 2
C 0 1 1 2


In [41]:
a.prob_seq("ATTG")

0.2845

In [42]:
a.most_prob_seq()

'ATTC'

In [43]:
import unittest  

class Test_Motifs (unittest.TestCase):

    seqs = ['ATTG','ATCG','ATTC','ACTC']


    def test_prob_seq (self):
        self.assertEqual(Motifs(seqs).prob_seq("ATTG"), 0.2845)


    def test_most_prob_seq (self):
        self.assertEqual(Motifs(seqs).most_prob_seq(), "ATTC")

unittest.main(argv=[''], exit=False)


..
----------------------------------------------------------------------
Ran 2 tests in 0.002s

OK


<unittest.main.TestProgram at 0x226547a3310>

In [54]:
# Criando uma instância da classe Motifs com a lista de sequências 
motifs_instance = Motifs(seqs)

# Exibindo as contagens
print("Contagens:")
motifs_instance.contagens()

# Gerando e exibindo a Matriz PWM com um pseudocontagem de 3
print("\nMatriz PWM:")
motifs_instance.PWM(3)

# Gerando e exibindo a Matriz PSSM com uma pseudocontagem de 1
print("\nMatriz PSSM:")
motifs_instance.PSSM(1)

# Calculando a probabilidade da sequência "ATTT"
print("\nProbabilidade da sequência 'ATTT':", motifs_instance.prob_seq("ATTT"))

# Encontrando a sequência mais provável
print("\nSequência mais provável:", motifs_instance.most_prob_seq())


Contagens:
. 1 2 3 4
A 4 0 0 0
T 0 3 3 0
G 0 0 0 2
C 0 1 1 2

Matriz PWM:
.   1     2     3     4  
A 1.752 0.752 0.752 0.752
T 0.752 1.502 1.502 0.752
G 0.752 0.752 0.752 1.252
C 0.752 1.002 1.002 1.252

Matriz PSSM:
.   1    2    3    4 
A 1.322 -1.0 -1.0 -1.0
T -1.0 1.0 1.0 -1.0
G -1.0 -1.0 -1.0 0.585
C -1.0 0.0 0.0 0.585

Probabilidade da sequência 'ATTT': 0.0017

Sequência mais provável: ATTC
