## Algoritmo Exaustivo

In [1]:
def proximo(offset, num_seqs, limite):
    pos = 0

    while pos < num_seqs:
        offset[pos] +=1

        if offset[pos] < limite:
            return offset

        offset[pos] = 0
        pos += 1

def enumerar(num_seqs,tam_seqs,tam_motifs,):
    estado = [0] * num_seqs
    limite = tam_seqs - tam_motifs + 1

    while estado is not None:
        yield tuple(estado)
        estado = proximo(estado, num_seqs, limite)

def score(seqs, offset, tam_motif):
    snips = [s[p: p + tam_motif] for p,s in zip(offset, seqs)]
    return sum(max([col.count(x) for x in col]) for col in zip(*snips))

def motif(seqs, num_seqs, tam_seq, tam_motif):

    assert all(len(s) == tam_seq for s in seqs)
    
    maior_s = 0
    for estado in enumerar(num_seqs, tam_seq, tam_motif):
        atual = score(seqs, estado, tam_motif)
        if atual > maior_s:
            melhor_pos = estado
            maior_s = atual

    return (melhor_pos, maior_s)

In [2]:
seqs = "ATGGTCGC TTGTCTGA CCGTAGTA".split()
motif(seqs, 3, 8, 3)

((3, 2, 2), 8)

In [3]:
seqs = "ATGGTCGC TTGTCTGA CCGTAGTA ATGCTAGC ATGGGTAG AGTAGCGC GGTAGATG TATATAAG".split()
motif(seqs, 8, 8, 3)

((1, 0, 3, 4, 5, 2, 2, 0), 21)

In [9]:
seqs = """cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat
agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc
aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt
agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca
ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc""".splitlines()
motif(seqs, 5, len(seqs[0]), 8)

KeyboardInterrupt: 

## Algoritmo Branch and Bound

In [None]:
def score_bb(seqs, offset, tam_motif):
    # Extract motifs from sequences based on the given offsets
    snips = [s[p: p + tam_motif] for p, s in zip(offset, seqs)]
    
    # Calculate the score: sum of the highest frequency of any nucleotide/character in each column
    return sum(max(col.count(x) for x in set(col)) for col in zip(*snips))

def branch_and_bound(offset, num_seqs, limite, tam_motifs, estado_global, seqs, level=0):
    """ Branch and Bound implementation to find the best motif alignment """
    
    # Base case: if all offsets have been filled
    if level == num_seqs:  
        # Calculate the score for the current motif alignment
        atual = score_bb(seqs, offset, tam_motifs)
        
        # If the current score is better than the global best, update the best score and positions
        if atual > estado_global["maior_s"]:
            estado_global["maior_s"] = atual
            estado_global["melhor_pos"] = offset[:]
        else:
            return

    # Branching: Generate candidates for the current level
    for pos in range(limite):
        offset[level] = pos  # Set the current offset for this sequence
        
        # Calculate the partial score with the new offset configuration
        atual = score_bb(seqs, offset[:level+1], tam_motifs)

        # Bounding: If the maximum possible score for this branch is still better than the global best, explore it
        limite_superior = atual + (num_seqs - level - 1) * tam_motifs
        
        # If the upper bound of this branch is greater than the current best score, recurse further
        if limite_superior > estado_global["maior_s"]:
            branch_and_bound(offset, num_seqs, limite, tam_motifs, estado_global, seqs, level+1)

def motif_bb(seqs, num_seqs, tam_seq, tam_motif):
    """ Function to start the Branch and Bound search for the best motif alignment """
    
    # Ensure all sequences are of the expected length
    assert all(len(s) == tam_seq for s in seqs)

    # Initialize the global state: store the best score and positions
    estado_global = {"maior_s": 0, "melhor_pos": None}
    
    # Initialize the list of offsets (start at position 0 for each sequence)
    offset = [0] * num_seqs
    
    # Calculate the limit for valid offset values (based on sequence length and motif length)
    limite = tam_seq - tam_motif + 1

    # Start the Branch and Bound process
    branch_and_bound(offset, num_seqs, limite, tam_motif, estado_global, seqs)

    # Return the best motif positions and the corresponding score found
    return estado_global["melhor_pos"], estado_global["maior_s"]

In [5]:
seqs = "ATGGTCGC TTGTCTGA CCGTAGTA".split()
motif_bb(seqs, 3, 8, 3)

([3, 2, 2], 8)

In [8]:
seqs = """cctgatagacgctatctggctatccacgtacgtaggtcctctgtgcgaatctatgcgtttccaaccat
agtactggtgtacatttgatacgtacgtacaccggcaacctgaaacaaacgctcagaaccagaagtgc
aaacgtacgtgcaccctctttcttcgtggctctggccaacgagggctgatgtataagacgaaaatttt
agcctccgatgtaagtcatagctgtaactattacctgccacccctattacatcttacgtacgtataca
ctgttatacaacgcgtcatggcggggtatgcgttttggtcgtcgtacgctcgatcgttaacgtacgtc""".splitlines()
motif_bb(seqs, 5, len(seqs[0]), 8)

([25, 20, 2, 55, 59], 40)

## Gibbs Sampling - Método Heurístico Estocástico

Code for PWM

In [None]:
# Função para criar uma tabela de contagens de nucleótidos ou aminoácidos em cada posição
def tabela_contagens(seqs, alfabeto="ACGT", pseudocontagem=0):
    """
    Cria uma tabela de contagens para um conjunto de sequências.

    Args:
        seqs: Lista de sequências alinhadas.
        alfabeto: Conjunto de caracteres válidos (ex.: "ACGT" para DNA).
        pseudocontagem: Valor a ser somado às contagens reais (para evitar zeros).

    Returns:
        Lista de dicionários, onde cada dicionário contém as contagens dos caracteres
        do alfabeto em uma posição específica.
    """
    # `zip(*seqs)` alinha os caracteres por posição entre todas as sequências
    return [{b: occ.count(b) + pseudocontagem for b in alfabeto} for occ in zip(*seqs)]

# Função para calcular a Matriz de Pesos Posicionais (PWM)
def pwm(seqs, tipo="DNA", pseudocontagem=0):
    """
    Calcula a PWM para um conjunto de sequências alinhadas.

    Args:
        seqs: Lista de sequências alinhadas.
        tipo: Tipo de sequência ("DNA" ou "PROTEIN").
        pseudocontagem: Valor a ser somado às contagens reais.

    Returns:
        Lista de dicionários representando a PWM, onde cada dicionário contém
        as probabilidades normalizadas para cada posição.
    """
    # Verifica se todas as sequências têm o mesmo tamanho
    assert all(len(seqs[0]) == len(s) for s in seqs), "As sequências não têm todas o mesmo tamanho!"
    
    # Define o alfabeto com base no tipo de sequência
    tipo = tipo.upper()
    assert tipo in "DNA PROTEIN".split(), f"Tipo {tipo} inválido!"
    alfabeto = "ACGT" if tipo == "DNA" else "ARNDCQEGHILKMFPSTWYVBZX_"

    # Cria a tabela de contagens com pseudocontagens
    tabela = tabela_contagens(seqs, alfabeto=alfabeto, pseudocontagem=pseudocontagem)

    # L: Número de sequências (linhas), A: Tamanho do alfabeto
    L = len(seqs[0])
    A = len(alfabeto)

    # Normaliza as contagens para calcular probabilidades
    return [{k: v / (L + A * pseudocontagem) for k, v in linha.items()} for linha in tabela]

# Função para imprimir a PWM com valores arredondados
def imprime_pwm(pwm, casas_decimais=2):
    """
    Arredonda os valores de uma PWM para o número de casas decimais especificado.

    Args:
        pwm: PWM gerada pela função `pwm`.
        casas_decimais: Número de casas decimais para arredondar os valores.

    Returns:
        Lista de dicionários com os valores arredondados.
    """
    return [{k: round(v, casas_decimais) for k, v in linha.items()} for linha in pwm]

# Função para calcular a probabilidade de gerar uma sequência a partir da PWM
def prob_gerar_sequencia(seq, pwm):
    """
    Calcula a probabilidade de gerar uma sequência específica com base em uma PWM.

    Args:
        seq: Sequência a ser avaliada.
        pwm: Matriz de Pesos Posicionais.

    Returns:
        Probabilidade da sequência dada ocorrer.
    """
    assert len(seq) == len(pwm), "O tamanho da sequência e da PWM devem ser iguais!"

    prob = 1
    # Multiplica as probabilidades de cada posição
    for letra, coluna in zip(seq, pwm):
        prob *= coluna[letra]
    return prob

# Função para encontrar a subsequência mais provável em uma sequência maior
def seq_mais_provavel(seq, pwm):
    """
    Encontra a subsequência mais provável em uma sequência com base na PWM.

    Args:
        seq: Sequência maior onde a subsequência será procurada.
        pwm: Matriz de Pesos Posicionais.

    Returns:
        Lista de subsequências que têm a maior probabilidade.
    """
    import re
    assert len(seq) >= len(pwm), "O tamanho da sequência deve ser maior ou igual ao da PWM!"
    
    L = len(pwm)  # Comprimento do motif

    # Define um padrão que extrai subsequências de comprimento L
    R = '.' * L
    probs = {}

    # Calcula as probabilidades de todas as subsequências possíveis
    for s in re.findall(f'(?=({R}))', seq):
        probs[s] = prob_gerar_sequencia(s, pwm)

    # Encontra a maior probabilidade e retorna as subsequências que a possuem
    maior_prob = max(probs.values())
    return sorted(set([k for k, v in probs.items() if v >= maior_prob]))

Code for Gibbs Sampling 

In [None]:
def gibbs_samp(seqs, num_seqs, tam_seq, tam_motif):
    
    assert all(len(s) == tam_seq for s in seqs)

### Unit testing

função a gerar pedaço de dna

fazer teste à mão

ingetar sequencia do teste à mão aos pedaços de dna

opcional: mudar nulceotido da sequencia ingetada para não ser biased