### MotifEnumeration(Dna, k, d)
* A brute force algorithm for motif finding:
Given a collection of strings Dna and an integer d, a k-mer is a (k,d)-motif if it appears in every string from Dna with at most d mismatches. For example, the implanted 15-mer in the strings above represents a (15,4)-motif.

Implanted Motif Problem: Find all (k, d)-motifs in a collection of strings.

- Input: A collection of strings Dna, and integers k and d.
- Output: All (k, d)-motifs in Dna.

In [1]:
def HammingDistance(p, q):
    list1 = list(p) # Converte as strings em listas
    list2 = list(q) # Converte as strings em listas
    count = 0 # contador de diferenças
    for i in range(len(list1)):
        if list1[i] != list2[i]:
            count += 1
    return count

def suffix(pattern):
    suffix_pattern = pattern[1:]
    return suffix_pattern

def first_symbol(pattern):
    first_symbol = pattern[0]
    return first_symbol

def Neighbors(pattern, d):
    nucleotides = ['A', 'T', 'G', 'C']
    if d == 0:
        return pattern
    elif len(pattern) == 1:
        return nucleotides
    neighborhood = []
    suffix_Neighbors = Neighbors(suffix(pattern), d)
    for string_text in suffix_Neighbors:
        if HammingDistance(suffix(pattern), string_text) < d:
            for nucleotide in nucleotides:
                neighbor = nucleotide + string_text
                neighborhood.append(neighbor)
        else:
            neighbor = first_symbol(pattern) + string_text
            neighborhood.append(neighbor)           
    return neighborhood

def MotifEnumeration(Dna, k, d):
    """Encontra todos os k-mers comuns em Dna com até d mismatches."""
    Patterns = set()  # Para armazenar os padrões encontrados
    # Itera sobre cada k-mer da primeira string
    for i in range(len(Dna[0]) - k + 1):
        Pattern = Dna[0][i:i+k]
        neighborhood = Neighbors(Pattern, d)  # Gera vizinhos com até d mismatches
        # Imprime os vizinhos gerados
        # print(f"Pattern: {Pattern}, Neighbors: {neighborhood}")
        # Verifica cada vizinho gerado
        for neighbor in neighborhood:
            appears_in_all = True                 # Supõe inicialmente que o vizinho aparece em todas as strings
            for dna in Dna:                       # Para cada string no conjunto Dna
                found = False                     # Inicializa como não encontrado na string atual
                for j in range(len(dna) - k + 1): # Percorre todos os k-mers dessa string
                    kmer = dna[j:j+k]             # Extrai o k-mer atual
                    if HammingDistance(neighbor, kmer) <= d:  # Verifica similaridade
                        found = True              # Marca como encontrado
                        break                     # Para de buscar na string atual
                if not found:                     # Se o vizinho não foi encontrado nesta string
                    appears_in_all = False        # Marca que ele não aparece em todas
                    break                         # Para de verificar as outras strings
            if appears_in_all:                    # Se o vizinho aparece em todas as strings
                Patterns.add(neighbor)            # Adiciona ao conjunto de padrões
    return Patterns

Dna = ["AAGGTGGCAAGCCCGTCTCTGCGAT",
       "TCACGGGCAAGTCACTAGGGGCCAC",
       "GCAGGCTCTCGGCGATTTAAACCCG",
       "ATACTCTGTGTGCGCGGCAAACTTG",
       "TCTCAAGGCTTGGCGAAGGCGGCGA",
       "CATGAATAGGTAGCGTGTTCGGCCA"]
k = 6
d = 1

print(MotifEnumeration(Dna, k, d))

{'CGGCAA'}
