* Randomized Pattern Search

O algoritmo **Randomized Pattern Search** busca identificar padrões conservados em múltiplas sequências de DNA, utilizando um processo iterativo com perfis probabilísticos.

#### Funções Principais

* RandomizedPatternSearch(Dna, k, t)
  - Esta função é a principal do algoritmo. Ela busca os padrões mais conservados em uma lista de sequências de DNA.
  - Inicializa com padrões aleatórios usando a função `RandomPatterns`.
  - Gera perfis com pseudocontagens e encontra os padrões mais prováveis até encontrar o conjunto de padrões com o melhor score.

* RandomPatterns(Dna, k, t)
  - Gera k-mers aleatórios de comprimento \(k\) para cada sequência de DNA.

* Patterns(Profile, Dna)
  - Dado um perfil e uma lista de sequências de DNA, encontra os k-mers mais prováveis em cada sequência, baseado no perfil fornecido.

* ProfileMostProbablePattern(Text, k, Profile)
  - Identifica o k-mer mais provável em uma sequência de DNA com base nas probabilidades dadas por um perfil.

* Pr(Pattern, Profile)
  - Calcula a probabilidade de um k-mer ocorrer, dado um perfil.

* Outros Conceitos

- **Padrão**: Um k-mer (subsequência de DNA de comprimento \(k\)) extraído de uma sequência maior.
- **Perfil**: Matriz de probabilidades que descreve a frequência esperada de nucleotídeos em cada posição de um k-mer.
- **Pseudocontagens**: Contagens artificiais adicionadas para evitar probabilidades de zero.

Este código implementa uma versão do algoritmo de busca de padrões que busca minimizar a diferença entre os padrões encontrados e a sequência consenso gerada a partir do perfil.

```
RandomizedMotifSearch(Dna, k, t)
    randomly select k-mers Motifs = (Motif1, …, Motift) in each string from Dna
    BestMotifs ← Motifs
    while forever
        Profile ← Profile(Motifs)
        Motifs ← Motifs(Profile, Dna)
        if Score(Motifs) < Score(BestMotifs)
            BestMotifs ← Motifs
        else
            return BestMotifs
```
Code Challenge: Implement RandomizedMotifSearch.

* Input: Integers k and t, followed by a space-separated collection of strings Dna.
* Output: A collection BestMotifs resulting from running RandomizedMotifSearch(Dna, k, t) 1,000 times. Remember to use pseudocounts!

In [None]:
import random

def RandomMotifs(Dna, k, t):
    random_motifs = []
    for i in range(t):
        debut = random.randint(0, len(Dna[i]) - k)
        kmer = Dna[i][debut: debut + k]
        random_motifs.append(kmer)
    return random_motifs

def Motifs(Profile, Dna):
    k = len(Profile["A"])
    motifs = []
    for sequence in Dna:
        best_kmers = ProfileMostProbablePattern(sequence, k, Profile)
        motifs.append(best_kmers)
    return motifs

def ProfileMostProbablePattern(Text, k, Profile):
    k = len(Profile["A"])
    max_prob = -1
    kmer_most_prob = ""
    for i in range(len(Text) - k + 1):
        kmer = Text[i:i+k]
        prob = Pr(kmer, Profile)
        if prob > max_prob:
            max_prob = prob
            kmer_most_prob = kmer
    return kmer_most_prob

def Pr(Pattern, Profile):
    p = 1.0
    for i in range(len(Pattern)):
        base = Pattern[i]
        p *= Profile[base][i]
    return p

def HammingDistance(seq1, seq2):
    return sum(s1 != s2 for s1, s2 in zip(seq1, seq2))

def Score(Motifs):
    f = len(Motifs[0])
    score = 0
    consensus_seq = ""
    for i in range(f):
        column = []
        for motif in Motifs:
            column.append(motif[i])
        most_common_base = max(set(column), key=column.count)
        score += HammingDistance(column, [most_common_base] * len(column))
        consensus_seq += most_common_base
    # print(consensus_seq)
    return score

def CountWithPseudocounts(Motifs):
    k = len(Motifs[0])
    count = {'A': [0] * k, 'C': [0] * k, 'G': [0] * k, 'T': [0] * k}
    for motif in Motifs:
        for i in range(k):
            count[motif[i]][i] += 1

    for liste in count.values():
        for j in range(len(liste)):
            liste[j] += 1
    return count

def ProfileWithPseudocounts(Motifs):
    t = len(Motifs)
    counts = CountWithPseudocounts(Motifs)
    profile = {}
    for base in "ATCG":
        profile[base] = []
        for valueinlist in counts[base]:
            freq = valueinlist/(t + 4)
            profile[base].append(freq)
    return profile

def RandomizedMotifSearch(Dna, k, t):
    M = RandomMotifs(Dna, k, t)
    BestMotifs = M
    while True:
        Profile = ProfileWithPseudocounts(M)
        M = Motifs(Profile, Dna)
        # score = Score(M)
        if Score(M) < Score(BestMotifs):
            BestMotifs = M
        else:
            return BestMotifs

# def aspas_vir_str():
#     with open("dataset_30307_5 (1).txt", "r") as file_1:
#         linhas_1 = file_1.readlines()
#     Text = linhas_1[1].strip()
#     string_original = Text
#     palavras = string_original.split()
#     palavras_com_aspas_e_virgulas = ['"' + palavra + '",' for palavra in palavras]
#     string_final = ' '.join(palavras_com_aspas_e_virgulas)
#     return string_final

# def RunRandomizedMotifSearch(Dna, k, t, iterations=1000):
#     best_motifs = RandomizedMotifSearch(Dna, k, t)
#     best_score = Score(best_motifs)
    
#     for _ in range(iterations - 1):
#         motifs = RandomizedMotifSearch(Dna, k, t)
#         current_score = Score(motifs)
#         if current_score < best_score:
#             best_motifs = motifs
#             best_score = current_score
            
#     return best_motifs

k = 3
t = 4
Dna = ['ATGAGGTC', 'GCCCTAGA', 'AAATAGAT', 'TTGTGCTA']

print(RandomizedMotifSearch(Dna, k, t))
# print(RunRandomizedMotifSearch(Dna, k, t, iterations=1000))