### FindClumps(Text, k, L, t)

O Problema de Localização de Agrupamentos é um problema mais complexo do que o que encontramos até agora, e escrever uma função que o resolva do zero seria difícil. No entanto, é aqui que a modularidade na escrita de programas é tão útil. Já temos uma função 'FrequencyTable' que produzirá uma tabela de frequência para uma determinada janela de uma sequência de caracteres de comprimento  'L'. 

Se a aplicarmos a uma determinada janela, então simplesmente precisamos verificar se há alguma chave de sequência de caracteres na tabela cujos valores sejam pelo menos iguais a  't'. Acrescentaremos quaisquer chaves que ainda não tenhamos visto em alguma outra janela de  texto  a uma lista crescente de sequências de caracteres. No final, essa lista de sequências de caracteres conterá os (L,t)-agrupamentos de  texto. Isso é tratado pela seguinte função 'FindClumps'.

In [None]:
#Pseudocode
'''FindClumps(Text, k, L, t)
    Patterns ← an array of strings of length 0
    n ← |Text|
    for every integer i between 0 and n − L
        Window ← Text(i, L)
        freqMap ← FrequencyTable(Window, k)
        for every key s in freqMap
            if freqMap[s] ≥ t
                append s to Patterns
    remove duplicates from Patterns
    return Patterns'''
    
def FrequencyMap(Text, k):
  freq = {}
  for i in range(len(Text)-k+1):
    Pattern = Text[i:i+k]
    if Pattern not in freq:
        freq[Pattern] = 1
    else:
        freq[Pattern] += 1  
  return freq
    
def FindClumps(Text, k, L, t):
    Patterns = []
    for i in range(len(Text)-k+1):
        Window = Text[i:i + L]
        freqMap = FrequencyMap(Window, k)
        for kmer in freqMap:
            if freqMap[kmer] >= t and kmer not in Patterns:
                Patterns.append(kmer)
    return Patterns

# with open('E_coli.txt', 'r') as file:
#     Text = file.read().strip() 
#     k = 9
#     L = 500
#     t = 3
#     print(FindClumps(Text, k, L, t))

### FindClumpsOptimized(Text, k, L, t)

In [1]:
from collections import defaultdict

def FrequencyMapSliding(Text, k):
    """Calcula o mapa de frequência para o primeiro intervalo e atualiza de forma incremental."""
    freq = defaultdict(int)  # Usa defaultdict para inicializar valores como 0
    for i in range(len(Text) - k + 1):
        kmer = Text[i:i+k]
        freq[kmer] += 1
    return freq

def FindClumpsOptimized(Text, k, L, t):
    """Encontra clumps de forma otimizada usando uma janela deslizante."""
    Patterns = set()
    freqMap = defaultdict(int)
    
    # Inicializa o mapa de frequência para a primeira janela de comprimento L
    window = Text[:L]
    for i in range(L - k + 1):
        kmer = window[i:i+k]
        freqMap[kmer] += 1
    
    # Verifica se algum k-mer já atende ao critério
    for kmer, count in freqMap.items():
        if count >= t:
            Patterns.add(kmer)
    
    # Desliza a janela ao longo do texto
    for i in range(1, len(Text) - L + 1):
        # Remove o primeiro k-mer da janela anterior
        first_kmer = Text[i-1:i-1+k]
        freqMap[first_kmer] -= 1
        if freqMap[first_kmer] == 0:
            del freqMap[first_kmer]
        
        # Adiciona o novo k-mer da janela atual
        new_kmer = Text[i+L-k:i+L]
        freqMap[new_kmer] += 1
        
        # Verifica se o novo k-mer atende ao critério
        if freqMap[new_kmer] >= t:
            Patterns.add(new_kmer)
    
    return list(Patterns)

# Leitura do arquivo
with open('Salmonella_enterica.txt', 'r') as file:
    Text = file.read().strip()
    k = 9
    L = 500
    t = 3
    resultado = FindClumpsOptimized(Text, k, L, t)
    print(len(resultado))

1
