In [1]:
import bisect

class Index (object):
    'indice com todas as palavras de tamanho k existentes no texto t'
    
    def __init__(self, t, k):
        self.k = k
        self.index = self.get_kmers(t)
        print(self.index)
    
    def get_kmers(self, t):
        'subdivide o texto em strings de tamanho k'
        kmers = []
        for i in range (len(t) - self.k + 1):
            kmers.append([t[i:i + self.k],i])
        kmers.sort()
        return kmers
    
    def query_index(self, p):
        'busca a palavra p no índice usando binary search'
        hits = []
        #extrai o kmer de tamanho k da palavra p
        kmer = p[:self.k]
        
        # pegar a posicao na qual a lista [kmer,-1] poderia ser inserida no indice
        i = bisect.bisect_left(self.index, [kmer,-1])
        
        # obtem no indice todos os registros igual ao kmer procurado
        while i < len(self.index):
            if self.index[i][0] == kmer:
                hits.append(self.index[i][1])
            i += 1
            
        return hits
    
    def busca_palavra (self, t, p):
        'retorna as posicoes do texto que contem a palavra buscada'
        matches = []
        
        #obtem as posicoes do indice que contem o kmer ( : p[self.k]) da palavra 
        hits = index.query_index(p)
        
        #obtem o tamanho da palavra ao remover o trecho do kmer
        offset = len( p[self.k : ] )
        
        #para cada hit confirma o match da palavra 
        for hit in hits:
            pos_kmer_in_t = hit + self.k 
            if p[offset : ] == t[ pos_kmer_in_t : pos_kmer_in_t + offset ]:
                matches.append([hit, pos_kmer_in_t + offset])
        return matches


In [2]:
texto='AATCGGCCAGGCCCATTA'
palavra = 'GGCC'

#cria um indice contendo trechos (kmers) de tamanho 2 e com as respectivas posicoes
index =  Index(texto, 2)

[['AA', 0], ['AG', 8], ['AT', 1], ['AT', 14], ['CA', 7], ['CA', 13], ['CC', 6], ['CC', 11], ['CC', 12], ['CG', 3], ['GC', 5], ['GC', 10], ['GG', 4], ['GG', 9], ['TA', 16], ['TC', 2], ['TT', 15]]


In [5]:
#procura pela palavra no texto
matches  = index.busca_palavra(texto, palavra)
for match in matches:
    print('posicao:', match, ', trecho: ', texto [match[0] : match[1]] )

posicao: [4, 8] , trecho:  GGCC
posicao: [9, 13] , trecho:  GGCC
