In [2]:
def countWordFreq(texto, longitudFragmento):
    """
    Crea un recuento de ocurrencias de todos los fragmentos de una longitud dada en texto
    Versión optimizada
    :param texto: texto a analizar
    :longitudFragmento: longitud de los fragmentos a buscar
    :returns: diccionario con el número de ocurrencias de una fragmento dado
    """    
    lastToCheck = len(texto) - longitudFragmento + 1

    posToCheck = range (0, lastToCheck )

    freqWord = dict()
    for i in posToCheck:
        word = texto[i : i + longitudFragmento]
        if not word in freqWord:  # En caso contrario ya se ha analizado ese fragmento
            for j in posToCheck:
                if word == texto[j : j + longitudFragmento]:
                    if word in freqWord:
                        freqWord[word] += 1
                    else:
                        freqWord[word] = 1
    return freqWord

In [3]:
def countWordFreq1Update(texto, longitudFragmento):
    """
    Crea un recuento de ocurrencias de todos los fragmentos de una longitud dada en texto
    Versión optimizada
    :param texto: texto a analizar
    :longitudFragmento: longitud de los fragmentos a buscar
    :returns: diccionario con el número de ocurrencias de una fragmento dado
    """    
    lastToCheck = len(texto) - longitudFragmento + 1

    posToCheck = range (0, lastToCheck )

    freqWord = dict()
    for i in posToCheck:
        word = texto[i : i + longitudFragmento]
        if not word in freqWord:  # En caso contrario ya se ha analizado ese fragmento
            newRange = range(i, lastToCheck) # Sólo revisamos desde donde estamos hasta el final
            bEncontrada = False
            for j in newRange:
                if word == texto[j : j + longitudFragmento]:
                    if bEncontrada:
                        freqWord[word] += 1
                    else:
                        freqWord[word] = 1
                        bEncontrada = True
    return freqWord

In [4]:
def countWordFreq1Round(texto, longitudFragmento):
    """
    Crea un recuento de ocurrencias de todos los fragmentos de una longitud dada en un texto
    Versión optimizada
    :param texto: texto a analizar
    :longitudFragmento: longitud de los fragmentos a buscar
    :returns: diccionario con el número de ocurrencias de cada fragmento de una longitud dada 
    """    
    lastToCheck = len(texto) - longitudFragmento + 1

    posToCheck = range (0, lastToCheck )

    freqWord = dict()
    for i in posToCheck:
        word = texto[i : i + longitudFragmento]
        if not word in freqWord:  
            freqWord[word] = 1
        else:
            freqWord[word] += 1
    return freqWord

In [5]:
def getMostFreqFromOrderedDict(diccionario):
    """
    Devuelve todos los elementos de un diccionario que tienen el valor máximo de value
    :param diccionario: diccionario con pares key,value
    :returns: diccionario con los elementos de valor máximo
    """
    
    listaOrdenada = sorted(diccionario, key = diccionario.get, reverse = True) # ordenamos el diccionario
    # print(listaOrdenada)
    maxValue = diccionario[listaOrdenada[0]] # el valor del primer elemento de la lista
    # print(maxValue)
    # recorremos el diccionario y añadimos los que tengan esa frecuencia
    maxFreqWords = dict()
    for word in listaOrdenada:
        if diccionario[word] == maxValue:
            maxFreqWords[word] = maxValue
        else : # como está ordenada, cuando uno no lo cumpla hemos terminado
            break;
    return maxFreqWords

In [6]:
# by JMEsteban
def genoma_aleatorio(n):
    import random
    letras=['A','G','T','C']
    genoma = ''
    for i in range(n):
        genoma=genoma+letras[random.randint(0,3)]
    return genoma

In [9]:
resultados = []

In [17]:
import time

genomaSize = 10000
genoma = genoma_aleatorio(genomaSize)

for k in range(3,15):
    tiempo1 = time.time()
    freqWord1 = countWordFreq(genoma,k)
    maxFreqWord1 = getMostFreqFromOrderedDict(freqWord1)
    len1 = len(maxFreqWord1)
    tiempo2 = time.time()
    d1 = (tiempo2-tiempo1)

    tiempo1 = time.time()
    freqWord2 = countWordFreq1Update(genoma,k)
    maxFreqWord2 = getMostFreqFromOrderedDict(freqWord2)
    len2 = len(maxFreqWord2)
    tiempo2 = time.time()
    d2 = (tiempo2-tiempo1)


    tiempo1 = time.time()
    freqWord3 = countWordFreq1Round(genoma,k)
    maxFreqWord3 = getMostFreqFromOrderedDict(freqWord3)
    len3 = len(maxFreqWord3)
    tiempo2 = time.time()
    d3 = (tiempo2-tiempo1) 
   

    if len1 == len2 and len2 == len3:
        data = [k,genomaSize,len1,[d1,d2,d3]] 
        resultados.append(data)
        print(data)
    else:
        print('ERORORORORORORORRRR!!!!')
        print('{} {} {}'.format(len1,len2,len3) )


[3, 5000, 2, [0.08813738822937012, 0.04933524131774902, 0.0016982555389404297]]
[4, 5000, 4, [0.18961858749389648, 0.19977688789367676, 0.0015130043029785156]]
[5, 5000, 1, [0.6736340522766113, 0.7283165454864502, 0.0016644001007080078]]
[6, 5000, 5, [1.4100327491760254, 1.405165433883667, 0.001920461654663086]]
[7, 5000, 4, [1.8446252346038818, 1.8169350624084473, 0.0018761157989501953]]
[8, 5000, 5, [1.9017698764801025, 1.9089610576629639, 0.0017931461334228516]]
[9, 5000, 1, [1.9705398082733154, 1.9266629219055176, 0.0017428398132324219]]
[10, 5000, 6, [1.9159767627716064, 1.9199512004852295, 0.0017774105072021484]]
[11, 5000, 1, [1.9127047061920166, 1.9057867527008057, 0.0019805431365966797]]
[12, 5000, 4989, [1.9333679676055908, 1.8965768814086914, 0.002336263656616211]]
[13, 5000, 4988, [1.9544646739959717, 1.9026010036468506, 0.002229452133178711]]
[14, 5000, 4987, [1.9092185497283936, 1.9045660495758057, 0.002335786819458008]]
