In [10]:
#Encontrar las palabras frecuentes en un texto con hasta un número máximo
# de discrepancias.

#Encontrar palabras más frecuentes
#numero máximo de discrepancias

from numba import njit, prange
import time

def contar_discrepancias (texto, patron, d):
    """
    str, str, int -> int
    Esta función nos va a devolver el número de veces que aparece un
    patrón con d discrepancias
        entrada: el texto en el que vamos a buscar (DNA), el patrón que buscamos y un entero con la distancia que asumimos
        salida: el número de veces que aparece dicho patrón con d discrepancias

    >>>> Introduzca el texto: ACGTTGCATGTCGCATGATGCATGAGAGCT
    >>>> Introduzca el patrón que busca: ACG
    >>>> Introduzca la distancia que asume: 2
    >>>> 15
    """
    #Errores
    if type(texto) != str:
        raise TypeError("El texto debe ser una cadena de caracteres")
    if type(patron) != str:
        raise TypeError("El patrón debe ser una cadena de caracteres")
    if type(d) != int:
        raise TypeError("d debe ser un número entero")
    if len(patron) > len(texto):
        raise SyntaxError("La longitud del patrón no puede ser mayor que la del texto")
    if d > len(texto):
        raise SyntaxError("La distancia no puede ser superior al texto introducido")
    
    #Cuerpo de la función
    conta = 0
    @njit(parallel=True)
    for i in prange(0, len(texto) - len(patron)+1):
        palabra = texto[i:i + len(patron)]
        if distancia_hamming (palabra, patron) <= d:
            conta = conta + 1

    return(conta)

    %timeit contar_discrepancias (texto="ACGTTGCATGTCGCATGATGCATGAGAGCT", patron="ACG", d=2)

def PalabrasFrecuentesDiscrepancias(texto, k, d):

    """
    str, str, int -> lista
    Con esta función vamos a tratar de encontrar los kmeros más frecuentes
    de un texto teniendo en cuenta que pueden tener un número determinado de
    discrepancias.
        entrada: el texto en el que buscar, la longitud (k) del kmero a buscar y la distancia permitida
        salida: los kmeros más frecuentes teniendo en cuenta la distancia determinada y la longitud

    >>> Introduzca el texto: ACGTTGCATGTCGCATGATGCATGAGAGCT
    >>> Introduzca la longitud que busca: 4
    >>> Introduzca la distancia que asume: 1
    >>> ['ATGT', 'GATG', 'ATGC']
    """
    #Errores
    if type(texto) != str:
        raise TypeError("texto debe ser una cadena de caracteres")
    if type(k) != int:
        raise TypeError("patron debe ser una cadena de caracteres")
    if type(d) != int:
        raise TypeError("d debe ser un número entero")
    if d > k:
        raise SyntaxError("la longitud del k-mero debe ser mayor o igual que el número de discrepancias")
    if k > len(texto):
        raise SyntaxError("la longitud del k-mero debe ser menor o igual que la del texto")

    #Cuerpo de la función
    kmeros = {}
    
    @njit(parallel=True)
    for posicion in prange (0, len(texto) - k):
        if texto[posicion: posicion + k] not in kmeros.keys():
            palabra = texto[posicion: posicion +k]
            kmeros[palabra] = contar_discrepancias(texto, palabra, d)

    maximo_kmero = max(kmeros.values())
    mas_frecuente_kmero = [muestra for muestra in kmeros.keys() if kmeros[muestra] == maximo_kmero]
        
    return mas_frecuente_kmero
       
    %timeit PalabrasFrecuentesDiscrepancias(texto="ACGTTGCATGTCGCATGATGCATGAGAGCT", k=4,d=2)



SyntaxError: invalid syntax (<ipython-input-10-dde9d853b18a>, line 38)