# Introducció i cerca ingènua de cadenes de caràcters

Video: https://campusvirtual.ub.edu/pluginfile.php/3335992/mod_resource/content/3/T3-1-TextIntroiComplexitat/T3-1-TextIntroiComplexitat_player.html

Apunts: https://algorismica2020.github.io/slides/text.html#1



# Càlcul de complexitat en algorismes de text

**Introducció**

Quan es treballa amb text la complexitat és molt rellevant, perquè les dades poden ser molt extenses.


**Càlcul de la complexitat**

Per explicar la complexitat i facilitar el seu càlcul en aquest notebook s'anirà anotant al costat de cada línia de codi la complexitat


**Exemple**: Comprovació de que els caràcters d'una cadena són únics.


In [None]:
# n = nombre de caràcters del text
# m = nombre de caràcters diferents

def is_unique(n):
  char_seen = []              # creació de llista buida  =  O(1)
  for char in n:              # n iteracions
    for i in char_seen:       # el primer cop 0, el segon 1... el darrer m 
                                  # la combinació d'àmbdues iteracions O(m2)
      if char == i:           # comparació simple = O(1)
        return False          # return sense cap operació = O(1)
                                  # dins la iteració només operacions constants
    char_seen.append(char)    # append a una llista = O(1)
  return True                 # return sense cap operació = O(1)

  # el cost de la funció és O(m2) que és el cost de l'operació més cara

# Cerca optimitzada de cadenes de caràcters

Video: Algorismes de Horspool --> https://campusvirtual.ub.edu/pluginfile.php/3339445/mod_resource/content/2/T3-2-Text-CercaAvancada/T3-2-Text-CercaAvancada.html

# Algorisme de Horspool explicat i mostrant creació de taula i avanç amb xivatos:

In [None]:
def BoyerMooreHorspool1(pattern, text):
    m = len(pattern)
    n = len(text)
    if m > n: 
      return -1     # el text ha de ser més llarg
    skip = []
    for k in range(256): 
      skip.append(m)      # assignem el desplaçament màxim a tots els caràcters
    for k in range(m - 1): 
      skip[ord(pattern[k])] = m - k - 1    # assignem el desplaçament correcte
                                           # als caràcters del patró 
                                           # si apareixen més d'un cop 
                                           # es guardarà el darrer només
    skip = tuple(skip) # convertim a tupla perquè ja no hi hem de fer més canvis
    k = m - 1          # posició del text equivalent a la darrera lletra del patró
    while k < n:
        j = m - 1      # índex de la lletra del patró que comparem 
        i = k          # índex de la lletra del text que comparem
        while j >= 0 and text[i] == pattern[j]:
            j -= 1
            i -= 1
        # avancem(!) mentre hi hagi text i les lletres coincideixen
        if j == -1:    # si el patró s'ha acabat (totes les lletres han coincidit)
          return i + 1 # retornem la posició del text 
        k += skip[ord(text[k])]  # desplacem sense tenir en compte els avenços fets
    return -1  # si hem arribat fins aquí no hem trobat el patró

In [None]:
BoyerMooreHorspool1("BARBER", "JIM SAW ME IN A BARBERSHOP")

In [None]:
def BoyerMooreHorspool2(pattern, text):
    m = len(pattern)
    n = len(text)
    if m > n: 
      return -1      
    skip = []
    for k in range(256): 
      skip.append(m)      
    print ("primera versió d'skip", skip)  # xivato
    for k in range(m - 1): 
      print(ord(pattern[k]),end=",")  # xivato  
      skip[ord(pattern[k])] = m - k - 1     
      print(skip[ord(pattern[k])])  # xivato
    print ("segona versió d'skip", skip)  # xivato
    skip = tuple(skip)  
    k = m - 1           
    while k < n:
        j = m - 1       
        i = k           
        while j >= 0 and text[i] == pattern[j]:
            j -= 1
            i -= 1
         
        if j == -1:    
          return i + 1,text[i+1:i+m+1]  # xivato del text
        k += skip[ord(text[k])]  
    return -1   

In [None]:
BoyerMooreHorspool2("BARBER", "JIM SAW ME IN A BARBERSHOP")

In [None]:
def BoyerMooreHorspool3(pattern, text):
    m = len(pattern)
    n = len(text)
    if m > n: 
      return -1      
    skip = []
    for k in range(256): 
      skip.append(m)       
    for k in range(m - 1): 
      skip[ord(pattern[k])] = m - k - 1     
    skip = tuple(skip)  
    k = m - 1           
    while k < n:
        j = m - 1       
        i = k           
        print(pattern[0:j],'*',pattern[j],'*',pattern[j+1:m], "---", text[0:i],'*',text[i],'*',text[i+1:n])
        while j >= 0 and text[i] == pattern[j]:
            print(pattern[0:j],'*',pattern[j],'*',pattern[j+1:m], "---", text[0:k],'*',text[k],'*',text[k+1:n])
            j -= 1
            i -= 1
        if j == -1:     
          return i + 1   
        k += skip[ord(text[k])]   
    return -1   

In [None]:
BoyerMooreHorspool3("BARBER", "JIM SAW ME IN A BARBERSHOP")