# Recorridos y búsquedas en listas y strings

## Recorridos

Ya hemos visto muchos ejemplos de recorridos. Un recorrido es cuando un bucle se ejecuta a lo largo de una secuencia sin pausa y sin necesidad de terminar antes del final.

In [75]:
def mean(numberlst):
    """This function returns the mean of a list of numbers
    
    Parameters
    ----------
    numberlst : [float]
        List of float numbers
        
    Returns
    -------
    float
        Mean of the list
        
    Example
    -------
    >>> mean([1,2,3,4])
    2.5
    """
    s = 0.0
    i = 0
    while i < len(numberlst):
        s = s + numberlst[i]
        i = i + 1
    return s / len(numberlst)

In [76]:
mean([1,2,3,4])

2.5

In [77]:
def digit_sum(n):
    """
    This function computes the sum of the digits of a positive integer, n >= 0.
    
    Parameters
    ----------
    n : int
        Positive integer number
        
    Returns
    -------
    int
        Sum of the digits of n
        
    Example
    -------
    >>> digit_sum(1234)
    10
    """
    result = 0
    while n != 0:
        digit = n % 10
        result = result + digit
        n = n // 10
    return result

In [78]:
digit_sum(1234)

10

### Filtros

Un tipo de recorrido muy utilizado son los filtros. En estos recorridos aplicamos una función para saber qué elementos de la secuencia original verifican una determinada propiedad.

In [79]:
def short_names(name_list, n):
    """
    From a list of names, the function chooses the names with length below of equal n.
    All the names that satisfy the condition are returned in a list.
    
    Parameters
    ----------
    name_list : [string]
        List of names
    n : int
        Maximum length for names
        
    Returns
    -------
    [string]
        List of names in name_list whose length is less than or equal to n
        
    Example
    -------
    >>> short_names(['Ana','Pedro','Eva'], 3)
    ['Ana', 'Eva']
    """
    short = []
    for name in name_list:
        if len(name) <= n:
            short.append(name)
    return short

In [80]:
short_names(['Ana','Pedro','Eva'], 3)

['Ana', 'Eva']

In [81]:
def letter_count(letter, word):
    """
    Counts the occurrences of letter in word.
    
    Parameters
    ----------
    letter: string
        Letter to search
    word: string
        Word
        
    Returns
    -------
    int
        Occurrences of letter in word
        
    Example
    -------
    >>> letter_count('o', 'abogado')
    2
    """
    cont = 0
    for char in word:
        if char == letter:
            cont = cont + 1
    return cont     

In [82]:
letter_count('o', 'abogado')

2

In [83]:
def substr(word, ini, num):
    """
    This function returns the substring starting in end with num letters.
    If ini>=len(word) the function returns the empty string. If ini<len(word) and ini+num>len(word) the
    function returns the string starting in ini with len(word)-ini letters
    
    Parameters
    ----------
    word : str
        String
    ini : int
        Starting position of the substring (ini >= 0)
    num : int
        Length of the substring (num >= 0)
        
    Returns
    -------
    str
        Substring of word starting at position ini with length num
        
    Example
    -------
    >>> substr("Bienvenido", 4, 6)
    "venido"
    """
    i = 0
    sub = ""
    while (i + ini) < len(word) and (i < num):
        sub += word[ini + i]
        i += 1
    return sub

In [84]:
substr("Hola",2,2), substr("Hola",4,2), substr("Hola",3,4), substr("Bienvenido", 4, 6)

('la', '', 'a', 'venido')

## Búsquedas

Las búsquedas tienen que hacer un recorrido, pero a diferencia de éstos, en cualquier momento este recorrido puede terminar al haber encontrado lo que se deseaba. 

### Buscar si un elemento está o no en una lista

In [85]:
def search1(name, staff):
    """
    fuction that indicates if the list staff contains the person name
    
    Parameters
    ----------
    name : string
        Person name
    staff : [str]
        List of names
        
    Returns
    -------
    bool
        Whether name appears in staff
        
    Example
    -------
    >>> search1("María",["Juan","Luisa","María","Eva"])
    True
    """
    result = False
    for p in staff:
        if p == name:
            result = True
    return result

In [86]:
search1("María",["Juan","Luisa","María","Eva"]),search1("Petra",["Juan","Luisa","María","Eva"])

(True, False)

La función anterior no es muy eficiente, una vez encontrada la persona sigue recorriendo la lista hasta el final. Podemos hacer mejor las cosas.

In [87]:
def search2(name, staff):
    """
    fuction that indicates if the list staff contains the person name 
    
    Parameters
    ----------
    name : string
        Person name
    staff : [str]
        List of names
        
    Returns
    -------
    bool
        Whether name appears in staff
        
    Example
    -------
    >>> search2("María",["Juan","Luisa","María","Eva"])
    True
    """
    i = 0
    while i < len(staff) and name != staff[i]:
        i = i + 1
    return i < len(staff)

In [88]:
search2('pepa',['ana','luis','pep']), search2("María",["Juan","Luisa","María","Eva"])

(False, True)

### Ahora con números

In [89]:
def random_list(n):
    """
    Returns a list of n random integer between 0 and 100.
    
    Parameters
    ----------
    n : int
        Number of randon integers
    
    Returns
    -------
    [int]
        List of random integers of length n
        
    Example
    -------
    >>> random_list(3)
    [14, 47, 77]
    """
    import random
    result = []
    for x in range(n):
        result.append(random.randint(0, 100))
    return result

Generamos una lista aleatoria de enteros.

In [90]:
l = random_list(100)
print(l)

[40, 28, 84, 2, 35, 55, 65, 95, 7, 43, 55, 84, 68, 93, 23, 51, 82, 20, 72, 3, 17, 52, 41, 21, 78, 61, 47, 85, 84, 20, 78, 24, 81, 1, 22, 37, 47, 65, 59, 89, 7, 63, 72, 19, 55, 16, 16, 74, 62, 30, 97, 53, 86, 67, 34, 42, 3, 18, 90, 5, 71, 74, 84, 0, 27, 75, 7, 68, 92, 5, 43, 67, 49, 75, 89, 82, 17, 81, 60, 73, 77, 12, 15, 29, 29, 88, 22, 64, 43, 48, 17, 36, 70, 13, 100, 82, 27, 89, 67, 44]


Para buscar si un número está en l, ¡¡¡el código es el mismo que antes!!!. Podemos hacer las cosas "genéricas" 

In [91]:
def search(e,l):
    """
    fuction that indicates if the list l contains the element e
    
    Parameters
    ----------
    e : x
        Element
    l : [x]
        List of values of type x
        
    Returns
    -------
    bool
        Whether l contains the element e or not
        
    Example
    -------
    >>> search(1, [3,2,1])
    True
    >>> search("pepe", ["ana","juan"])
    False
    """
    i = 0
    while (i < len(l)) and (e != l[i]):
        i = i + 1
    return (i < len(l))

In [92]:
search(2,l),search(48,l)

(True, True)

Lo que hemos hecho es tan útil que los creadores de Python lo han incorporado al lenguaje:

`<<elemento>> in <<secuencia>>`

In [93]:
2 in l

True

In [94]:
'pepas' in ['ana','luis','pepa']

False

Buscar una palabra en un texto. 

In [95]:
def find(text, word):
    """
    This function searches the word in text. The function returns the position of the
    word in the text. If the word is not in the text, the function returns -1
    
    Parameters
    ----------
    text : str
        Text
    word : str
        Word
        
    Returns
    -------
    int
        Position of word in text, or -1 if the word does not appear in text

    Example
    -------
    >>> find("Esta es mi casa", "mi")
    8
    >>> find("Esta es mi casa", "ventana")
    -1
    """
    i = 0
    lenw = len(word) #this is just an abbreviature
    while (i < len(text)) and (substr(text, i, lenw) != word):
        i += 1
    if i < len(text):
        return i
    else:
        return -1

In [96]:
s = "Las patatas me gustan"
find(s, "pata"), find(s, "zana"), find("Esta es mi casa", "mi"), find("Esta es mi casa", "ventana")

(4, -1, 8, -1)

In [97]:
"Pedro" in "Pedro y Juan", "Lorena" in "Pedro y Juan"

(True, False)

Para las cadenas de carácteres disponemos del método find, 
`cadena1.find(cadena2)`
devuelve la posición en que `cadena2` se encuentra  como subcadena de `cadena1`. Devuelve -1 si `cadena1` no contiene a `cadena2`.

In [98]:
texto="""En un lugar de la Mancha, de cuyo nombre no quiero acordarme, no ha mucho
tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua,
rocín flaco y galgo corredor. Una olla de algo más vaca que carnero,
salpicón las más noches, duelos y quebrantos los sábados, lantejas los
viernes, algún palomino de añadidura los domingos, consumían las tres
partes de su hacienda. El resto della concluían sayo de velarte, calzas de
velludo para las fiestas, con sus pantuflos de lo mesmo, y los días de
entresemana se honraba con su vellorí de lo más fino. Tenía en su casa una
ama que pasaba de los cuarenta, y una sobrina que no llegaba a los veinte,
y un mozo de campo y plaza, que así ensillaba el rocín como tomaba la
podadera. Frisaba la edad de nuestro hidalgo con los cincuenta años; era de
complexión recia, seco de carnes, enjuto de rostro, gran madrugador y amigo
de la caza. Quieren decir que tenía el sobrenombre de Quijada, o Quesada,
que en esto hay alguna diferencia en los autores que deste caso escriben;
aunque, por conjeturas verosímiles, se deja entender que se llamaba
Quejana. Pero esto importa poco a nuestro cuento; basta que en la narración
dél no se salga un punto de la verdad."""


In [99]:
texto.find("en"), texto.find("internet")

(118, -1)

No tenemos que conformarnos con la primera aparición podemos pedir la aparición posterior a una posición:

In [100]:
texto.find("en",120)

375

Con esto y nuestra creciente habilidad en el manejo de los bucles podemos escribir una función que nos dé todas las apariciones.

In [101]:
def all_occurrences(text,word):
    """
    function that returns the positions of all occurrences of word in text
    
    Parameters
    ----------
    text : str
        Text
    word : str
        Word
        
    Returns
    -------
    [int]
        List with the position of all the occurrences of word in text
        
    Example
    -------
    >>> all_occurrences("el capitán y el timonel", "el")
    [0, 14, 22]
    """
    result = []
    last = text.find(word)
    while last != -1:
        result.append(last)
        last = text.find(word, last + 1)
    return result

In [102]:
all_occurrences(texto,"en"), all_occurrences("el capitán y el timonel", "el")

([118,
  375,
  504,
  559,
  564,
  605,
  690,
  782,
  834,
  893,
  907,
  919,
  954,
  978,
  984,
  1020,
  1068,
  1071,
  1136,
  1152],
 [0, 13, 21])

## Cuando los elementos están ordenados

Si nuestra lista está ordenada las búsquedas pueden ser mas eficientes. Antes de llegar al final podemos saber que el elemento no está.


In [103]:
def search_ord(e,l):
    """
    fuction that indicates if the list l contains the element e
    
    Parameters
    ----------
    e : x
        Element that can be compared using <=
    l : [x]
        Ordered list of values of type x
    
    Returns
    -------
    bool
        Whether e appears in l or not
        
    Example
    -------
    >>> search_ord( 3, [1,3,4,9])
    True    
    """
    i = 0
    while (i < len(l)) and (l[i] < e):
        i = i + 1
    return (i < len(l)) and (e == l[i])

In [104]:
search_ord( 3, [1,3,4,9])

True

Lo podemos mejorar bastante. La idea es parecida a la forma en que buscamos en un diccionario. Supongamos que buscamos "marmota". Abrimos el diccionario por la mitad
y nos encontramos con la palabra "integridad" en la página 272, sabemos  que está entre aquí y el final. Probamos en la mitad entre la 172 y el final y nos encontramos con "paz" en la 351, siguiendo el proceso encontramos muy rápido la palabra ....... Nuestro caso es más fácil pues cada número (índice de la lista) sólo tenemos un elemento.

In [108]:
def binary_search_bad(e, l):
    i = 0
    j = len(l) - 1
    result = -1
    while (i <= j) and (result==-1):
        med = (i + j) // 2
        if l[med] == e:
            result = med
        elif l[med] < e:
            i = med 
        else:
            j = med 
    return result

Esta función está mal porque en algunos casos produce bucles infinitos

In [106]:
binary_search_bad(4,[0,1,2,3,4])

KeyboardInterrupt: 

In [107]:
binary_search_bad(1,[0,1])

KeyboardInterrupt: 

In [112]:
def binary_search(elem ,lst):
    """
    This indicates if the list lst contains the element elem using binary search.
    If if it contains the eleme, it returns the first occurrence of elem in the list.
    It returns -1 otherwise
    
    Parameters
    ----------
    elem : x
        Element of type x. It must be comparable with <=
    llst : [x]
        Ordered list of values of type x
        
    Returns
    -------
      int
        The first occurence of elem in lst, -1 if elem does not appear in lst
        
    Example
    -------
    >>> binary_search(8,[3,4,5,8,10])
    3
    >>> binary_search(7,[3,4,5,8,10])
    -1
    
    """
    # in the conditions in the comments 
    # we assume l[-1] = -infty and l[len(l)] = +infty
    inf = -1
    sup = len(lst)
    # li[linf]< e <= ls[lsup]
    result = False
    while inf+1 < sup:
        med = (inf + sup) // 2
        # sup-inf > sup-med, sub-inf > med-inf
        if lst[med] < elem:
            inf = med
        else: # elem <= lst[med] 
            sup = med
    if 0<=sup and sup<len(lst) and lst[sup]==elem:
        return sup
    else:
        return -1

A pesar de haberlo pensado bien puede haber fallos. Debemos comprobar distintos casos. Primero que elemento esté

In [126]:
l=[3,3,3,4,4,4,4,5,5,8,10]
for a in l:
    print(binary_search(a,l))

0
0
0
3
3
3
3
7
7
9
10


Luego que el elemento no esté

In [117]:
l = [3,5,7,9,11]
for i in range(1,len(l)):
    elem = (l[i] + l[i-1]) // 2
    print(elem, binary_search(elem,l))

4 -1
6 -1
8 -1
10 -1


Que esté por debajo

In [120]:
binary_search(1,[3,4,5,8,10])

-1

Que esté por encima

In [121]:
binary_search(11,[3,4,5,8,10])

-1

Que funcione con una lista de longitud 1

In [123]:
binary_search(1,[1]), binary_search(0,[1]), binary_search(2,[1])

(0, -1, -1)

Que funcione con una lista de longitud 0

In [124]:
binary_search(1,[])

-1