# Caso de estudio: Selección de la estructura de datos
En este punto has aprendido sobre las estructuras de datos centrales de Python, y has visto algunos de los algoritmos que las utilizan.

Este tema presenta el estudio de un caso con ejercicios que te permiten pensar en la elección de estructuras de datos y practicar su uso.

## Análisis de frecuencia de palabras

### Ejercicio P3-1.
Escribe un programa que lea un archivo, rompa cada línea en palabras, elimine los espacios en blanco y la puntuación de las palabras, y las convierta en minúsculas.

Sugerencia: El módulo _string_ proporciona una cadena llamada *whitespace*, que contiene el espacio, el tabulador, nueva línea, etc., y *punctuation* que contiene los caracteres de puntuación. Veamos si podemos hacer que Python "jure como en los comics":

In [2]:
import string
string.punctuation
string.whitespace

' \t\n\r\x0b\x0c'

¡Pues sí, es un juramento propio de un comic!

También, debes considerar el uso de los métodos de cadenas para quitar, reemplazar y traducir.

In [None]:
f_in = open('quijote.txt')
f_in

### Ejercicio P3-2.
Debes usar el fichero con El Quijote en texto plano que se proporciona. Debes realizar los cálculos sobre este fichero.

Si lo necesitas, modifica el programa del ejercicio anterior para leer El Quijote.

Luego modifica el programa para contar el número total de palabras del libro y el número de veces que se usa cada palabra.

Imprime el número de palabras diferentes que se usan en el libro así como el porcentaje de uso de la 50 palabras más usadas.

### Ejercicio P3-3.
Modifica el programa del ejercicio anterior para imprimir las 20 palabras más usadas en el libro y su frecuencia (en tanto por 1000) de uso.

### Ejercicio P3-4.
Compara diferentes libros de diferentes autores; escritos en diferentes épocas; si es prosa, verso, ensayo, etc.; idioma; o cualquier otra característica que se te ocurra. Puedes tener en cuenta el número de palabras utilizadas, su frecuencia u otra característica que se te ocurra. Una vez que tengas los resultados puedes responder a preguntas como: ¿qué autor utiliza el vocabulario más extenso?, ¿hay alguna diferencia clara entre épocas?, ¿hay diferencias entre idiomas? o preguntas que se te ocurra hacerte. Responde a estas preguntas y las que se te ocurra como respuesta a este problema. Debes buscar algunos libros en texto plano.

En la celda que empiza con "Respuesta a las preguntas" debes dar todas las explicaciones que puedas dar a las preguntas realizadas.

Respuesta a las preguntas:

### Ejercicio P3-5.
Modifica las funciones anteriores para que lean una lista de palabras (ver "Lectura de listas de palabras") y luego imprime todas las palabras El Quijote que no están en la lista de palabras. ¿Cuántas de ellas son errores tipográficos? ¿Cuántas de ellas son palabras comunes que deberían estar en la lista de palabras, y cuántas de ellas son realmente extrañas? (Dispones de una lista de palabras en español en el fichero "palabras.txt") de un notebook anterior.

## Números aleatorios
Dadas las mismas entradas, la mayoría de los programas de ordenador generan las mismas salidas cada vez, por lo que se dice que son **deterministas**. El determinismo suele ser algo bueno, ya que esperamos que el mismo cálculo produzca el mismo resultado. Para algunas aplicaciones, sin embargo, queremos que el ordenador sea impredecible. Los juegos son un ejemplo obvio, pero hay más.

Hacer que un programa  sea verdaderamente no determinista resulta difícil, pero hay maneras de hacer que al menos parezca no determinista. Una de ellas es usar algoritmos que generen números **pseudoaleatorios**. Los números pseudoaleatorios no son verdaderamente aleatorios porque son generados por un cálculo determinista, pero con sólo mirar los números es casi imposible distinguirlos del azar.

El módulo aleatorio proporciona funciones que generan números pseudoaleatorios (que de ahora en adelante llamaré simplemente "aleatorios").

La función *random* devuelve un número flotante aleatorio entre 0.0 y 1.0 (incluyendo 0.0 pero no 1.0). Cada vez que llamas a *random*, obtienes el siguiente número en una larga serie. Para ver una muestra, ejecuta este bucle:

In [None]:
import random
for i in range(10):
    x = random.random()
    print(x)

La función *randint* toma los parámetros low y high y devuelve un entero entre low y high (incluyendo ambos):

In [None]:
a = random.randint(5, 10)
b = random.randint(5, 10)

print (a,b)

Para elegir un elemento de una secuencia al azar, puedes utilizar *choice*:

In [None]:
t = [1, 7, 5, 9, 6, 3]
print(random.choice(t))
print(random.choice(t))

El módulo *random* también proporciona funciones para generar valores aleatorios a partir de distribuciones continuas, incluyendo Gaussian, exponencial, gamma y algunas más.

### Ejercicio P3-6.
Escribe una función llamada *choose_from_hist* que recibe un histograma como se define en "Dictionarios como colección de contadores" y devuelve un valor aleatorio del histograma, elegido con probabilidad en proporción a la frecuencia. Por ejemplo, para este histograma:

In [None]:
def histogram(s):
    d = dict()
    for c in s:
        d[c] = d.get(c,0) + 1
    return d

t = ['a', 'a', 'b']
hist = histogram(t)
print(hist)

tu función debería devolver 'a' con probabilidad 2/3 y 'b' con probabilidad 1/3.

## Parámetros opcionales
Hemos visto funciones y métodos incorporados que toman argumentos opcionales. También es posible escribir funciones definidas por el programador con argumentos opcionales. Por ejemplo, aquí hay una función que imprime las palabras más comunes en un histograma (tienes que tener creada la función *most_common* en un ejercicio anterior para que funcione el ejemplo):

In [None]:
def print_most_common(hist, num=10):
    t = most_common(hist)
    print('The most common words are:')
    for freq, word in t[:num]:
        print(word, freq, sep='\t')

El primer parámetro es obligatorio; el segundo es opcional. El **valor por defecto** de num es 10.

Si sólo das un argumento:

In [None]:
print_most_common(hist)

*num* tiene el valor por defecto. Si das dos argumentos:

print_most_common(hist, 5)

*num* obtiene el valor del argumento en su lugar. En otras palabras, el argumento opcional **anula** el valor por defecto.

Si una función tiene parámetros obligatorios y opcionales, todos los parámetros obligatorios deben estar en primer lugar, seguidos de los opcionales.

## Subtracción de diccionarios
Encontrar las palabras del libro que no están en la lista de palabras de palabras.txt es un problema que puedes reconocer como resta de un conjunto sobre otro; es decir, queremos encontrar todas las palabras de un conjunto (las palabras del libro) que no están en el otro (las palabras de la lista).

*substract* toma los diccionarios d1 y d2 y devuelve un nuevo diccionario que contiene todas las claves de d1 que no están en d2. Ya que realmente no nos importan los valores, los ponemos a todos en _None_:

In [None]:
def subtract(d1, d2):
    res = dict()
    for key in d1:
        if key not in d2:
            res[key] = None
    return res

Para encontrar las palabras del libro que no están en palabras.txt, podemos usar *process_file* para construir un histograma para palabras.txt, y luego restar (tienes que haber creado la función *process_file* en uno de los problemas anteriores):

In [None]:
words = process_file('words.txt')
diff = subtract(hist, words)
print("Words in the book that aren't in the word list:")
for word in diff:
    print(word, end=' ')

Algunas de estas palabras son nombres. Otros, ya no son de uso común. Pero algunas son palabras comunes que realmente deberían estar en la lista!

## Ejercicio P3-7.
Python proporciona una estructura de datos llamada *set* que proporciona muchas operaciones de comunes sobre colecciones.

Puede leer sobre ellos en "Sets" en el tema de Golosinas.

Escribe un programa que use las diferencia entre colecciones (*set*) para encontrar palabras del libro que no estén en la lista de palabras.

## Palabras aleatorias
Para elegir una palabra aleatoria del histograma, el algoritmo más simple es construir una lista con múltiples copias de cada palabra, de acuerdo con la frecuencia observada, y luego elegir de la lista:

In [None]:
def random_word(h):
    t = []
    for word, freq in h.items():
        t.extend([word] * freq)
    return random.choice(t)

La expresión[word] * freq crea una lista con *freq* copias de la palabra. El método *extend* es similar a *append* excepto que el argumento es una secuencia.

Este algoritmo funciona, pero no es muy eficiente; cada vez que se elige una palabra al azar, reconstruye la lista, que es tan grande como el libro original. Una mejora obvia es construir la lista una vez y luego hacer selecciones múltiples, pero la lista sigue siendo grande.

Una alternativa es:
1.  Usa las claves para obtener una lista de las palabras del libro.
2.  Crea una lista que contenga la suma acumulada de las frecuencias de las palabras (ver Ejercicio 9-2). El último elemento de esta lista es el número total de palabras del libro, n.
3.  Elige un número aleatorio de 1 a n. Usa una búsqueda de bisección (ver Ejercicio 9-10) para encontrar el índice donde el número aleatorio se insertaría en la suma acumulativa.
4.  Utilice el índice para encontrar la palabra correspondiente en la lista de palabras.

### Ejercicio P3-8.
Escribe un programa que utilice el algoritmo que acabo de describir para elegir una palabra aleatoria del libro.

## Análisis de Markov
Si eliges palabras del libro al azar, puedes obtener una idea del vocabulario, pero probablemente no obtendrás una frase:
```
Esta es la pequeña consideración Harriet que Knightley es la mayoría de las cosas.
```

Una serie de palabras aleatorias rara vez tiene sentido porque no hay relación entre palabras sucesivas. Por ejemplo, en una oración real se espera que un artículo como "la" vaya seguido de un adjetivo o sustantivo, y probablemente no de un verbo o adverbio.

Una forma de medir este tipo de relaciones es el análisis de Markov, que caracteriza, para una secuencia dada de palabras, la probabilidad de las palabras que podrían venir después. Por ejemplo, la canción "Eric, la mitad de una abeja" comienza:

```
    Half a bee, philosophically,
    Must, ipso facto, half not be.
    But half the bee has got to be
    Vis a vis, its entity. D’you see?
    But can a bee be said to be
    Or not to be an entire bee
    When half the bee is not a bee
    Due to some ancient injury?
```


En este texto, la frase "half the" siempre va seguida de la palabra "bee", pero la frase "the bee" puede ir seguida de "has" o "is".

El resultado del análisis de Markov es un mapeo de cada prefijo (como "half the" y "the bee") a todos los sufijos posibles (como "has" y "is").

Dado este mapeo, puedes generar un texto aleatorio comenzando con cualquier prefijo y eligiendo al azar entre los posibles sufijos. A continuación, puedes combinar el final del prefijo tomándolo como nuevo prefijo y un nuevo sufijo asociado a este prefijo. Este sufijo seráel siguiente prefijo, y así sucesivamente un número determinado de veces. Por ejemplo, si empieza con el prefijo "Half a", entonces la siguiente palabra tiene que ser "bee", porque el prefijo sólo aparece una vez en el texto. El siguiente prefijo es "a bee", por lo que el siguiente sufijo podría ser "philosophically", "be" o "due".

En este ejemplo la longitud del prefijo es siempre dos, pero pueded hacer el análisis de Markov con cualquier longitud de prefijo.

### Ejercicio P3-9.
Análisis de Markov:
1.  Escribe un programa para leer un texto de un archivo y realizar un análisis de Markov. El resultado debería ser un diccionario que mapea desde los prefijos a una colección de posibles sufijos. La colección puede ser una lista, una tupla o un diccionario; depende de ti hacer una elección apropiada. Puedes probar tu programa con la longitud de prefijo 2, pero debes escribir el programa de manera que sea fácil probar otras longitudes. Puedes utilizar textos más largos como el Quijote o parte de él.

2. Añade una función al programa anterior para generar texto aleatorio basado en el análisis de Markov. Para este ejemplo, deja la puntuación adjunta a las palabras. El resultado casi siempre será casi sintácticamente correcto, pero no del todo. Semánticamente, muchas tendrán casi sentido, pero no del todo.<br><br>¿Qué pasa si se aumenta la longitud del prefijo? ¿Tiene más sentido el texto aleatorio?

3. Una vez que tu programa esté funcionando, es posible que desees probar una combinación: si combinas texto de dos o más libros, el texto aleatorio que genere mezclará el vocabulario y las frases de las fuentes de manera interesante. Usa cualquier libro que hayas descargado en formato ASCII.

Créditos: Este estudio de caso se basa en un ejemplo de Kernighan y Pike, The Practice of Programming, Addison-Wesley, 1999.

## Estructuras de datos
Usar el análisis de Markov para generar texto aleatorio es divertido, pero también hay un punto en este ejercicio: la selección de la estructura de datos. En tu solución a los ejercicios anteriores, tuviste que elegir:
* Cómo representar los prefijos.
* Cómo representar la colección de posibles sufijos.
* Cómo representar la asignación de cada prefijo a la colección de sufijos posibles.
La última es fácil: un diccionario es la opción obvia para un mapeo de claves a los valores correspondientes.

Para los prefijos, las opciones más obvias son cadenas, lista de cadenas o tupla de cadenas.

Para los sufijos, una opción es una lista; otra es un histograma (diccionario).

¿Cómo elegir? El primer paso es pensar en las operaciones que necesitarás implementar para cada estructura de datos. Para los prefijos, necesitamos ser capaces de eliminar palabras desde el principio y añadirlas al final. Por ejemplo, si el prefijo actual es "Half a", y la siguiente palabra es "bee", necesita poder formar el siguiente prefijo, "a bee".

Tu primera opción podría ser una lista, ya que es fácil añadir y eliminar elementos, pero también necesitamos poder usar los prefijos como claves en un diccionario, de modo que las listas quedan excluidas. Con tuplas, no puedes agregar o quitar, pero puedes usar el operador de adición para formar una nueva tupla:

In [None]:
def shift(prefix, word):
    return prefix[1:] + (word,)

_shift_ recibe una tupla de palabras, prefijo, y una cadena, palabra, y forma una nueva tupla que tiene todas las palabras en prefijo excepto la primera, y la palabra añadida al final.

Para la colección de sufijos, las operaciones que necesitamos realizar incluyen añadir un nuevo sufijo (o aumentar la frecuencia de uno existente), y elegir un sufijo aleatorio. Añadir un nuevo sufijo es igualmente fácil para la implementación de la lista o el histograma. Elegir un elemento aleatorio de una lista es fácil; elegir de un histograma es más difícil de hacer eficientemente (ver Ejercicio P3-8).

Hasta ahora hemos estado hablando principalmente de la facilidad de implementación, pero hay otros factores a considerar en la elección de las estructuras de datos. Uno es tiempo de ejecución. A veces hay una razón teórica para esperar que una estructura de datos sea más rápida que otra; por ejemplo, mencioné que el operador *in* es más rápido para los diccionarios que para las listas, al menos cuando el número de elementos es grande.

Pero a menudo no se sabe de antemano qué implementación será más rápida. Una opción es implementar ambas y ver cuál es mejor. Este enfoque se llama **benchmarking**. Una alternativa práctica es elegir la estructura de datos más fácil de implementar y luego ver si es lo suficientemente rápida para la aplicación deseada. Si es así, no hay necesidad de seguir adelante. Si no es así, existen herramientas, como el módulo *profile*, que pueden identificar los lugares de un programa que tardan más tiempo.

El otro factor a considerar es el espacio de almacenamiento. Por ejemplo, el uso de un histograma para la colección de sufijos puede ocupar menos espacio porque sólo tiene que almacenar cada palabra una vez, sin importar cuántas veces aparezca en el texto. En algunos casos, el ahorro de espacio también puede hacer que tu programa se ejecute más rápido, y en un caso extremo, es posible que tu programa no se ejecute en absoluto si se queda sin memoria. Pero para muchas aplicaciones, el espacio es una consideración secundaria después del tiempo de ejecución.

Un último pensamiento: en esta discusión, he insinuado que deberíamos usar una estructura de datos tanto para el análisis como para la generación. Pero como se trata de fases separadas, también sería posible utilizar una estructura para el análisis y luego convertirla a otra estructura para su generación. Esto sería una ganancia neta si el tiempo ahorrado durante la generación excediera el tiempo invertido en la conversión.

## Depuración
Cuando está depurando un programa, y especialmente si está trabajando en un error grave, hay cinco cosas que puede intentar:

- *Lectura*:<br> Examina tu código, léelo para ti mismo, y comprueba que dice lo que querías decir.
- *Ejecutando*:<br> Experimentar haciendo cambios y ejecutando versiones diferentes. A menudo, si se muestra lo correcto en el lugar correcto del programa, el problema se vuelve obvio, pero a veces hay que construir andamios.
- *Ruminar*:<br> ¡Tómate un tiempo para pensar! ¿Qué tipo de error es: sintáctico, de ejecución o semántico? ¿Qué información puede obtener de los mensajes de error o de la salida del programa? ¿Qué tipo de error podría causar el problema que estás viendo? ¿Qué fue lo último que cambió antes de que apareciera el problema?
- *Patito de goma*:<br> Si le explicas el problema a alguien más, a veces encuentras la respuesta antes de terminar de hacer la pregunta. A menudo no necesitas a la otra persona; podrías hablar con un pato de goma. Y ese es el origen de la conocida estrategia llamada **depuración de patos de goma**. No me lo estoy inventando; ver https://en.wikipedia.org/wiki/Rubber_duck_debugging.
- En algún momento, lo mejor que puedes hacer es retroceder y deshacer los cambios recientes hasta que vuelvas a un programa que funcione y que entiendas. Entonces puedes empezar a reconstruir. 

Los programadores principiantes a veces se quedan atascados en una de estas actividades y olvidan las demás. Cada actividad viene con su propio modo de fallo.

Por ejemplo, leer tu código podría ayudar si el problema es un error tipográfico, pero no si el problema es un malentendido conceptual. Si no entiendes lo que hace tu programa, puedes leerlo 100 veces y nunca ver el error, porque el error está en tu cabeza.

Realizar experimentos puede ayudar, especialmente si se realizan pruebas pequeñas y sencillas. Pero si realizas experimentos sin pensar ni leer tu código, puedes caer en un patrón que yo llamo "programación de caminos al azar", que es el proceso de hacer cambios al azar hasta que el programa hace lo correcto. No hace falta decir que la programación de caminos al azar puede llevar mucho tiempo.

Tienes que tomarte un tiempo para pensar. La depuración es como una ciencia experimental. Debes tener al menos una hipótesis sobre cuál es el problema. Si hay dos o más posibilidades, trata de pensar en una prueba que elimine una de ellas.

Pero incluso las mejores técnicas de depuración fallarán si hay demasiados errores, o si el código que estás intentando arreglar es demasiado grande y complicado. A veces la mejor opción es retirarse, simplificando el programa hasta que llegues a algo que funcione y que entiendas.

Los programadores principiantes son a menudo reacios a retirarse porque no pueden soportar borrar una línea de código (incluso si está mal). Si te hace sentir mejor, copia tu programa en otro archivo antes de empezar a desmontarlo. A continuación, puede copiar las piezas una por una.

Encontrar un bug duro requiere leer, correr, rumiar y a veces retroceder. Si te quedas atascado en una de estas actividades, prueba las otras.

Por último. Si llevas más de media hora buscando un mismo error: levántate, da un paseo, lee un rato o haz cualquier otra actividad que no tenga que ver con el programa y no pienses en él. Cuando vuelvas seguro que en seguida tienes una idea nueva.

## Glosario
- *determinista*: Pertenece a un programa que hace lo mismo cada vez que se ejecuta, con las mismas entradas.
- *pseudorandom*: Perteneciente a una secuencia de números que parece ser aleatoria, pero que es generada por un programa determinista.
- *valor por defecto*: El valor dado a un parámetro opcional si no se proporciona ningún argumento.
- *override*: Para reemplazar un valor predeterminado por un argumento.
- *benchmarking*: El proceso de elegir entre estructuras de datos implementando alternativas y probándolas en una muestra de las posibles entradas.
- *depuración de patos de goma*: Depurar explicando su problema a un objeto inanimado como un pato de goma. Articular el problema puede ayudarle a resolverlo, incluso si el pato de goma no conoce a Python.

## Ejercicios
### Ejercicio P3-10.
El "rango" de una palabra es su posición en una lista de palabras ordenadas por frecuencia: la palabra más común tiene rango 1, la segunda más común tiene rango 2, etc.

La ley de Zipf describe una relación entre los rangos y frecuencias de las palabras en los lenguajes naturales (http://en.wikipedia.org/wiki/Zipf's_law). Específicamente, predice que la frecuencia, f, de la palabra con rango r es:
$$f = cr^{-s}$$
donde s y c son parámetros que dependen del idioma y del texto. Si tomas el logaritmo de ambos lados de esta ecuación, obtienes:
$$ -\log(f) = \log(c) -s \log(r) $$

Así que si trazas $log f$ versus $log r$, deberías obtener una línea recta con pendiente $-s$ e interceptar y en $\log c$. 

Escribe un programa que lea un texto de un archivo, cuenta las frecuencias de las palabras e imprime una línea para cada palabra, en orden descendente de frecuencia, con log f y log r. Puedes dibujarlos usando las librerías de python matplotlib, plotly o seaborn en este mismo notebook. Comprueba si forman una línea recta. ¿Puedes estimar el valor de s?

A continuación tienes las órdenes para instalar estas librerías si no las tienes instaladas.

In [None]:
%pip3 install -y matplotlib

In [None]:
%pip3 install plotly

In [None]:
%pip3 install seaborn