# Alice in Wonderland

-------------------



![](lewis_carroll.jpg)

El matemático *Charles Dodgson*, más conocido por el pseudónimo con el que escribió libros infantiles, *Lewis Carroll*. Tanto su obsesión por las matemáticas y la lógica, como su caracter introvertido (se cree que padecía de autismo) se vislumbran en su obra "infantil". 

Era lo que hoy llamaríamos un *friki* y un *nerd*, razones más que suficientes para explicar la popularidad de sus libros entre lso programadores.

### Texto de prueba

Usaremos el texto completo de *Alice in Wonderland* para comprobar el funcionamiento de nuestro software, aunque serviría cualquier fichero de texto.


### Stopwords

También usaremos un documento de texto que contiene las *stopwords* más comunes en Inglés. 

Las "stopwords" en el Procesamiento del Lenguaje Natural (NLP, por sus siglas en inglés) se refieren a las palabras más comunes en un idioma que generalmente se filtran o se eliminan antes o después del procesamiento de texto. La razón de esto es que estas palabras no aportan mucha información útil para entender el significado de una oración. Suelen ser palabras funcionales como "el", "la", "y", "de", etc.

Una lista de "stopwords" puede variar dependiendo del contexto o de la tarea en cuestión, pero generalmente se conforma de las palabras más comunes en el idioma.

#### Ficheros disponibles

1. `alice_full_text.txt`  Texto completo, sacado del Proyecto Gutemberg.
2. `stopwords.txt` lista de stopwords comunes en Inglés

Recuerda que para que sea útil, las stopwords tienen que ser las del lenguaje que vamos a analizar.


------------------

## Tareas

El objetivo final es crear la siguiente función:

`count_words(tokens: list[str], stopwords: set[str]) -> dict[str:int]`

1. Recibe una lista con los tokens (palabras) asi como un `set[str]` con las *stopwords*.
2. Devuelve un `dict[str:int]` con las palabras únicas y sus correspondientes probabilidades.
3. Como un extra, deberemos averiguar cómo mejor presentar ese diccionario final al usuario.
4. Para comprobar el funcionamineto, usaremos los dos ficheros de texto que nos han proporcionado.

> Es demasié pal body, así que vamos a romperlo en subtareas que sean más llevaderas.



### Sub Tareas (*Divide & Vencerás*)

`count_words` se rompe en las siguientes tareas:


1. Contar las ocurrencias de cada palabra, ignorando las stopwords y guardando los datos en un `dict[str:int]`.
2. Transformar ese número de ocurrencias en una probabilidad (para lo cual necesitaremos el número total de palabras). El resultado final será un `dict[str:float]`.
   
Además, `count_words` tiene dos precondiciones:

1. Tokenizar el texto.
2. Crear el `set` de stopwords.

Ambas son tareas que podemos subdividir en:

1. Leer el fichero correspondiente.
2. Tokenizar 
3. Limpiar de *guarreridas* si las hay
4. Normalizar la representación



## `count_words`

### Carta a los Reyes Magos

Empezamos por la función principal (¡Caña al mono hasta que pase los tests!) y lo haremos con la *cartita a los Reyes Magos* describiendo qué sería lo ideal. Una vez tengamos eso claro (el objetivo), empezamos a trabajar por él.


Crea un fichero llamado `histogram.py` y en él vamos a crear la función `count_words`. 

Antes de seguir, vamos a definir algunos tipos que representan las principales estructuras de datos que vamos a usar:

```Python
 Types
Histogram = dict[str:float]
Totals = dict[str:int]
Word = str
Words = list[Word]
Stopwords = set[Word]
```
Con esto, podemos definir nuestra función de manera más clara:

```Python
def count_words(text_words: words, stop_words: stopwords) -> totals:
    # creamos un `totals` vacío que iremos actualizando
    # si una palabra de text_words ya está en el totals, incrementamos en 1
    # su valor.
    # si no lo está, y tampoco está en las stopwords, asignamos un
    # valor de 1
    # devolvemos el totals
    pass
```

1. Implementa esta función en el fichero `histogram`
2. Importa esa función (y los tipos que usa) al Notebook
3. Comprueba su funcionamiento con algunos datos pequeños.


   


### Obtener un gran total de palabras

Ya tenemos un `Totals`, pero necesitamso convertir esos totales en probabilidades. Para ello, necesitamos saber el total de palabras (excluyendo las stopwords).

La definición de Probabilidad es:

$$Probabilidad = \frac {Casos Deseables}{Casos Posibles}$$

Así que tendremos que dividir el valor de cada total por el total de palabras.

Lo primero, por lo tanto, es obtener el gran total de palabras, sumando todas las courrencias de cada una de las palabras.

`grand_total_words(word_totals: Totals)->int`

Se trata de una función que recibe un diccionario y devuelve un entero. Es decir, es un *compresor*. La única diferencia es que en vez de aceptar una lista de valores, recibe un diccionario.


#### Iterable

En realidad, un *compresor* **no necesita recibir una lista, sino un `iterable`**.

> Un iterable en Python es cualquier objeto capaz de devolver sus elementos uno a la vez, permitiendo que sea recorrido en un bucle.

En Python, muchos objetos son iterables. Los más comunes son:

1. Las listas: `lista = [1, 2, 3, 4, 5]`
2. Los diccionarios: `diccionario = {'uno': 1, 'dos': 2, 'tres': 3}`
3. Los conjuntos: `conjunto = {1, 2, 3, 4, 5}`
4. Las cadenas de texto: `cadena = "Hola Mundo"`
5. Otros que aun no hemos visto. Mira la documentación.

> Todos ellos se pueden iterar con un bucle `for`

Por lo tanto, las definiciones de *compresor*, *selector* y *transformador* se modifican de la siguiente manera:

**Compresor**: función que recibe un *iterable* de elementos, y lo comprime a un único elemento.

**Selector**: función que recibe un *iterable* y un predicado y devuelve otro iterable con los elementos que pasan el test del predicado.

**Transformador**: función que recibe un iterable y una función que actúa sobre cada elemento del iterable. Devuelve otro iterable de la misma longitud, con los elementos transformados.

1. Crea un fichero llamado `data_processing.py` y pega el compresor, selector y transformador universales.
2. En `histogram`, implementa la función `grand_total_words(word_totals: Totals)->int`.

### Histograma

Ahora ya tenemos los dos ingredientes que nos hacía falta para crear el histograma:

* El número total de ocurrencias de todas las palabras
* El número de ocurrencias de cada una

Ya sólo tenemos que crear un `dict` con las palabras y su probabilidad (total de esa palabra / total de todas). Para ello tenemos la siguiente función:

`make_histogram(word_totals: Totals, grand_total: int)->Histogram`

Se trata de un ++Trasnformador*, que recib eun iterable y devuelve otro.

1. Implementa la función usando el transformador universal.
2. Mira de nuevo la función `count_words`. ¿Qué tipo de función es? ¿Se podría re-escribir en base a `compress`?



## Conclusión: Mono Dominado

![](mono.jpg)

La parte central de nuestro software (el *mono*) ya está dominada. Sólo nos quedan los pre-requisitos:

1. Construir el set de stopwords a partir del contenido del fichero
2. Construir la lista de palabras a partir del fichero.

Empezaremos por las stopwords, que parece más fácil.
