# Análisis de las palabras de un texto.

Este cuaderno es para comprobar que el progama echo en un IDE externo a jupyter (spyder por ejemplo) está hecho correctamente. El programa se debe llamar `words.py`. Si se hace cualquier modificación en el programa es necesario borrar el directorio __pycache__ que se genera automáticamennte y reinicializar el kernel de jupyter.


En primer lugar vamos a hacer una función que vamos a llamar `split` que va a dividir un texto en sus palabras. El texto nos lo van a proporcionar en una cadena de caracteres que se pasa como parámetro a la función. Una palabra va a ser cualquier secuencia de caracteres entre los signos de puntuación. Para obtener los signos de puntuación vamos a usar la constante `PUNCTUATION`. La función debe devolver una lista con las palabras que la componen. 

In [1]:
from testing import WrapperStr, WrapperLst, runtests

PUNCTUATION = WrapperStr(' ¡!"#$%&\'()*+,-./:;<=>¿?@[\\]^_`{|}~«»\n\t\r')

Para hacer esta función primero necesitamos una función auxiliar. La primera es `get_word` que admite como parámetro un texto (un `str`) y una posición. La función devuelve la siguiente palabra después de saltar los signos de puntuación y la posición siguiente a la palabra.

Ejemplos:
  'desta manera?: «Apenas había', 13 -----> 'Apenas', 22
  'desta manera?: «Apenas había', 23 -----> 'Había', 28
  'tomaba la\npodadera. Frisaba', 9  -----> 'podadera', 18

**Pista:** puedes hacer usar la función `is_in` que está en alguna hoja de ejercicios anterior.

In [2]:
from words import get_word

In [3]:
def test_get_word():
    def wrapper(txt: str, pos: int):
        return get_word(WrapperStr(txt), pos)

    tests = [
        (('desta manera?: «Apenas había', 13), ('Apenas', 22)),
        (('desta manera?: «Apenas había', 23), ('había', 28)),
        (('tomaba la\npodadera. Frisaba', 9), ('podadera', 18)),
        (('tomaba la\npodadera. Frisaba', 27), ('', 27)),
        (('tomaba la\npodadera. Frisaba!.  ', 27), ('', 31))

    ]
    runtests(tests, wrapper)
test_get_word()

"('desta manera?: «Apenas había', 13)", "('Apenas', 22)"....OK.
"('desta manera?: «Apenas había', 23)", "('había', 28)"....OK.
"('tomaba la\npodadera. Frisaba', 9)", "('podadera', 18)"....OK.
"('tomaba la\npodadera. Frisaba', 27)", "('', 27)"....OK.
"('tomaba la\npodadera. Frisaba!.  ', 27)", "('', 31)"....OK.


Usando esa esa función, ya es fácil realizar la función `split` pedida. La función toma como parámetro una cadena de caracteres y devuelve una lista con las palabras que contiene. Fíjate en las últimas pruebas de la función anterior. No introduzcas la palabra vacía en la lista.

 

In [4]:
from words import split

In [5]:
def test_split():
    def wrapper(txt: str):
        return sorted(split(WrapperStr(txt)))

    tests = [
        (('desta manera?: «Apenas había', ), ['Apenas', 'desta', 'había', 'manera']),
        (('tomaba la\npodadera. Frisaba', ), ['Frisaba', 'la', 'podadera', 'tomaba']),
        (('tomaba la\npodadera. ¡Frisaba!. ', ), ['Frisaba', 'la', 'podadera', 'tomaba']),
    ]
    runtests(tests, wrapper)
test_split()

"('desta manera?: «Apenas había',)", "['Apenas', 'desta', 'había', 'manera']"....OK.
"('tomaba la\npodadera. Frisaba',)", "['Frisaba', 'la', 'podadera', 'tomaba']"....OK.
"('tomaba la\npodadera. ¡Frisaba!. ',)", "['Frisaba', 'la', 'podadera', 'tomaba']"....OK.


Realiza una función que cambie una palabra a minúsculas. La palabra `CIGÜEÑA` la debe transformar a `cigüeña`.
Debes tener en cuenta las tildes, las eñes y las diéresis. 

In [6]:
from words import lower

In [7]:
def test_lower():
    def wrapper(txt: str) -> str:
         return lower(WrapperStr(txt))

    tests = [
        (('CIGÜEÑA',), 'cigüeña'),
        (('Ángel',), 'ángel'),
        (('ÁÉÍÓÚÜÑ',), 'áéíóúüñ')
    ]
    runtests(tests, wrapper)
test_lower()

"('CIGÜEÑA',)", "cigüeña"....OK.
"('Ángel',)", "ángel"....OK.
"('ÁÉÍÓÚÜÑ',)", "áéíóúüñ"....OK.


Ahora debemos hacer una función llamada `different` que tenga como parámetro una lista de palabras. La función devuelve una lista con las palabras de la lista original sin repeticiones. Las palabras devueltas deben estar en minúsculas.
No se puede hacer una comprobación del tipo `if w not in lst`, para ello se puede usar la función `index` que vimos en clase

In [8]:
from words import different_words

In [9]:
def test_different():
    def wrapper(words: list[str]) -> list[str]:
        newlst = list(map(WrapperStr, words))
        return sorted(different_words(newlst))

    tests = [
        (([],),[]),
        ((['Hola','Pepe', 'hola', 'pepe'],),['hola', 'pepe']),
        ((['Ángel','ángel', 'CIGÜEÑA', 'cigüeña'],),['cigüeña', 'ángel']),

    ]
    runtests(tests, wrapper)
test_different()

"([],)", "[]"....OK.
"(['Hola', 'Pepe', 'hola', 'pepe'],)", "['hola', 'pepe']"....OK.
"(['Ángel', 'ángel', 'CIGÜEÑA', 'cigüeña'],)", "['cigüeña', 'ángel']"....OK.


Vamos a realizar una función que calcule unas estadísticas simples: la media y la varianza. La función se llamará `mean_variance`, admite como parámetro una lista de números. Calculará ambos valores realizando una sola pasada sobre la lista, para ello podemos usar lo siguiente

$$
\begin{array}{l}
\displaystyle\frac{1}{n}\sum_{i=1}^{n} (x_i-\overline{x})^{2}=\\
\displaystyle\frac{1}{n}\sum_{i=1}^{n} x_i^{2}+\overline{x}^{2} - 2 x_{i}\overline{x}=\\
\displaystyle\left(\frac{1}{n}\sum_{i=1}^{n} x_i^{2}\right) +\
\frac{n}{n}\overline{x}^{2} - 2 \overline{x}^{2}\frac{1}{n}\sum_{i=1}^{n} x_i =\\
\displaystyle\left(\frac{1}{n}\sum_{i=1}^{n} x_i^{2}\right) +
\overline{x}^{2} - 2\overline{x}^{2}=\\
\displaystyle\left(\frac{1}{n}\sum_{i=1}^{n} x_i^{2}\right)- \overline{x}^{2}
\end{array}
$$


Donde $\overline{x}$ es la media de x.
Se hace un único bucle que calcula la suma de los valores y la suma de los cuadrados de los valores.
La función devuelve una tupla, el primer elemento es la media y el segundo la varianza.
Recuerda que es necesario que $n>0$.

In [10]:
from words import mean_variance

# 

In [11]:
def test_mean_variance():
    def wrapper(serie: list[float]) -> (float, float):
        mean, var = mean_variance(serie)
        return round(mean, 6), round(var, 6)

    tests = [
        (([1.0, 2.0, 3.0],), (2.0, round(2/3, 6))),
        (([0.0, 1.0, 2.0, 3.0, 4.0],), (2.0, 2.0)),
    ]
    runtests(tests, wrapper)

    try:
        mean_variance([])
    except AssertionError:
        print('OK.')
    except:
        assert False, 'Se debe controlar que la lista no sea vacía'
test_mean_variance()

"([1.0, 2.0, 3.0],)", "(2.0, 0.666667)"....OK.
"([0.0, 1.0, 2.0, 3.0, 4.0],)", "(2.0, 2.0)"....OK.
OK.


La siguiente función que se debe llamar `get_lengths` tiene como parámetro una lista de palabras. Devuelve una lista con las longitudes de cada una de las palabras que aparecen en la lista original

**Ejemplo:** `['hola', 'mundo']` ----> `[4, 5]`

In [14]:
from words import get_lengths

In [15]:
def test_get_lenghts():
    def wrapper(words: list[str]) -> list[str]:
        newlst = list(map(WrapperStr, words))
        return get_lengths(newlst)

    tests = [
        (([],),[]),
        ((['a', 'b', 'ab', 'abc', ''],), [1, 1, 2, 3, 0]),
        ((['cigüeña', 'ángel'],), [7, 5]),
    ]
    runtests(tests, wrapper)
test_get_lenghts()

"([],)", "[]"....OK.
"(['a', 'b', 'ab', 'abc', ''],)", "[1, 1, 2, 3, 0]"....OK.
"(['cigüeña', 'ángel'],)", "[7, 5]"....OK.


Finalmente podemos juntar todas las piezas. Debes hacer una función llamada `stats` que recibe como parámetro un texto. Debe devolver una lista de 6 elementos: `[all_len, all_mean, all_var, diff_len, all_mean, all_var]`, donde 
* `all_len` es el número total de palabras del texto.
* `all_mean` y `all_var` es la media y la varianza de las longitudes de todas las palabras del texto.
* `diff_len` es el número de palabras diferentes.
* `diff_mean` y `diff_var` es la media y la varianza de las longitudes de las palabras diferentes del texto.

**Ejemplo**: `'a ab abc A.AB,ABC'` ----> `[6, 2, 0.666667, 3, 2, 0.666667]`


In [17]:
from words import stats

In [18]:
def test_stats():
    def wrapper(txt: str) -> (int, float, float, int, float, float):
        return list(map(lambda x: round(x,6), stats(WrapperStr(txt))))

    tests = [
        (('a',), [1,1,0,1,1,0]),
        (('a ab abc',), [3, 2, round(2/3,6), 3, 2, round(2/3,6)]),
        (('a ab abc A.AB,ABC',), [6, 2, round(2/3,6), 3, 2, round(2/3,6)]),
    ]
    runtests(tests, wrapper)
test_stats()

"('a',)", "[1, 1, 0, 1, 1, 0]"....OK.
"('a ab abc',)", "[3, 2, 0.666667, 3, 2, 0.666667]"....OK.
"('a ab abc A.AB,ABC',)", "[6, 2, 0.666667, 3, 2, 0.666667]"....OK.
