# Antes de empezar:
- Lee el archivo README.md
- Comenta todo lo que puedas y utiliza los recursos en el archivo README.md
- ¡Feliz aprendizaje!

In [97]:
# Import reduce from functools, numpy and pandas
from functools import reduce
import numpy
import pandas

# Desafío 1 - Mapping

#### Usaremos la función map para limpiar palabras en un libro.

En la siguiente celda, leeremos un archivo de texto que contiene el libro El Profeta de Khalil Gibran.

In [99]:
# Corre este codigo:

location = '../data/58585-0.txt'
with open(location, 'r', encoding="utf8") as f:
    prophet = f.read().split(' ')

In [101]:
len(prophet)

13637

#### Vamos a eliminar las primeras 568 palabras ya que contienen información sobre el libro pero no son parte del libro en sí.

Haz esto eliminando de `prophet` los elementos del 0 al 567 de la lista (también puedes hacer esto manteniendo los elementos del 568 al último elemento).

In [103]:
prophet_filtrat = list(map(lambda x: x[1], filter(lambda x: x[0] >= 568, enumerate(prophet))))

# Mirem la nova mida de la llista:
print("Ara tenim:", len(prophet_filtrat))

Ara tenim: 13069


Si revisas las palabras, encontrarás que muchas palabras tienen una referencia adjunta a ellas. Por ejemplo, veamos las palabras del 1 al 10.

In [105]:
print(prophet_filtrat[1:11])

['the{7}', 'chosen', 'and', 'the\nbeloved,', 'who', 'was', 'a', 'dawn', 'unto', 'his']


#### El siguiente paso es crear una función que eliminará las referencias.

Haremos esto dividiendo la cadena en el carácter `{` y manteniendo solo la parte antes de este carácter. Escribe tu función a continuación.

In [107]:
def referencia(x):
     return x.split('{')[0]  # Retorna el que hi ha abans de '{'

Ahora que tenemos nuestra función, usa la función `map()` para aplicar esta función a nuestro libro, El Profeta. Devuelve la lista resultante a una nueva lista llamada `prophet_reference`.

In [109]:
prophet_reference = list(map(referencia, prophet_filtrat))

# comprobem les 10 primeres paraules, les mateixes d'abans
print(prophet_reference[1:11])  # Mostrar las primeras 10 palabras

['the', 'chosen', 'and', 'the\nbeloved,', 'who', 'was', 'a', 'dawn', 'unto', 'his']


Otra cosa que podrías haber notado es que algunas palabras contienen un salto de línea. Escribamos una función para dividir esas palabras. Nuestra función devolverá la cadena dividida en el carácter `\n`. Escribe tu función en la celda de abajo.

In [111]:
def salto_de_linea(x):
    '''
    Entrada: Una cadena
    Salida: Una lista de cadenas divididas en el carácter de salto de línea (\n)
        
    Ejemplo:
    Entrada: 'the\nbeloved'
    Salida: ['the', 'beloved']
    '''

    # divideix la cadena en '\n' i torna la llista resultant.
    return x.split('\n')

Aplica la función `salto_de_linea` a la lista `prophet_reference`. Nombra la nueva lista `prophet_line`.

In [113]:
# apliquem la funció
prophet_line = list(map(salto_de_linea, prophet_reference))

# tornem a mirar els 10 primers elements
print(prophet_line[1:11])  # Mostrar las primeras 10 listas resultantes

[['the'], ['chosen'], ['and'], ['the', 'beloved,'], ['who'], ['was'], ['a'], ['dawn'], ['unto'], ['his']]


Si miras los elementos de `prophet_line`, verás que la función devolvió listas y no cadenas. Nuestra lista ahora es una lista de listas. Aplana la lista usando comprensión de listas. Asigna esta nueva lista a `prophet_flat`.

In [115]:
prophet_flat = [i for sub in prophet_line for i in sub]
# aplanem la llista:
prophet_flat = [item for sublist in prophet_line for item in sublist]

# comprobem: 
print(prophet_flat[:10])

['PROPHET', '', '|Almustafa,', 'the', 'chosen', 'and', 'the', 'beloved,', 'who', 'was']


In [None]:
# tu codigo aquí

# Desafío 2 - Filtering

Al imprimir algunas palabras del libro, vemos que hay palabras que tal vez no queramos conservar si elegimos analizar el corpus de texto. A continuación, se muestra una lista de palabras que nos gustaría eliminar. Crea una función que devuelva falso si contiene una palabra de la lista de palabras especificadas y verdadero de lo contrario.

In [117]:
def filtro_palabra(x):
    '''
    Entrada: Una cadena
    Salida: Verdadero si la palabra no está en la lista especificada 
    y Falso si la palabra está en la lista.
        
    Ejemplo:
    lista de palabras = ['and', 'the']
    Entrada: 'and'
    Salida: FALSE
    
    Entrada: 'John'
    Salida: TRUE
    '''
    
    lista_palabras = ['and', 'the', 'a', 'an']
    
    # Devolver verdadero si la palabra no está en la lista, falso de lo contrario
    return x not in lista_palabras

Usa la función `filter()` para filtrar las palabras especificadas en la función `filtro_palabra()`. Guarda la lista filtrada en la variable `prophet_filter`.


In [119]:
prophet_filter = list(filter(filtro_palabra, prophet_flat))

# Comprobar las primeras entradas de la lista filtrada
print(prophet_filter[1:11])  # Mostrar las primeras 10 palabras filtradas

['', '|Almustafa,', 'chosen', 'beloved,', 'who', 'was', 'dawn', 'unto', 'his', 'own']


# Desafío extra

Reescribe la función `filtro_palabra` de arriba para que no sea sensible a mayúsculas y minúsculas.

In [121]:
def filtro_palabra(x) :
     return x.lower() not in (word.lower() for word in lista_palabras)

In [123]:
def word_filter_case(x):
   
    word_list = ['and', 'the', 'a', 'an']
    
    counting = sum([x.lower().count(i) for i in word_list])
    return False if counting > 0 else True

# Desafío 3 - Reducing

#### Ahora que hemos limpiado significativamente nuestro corpus de texto, usemos la función `reduce()` para volver a unir las palabras en una cadena larga separada por espacios.

Comenzaremos escribiendo una función que toma dos cadenas y las concatena juntas con un espacio entre las dos cadenas.


In [125]:
def concatenar_espacio(a, b):
    '''
    Entrada: Dos cadenas
    Salida: Una única cadena separada por un espacio
        
    Ejemplo:
    Entrada: 'John', 'Smith'
    Salida: 'John Smith'
    '''
    
    # Concatenar les dues cadenes amb un espai al mig
    return a + ' ' + b

In [None]:
# tu código aquí

Usa la función de arriba para reducir el corpus de texto en la lista `prophet_filter` a una única cadena. Asigna esta nueva cadena a la variable `prophet_string`.

In [127]:
# Reducir el corpus usando la función concatenar_espacio
prophet_string = prophet_filter[0]  # ens posem a la primera paraula
for paraula in prophet_filter[1:]:
    prophet_string = concatenar_espacio(prophet_string, paraula)

# Mirem el resultat
print(prophet_string[1:11])

ROPHET  |A
