# Antes de empezar:
- Lee el archivo README.md
- Comenta todo lo que puedas y utiliza los recursos en el archivo README.md
- ¡Feliz aprendizaje!

In [395]:
# Import reduce from functools, numpy and pandas
from functools import reduce
import numpy
import pandas

# Desafío 1 - Mapping

#### Usaremos la función map para limpiar palabras en un libro.

En la siguiente celda, leeremos un archivo de texto que contiene el libro El Profeta de Khalil Gibran.

In [396]:
# Corre este codigo:

location = '../data/58585-0.txt'
with open(location, 'r', encoding="utf8") as f:
    prophet = f.read().split(' ')

In [397]:
len(prophet)

13637

#### Vamos a eliminar las primeras 568 palabras ya que contienen información sobre el libro pero no son parte del libro en sí.

Haz esto eliminando de `prophet` los elementos del 0 al 567 de la lista (también puedes hacer esto manteniendo los elementos del 568 al último elemento).

In [398]:
reducedProfet = prophet[568::]

Si revisas las palabras, encontrarás que muchas palabras tienen una referencia adjunta a ellas. Por ejemplo, veamos las palabras del 1 al 10.

In [399]:
oneToTen = reducedProfet[:10]
print(oneToTen)

['PROPHET\n\n|Almustafa,', 'the{7}', 'chosen', 'and', 'the\nbeloved,', 'who', 'was', 'a', 'dawn', 'unto']


#### El siguiente paso es crear una función que eliminará las referencias.

Haremos esto dividiendo la cadena en el carácter `{` y manteniendo solo la parte antes de este carácter. Escribe tu función a continuación.

In [400]:
import re

def referencia(x):
    '''
    Entrada: Una cadena
    Salida: La cadena con las referencias eliminadas
    
    Ejemplo:
    Entrada: 'the{7}'
    Salida: 'the'
    '''
    
    return re.sub(r'\{\d+\}', '', x)

Ahora que tenemos nuestra función, usa la función `map()` para aplicar esta función a nuestro libro, El Profeta. Devuelve la lista resultante a una nueva lista llamada `prophet_reference`.

In [401]:
profet_reference = map(referencia, prophet)

Otra cosa que podrías haber notado es que algunas palabras contienen un salto de línea. Escribamos una función para dividir esas palabras. Nuestra función devolverá la cadena dividida en el carácter `\n`. Escribe tu función en la celda de abajo.

In [402]:
def salto_de_linea(x):
    '''
    Entrada: Una cadena
    Salida: Una lista de cadenas divididas en el carácter de salto de línea (\n)
        
    Ejemplo:
    Entrada: 'the\nbeloved'
    Salida: ['the', 'beloved']
    '''
    
    return x.split('\n')

Aplica la función `salto_de_linea` a la lista `prophet_reference`. Nombra la nueva lista `prophet_line`.

In [403]:
prophet_line = map(salto_de_linea, profet_reference)

Si miras los elementos de `prophet_line`, verás que la función devolvió listas y no cadenas. Nuestra lista ahora es una lista de listas. Aplana la lista usando comprensión de listas. Asigna esta nueva lista a `prophet_flat`.

In [404]:
prophet_flat = [i for sub in prophet_line for i in sub]
prophet_flat

['The',
 'Project',
 'Gutenberg',
 'EBook',
 'of',
 'The',
 'Prophet,',
 'by',
 'Kahlil',
 'Gibran',
 '',
 'This',
 'eBook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'in',
 'the',
 'United',
 'States',
 'and',
 'most',
 'other',
 'parts',
 'of',
 'the',
 'world',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions',
 'whatsoever.',
 '',
 'You',
 'may',
 'copy',
 'it,',
 'give',
 'it',
 'away',
 'or',
 're-use',
 'it',
 'under',
 'the',
 'terms',
 'of',
 'the',
 'Project',
 'Gutenberg',
 'License',
 'included',
 'with',
 'this',
 'eBook',
 'or',
 'online',
 'at',
 'www.gutenberg.org.',
 '',
 'If',
 'you',
 'are',
 'not',
 'located',
 'in',
 'the',
 'United',
 'States,',
 "you'll",
 'have',
 'to',
 'check',
 'the',
 'laws',
 'of',
 'the',
 'country',
 'where',
 'you',
 'are',
 'located',
 'before',
 'using',
 'this',
 'ebook.',
 '',
 '',
 '',
 'Title:',
 'The',
 'Prophet',
 '',
 'Author:',
 'Kahlil',
 'Gibran',
 '',
 'Release',
 'Date:',
 'Janua

# Desafío 2 - Filtering

Al imprimir algunas palabras del libro, vemos que hay palabras que tal vez no queramos conservar si elegimos analizar el corpus de texto. A continuación, se muestra una lista de palabras que nos gustaría eliminar. Crea una función que devuelva falso si contiene una palabra de la lista de palabras especificadas y verdadero de lo contrario.

In [405]:
def filtro_palabra(x):
    '''
    Entrada: Una cadena
    Salida: Verdadero si la palabra no está en la lista especificada 
    y Falso si la palabra está en la lista.
        
    Ejemplo:
    lista de palabras = ['and', 'the']
    Entrada: 'and'
    Salida: FALSE
    
    Entrada: 'John'
    Salida: TRUE
    '''
    
    lista_palabras = ['and', 'the', 'a', 'an']
    
    return x in lista_palabras

Usa la función `filter()` para filtrar las palabras especificadas en la función `filtro_palabra()`. Guarda la lista filtrada en la variable `prophet_filter`.


In [406]:
prophet_filter = filter(filtro_palabra, prophet_flat)

# Desafío extra

Reescribe la función `filtro_palabra` de arriba para que no sea sensible a mayúsculas y minúsculas.

In [407]:
def word_filter_case(x):
   
    word_list = ['and', 'the', 'a', 'an']
    
    # your code here
    counting = sum([x.lower().count(i) for i in word_list])
    return False if counting > 0 else True

# Desafío 3 - Reducing

#### Ahora que hemos limpiado significativamente nuestro corpus de texto, usemos la función `reduce()` para volver a unir las palabras en una cadena larga separada por espacios.

Comenzaremos escribiendo una función que toma dos cadenas y las concatena juntas con un espacio entre las dos cadenas.


In [408]:
def concatenar_espacio(a, b):
    '''
    Entrada: Dos cadenas
    Salida: Una única cadena separada por un espacio
        
    Ejemplo:
    Entrada: 'John', 'Smith'
    Salida: 'John Smith'
    '''
    
    return  a + ' ' + b

Usa la función de arriba para reducir el corpus de texto en la lista `prophet_filter` a una única cadena. Asigna esta nueva cadena a la variable `prophet_string`.

In [409]:
from functools import reduce

prophet_string = reduce(concatenar_espacio, prophet_filter)
print(prophet_string)

the the and the and the the the the the the a the and the and the and the the the the and and and and and and the and the a the and the the the the the the and and the the and the and the the a and and a the the and the and and the and the and a and an a a a a and and the the and and a the and the the and the the the the the and the and the the and the and the a and the and the a a and and and the and the the the the a and a a the the a and the and the and the the and the the and the the and and a and the and the the the and the a a and a and and the and and and the the the the a a and a the the and the and the and and and and and the and the and and and the and a a and the the the and the and the the and a and and the and and the the and and a the the and a and the and a the and a and and the the the the a a the the and and the a the the the the the and the a a the and the the the the the and and the the the a and the the the the the the and and the and the and and and and the the and