# Antes de empezar:
- Lee el archivo README.md
- Comenta todo lo que puedas y utiliza los recursos en el archivo README.md
- ¡Feliz aprendizaje!

In [1]:
# Import reduce from functools, numpy and pandas
from functools import reduce
import numpy
import pandas

# Desafío 1 - Mapping

#### Usaremos la función map para limpiar palabras en un libro.

En la siguiente celda, leeremos un archivo de texto que contiene el libro El Profeta de Khalil Gibran.

In [2]:
# Corre este codigo:

location = '../data/58585-0.txt'
with open(location, 'r', encoding="utf8") as f:
    prophet = f.read().split(' ')

In [3]:
len(prophet)

13637

#### Vamos a eliminar las primeras 568 palabras ya que contienen información sobre el libro pero no son parte del libro en sí.

Haz esto eliminando de `prophet` los elementos del 0 al 567 de la lista (también puedes hacer esto manteniendo los elementos del 568 al último elemento).

In [4]:
# tu codigo aquí
prophet = prophet[568:]

Si revisas las palabras, encontrarás que muchas palabras tienen una referencia adjunta a ellas. Por ejemplo, veamos las palabras del 1 al 10.

In [5]:
# tu codigo aquí
prophet[0:10]

['PROPHET\n\n|Almustafa,',
 'the{7}',
 'chosen',
 'and',
 'the\nbeloved,',
 'who',
 'was',
 'a',
 'dawn',
 'unto']

#### El siguiente paso es crear una función que eliminará las referencias.

Haremos esto dividiendo la cadena en el carácter `{` y manteniendo solo la parte antes de este carácter. Escribe tu función a continuación.

In [6]:
def referencia(x):
    '''
    Entrada: Una cadena
    Salida: La cadena con las referencias eliminadas
    
    Ejemplo:
    Entrada: 'the{7}'
    Salida: 'the'
    '''
    
    # tu código aquí
    return x.split('{')[0].strip()

Ahora que tenemos nuestra función, usa la función `map()` para aplicar esta función a nuestro libro, El Profeta. Devuelve la lista resultante a una nueva lista llamada `prophet_reference`.

In [9]:
# tu codigo aquí
prophet_reference = list(map(referencia, prophet))

print(prophet_reference)

['PROPHET\n\n|Almustafa,', 'the', 'chosen', 'and', 'the\nbeloved,', 'who', 'was', 'a', 'dawn', 'unto', 'his', 'own\nday,', 'had', 'waited', 'twelve', 'years', 'in', 'the', 'city\nof', 'Orphalese', 'for', 'his', 'ship', 'that', 'was', 'to\nreturn', 'and', 'bear', 'him', 'back', 'to', 'the', 'isle', 'of\nhis', 'birth.\n\nAnd', 'in', 'the', 'twelfth', 'year,', 'on', 'the', 'seventh\nday', 'of', 'Ielool,', 'the', 'month', 'of', 'reaping,', 'he\nclimbed', 'the', 'hill', 'without', 'the', 'city', 'walls\nand', 'looked', 'seaward;', 'and', 'he', 'beheld', 'his\nship', 'coming', 'with', 'the', 'mist.\n\nThen', 'the', 'gates', 'of', 'his', 'heart', 'were', 'flung\nopen,', 'and', 'his', 'joy', 'flew', 'far', 'over', 'the', 'sea.\nAnd', 'he', 'closed', 'his', 'eyes', 'and', 'prayed', 'in', 'the\nsilences', 'of', 'his', 'soul.\n\n*****\n\nBut', 'as', 'he', 'descended', 'the', 'hill,', 'a', 'sadness\ncame', 'upon', 'him,', 'and', 'he', 'thought', 'in', 'his\nheart:\n\nHow', 'shall', 'I', 'go', 'in'

Otra cosa que podrías haber notado es que algunas palabras contienen un salto de línea. Escribamos una función para dividir esas palabras. Nuestra función devolverá la cadena dividida en el carácter `\n`. Escribe tu función en la celda de abajo.

In [10]:
def salto_de_linea(x):
    '''
    Entrada: Una cadena
    Salida: Una lista de cadenas divididas en el carácter de salto de línea (\n)
        
    Ejemplo:
    Entrada: 'the\nbeloved'
    Salida: ['the', 'beloved']
    '''
    
    # tu código aquí

    if not isinstance(x, str):
        return []  # Retorna una lista vacía si la entrada no es válida
    
    return [parte.strip() for parte in x.split('\n') if parte.strip()]


Aplica la función `salto_de_linea` a la lista `prophet_reference`. Nombra la nueva lista `prophet_line`.

In [11]:
# tu codigo aquí
prophet_line = [word for sublist in map(salto_de_linea, prophet_reference) for word in sublist]

Si miras los elementos de `prophet_line`, verás que la función devolvió listas y no cadenas. Nuestra lista ahora es una lista de listas. Aplana la lista usando comprensión de listas. Asigna esta nueva lista a `prophet_flat`.

In [12]:
prophet_flat = [i for sub in prophet_line for i in sub]
prophet_flat

['P',
 'R',
 'O',
 'P',
 'H',
 'E',
 'T',
 '|',
 'A',
 'l',
 'm',
 'u',
 's',
 't',
 'a',
 'f',
 'a',
 ',',
 't',
 'h',
 'e',
 'c',
 'h',
 'o',
 's',
 'e',
 'n',
 'a',
 'n',
 'd',
 't',
 'h',
 'e',
 'b',
 'e',
 'l',
 'o',
 'v',
 'e',
 'd',
 ',',
 'w',
 'h',
 'o',
 'w',
 'a',
 's',
 'a',
 'd',
 'a',
 'w',
 'n',
 'u',
 'n',
 't',
 'o',
 'h',
 'i',
 's',
 'o',
 'w',
 'n',
 'd',
 'a',
 'y',
 ',',
 'h',
 'a',
 'd',
 'w',
 'a',
 'i',
 't',
 'e',
 'd',
 't',
 'w',
 'e',
 'l',
 'v',
 'e',
 'y',
 'e',
 'a',
 'r',
 's',
 'i',
 'n',
 't',
 'h',
 'e',
 'c',
 'i',
 't',
 'y',
 'o',
 'f',
 'O',
 'r',
 'p',
 'h',
 'a',
 'l',
 'e',
 's',
 'e',
 'f',
 'o',
 'r',
 'h',
 'i',
 's',
 's',
 'h',
 'i',
 'p',
 't',
 'h',
 'a',
 't',
 'w',
 'a',
 's',
 't',
 'o',
 'r',
 'e',
 't',
 'u',
 'r',
 'n',
 'a',
 'n',
 'd',
 'b',
 'e',
 'a',
 'r',
 'h',
 'i',
 'm',
 'b',
 'a',
 'c',
 'k',
 't',
 'o',
 't',
 'h',
 'e',
 'i',
 's',
 'l',
 'e',
 'o',
 'f',
 'h',
 'i',
 's',
 'b',
 'i',
 'r',
 't',
 'h',
 '.',
 'A',
 'n'

In [None]:
# tu codigo aquí

# Desafío 2 - Filtering

Al imprimir algunas palabras del libro, vemos que hay palabras que tal vez no queramos conservar si elegimos analizar el corpus de texto. A continuación, se muestra una lista de palabras que nos gustaría eliminar. Crea una función que devuelva falso si contiene una palabra de la lista de palabras especificadas y verdadero de lo contrario.

In [15]:
def filtro_palabra(x):
    lista_palabras = ['and', 'the', 'a', 'an']

    counting = sum([x.count(i) for i in lista_palabras])

    return False if counting > 0 else True

print(filtro_palabra('and'))
print(filtro_palabra('the'))   
print(filtro_palabra('John'))   
print(filtro_palabra('And'))    
print(filtro_palabra('apple')) 

False
False
True
True
False


Usa la función `filter()` para filtrar las palabras especificadas en la función `filtro_palabra()`. Guarda la lista filtrada en la variable `prophet_filter`.


In [16]:
# tu codigo aquí
prophet_filter = list(filter(filtro_palabra, prophet_flat))
print(prophet_filter)

['P', 'R', 'O', 'P', 'H', 'E', 'T', '|', 'A', 'l', 'm', 'u', 's', 't', 'f', ',', 't', 'h', 'e', 'c', 'h', 'o', 's', 'e', 'n', 'n', 'd', 't', 'h', 'e', 'b', 'e', 'l', 'o', 'v', 'e', 'd', ',', 'w', 'h', 'o', 'w', 's', 'd', 'w', 'n', 'u', 'n', 't', 'o', 'h', 'i', 's', 'o', 'w', 'n', 'd', 'y', ',', 'h', 'd', 'w', 'i', 't', 'e', 'd', 't', 'w', 'e', 'l', 'v', 'e', 'y', 'e', 'r', 's', 'i', 'n', 't', 'h', 'e', 'c', 'i', 't', 'y', 'o', 'f', 'O', 'r', 'p', 'h', 'l', 'e', 's', 'e', 'f', 'o', 'r', 'h', 'i', 's', 's', 'h', 'i', 'p', 't', 'h', 't', 'w', 's', 't', 'o', 'r', 'e', 't', 'u', 'r', 'n', 'n', 'd', 'b', 'e', 'r', 'h', 'i', 'm', 'b', 'c', 'k', 't', 'o', 't', 'h', 'e', 'i', 's', 'l', 'e', 'o', 'f', 'h', 'i', 's', 'b', 'i', 'r', 't', 'h', '.', 'A', 'n', 'd', 'i', 'n', 't', 'h', 'e', 't', 'w', 'e', 'l', 'f', 't', 'h', 'y', 'e', 'r', ',', 'o', 'n', 't', 'h', 'e', 's', 'e', 'v', 'e', 'n', 't', 'h', 'd', 'y', 'o', 'f', 'I', 'e', 'l', 'o', 'o', 'l', ',', 't', 'h', 'e', 'm', 'o', 'n', 't', 'h', 'o',

# Desafío extra

Reescribe la función `filtro_palabra` de arriba para que no sea sensible a mayúsculas y minúsculas.

In [18]:
def word_filter_case(x):

    word_list = ['and', 'the', 'a', 'an']
    
    # your code here
    counting = sum([x.lower().count(i) for i in word_list])
    return False if counting > 0 else True



# Desafío 3 - Reducing

#### Ahora que hemos limpiado significativamente nuestro corpus de texto, usemos la función `reduce()` para volver a unir las palabras en una cadena larga separada por espacios.

Comenzaremos escribiendo una función que toma dos cadenas y las concatena juntas con un espacio entre las dos cadenas.


In [19]:
def concatenar_espacio(a, b):
    # usemos la función reduce() para volver a unir las palabras en una cadena larga separada por espacios.
    return a + ' ' + b

In [None]:
# tu código aquí

Usa la función de arriba para reducir el corpus de texto en la lista `prophet_filter` a una única cadena. Asigna esta nueva cadena a la variable `prophet_string`.

In [20]:
# tu código aquí
prophet_string = reduce(concatenar_espacio, prophet_filter)