# Limpieza de un texto

En este notebook deberéis utilizar las herramientas vistas para limpiar el siguiente fragmento:

“Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!”


In [None]:
texto = 'Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!'

In [None]:
print(texto)

Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!


Para ello, lo primero que deberéis hacer es utilizar expresiones regulares para eliminar los símbolos de puntuación, etc.

In [None]:
import string
import re
print(string.punctuation)
chars= string.punctuation + '“”¿¡'
print(chars)
re_punc= re.compile('[%s]' % re.escape(chars))
texto_sin_simb=re_punc.sub('',texto)
print(texto_sin_simb)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~“”¿¡
Es relativamente fácil ponerse de acuerdo en que solo Homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno En cambio nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos


A continuación, tenemos que convertir el texto a minúsculas:

In [None]:
# tu código aquí
tx_min = texto_sin_simb.lower()
print(tx_min)

es relativamente fácil ponerse de acuerdo en que solo homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno en cambio nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos


Y eliminar los acentos:

In [None]:
# tu código aquí
def normalize(s):
    replacements = (
        ("á", "a"),
        ("é", "e"),
        ("í", "i"),
        ("ó", "o"),
        ("ú", "u"),
    )
    for a, b in replacements:
        s = s.replace(a, b).replace(a.upper(), b.upper())
    return s

tx_acentos= normalize(tx_min)

print(tx_acentos)


es relativamente facil ponerse de acuerdo en que solo homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno en cambio nunca convenceremos a un mono para que nos de un platano con la promesa de que despues de morir tendra un numero ilimitado de bananas a su disposicion en el cielo de los monos


Ahora tenemos que dividir el texto en palabras, creando una lista que contenga todas las palabras del texto.

In [None]:

lista_palabras = tx_acentos.split()
print(lista_palabras)


['es', 'relativamente', 'facil', 'ponerse', 'de', 'acuerdo', 'en', 'que', 'solo', 'homo', 'sapiens', 'puede', 'hablar', 'sobre', 'cosas', 'que', 'no', 'existen', 'realmente', 'y', 'creerse', 'seis', 'cosas', 'imposibles', 'antes', 'del', 'desayuno', 'en', 'cambio', 'nunca', 'convenceremos', 'a', 'un', 'mono', 'para', 'que', 'nos', 'de', 'un', 'platano', 'con', 'la', 'promesa', 'de', 'que', 'despues', 'de', 'morir', 'tendra', 'un', 'numero', 'ilimitado', 'de', 'bananas', 'a', 'su', 'disposicion', 'en', 'el', 'cielo', 'de', 'los', 'monos']


In [None]:
# tu código aquí
!pip install nltk



Por último, vamos a emplear la librería `nltk` para eliminar las *stop-words*.

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

# Descarga de las stopwords en español si no se han descargado previamente
import nltk
nltk.download('stopwords')
nltk.download('punkt')

# Obtención de las stopwords en español
stop_words = set(stopwords.words('spanish'))

# Eliminación de las stopwords de la lista de palabras
filtered_sentence = [w for w in lista_palabras if not w.lower() in stop_words]

print(lista_palabras)
print(filtered_sentence)


['es', 'relativamente', 'facil', 'ponerse', 'de', 'acuerdo', 'en', 'que', 'solo', 'homo', 'sapiens', 'puede', 'hablar', 'sobre', 'cosas', 'que', 'no', 'existen', 'realmente', 'y', 'creerse', 'seis', 'cosas', 'imposibles', 'antes', 'del', 'desayuno', 'en', 'cambio', 'nunca', 'convenceremos', 'a', 'un', 'mono', 'para', 'que', 'nos', 'de', 'un', 'platano', 'con', 'la', 'promesa', 'de', 'que', 'despues', 'de', 'morir', 'tendra', 'un', 'numero', 'ilimitado', 'de', 'bananas', 'a', 'su', 'disposicion', 'en', 'el', 'cielo', 'de', 'los', 'monos']
['relativamente', 'facil', 'ponerse', 'acuerdo', 'solo', 'homo', 'sapiens', 'puede', 'hablar', 'cosas', 'existen', 'realmente', 'creerse', 'seis', 'cosas', 'imposibles', 'desayuno', 'cambio', 'nunca', 'convenceremos', 'mono', 'platano', 'promesa', 'despues', 'morir', 'tendra', 'numero', 'ilimitado', 'bananas', 'disposicion', 'cielo', 'monos']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
