# Limpieza de un texto

En este notebook deberéis utilizar las herramientas vistas para limpiar el siguiente fragmento:

“Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!”


In [1]:
texto = 'Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!'

In [2]:
print(texto)

Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!


Para ello, lo primero que deberéis hacer es utilizar expresiones regulares para eliminar los símbolos de puntuación, etc.

In [3]:
import re
# Crear una expresión regular para eliminar símbolos de puntuación y caracteres no deseados
pattern = r'[^\w\s]'

# Usar re.sub para reemplazar los caracteres que coinciden con la expresión regular
texto_limpio = re.sub(pattern, '', texto)

print("\nTexto limpio:")
print(texto_limpio)


Texto limpio:
Es relativamente fácil ponerse de acuerdo en que solo Homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno En cambio nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos


A continuación, tenemos que convertir el texto a minúsculas:

In [4]:
# Convertir el texto limpio a minúsculas
texto_limpio_minusculas = texto_limpio.lower()

print("\nTexto limpio y en minúsculas:")
print(texto_limpio_minusculas)


Texto limpio y en minúsculas:
es relativamente fácil ponerse de acuerdo en que solo homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno en cambio nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos


Y eliminar los acentos:

In [8]:
import unicodedata
def eliminar_acentos(texto):
    # Normalizar el texto en la forma NFD (Normalization Form D)
    texto_normalizado = unicodedata.normalize('NFD', texto)
    # Filtrar los caracteres que no son de composición (excluir los diacríticos)
    texto_sin_acentos = ''.join(c for c in texto_normalizado if unicodedata.category(c) != 'Mn')
    return texto_sin_acentos

texto_final = eliminar_acentos(texto_limpio_minusculas)
print (texto_final)

es relativamente facil ponerse de acuerdo en que solo homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno en cambio nunca convenceremos a un mono para que nos de un platano con la promesa de que despues de morir tendra un numero ilimitado de bananas a su disposicion en el cielo de los monos


Ahora tenemos que dividir el texto en palabras, creando una lista que contenga todas las palabras del texto.

In [9]:
# Dividir el texto en palabras
lista_palabras = texto_final.split()

print("\nLista de palabras:")
print(lista_palabras)


Lista de palabras:
['es', 'relativamente', 'facil', 'ponerse', 'de', 'acuerdo', 'en', 'que', 'solo', 'homo', 'sapiens', 'puede', 'hablar', 'sobre', 'cosas', 'que', 'no', 'existen', 'realmente', 'y', 'creerse', 'seis', 'cosas', 'imposibles', 'antes', 'del', 'desayuno', 'en', 'cambio', 'nunca', 'convenceremos', 'a', 'un', 'mono', 'para', 'que', 'nos', 'de', 'un', 'platano', 'con', 'la', 'promesa', 'de', 'que', 'despues', 'de', 'morir', 'tendra', 'un', 'numero', 'ilimitado', 'de', 'bananas', 'a', 'su', 'disposicion', 'en', 'el', 'cielo', 'de', 'los', 'monos']


Por último, vamos a emplear la librería `nltk` para eliminar las *stop-words*.

In [10]:
import nltk
from nltk.corpus import stopwords
nltk.download('stopwords')
# Eliminar las stop-words
stop_words = set(stopwords.words('spanish'))
lista_palabras_sin_stopwords = [palabra for palabra in lista_palabras if palabra not in stop_words]

print("\nLista de palabras sin stop-words:")
print(lista_palabras_sin_stopwords)


Lista de palabras sin stop-words:
['relativamente', 'facil', 'ponerse', 'acuerdo', 'solo', 'homo', 'sapiens', 'puede', 'hablar', 'cosas', 'existen', 'realmente', 'creerse', 'seis', 'cosas', 'imposibles', 'desayuno', 'cambio', 'nunca', 'convenceremos', 'mono', 'platano', 'promesa', 'despues', 'morir', 'tendra', 'numero', 'ilimitado', 'bananas', 'disposicion', 'cielo', 'monos']


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
