# Limpieza de un texto

En este notebook deberéis utilizar las herramientas vistas para limpiar el siguiente fragmento:

“Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!” 


In [1]:
texto = 'Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!'

In [2]:
print(texto)

Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!


Para ello, lo primero que deberéis hacer es utilizar expresiones regulares para eliminar los símbolos de puntuación, etc.

In [5]:
import string
import re
print(string.punctuation)


In [17]:
chars = string.punctuation + '“”¿¡'
re_punc = re.compile('[%s]'% re.escape(chars))

texto_sin_puntos = re_punc.sub('',texto)
print(texto_sin_puntos)


Es relativamente fácil ponerse de acuerdo en que solo Homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno En cambio nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos


A continuación, tenemos que convertir el texto a minúsculas:

In [18]:
texto_minusculas =  texto_sin_puntos.lower()
print(texto_minusculas)

es relativamente fácil ponerse de acuerdo en que solo homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno en cambio nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos


Y eliminar los acentos:

In [14]:
!pip install unidecode


Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting unidecode
  Downloading Unidecode-1.3.6-py3-none-any.whl (235 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m235.9/235.9 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: unidecode
Successfully installed unidecode-1.3.6


In [19]:
import unidecode

texto_sin_acentos = unidecode.unidecode(texto_minusculas)
print(texto_sin_acentos)

es relativamente facil ponerse de acuerdo en que solo homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno en cambio nunca convenceremos a un mono para que nos de un platano con la promesa de que despues de morir tendra un numero ilimitado de bananas a su disposicion en el cielo de los monos


Ahora tenemos que dividir el texto en palabras, creando una lista que contenga todas las palabras del texto.

In [20]:
texto_splitted = texto_sin_acentos.split()

print(texto_splitted)

['es', 'relativamente', 'facil', 'ponerse', 'de', 'acuerdo', 'en', 'que', 'solo', 'homo', 'sapiens', 'puede', 'hablar', 'sobre', 'cosas', 'que', 'no', 'existen', 'realmente', 'y', 'creerse', 'seis', 'cosas', 'imposibles', 'antes', 'del', 'desayuno', 'en', 'cambio', 'nunca', 'convenceremos', 'a', 'un', 'mono', 'para', 'que', 'nos', 'de', 'un', 'platano', 'con', 'la', 'promesa', 'de', 'que', 'despues', 'de', 'morir', 'tendra', 'un', 'numero', 'ilimitado', 'de', 'bananas', 'a', 'su', 'disposicion', 'en', 'el', 'cielo', 'de', 'los', 'monos']


Por último, vamos a emplear la librería `nltk` para eliminar las *stop-words*.

In [21]:
!pip install nltk

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [22]:
import nltk 
from nltk.corpus import stopwords
nltk.download('stopwords')



[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


True

In [23]:
stop_words= stopwords.words('spanish')
print(stop_words)

['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'míos', 'mías', 'tuyo', 'tuya', 'tuyos', 'tuyas', 'suyo', 'suya', 'suyos', 'suyas', 'nuestro', 'nuestra', 'nuestros', 'nuestras', 'vuestro', 'vuestra', 'vuestros', 'vuestras', 'esos', 'esas', 'estoy', 'estás', 'está', 'estamos', 'estáis', 'están', 'e

In [25]:
texto_limpio = [palabra for palabra in texto_splitted if palabra.lower() not in stop_words]
print(texto_limpio)

['relativamente', 'facil', 'ponerse', 'acuerdo', 'solo', 'homo', 'sapiens', 'puede', 'hablar', 'cosas', 'existen', 'realmente', 'creerse', 'seis', 'cosas', 'imposibles', 'desayuno', 'cambio', 'nunca', 'convenceremos', 'mono', 'platano', 'promesa', 'despues', 'morir', 'tendra', 'numero', 'ilimitado', 'bananas', 'disposicion', 'cielo', 'monos']
