# Limpieza de un texto

En este notebook deberéis utilizar las herramientas vistas para limpiar el siguiente fragmento:

“Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!” 


In [1]:
texto = 'Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!'

In [2]:
print(texto)

Es relativamente fácil ponerse de acuerdo en que solo “Homo sapiens” puede hablar sobre cosas que no existen realmente, y creerse seis cosas imposibles antes del desayuno. En cambio, ¡nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos!


Para ello, lo primero que deberéis hacer es utilizar expresiones regulares para eliminar los símbolos de puntuación, etc.

In [20]:
# eliminar los signos de puntuación
import string
import re

chars = string.punctuation + '“”¡¿' # crea una cadena con los signos de puntuación porque no tiene todos los signos de puntuación
re_pun = re.compile('[%s]' % re.escape(chars)) # crea un patrón con los signos de puntuación
texto_sin_puntuacion = re_pun.sub('', texto) # reemplaza los signos de puntuación por nada
print(texto_sin_puntuacion)

Es relativamente fácil ponerse de acuerdo en que solo Homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno En cambio nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos


A continuación, tenemos que convertir el texto a minúsculas:

In [21]:
# poner el texto a minúsculas
texto_minuscula = texto_sin_puntuacion.lower() 
print(texto_minuscula)

es relativamente fácil ponerse de acuerdo en que solo homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno en cambio nunca convenceremos a un mono para que nos dé un plátano con la promesa de que después de morir tendrá un número ilimitado de bananas a su disposición en el cielo de los monos


Y eliminar los acentos:

In [23]:
# eliminar acentos
import unicodedata

# 2 formas de eliminar acentos:
#texto_sin_acentos = ''.join((c for c in unicodedata.normalize('NFD', texto_minuscula) if unicodedata.category(c) != 'Mn'))
texto_sin_acentos = unicodedata.normalize('NFD', texto_minuscula).encode('ascii', 'ignore').decode("utf-8")
print(texto_sin_acentos)

es relativamente facil ponerse de acuerdo en que solo homo sapiens puede hablar sobre cosas que no existen realmente y creerse seis cosas imposibles antes del desayuno en cambio nunca convenceremos a un mono para que nos de un platano con la promesa de que despues de morir tendra un numero ilimitado de bananas a su disposicion en el cielo de los monos


Ahora tenemos que dividir el texto en palabras, creando una lista que contenga todas las palabras del texto.

In [24]:
# dividr el texto en palabras, creando una lista de palabras
texto_palabras = texto_sin_acentos.split()
print(texto_palabras)

['es', 'relativamente', 'facil', 'ponerse', 'de', 'acuerdo', 'en', 'que', 'solo', 'homo', 'sapiens', 'puede', 'hablar', 'sobre', 'cosas', 'que', 'no', 'existen', 'realmente', 'y', 'creerse', 'seis', 'cosas', 'imposibles', 'antes', 'del', 'desayuno', 'en', 'cambio', 'nunca', 'convenceremos', 'a', 'un', 'mono', 'para', 'que', 'nos', 'de', 'un', 'platano', 'con', 'la', 'promesa', 'de', 'que', 'despues', 'de', 'morir', 'tendra', 'un', 'numero', 'ilimitado', 'de', 'bananas', 'a', 'su', 'disposicion', 'en', 'el', 'cielo', 'de', 'los', 'monos']


Por último, vamos a emplear la librería `nltk` para eliminar las *stop-words*.

In [9]:
#%pip install nltk

Collecting nltk
  Downloading nltk-3.8.1-py3-none-any.whl (1.5 MB)
     ---------------------------------------- 1.5/1.5 MB 3.0 MB/s eta 0:00:00
Collecting regex>=2021.8.3 (from nltk)
  Downloading regex-2023.5.5-cp310-cp310-win_amd64.whl (267 kB)
     -------------------------------------- 267.9/267.9 kB 1.5 MB/s eta 0:00:00
Collecting tqdm (from nltk)
  Downloading tqdm-4.65.0-py3-none-any.whl (77 kB)
     ---------------------------------------- 77.1/77.1 kB 1.4 MB/s eta 0:00:00
Installing collected packages: tqdm, regex, nltk
Successfully installed nltk-3.8.1 regex-2023.5.5 tqdm-4.65.0
Note: you may need to restart the kernel to use updated packages.


In [31]:
import nltk
from nltk.corpus import stopwords

# descargar los stop-words (si no se hace esto, da error)
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\franz\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [32]:
# eliminar las stop-words
stop_words = set(stopwords.words('spanish')) # crea un conjunto de stop-words en español
print(stop_words)

texto_sin_stop_words = [palabra for palabra in texto_palabras if palabra not in stop_words] # crea una lista con las palabras que no son stop-words
print(texto_sin_stop_words)

{'tenemos', 'tenido', 'mi', 'tuvierais', 'hubieran', 'fuéramos', 'tendrían', 'había', 'tengáis', 'esas', 'tuviese', 'sentida', 'hayan', 'seréis', 'nuestro', 'ellas', 'tendríais', 'tengamos', 'estaremos', 'tendrás', 'tu', 'seáis', 'mío', 'seamos', 'era', 'estuviesen', 'nosotras', 'hube', 'tuya', 'estuvierais', 'tengo', 'desde', 'mí', 'te', 'hubo', 'todo', 'estarás', 'yo', 'ese', 'tus', 'vuestros', 'ante', 'seremos', 'vuestras', 'nos', 'otros', 'hubiésemos', 'seríamos', 'e', 'estad', 'estamos', 'hemos', 'estuvieran', 'estabas', 'estuvieron', 'sus', 'sentid', 'estén', 'con', 'pero', 'estar', 'antes', 'erais', 'serían', 'tendríamos', 'les', 'entre', 'habida', 'estará', 'habríais', 'estaréis', 'teníamos', 'fuese', 'tenías', 'tienen', 'estuviera', 'estarán', 'habríamos', 'será', 'estuvieras', 'fuésemos', 'me', 'cual', 'tú', 'fuera', 'tenía', 'tenga', 'más', 'estaba', 'hubieras', 'habréis', 'hubieron', 'seas', 'tenida', 'estada', 'una', 'están', 'vosotros', 'estáis', 'serán', 'es', 'también',

In [33]:
from tqdm import tqdm # para ver el progreso de un bucle (sobre todo cuando el texto muy largo)
texto_sin_stop_words = [palabra for palabra in tqdm(texto_palabras) if palabra not in stop_words]

100%|██████████| 63/63 [00:00<?, ?it/s]
