<a href="https://colab.research.google.com/github/isegura/PLN-tema1/blob/main/2_stopwords.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Stopwords


Las palabras vacías son las palabras más comunes de un idioma.

Por ejemplo, las palabras más comunes en inglés: **“the”, “is”, “in”, “for”, “where”, “when”, “to”, “at”** etc.

Las palabras más comunes en español son: **de, que, el, en y, a ,los, se, del, las, un, por, con, no una**, etc.

 Estas palabras no suelen agregar significado a un documento, por este motivo suelen ser eliminadas del textos a la hora de construir sistemas de PLN. En especial, suelen ser eliminadas en las tareas de clasificación de textos para poder centrarnos en las palabras que aportan mayor significado al texto y que dan más información para su clasificación.

 ¿Qué ventajas tiene eliminar las stopwords?
 - El tamaño del dataset disminuye, y por tanto, el tiempo para entrenar el model también.
 - En tareas como la clasificación de textos o la recuperación de información, los resultados suelen mejorar porque en el dataset sólo quedan palabras que dan significado al texto.

 Sin embargo, hay otras tareas de PLN como la traducción automática o la simplificación donde no es una buena idea eliminar las stopwords.

 Existen varias librerías de Python que nos permiten eliminar las stopwords finalmente.

 ## Eliminando stopwords (con NLTK):

 En primer lugar, vemos un ejemplo con NLTK:


In [15]:
import nltk
nltk.download('stopwords')
from nltk.corpus import stopwords
# Mostramos sólo las 10 primeras
list(set(stopwords.words('english')))[:10]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


['how',
 'when',
 'ain',
 'does',
 "hadn't",
 "you've",
 "didn't",
 "we're",
 'for',
 'other']

In [16]:
from nltk.tokenize import word_tokenize
nltk.download('punkt')
nltk.download('punkt_tab')

text='The children were playing, while their parents were chatting.'
text=text.lower()

# set of stop words
stop_words = set(stopwords.words('english'))

# tokens of words
word_tokens = word_tokenize(text)

filtered = []

for w in word_tokens:
    if w not in stop_words:
        filtered.append(w)

print("\n\nOriginal Sentence \n")
print(" ".join(word_tokens))

print("\n\nText without stopwords \n")
print(" ".join(filtered))




Original Sentence 

the children were playing , while their parents were chatting .


Text without stopwords 

children playing , parents chatting .


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


## Eliminando stopwords con Spacy

In [17]:
from spacy.lang.en import English
from spacy.lang.en.stop_words import STOP_WORDS

# Load English tokenizer, tagger, parser, NER and word vectors
nlp = English()

text='The children were playing, while their parents were chatting.'
text=text.lower()

#  "nlp" Object is used to create documents with linguistic annotations.
my_doc = nlp(text)

# Create list of word tokens
token_list = []
for token in my_doc:
    token_list.append(token.text)


# Create list of word tokens after removing stopwords
filtered =[]

for word in token_list:
    lexeme = nlp.vocab[word]
    if lexeme.is_stop == False:
        filtered.append(word)

print("\n\nOriginal Sentence \n")
print(" ".join(token_list))

print("\n\nText without stopwords \n")
print(" ".join(filtered))



Original Sentence 

the children were playing , while their parents were chatting .


Text without stopwords 

children playing , parents chatting .


## Ejercicio: Eliminar Stopwords para español usando Spacy

Implementa un código que procese una oración en Español y elimine sus stopwords.

In [19]:
!python -m spacy download es_core_news_sm

Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m39.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: es-core-news-sm
Successfully installed es-core-news-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [20]:
import spacy

nlp = spacy.load("es_core_news_sm")

text = "Los niños estaban jugando en el parque por la tarde."

doc = nlp(text)

# Eliminar stop words y puntuación
tokens_sin_stopwords = [
    token.text
    for token in doc
    if not token.is_stop and not token.is_punct
]

print(tokens_sin_stopwords)


['niños', 'jugando', 'parque']
