# Stopwords


Las palabras vacías son las palabras más comunes de un idioma. 

Por ejemplo, las palabras más comunes en inglés: **“the”, “is”, “in”, “for”, “where”, “when”, “to”, “at”** etc.

Las palabras más comunes en español son: **de, que, el, en y, a ,los, se, del, las, un, por, con, no una**, etc.

 Estas palabras no suelen agregar significado a un documento, por este motivo suelen ser eliminadas del textos a la hora de construir sistemas de PLN. En especial, suelen ser eliminadas en las tareas de clasificación de textos para poder centrarnos en las palabras que aportan mayor significado al texto y que dan más información para su clasificación. 

 ¿Qué ventajas tiene eliminar las stopwords?
 - El tamaño del dataset disminuye, y por tanto, el tiempo para entrenar el model también.
 - Los resultados del clasificador suelen mejorar porque en el dataset sólo quedan palabras que dan sentido al texto. 
 
 Sin embargo, hay otras tareas de PLN como la traducción automática o la simplificación donde no es una buena idea eliminar las stopwords. 

 Existen varias librerías de Python que nos permiten eliminar las stopwords finalmente.

 ## Eliminando stopwords (con NLTK):

 En primer lugar, vemos un ejemplos con NLTK:


In [0]:
import nltk
#nltk.download('stopwords')
from nltk.corpus import stopwords
set(stopwords.words('english'))

In [25]:
from nltk.tokenize import word_tokenize 
#nltk.download('punkt')
text='The children were playing, while their parents were chatting.'
text=text.lower()

# set of stop words
stop_words = set(stopwords.words('english')) 

# tokens of words  
word_tokens = word_tokenize(text) 
    
filtered = [] 
  
for w in word_tokens: 
    if w not in stop_words: 
        filtered.append(w) 

print("\n\nOriginal Sentence \n")
print(" ".join(word_tokens)) 

print("\n\nText without stopwords \n")
print(" ".join(filtered)) 




Original Sentence 

the children were playing , while their parents were chatting .


Text without stopwords 

children playing , parents chatting .


## Eliminando stopwords con Spacy

In [26]:
from spacy.lang.en import English
from spacy.lang.en.stop_words import STOP_WORDS

# Load English tokenizer, tagger, parser, NER and word vectors
nlp = English()

text='The children were playing, while their parents were chatting.'
text=text.lower()

#  "nlp" Object is used to create documents with linguistic annotations.
my_doc = nlp(text)

# Create list of word tokens
token_list = []
for token in my_doc:
    token_list.append(token.text)


# Create list of word tokens after removing stopwords
filtered =[] 

for word in token_list:
    lexeme = nlp.vocab[word]
    if lexeme.is_stop == False:
        filtered.append(word) 

print("\n\nOriginal Sentence \n")
print(" ".join(token_list)) 

print("\n\nText without stopwords \n")
print(" ".join(filtered)) 



Original Sentence 

the children were playing , while their parents were chatting .


Text without stopwords 

children playing , parents chatting .


# Eliminando palabras con Gensim

In [27]:
# The following code is to remove stop words using gensim
from gensim.parsing.preprocessing import remove_stopwords

# pass the sentence in the remove_stopwords function
text='The children were playing, while their parents were chatting.'
text=text.lower()
result = remove_stopwords(text)

print("\n\nOriginal Sentence \n")
print(text) 

print('\n\n Filtered Sentence \n\n')
print(result)  




Original Sentence 

the children were playing, while their parents were chatting.


 Filtered Sentence 


children playing, parents chatting.
