# Stop Words

Existen multiples librerias en python que pueden facilitar la tarea de extraer las stop words de un texto, veremos algunos ejemplos

In [None]:
texto_por_defecto = 'me gusta mucho comer pasta'

## Usando NLTK

In [4]:
import nltk # importamos NLTK
nltk.download('stopwords')
nltk.download('punkt')

from nltk.corpus import stopwords # importamos stopwords del paquete nltk.corpus para obtener las Stop Words

from nltk.tokenize import word_tokenize # Importamos word_tokenize del paquete nltk.tokenize, para separar nuestro texto en palabras

stop_word_spanish = stopwords.words('spanish') # Obtenemos las stop words para un determinado idioma, en este caso español
print('Stop words en español',stop_word_spanish) # Mostramos las Stop words en el idioma seleccionado

texto_por_defecto  = "me gusta mucho la pasta"

texto_ejemplo = input("Por favor introduce un texto o pulsa intro para usar el texto por defecto\n") # Solicitamos a el usuario un texto, a partir del cual extraeremos las Stop Words
texto_ejemplo = texto_ejemplo if texto_ejemplo is not "" else texto_por_defecto
tokens_texto = word_tokenize(texto_ejemplo) # Dividimos el texto en tokens o palabras

# para cada palabra, comprobaremos si esta en la lista de stop words, y de no ser asi la añadiremos a una nueva lista que contendra la frase anterior, sin stop words
tokens_sin_sw = [word for word in tokens_texto if not word in stop_word_spanish] 

print('Texto original:',tokens_texto) # Mostramos los tokens del texto original
print('Texto sin stop words:',tokens_sin_sw) # Mostramos los tokens del texto sin stop words
print('Stop Words eliminadas:',list(set(tokens_texto).difference(set(tokens_sin_sw)))) # Mostramos las stop words eliminadas del texto

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
Stop words en español ['de', 'la', 'que', 'el', 'en', 'y', 'a', 'los', 'del', 'se', 'las', 'por', 'un', 'para', 'con', 'no', 'una', 'su', 'al', 'lo', 'como', 'más', 'pero', 'sus', 'le', 'ya', 'o', 'este', 'sí', 'porque', 'esta', 'entre', 'cuando', 'muy', 'sin', 'sobre', 'también', 'me', 'hasta', 'hay', 'donde', 'quien', 'desde', 'todo', 'nos', 'durante', 'todos', 'uno', 'les', 'ni', 'contra', 'otros', 'ese', 'eso', 'ante', 'ellos', 'e', 'esto', 'mí', 'antes', 'algunos', 'qué', 'unos', 'yo', 'otro', 'otras', 'otra', 'él', 'tanto', 'esa', 'estos', 'mucho', 'quienes', 'nada', 'muchos', 'cual', 'poco', 'ella', 'estar', 'estas', 'algunas', 'algo', 'nosotros', 'mi', 'mis', 'tú', 'te', 'ti', 'tu', 'tus', 'ellas', 'nosotras', 'vosotros', 'vosotras', 'os', 'mío', 'mía', 'mí

## Usando SPACY

In [5]:
!python -m spacy download es
import spacy
from nltk.tokenize import word_tokenize
# cargamos el languaje español de spaCy
en_model = spacy.load('es')

stop_word_spanish = en_model.Defaults.stop_words # Obtenemos la lista de stop words
print('Stop words en español',list(stop_word_spanish)) # Mostramos las Stop words en el idioma seleccionado

texto_ejemplo = input("Por favor introduce un texto o pulsa intro para usar el texto por defecto\n") # Solicitamos a el usuario un texto, a partir del cual extraeremos las Stop Words
texto_ejemplo = texto_ejemplo if texto_ejemplo is not "" else texto_por_defecto # Usamos el texto por defecto si el usuario no introdujo nada
tokens_texto = word_tokenize(texto_ejemplo) # Dividimos el texto en tokens o palabras
# para cada palabra, comprobaremos si esta en la lista de stop words, y de no ser asi la añadiremos a una nueva lista que contendra la frase anterior, sin stop words
tokens_sin_sw = [word for word in tokens_texto if not word in stop_word_spanish] 

print('Texto original:',tokens_texto) # Mostramos los tokens del texto original
print('Texto sin stop words:',tokens_sin_sw) # Mostramos los tokens del texto sin stop words
print('Stop Words eliminadas:',list(set(tokens_texto).difference(set(tokens_sin_sw)))) # Mostramos las stop words eliminadas del texto

Collecting es_core_news_sm==2.2.5
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-2.2.5/es_core_news_sm-2.2.5.tar.gz (16.2 MB)
[K     |████████████████████████████████| 16.2 MB 9.3 MB/s 
Building wheels for collected packages: es-core-news-sm
  Building wheel for es-core-news-sm (setup.py) ... [?25l[?25hdone
  Created wheel for es-core-news-sm: filename=es_core_news_sm-2.2.5-py3-none-any.whl size=16172933 sha256=d7073ad70621ee70fd215676f52c9fa7acfdf9a991c78d02784e7fdc7415f0da
  Stored in directory: /tmp/pip-ephem-wheel-cache-zwrdawem/wheels/21/8d/a9/6c1a2809c55dd22cd9644ae503a52ba6206b04aa57ba83a3d8
Successfully built es-core-news-sm
Installing collected packages: es-core-news-sm
Successfully installed es-core-news-sm-2.2.5
[38;5;2m✔ Download and installation successful[0m
You can now load the model via spacy.load('es_core_news_sm')
[38;5;2m✔ Linking successful[0m
/usr/local/lib/python3.7/dist-packages/es_core_news_sm -->
/usr/local/lib/

# Usando Gensim

In [6]:
from gensim.parsing.preprocessing import remove_stopwords
from gensim.parsing.preprocessing import STOPWORDS

sample_text = "Oh man, this is pretty cool. We will do more such things."
sample_text_NSW = remove_stopwords(sample_text)
print(STOPWORDS)
print(word_tokenize(sample_text))
print(word_tokenize(sample_text_NSW))

frozenset({'itself', 'up', 'done', 'describe', 'or', 'them', 'anyone', 'again', 'whole', 'thereupon', 'there', 'in', 'yourself', 'otherwise', 'cry', 'however', 'nothing', 'besides', 'hereafter', 'might', 'upon', 'seeming', 'too', 'none', 'mostly', 'eg', 'still', 'why', 'into', 'under', 'sometime', 'their', 'thence', 'would', 'because', 'de', 'within', 'among', 'hundred', 'us', 'after', 'latterly', 'and', 'it', 'nevertheless', 'don', 'around', 'herself', 'what', 'give', 'several', 'find', 'few', 'see', 'doing', 'twelve', 'whenever', 'wherein', 'used', 'therein', 'myself', 'say', 'move', 'me', 'must', 'about', 'empty', 'though', 'nowhere', 'they', 'less', 'ever', 'twenty', 'between', 'him', 'do', 'hers', 'beforehand', 'sometimes', 'ourselves', 'i', 'etc', 'front', 'anywhere', 'keep', 'almost', 'neither', 'for', 'will', 'every', 'quite', 'fire', 'could', 'onto', 'just', 'towards', 'your', 'elsewhere', 'yet', 'make', 'even', 'put', 'this', 'computer', 'at', 'since', 'its', 'side', 'other',