# Stopwords Removal - Text Preprocessing

**Goal**: This notebook explains the process of identifying and removing stopwords from text. Stopwords are commonly used words (e.g., "the," "and," "is") that typically do not contribute meaningful information in NLP tasks.

**Context**: Removing stopwords is a common preprocessing step that helps in improving the efficiency and accuracy of NLP models by reducing the noise in the text data. This notebook provides an overview of stopwords, explains why they are removed, and demonstrates how to implement stopword removal using various libraries.


In [1]:
#Charles Chaplin, discurso de "El gran dictador"
corpus = """Lo siento. 
Pero yo no quiero ser emperador. Ese no es mi oficio, sino ayudar a todos  si  fuera  posible.  Blancos  o  negros.  Judíos  o  gentiles.  Tenemos  que  ayudarnos los  unos a los  otros; los  seres  humanos  somos así. Queremos  hacer felices a los demás, no hacernos desgraciados. No queremos odiar ni  ayudar a  nadie. En este mundo  hay  sitio  para  todos  y  la  buena  tierra es  rica y  puede alimentar a  todos los  seres. El  camino  de la vida  puede  ser  libre  y  hermoso,  pero  lo  hemos  perdido.  La  codicia  ha  envenenado  las  armas, ha levantado barreras de odio, nos ha empujado hacia las miserias  y las matanzas. 

Hemos progresado muy deprisa, pero nos hemos encarcelado a nosotros  mismos. El maquinismo,  que  crea  abundancia,  nos  deja en  la  necesidad.  Nuestro conocimiento nos ha hecho cínicos. Nuestra inteligencia, duros y  secos. Pensamos demasiado, sentimos muy poco. 

Más  que  máquinas  necesitamos  más  humanidad.  Más  que  inteligencia,  tener bondad y dulzura. 

Sin estas cualidades la vida será violenta, se perderá todo. Los aviones y la  radio nos hacen sentirnos más cercanos. La verdadera naturaleza de estos  inventos exige bondad humana, exige la hermandad universal que nos una  a todos nosotros. 
Ahora mismo, mi voz llega a millones de seres en todo el mundo, millones  de  hombres  desesperados,  mujeres  y  niños,  víctimas  de  un  sistema  que  hace  torturar  a  los  hombres  y  encarcelar  a  gentes  inocentes.  A  los  que  puedan oírme, les digo: no desesperéis. La desdicha que padecemos no es  más que la pasajera codicia y la amargura de hombres que temen seguir el  camino del progreso humano. 
El odio pasará y caerán los dictadores, y el poder que se le quitó al pueblo  se le reintegrará al pueblo, y, así, mientras el Hombre exista, la libertad no  perecerá. 

Soldados. 
No  os  entreguéis  a  eso  que  en  realidad  os  desprecian,  os  esclavizan,  reglamentan vuestras vidas y  os  dicen  qué  tenéis  que  hacer,  qué  decir y  qué sentir.
Os barren el cerebro, os ceban, os tratan como a ganado y como carne de  cañón. No os entreguéis a estos individuos inhumanos, hombres máquina,  con cerebros y corazones de máquina. 
Vosotros no sois ganado, no sois máquinas, sois Hombres. Lleváis el amor  de la Humanidad en vuestros corazones, no el odio. Sólo lo que no aman  odian, los que nos aman y los inhumanos. 

Soldados. 
No luchéis por la esclavitud, sino por la libertad. En el capítulo 17 de San  Lucas se lee: “El Reino de Dios no está en un hombre, ni en un grupo de  hombres,  sino  en  todos  los  hombres…”  Vosotros  los  hombres  tenéis  el  poder. El poder de crear máquinas, el poder de crear felicidad, el poder de  hacer esta vida libre y hermosa y convertirla en una maravillosa aventura. 
En nombre de la democracia, utilicemos ese poder actuando todos unidos.  Luchemos  por  un  mundo  nuevo,  digno  y  noble  que  garantice  a  los  hombres un  trabajo, a la juventud un  futuro y a la vejez  seguridad. Pero  bajo  la  promesa  de  esas  cosas,  las  fieras  subieron  al  poder.  Pero  mintieron; nunca han cumplido sus promesas ni nunca las cumplirán. Los  dictadores son libres sólo ellos, pero esclavizan al pueblo. Luchemos ahora  para  hacer  realidad  lo  prometido. Todos  a  luchar  para  liberar  al mundo.  Para  derribar  barreras  nacionales,  para eliminar la ambición, el  odio y la  intolerancia. 
Luchemos por el mundo de la razón. 
Un  mundo  donde  la  ciencia,  el  progreso,  nos  conduzca  a  todos  a  la  felicidad. 

Soldados. 
En nombre de la democracia, debemos unirnos todos.
"""


Importing libraries and tools such as Stopwords

In [3]:
#For first time you run the project
from nltk.stem import PorterStemmer, SnowballStemmer
from nltk.corpus import stopwords

import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\bleew\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [3]:
import nltk
from nltk.stem import PorterStemmer, SnowballStemmer 
from nltk.corpus import stopwords 



In [4]:
stopwords.words('spanish')
spanish_sw = stopwords.words('spanish')

In [3]:
#Let's explore some stopwords for another language
stopwords.words('french')

['au',
 'aux',
 'avec',
 'ce',
 'ces',
 'dans',
 'de',
 'des',
 'du',
 'elle',
 'en',
 'et',
 'eux',
 'il',
 'ils',
 'je',
 'la',
 'le',
 'les',
 'leur',
 'lui',
 'ma',
 'mais',
 'me',
 'même',
 'mes',
 'moi',
 'mon',
 'ne',
 'nos',
 'notre',
 'nous',
 'on',
 'ou',
 'par',
 'pas',
 'pour',
 'qu',
 'que',
 'qui',
 'sa',
 'se',
 'ses',
 'son',
 'sur',
 'ta',
 'te',
 'tes',
 'toi',
 'ton',
 'tu',
 'un',
 'une',
 'vos',
 'votre',
 'vous',
 'c',
 'd',
 'j',
 'l',
 'à',
 'm',
 'n',
 's',
 't',
 'y',
 'été',
 'étée',
 'étées',
 'étés',
 'étant',
 'étante',
 'étants',
 'étantes',
 'suis',
 'es',
 'est',
 'sommes',
 'êtes',
 'sont',
 'serai',
 'seras',
 'sera',
 'serons',
 'serez',
 'seront',
 'serais',
 'serait',
 'serions',
 'seriez',
 'seraient',
 'étais',
 'était',
 'étions',
 'étiez',
 'étaient',
 'fus',
 'fut',
 'fûmes',
 'fûtes',
 'furent',
 'sois',
 'soit',
 'soyons',
 'soyez',
 'soient',
 'fusse',
 'fusses',
 'fût',
 'fussions',
 'fussiez',
 'fussent',
 'ayant',
 'ayante',
 'ayantes',


Declare stemmer

In [5]:
stemmer = PorterStemmer()

Make sentences from the speech


In [6]:
nltk.sent_tokenize(corpus)

['Lo siento.',
 'Pero yo no quiero ser emperador.',
 'Ese no es mi oficio, sino ayudar a todos  si  fuera  posible.',
 'Blancos  o  negros.',
 'Judíos  o  gentiles.',
 'Tenemos  que  ayudarnos los  unos a los  otros; los  seres  humanos  somos así.',
 'Queremos  hacer felices a los demás, no hacernos desgraciados.',
 'No queremos odiar ni  ayudar a  nadie.',
 'En este mundo  hay  sitio  para  todos  y  la  buena  tierra es  rica y  puede alimentar a  todos los  seres.',
 'El  camino  de la vida  puede  ser  libre  y  hermoso,  pero  lo  hemos  perdido.',
 'La  codicia  ha  envenenado  las  armas, ha levantado barreras de odio, nos ha empujado hacia las miserias  y las matanzas.',
 'Hemos progresado muy deprisa, pero nos hemos encarcelado a nosotros  mismos.',
 'El maquinismo,  que  crea  abundancia,  nos  deja en  la  necesidad.',
 'Nuestro conocimiento nos ha hecho cínicos.',
 'Nuestra inteligencia, duros y  secos.',
 'Pensamos demasiado, sentimos muy poco.',
 'Más  que  máquinas  nec

In [45]:
sentences = nltk.sent_tokenize(corpus)

In [11]:
type(sentences)

list

Now, its time for identifying stopwords, filter them and then apply stemming

In [46]:
for i in range(len(sentences)):  
    words = nltk.word_tokenize(sentences[i]) 
    words = [stemmer.stem(word) for word in words if word not in set(spanish_sw)]
    sentences[i] = ' '.join(words)  


In [47]:
sentences


['lo siento .',
 'pero quiero ser emperador .',
 'ese oficio , sino ayudar si posibl .',
 'blanco negro .',
 'judío gentil .',
 'tenemo ayudarno ; sere humano así .',
 'queremo hacer felic demá , hacerno desgraciado .',
 'no queremo odiar ayudar nadi .',
 'en mundo sitio buena tierra rica pued alimentar sere .',
 'el camino vida pued ser libr hermoso , perdido .',
 'la codicia envenenado arma , levantado barrera odio , empujado hacia miseria matanza .',
 'hemo progresado deprisa , encarcelado mismo .',
 'el maquinismo , crea abundancia , deja necesidad .',
 'nuestro conocimiento hecho cínico .',
 'nuestra inteligencia , duro seco .',
 'pensamo demasiado , sentimo .',
 'má máquina necesitamo humanidad .',
 'má inteligencia , tener bondad dulzura .',
 'sin cualidad vida violenta , perderá .',
 'lo avion radio hacen sentirno cercano .',
 'la verdadera naturaleza invento exig bondad humana , exig hermandad univers .',
 'ahora mismo , voz llega millon sere mundo , millon hombr desesperado ,

Watch out!! See how lowercasing sentences has a tremendous effect in the stemming process


This might *vary* depending on the *target language* 

In [7]:
porter_sentences = nltk.sent_tokenize(corpus)

In [9]:
for i in range(len(porter_sentences)):
    porter_sentences[i] = porter_sentences[i].lower()
    words = nltk.word_tokenize(porter_sentences[i])
    words = [stemmer.stem(word) for word in words if word not in set(spanish_sw)]
    porter_sentences[i] = ' '.join(words)

In [10]:
porter_sentences

['siento .',
 'quiero ser emperador .',
 'oficio , sino ayudar si posibl .',
 'blanco negro .',
 'judío gentil .',
 'ayudarno ; sere humano así .',
 'queremo hacer felic demá , hacerno desgraciado .',
 'queremo odiar ayudar nadi .',
 'mundo sitio buena tierra rica pued alimentar sere .',
 'camino vida pued ser libr hermoso , perdido .',
 'codicia envenenado arma , levantado barrera odio , empujado hacia miseria matanza .',
 'progresado deprisa , encarcelado mismo .',
 'maquinismo , crea abundancia , deja necesidad .',
 'conocimiento hecho cínico .',
 'inteligencia , duro seco .',
 'pensamo demasiado , sentimo .',
 'máquina necesitamo humanidad .',
 'inteligencia , tener bondad dulzura .',
 'cualidad vida violenta , perderá .',
 'avion radio hacen sentirno cercano .',
 'verdadera naturaleza invento exig bondad humana , exig hermandad univers .',
 'ahora mismo , voz llega millon sere mundo , millon hombr desesperado , mujer niño , víctima sistema hace torturar hombr encarcelar gent inoce

As we did in text preprocessing, let's see how Snowball stemmer performs for this task

In [14]:
sb_stemmer = SnowballStemmer('spanish')

In [29]:
sentences = nltk.sent_tokenize(corpus)

Identifying stopwords, filter them and then apply Snowball stemming

In [11]:
for i in range(len(sentences)):
    words = nltk.word_tokenize(sentences[i])
    words = [sb_stemmer.stem(word) for word in words if word not in set(spanish_sw)]
    sentences[i] = ' '.join(words)

In [12]:
sentences

['lo sient .',
 'per quier ser emper .',
 'ese ofici , sin ayud si posibl .',
 'blanc negr .',
 'judi gentil .',
 'ten ayud ; ser human asi .',
 'quer hac felic demas , hac desgraci .',
 'no quer odi ayud nadi .',
 'en mund siti buen tierr ric pued aliment ser .',
 'el camin vid pued ser libr hermos , perd .',
 'la codici envenen armas , levant barrer odi , empuj haci miseri matanz .',
 'hem progres depris , encarcel mism .',
 'el maquin , cre abund , dej neces .',
 'nuestr conoc hech cinic .',
 'nuestr inteligent , dur sec .',
 'pens demasi , sent .',
 'mas maquin necesit human .',
 'mas inteligent , ten bond dulzur .',
 'sin cualidad vid violent , perd .',
 'los avion radi hac sent cercan .',
 'la verdader naturalez invent exig bond human , exig hermand universal .',
 'ahor mism , voz lleg millon ser mund , millon hombr desesper , mujer niñ , victim sistem hac tortur hombr encarcel gent inocent .',
 'a pued oirm , dig : desesp .',
 'la desdich padec pasajer codici amargur hombr tem s

See what happens when lowercasing sentences

In [15]:
sb_sentences = nltk.sent_tokenize(corpus)

In [16]:
for i in range(len(sb_sentences)):
    sb_sentences[i] = sb_sentences[i].lower()
    words = nltk.word_tokenize(sb_sentences[i])
    words = [sb_stemmer.stem(word) for word in words if word not in set(spanish_sw)]
    sb_sentences[i] = ' '.join(words)

In [17]:
sb_sentences

['sient .',
 'quier ser emper .',
 'ofici , sin ayud si posibl .',
 'blanc negr .',
 'judi gentil .',
 'ayud ; ser human asi .',
 'quer hac felic demas , hac desgraci .',
 'quer odi ayud nadi .',
 'mund siti buen tierr ric pued aliment ser .',
 'camin vid pued ser libr hermos , perd .',
 'codici envenen armas , levant barrer odi , empuj haci miseri matanz .',
 'progres depris , encarcel mism .',
 'maquin , cre abund , dej neces .',
 'conoc hech cinic .',
 'inteligent , dur sec .',
 'pens demasi , sent .',
 'maquin necesit human .',
 'inteligent , ten bond dulzur .',
 'cualidad vid violent , perd .',
 'avion radi hac sent cercan .',
 'verdader naturalez invent exig bond human , exig hermand universal .',
 'ahor mism , voz lleg millon ser mund , millon hombr desesper , mujer niñ , victim sistem hac tortur hombr encarcel gent inocent .',
 'pued oirm , dig : desesp .',
 'desdich padec pasajer codici amargur hombr tem segu camin progres human .',
 'odi pas caeran dictador , pod quit puebl r

Let's apply lemmatization now and see the effects

In [18]:
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()

In [23]:
sentences = nltk.sent_tokenize(corpus)

In [24]:
for i in range(len(sentences)):
    words = nltk.word_tokenize(sentences[i])
    words = [lemmatizer.lemmatize(word) for word in words if word not in set(spanish_sw)]
    sentences[i] = ' '.join(words)

In [25]:
sentences

['Lo siento .',
 'Pero quiero ser emperador .',
 'Ese oficio , sino ayudar si posible .',
 'Blancos negro .',
 'Judíos gentile .',
 'Tenemos ayudarnos ; seres humanos así .',
 'Queremos hacer felices demás , hacernos desgraciados .',
 'No queremos odiar ayudar nadie .',
 'En mundo sitio buena tierra rica puede alimentar seres .',
 'El camino vida puede ser libre hermoso , perdido .',
 'La codicia envenenado armas , levantado barreras odio , empujado hacia miserias matanzas .',
 'Hemos progresado deprisa , encarcelado mismos .',
 'El maquinismo , crea abundancia , deja necesidad .',
 'Nuestro conocimiento hecho cínicos .',
 'Nuestra inteligencia , duros secos .',
 'Pensamos demasiado , sentimos .',
 'Más máquinas necesitamos humanidad .',
 'Más inteligencia , tener bondad dulzura .',
 'Sin cualidades vida violenta , perderá .',
 'Los aviones radio hacen sentirnos cercanos .',
 'La verdadera naturaleza inventos exige bondad humana , exige hermandad universal .',
 'Ahora mismo , voz llega

Again, mind the lowercase

In [19]:
lemma_sentences = nltk.sent_tokenize(corpus)

In [21]:
for i in range(len(lemma_sentences)):
    lemma_sentences[i] = lemma_sentences[i].lower()
    words = nltk.word_tokenize(lemma_sentences[i])
    words = [lemmatizer.lemmatize(word, pos='v') for word in words if word not in set(spanish_sw)]
    lemma_sentences[i] = ' '.join(words)

In [22]:
lemma_sentences

['siento .',
 'quiero ser emperador .',
 'oficio , sino ayudar si posible .',
 'blancos negros .',
 'judíos gentiles .',
 'ayudarnos ; seres humanos así .',
 'queremos hacer felices demás , hacernos desgraciados .',
 'queremos odiar ayudar nadie .',
 'mundo sitio buena tierra rica puede alimentar seres .',
 'camino vida puede ser libre hermoso , perdido .',
 'codicia envenenado armas , levantado barreras odio , empujado hacia miserias matanzas .',
 'progresado deprisa , encarcelado mismos .',
 'maquinismo , crea abundancia , deja necesidad .',
 'conocimiento hecho cínicos .',
 'inteligencia , duros secos .',
 'pensamos demasiado , sentimos .',
 'máquinas necesitamos humanidad .',
 'inteligencia , tener bondad dulzura .',
 'cualidades vida violenta , perderá .',
 'aviones radio hacen sentirnos cercanos .',
 'verdadera naturaleza inventos exige bondad humana , exige hermandad universal .',
 'ahora mismo , voz llega millones seres mundo , millones hombres desesperados , mujeres niños , ví

Now, let us show a few random choices among the different text preprocessing processes.


This action should let us spot the differences between outputs. 

In [26]:
import random

In [33]:
int = random.randrange(len(sentences))

In [35]:
print("Porter stemmer: ", porter_sentences[int])
print("Snowball stemmer: ",sb_sentences[int])
print("Lemmatization: ",lemma_sentences[int])

Porter stemmer:  entreguéi individuo inhumano , hombr máquina , cerebro corazon máquina .
Snowball stemmer:  entreg individu inhuman , hombr maquin , cerebr corazon maquin .
Lemmatization:  entreguéis individuos inhumanos , hombres máquina , cerebros corazones máquina .
