<a href="https://colab.research.google.com/github/marianeneiva/stopwordsRemoval/blob/main/StopWords_portuguese.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# STOP WORD REMOVAL

In text mining one of the strategies to reduce  non relevant data is to remove the 'stop words'. Stop words are commonly used in all documents and texts such as 'is', 'are', 'the' (in English). 

The removal is often applied in tasks such as classification, search, topic modeling and extraction. The technique also reduces feature vector dimension which is useful for computation cost.

#The code

In the code below, several motivacional sentences in portuguese are reduced to a set of tokens (words) after the removal of the stop words. 

In [7]:
import nltk
from nltk.corpus import stopwords 
from nltk.tokenize import word_tokenize 

nltk.download('stopwords')
nltk.download('punkt')

frases = {'Nenhum obstáculo será grande se a sua vontade de vencer for maior',
         'Pessoas vencedoras não são aquelas que não falham, são aquelas que não desistem',
         'Para ser um campeão você tem que acreditar em si mesmo quando ninguém mais acredita',
         'No fim tudo dá certo, e se não deu certo é porque ainda não chegou ao fim',
         'Você nunca sabe que resultados virão da sua ação. Mas se você não fizer nada, não existirão resultados',
         'Reclamar não é uma estratégia. É necessário lidarmos com o mundo como ele é e não como gostaríamos que ele fosse',
         'Inteligência é a capacidade de se adaptar às mudanças'}

#we are using stop words in portuguese
stop_words = set(stopwords.words('portuguese')) 

for frase in frases:
  word_tokens = word_tokenize(frase) 
  filtered_sentence = [w for w in word_tokens if not w in stop_words] 
  print('Tokens with stop words:')
  print(word_tokens) 
  print()
  print('Tokens without stop words:')
  print(filtered_sentence) 
  print('\n\n')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
Tokens with stop words:
['Nenhum', 'obstáculo', 'será', 'grande', 'se', 'a', 'sua', 'vontade', 'de', 'vencer', 'for', 'maior']

Tokens without stop words:
['Nenhum', 'obstáculo', 'grande', 'vontade', 'vencer', 'maior']



Tokens with stop words:
['Inteligência', 'é', 'a', 'capacidade', 'de', 'se', 'adaptar', 'às', 'mudanças']

Tokens without stop words:
['Inteligência', 'capacidade', 'adaptar', 'mudanças']



Tokens with stop words:
['No', 'fim', 'tudo', 'dá', 'certo', ',', 'e', 'se', 'não', 'deu', 'certo', 'é', 'porque', 'ainda', 'não', 'chegou', 'ao', 'fim']

Tokens without stop words:
['No', 'fim', 'tudo', 'dá', 'certo', ',', 'deu', 'certo', 'porque', 'ainda', 'chegou', 'fim']



Tokens with stop words:
['Pessoas', 'vencedoras', 'não', 'são', 'aquelas', 'qu