## **StopWords**
Stopwords are common words that are often filtered out during the preprocessing of natural language text in various applications, such as text analysis and natural language processing (NLP). These words are generally considered to be of little value in terms of conveying meaningful information about the content of a document or sentence.

In [10]:
corpus = """Saudara-saudara rakyat jelata di seluruh Indonesia terutama saudara-saudara penduduk Kota Surabaya.
Kita semuanya telah mengetahui. Bahwa hari ini tentara Inggris telah menyebarkan pamflet-pamflet yang memberikan suatu ancaman kepada kita semua. 
Kita diwajibkan untuk dalam waktu yang mereka tentukan, menyerahkan senjata-senjata yang telah kita rebut dari tangan tentara Jepang. 
Mereka telah minta supaya kita datang pada mereka itu dengan mengangkat tangan. Mereka telah minta supaya kita semua datang pada mereka itu dengan membawa bendera putih tanda bahwa kita menyerah kepada mereka.
"""

In [11]:
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import nltk

In [12]:
# Create stopwords and stemmer object
sw_indonesian = stopwords.words('indonesian')
stem_idn = StemmerFactory().create_stemmer()

In [13]:
# Stopword example in Bahasa Indonesia
sw_indonesian[:5], len(sw_indonesian)

(['ada', 'adalah', 'adanya', 'adapun', 'agak'], 758)

In [14]:
# Stemming example in Bahasa Indonesia
stem_idn.stem("meninggal")

'tinggal'

In [15]:
documents = nltk.sent_tokenize(corpus)

In [16]:
documents

['Saudara-saudara rakyat jelata di seluruh Indonesia terutama saudara-saudara penduduk Kota Surabaya.',
 'Kita semuanya telah mengetahui.',
 'Bahwa hari ini tentara Inggris telah menyebarkan pamflet-pamflet yang memberikan suatu ancaman kepada kita semua.',
 'Kita diwajibkan untuk dalam waktu yang mereka tentukan, menyerahkan senjata-senjata yang telah kita rebut dari tangan tentara Jepang.',
 'Mereka telah minta supaya kita datang pada mereka itu dengan mengangkat tangan.',
 'Mereka telah minta supaya kita semua datang pada mereka itu dengan membawa bendera putih tanda bahwa kita menyerah kepada mereka.']

In [17]:
# Apply Stopwords and Filters and Apply Stemming
clear_doc = []
for i in range(len(documents)):
    words = nltk.word_tokenize(documents[i])
    words = [stem_idn.stem(word) for word in words if word not in sw_indonesian]
    clear_doc.append(' '.join(words))

In [18]:
clear_doc

['saudara rakyat jelata indonesia saudara duduk kota surabaya ',
 'kita ',
 'bahwa tentara inggris sebar pamflet ancam ',
 'kita wajib tentu  serah senjata rebut tangan tentara jepang ',
 'mereka angkat tangan ',
 'mereka bawa bendera putih tanda serah ']