# Preprocessing Dengan Sastrawi ( Stemming)

Nicholaus Verdhy || A11.2020.12447

Sastrawi adalah sebuah perpustakaan perangkat lunak (library) sumber terbuka yang terkenal untuk bahasa Indonesia. Perpustakaan ini dirancang untuk membantu para pengembang dalam mengolah teks berbahasa Indonesia, terutama untuk tugas-tugas pemrosesan bahasa alami (natural language processing atau NLP) dan penambangan teks. 

# Lanjutan dari Preprocesing Ekpharasis dan NLTK

Setelah kita melakukan preprocessing dengan NLTK dan Ekpharasis, selanjutnya kita melakukan stemming dengan Sastrawi. Sastrawi sering digunakan untuk tugas seperti stemming (mengubah kata-kata menjadi bentuk dasarnya), penghapusan kata-kata stop (menghilangkan kata-kata umum seperti "dan" atau "di"), dan tugas-tugas pemrosesan teks lainnya dalam bahasa Indonesia.

# Project 1 lanjutan : Preprocessing dengan Sastrawi

## Import Library

In [1]:
import pandas as pd 
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory 
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory, StopWordRemover, ArrayDictionary

Penjelasan Library

1. `pandas` digunakan untuk meloading dan proses dataset
2. `from Sastrawi.Stemmer.StemmerFactory import StemmerFactory` digunakan untuk mengimport StemmerFactory dari modul Sastrawi yang digunakan untuk mengolah teks bahasa indonesia dan melakukan tugas tugas seperti menghilangkan imbuhan dan mengembalikan kata kata ke bentuk dasarnya
3. `from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory, StopWordRemover, ArrayDictionary` membuat penghapus kata-kata stop untuk mengolah teks dalam bahasa Indonesia dan menghilangkan kata-kata stop yang umumnya tidak dibutuhkan dalam analisis teks. 
    - `Sastrawi` : Ini adalah perpustakaan Sastrawi yang digunakan untuk pemrosesan bahasa Indonesia, termasuk penghapusan kata-kata stop (stop words).
    - `StopWordRemoverFactory` : StopWordRemoverFactory adalah kelas dalam perpustakaan Sastrawi yang digunakan untuk membuat objek penghapus kata-kata stop (stop words remover).

    - `StopWordRemover` : StopWordRemover adalah kelas yang digunakan untuk melakukan penghapusan kata-kata stop dari teks dalam bahasa Indonesia.

    - `ArrayDictionary` : Kelas ini adalah kamus (dictionary) yang berisi daftar kata-kata stop dalam bentuk array. Kamus ini digunakan oleh penghapus kata-kata stop untuk menentukan kata-kata mana yang harus dihapus dari teks.

## Load DataSet

In [10]:
df = pd.read_csv("clean_dataset_Nicholaus_verdhy.csv", sep=';')

In [15]:
df

Unnamed: 0.1,Unnamed: 0,Tweet,Sentimen,langkah01,tokenisasi,Tokenisasi_Baku,Hasil Ahkir
0,0,"Cegah mata rantai Covid-19,mari kita dirumah s...",1.0,cegah mata rantai covid mari kita dirumah saja...,"['cegah', 'mata', 'rantai', 'covid', 'mari', '...","['cegah', 'mata', 'rantai', 'covid', 'mari', '...",cegah mata rantai covid mari kita dirumah saja...
1,1,aku mohon yaAllah semoga wabah covid-19 menghi...,1.0,aku mohon yaallah semoga wabah covid menghilan...,"['aku', 'mohon', 'yaallah', 'semoga', 'wabah',...","['aku', 'mohon', 'yaallah', 'semoga', 'wabah',...",aku mohon yaallah semoga wabah covid menghilan...
2,2,Pemprov Papua Naikkan Status Jadi Tanggap Daru...,1.0,pemprov papua naikkan status jadi tanggap daru...,"['pemprov', 'papua', 'naikkan', 'status', 'jad...","['pemprov', 'papua', 'naikkan', 'status', 'jad...",pemprov papua naikkan status jadi tanggap daru...
3,3,Covid belum nyampe prigen mbak hmm hoax,0.0,covid belum nyampe prigen mbak hmm hoax,"['covid', 'belum', 'nyampe', 'prigen', 'mbak',...","['covid', 'belum', 'nyampe', 'prigen', 'mbak',...",covid belum nyampe prigen mbak hmm hoax
4,4,"Nyuruh orang pintar, lu aja Togog. Itu kerumun...",-1.0,nyuruh orang pintar lu aja togog itu kerumunan...,"['nyuruh', 'orang', 'pintar', 'lu', 'aja', 'to...","['nyuruh', 'orang', 'pintar', 'lu', 'aja', 'to...",nyuruh orang pintar lu aja togog itu kerumunan...
...,...,...,...,...,...,...,...
898,899,Seluruh negara di dunia mengalami masa sulit k...,1.0,seluruh negara di dunia mengalami masa sulit k...,"['seluruh', 'negara', 'di', 'dunia', 'mengalam...","['seluruh', 'negara', 'di', 'dunia', 'mengalam...",seluruh negara di dunia mengalami masa sulit k...
899,900,"Setelah covid dan skripsi disaster selesai, ma...",1.0,setelah covid dan skripsi disaster selesai mau...,"['setelah', 'covid', 'dan', 'skripsi', 'disast...","['setelah', 'covid', 'dan', 'skripsi', 'disast...",setelah covid dan skripsi disaster selesai mau...
900,901,"Malam ini!! Projek ""BENDA BOLEH BINCANG"" 9 mal...",0.0,malam ini projek benda boleh bincang malam di ...,"['malam', 'ini', 'projek', 'benda', 'boleh', '...","['malam', 'ini', 'projek', 'benda', 'boleh', '...",malam ini projek benda boleh bincang malam di ...
901,902,Pontang - panting di koyak covid 19,-1.0,pontang panting di koyak covid,"['pontang', 'panting', 'di', 'koyak', 'covid']","['pontang', 'panting', 'di', 'koyak', 'covid']",pontang panting di koyak covid


## Load Sastrawi sebagai Stemmer

In [11]:
factory = StemmerFactory() #memuat Stemer Factory di dalam factory
stemmer = factory.create_stemmer() #digunakan untuk menciptakan stemmer yang digunakan menstemmingkata kata dalam bahasa indonesia yang dimuat dalam var stemmer

## Hapus stop word dan membuat kata kat ayang diahpus

In [12]:
factory = StopWordRemoverFactory()

more_stopword = ['sih', 'nya','rt','loh','lah', 'dd', 'mah', 'nye', 'eh', 'ehh', 'ah', 'yang','yg']
 
# Tambahkan Stopword Baru
data = factory.get_stop_words()+more_stopword

stopwords_sastrawi = factory.create_stop_word_remover()

dictionary = ArrayDictionary(data)
str_stopwords = StopWordRemover(dictionary)

In [16]:
df['finalText_str'] = df['Hasil Ahkir'].apply(str)

In [18]:
i=0
final_string = []
s = ""
for sentence in df["finalText_str"].values:
    filteredSentence = []
    EachReviewText = ""
    st = str_stopwords.remove(sentence)
    s = (stemmer.stem(st))
    filteredSentence.append(s)
    
    EachReviewText = ' '.join(filteredSentence)
    final_string.append(EachReviewText)

In [19]:
df.loc[:, ('ProcessedText')] = final_string

In [20]:
df

Unnamed: 0.1,Unnamed: 0,Tweet,Sentimen,langkah01,tokenisasi,Tokenisasi_Baku,Hasil Ahkir,finalText_str,ProcessedText
0,0,"Cegah mata rantai Covid-19,mari kita dirumah s...",1.0,cegah mata rantai covid mari kita dirumah saja...,"['cegah', 'mata', 'rantai', 'covid', 'mari', '...","['cegah', 'mata', 'rantai', 'covid', 'mari', '...",cegah mata rantai covid mari kita dirumah saja...,cegah mata rantai covid mari kita dirumah saja...,cegah mata rantai covid kita rumah hingga hari...
1,1,aku mohon yaAllah semoga wabah covid-19 menghi...,1.0,aku mohon yaallah semoga wabah covid menghilan...,"['aku', 'mohon', 'yaallah', 'semoga', 'wabah',...","['aku', 'mohon', 'yaallah', 'semoga', 'wabah',...",aku mohon yaallah semoga wabah covid menghilan...,aku mohon yaallah semoga wabah covid menghilan...,aku mohon yaallah moga wabah covid hilang rama...
2,2,Pemprov Papua Naikkan Status Jadi Tanggap Daru...,1.0,pemprov papua naikkan status jadi tanggap daru...,"['pemprov', 'papua', 'naikkan', 'status', 'jad...","['pemprov', 'papua', 'naikkan', 'status', 'jad...",pemprov papua naikkan status jadi tanggap daru...,pemprov papua naikkan status jadi tanggap daru...,pemprov papua naik status jadi tanggap darurat...
3,3,Covid belum nyampe prigen mbak hmm hoax,0.0,covid belum nyampe prigen mbak hmm hoax,"['covid', 'belum', 'nyampe', 'prigen', 'mbak',...","['covid', 'belum', 'nyampe', 'prigen', 'mbak',...",covid belum nyampe prigen mbak hmm hoax,covid belum nyampe prigen mbak hmm hoax,covid nyampe prigen mbak hmm hoax
4,4,"Nyuruh orang pintar, lu aja Togog. Itu kerumun...",-1.0,nyuruh orang pintar lu aja togog itu kerumunan...,"['nyuruh', 'orang', 'pintar', 'lu', 'aja', 'to...","['nyuruh', 'orang', 'pintar', 'lu', 'aja', 'to...",nyuruh orang pintar lu aja togog itu kerumunan...,nyuruh orang pintar lu aja togog itu kerumunan...,nyuruh orang pintar lu aja togog kerumun orang...
...,...,...,...,...,...,...,...,...,...
898,899,Seluruh negara di dunia mengalami masa sulit k...,1.0,seluruh negara di dunia mengalami masa sulit k...,"['seluruh', 'negara', 'di', 'dunia', 'mengalam...","['seluruh', 'negara', 'di', 'dunia', 'mengalam...",seluruh negara di dunia mengalami masa sulit k...,seluruh negara di dunia mengalami masa sulit k...,seluruh negara dunia alami masa sulit covid ra...
899,900,"Setelah covid dan skripsi disaster selesai, ma...",1.0,setelah covid dan skripsi disaster selesai mau...,"['setelah', 'covid', 'dan', 'skripsi', 'disast...","['setelah', 'covid', 'dan', 'skripsi', 'disast...",setelah covid dan skripsi disaster selesai mau...,setelah covid dan skripsi disaster selesai mau...,covid skripsi disaster selesai mau bgt bljr ma...
900,901,"Malam ini!! Projek ""BENDA BOLEH BINCANG"" 9 mal...",0.0,malam ini projek benda boleh bincang malam di ...,"['malam', 'ini', 'projek', 'benda', 'boleh', '...","['malam', 'ini', 'projek', 'benda', 'boleh', '...",malam ini projek benda boleh bincang malam di ...,malam ini projek benda boleh bincang malam di ...,malam projek benda bincang malam fb satu belia...
901,902,Pontang - panting di koyak covid 19,-1.0,pontang panting di koyak covid,"['pontang', 'panting', 'di', 'koyak', 'covid']","['pontang', 'panting', 'di', 'koyak', 'covid']",pontang panting di koyak covid,pontang panting di koyak covid,pontang panting koyak covid


In [22]:
df.to_csv('clean_dataset_Nicholaus_verdhy_stem.csv',sep=';')