## **Pembuka**

Assalamu'alaikum warahmatullahi wabarakatuh.
Puji syukur kehadirat Allah Subhana Wata'ala atas limpahan Rahmat dan HidayahNya kepada kita semua.
Sholawat serta salam senantiasa tercurah limpahkan kepada baginda Muhammad Rasulullah Salallahualaihiwassalam.

Halo para **Pejuang Data**. Selamat berjumpa di pertemuan ketujuh Program Training **Algoritma Machine Learning** Kelas Mahir.

Pada pertemuan ini kamu akan belajar:
* Apa itu NLP
* Scrapping Data
* Text Preprocessing
    * Case Folding & Data Cleaning
    * Lemmatisasi
    * Stemming
    * Slang Word
    * Stop Word
    * Unwanted Word



## **Import Library**

In [72]:
import sys

if not sys.warnoptions:
    import warnings
    warnings.simplefilter("ignore")

## **Natural Language Processing**

Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI yang berfokus pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain.  Bahasa yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu supaya maksud dari user bisa dipahami dengan baik oleh komputer.

Ada berbagai terapan aplikasi dari NLP. Diantaranya adalah Chatbot (aplikasi yang membuat user bisa seolah-olah melakukan komunikasi dengan computer), Stemming atau Lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar pengenalan fungsi setiap kata dalam kalimat), Summarization (ringkasan dari bacaan), Translation Tools (menterjemahkan bahasa) dan aplikasi-aplikasi lain yang memungkinkan komputer mampu memahami instruksi bahasa yang diinputkan oleh user.

Pustejovsky dan Stubbs (2012) menjelaskan bahwa ada beberapa area utama penelitian pada field NLP, diantaranya:

1. **Question Answering Systems (QAS)**. Kemampuan komputer untuk menjawab pertanyaan yang diberikan oleh user. Daripada memasukkan keyword ke dalam browser pencarian, dengan QAS, user bisa langsung bertanya dalam bahasa natural yang digunakannya, baik itu Inggris, Mandarin, ataupun Indonesia.

2. **Summarization**. Pembuatan ringkasan dari sekumpulan konten dokumen atau email. Dengan menggunakan aplikasi ini, user bisa dibantu untuk mengkonversikan dokumen teks yang besar ke dalam bentuk slide presentasi.
Machine Translation. Produk yang dihasilkan adalah aplikasi yang dapat memahami bahasa manusia dan menterjemahkannya ke dalam bahasa lain. Termasuk di dalamnya adalah Google Translate yang apabila dicermati semakin membaik dalam penterjemahan bahasa. Contoh lain lagi adalah BabelFish yang menterjemahkan bahasa pada real time.

3. **Speech Recognition**. Field ini merupakan cabang ilmu NLP yang cukup sulit. Proses pembangunan model untuk digunakan telpon/komputer dalam mengenali bahasa yang diucapkan sudah banyak dikerjakan. Bahasa yang sering digunakan adalah berupa pertanyaan dan perintah.

4. **Document classification**. Sedangkan aplikasi ini adalah merupakan area penelitian NLP Yang paling sukses. Pekerjaan yang dilakukan aplikasi ini adalah menentukan dimana tempat terbaik dokumen yang baru diinputkan ke dalam sistem. Hal ini sangat berguna pada aplikasi spam filtering, news article classification, dan movie review.

## **Scrapping Data Text**

Sebelum melakukan penerapan dan berbagai penelitian. Mengumpulkan data teks sebagai bahan dasar dari bidang ini merupakan hal yang sangat penting. Proses ini biasa disebut dengan scrapping data. Aktivitas scrapping data bisa dilakukan melalui berbagai platfrom. Mulai langsung pada halaman web tertentu, melalui API seperti Twitter, atau melalui tools yang sudah disediakan, bisa free atau berbayar.  Untuk mulai belajar NLP, kita akan menggunakan tools. Toolls/Library `google_play_scrapper` adalah library yang dapat digunakan untuk mengambil review dari google apps. Pertama kita perlu melakukan instalasi sebagai berikut.

**Instalasi google play scrapper**

In [73]:
!pip install google_play_scraper



**Import Library**

In [74]:
import numpy as np
import pandas as pd
from google_play_scraper import Sort, reviews                  # Librray untuk scrapping data teks
import re                                                      # Library untuk teks preprocessing

**Scrapping Data Review Teks**

**Menyimpan Hasil Review dalam DataFrame**

In [75]:
Hasil_Scrapping = pd.read_csv('/content/dataset_tweet_sentiment_pilkada_DKI_2017.xls.csv')
Hasil_Scrapping.head()

Unnamed: 0,Id,Sentiment,Pasangan Calon,Text Tweet
0,1,negative,Agus-Sylvi,Banyak akun kloning seolah2 pendukung #agussil...
1,2,negative,Agus-Sylvi,#agussilvy bicara apa kasihan yaa...lap itu ai...
2,3,negative,Agus-Sylvi,Kalau aku sih gak nunggu hasil akhir QC tp lag...
3,4,negative,Agus-Sylvi,Kasian oh kasian dengan peluru 1milyar untuk t...
4,5,negative,Agus-Sylvi,Maaf ya pendukung #AgusSilvy..hayo dukung #Ani...


**Mengambil Series Data Teks Review**

In [76]:
teks=Hasil_Scrapping['Text Tweet']
teks

0      Banyak akun kloning seolah2 pendukung #agussil...
1      #agussilvy bicara apa kasihan yaa...lap itu ai...
2      Kalau aku sih gak nunggu hasil akhir QC tp lag...
3      Kasian oh kasian dengan peluru 1milyar untuk t...
4      Maaf ya pendukung #AgusSilvy..hayo dukung #Ani...
                             ...                        
895    Kali saja bpk @aniesbaswedan @sandiuno lihat, ...
896    Kita harus dapat merangkul semua orang tanpa b...
897    Ini jagoanku dibidang digital <Smiling Face Wi...
898                 #PesanBijak #OkeOce #GubernurGu3 ...
899    Sandiaga: Bangun Rumah DP 0% Lebih Simpel Diba...
Name: Text Tweet, Length: 900, dtype: object

## **Teks Preprocessing**

Setelah mendapat data teks. Salah satu tantangan dari data teks adalah bentuknya yang sangat beragam. Sebuah kata dapat ditulis dengan berbagai bentuk. Kemudian juga besar sekali kemungkinan adalah kesalahan penulisan. Tanda baca, angka, dan lain-lain. Oleh sebab itu, sebelum diolah lebih lanjut untuk diproses menjadi data numerik, maka diperlukan pemrosesan data teks agar menjadi bentuk yang lebih bersih dan standar. Yang akan sangat mempengaruhi hasil analisis data teks tersebut. Pada sentimen analisis misalnya, langkah ini menjadi sangat penting. Ada beberapa hal yang dilakukan pada tahap Teks Preprocessing:

####**1. Case Folding & Data Cleaning**

Case folding adalah salah satu bentuk text preprocessing yang paling sederhana dan efektif meskipun sering diabaikan. Tujuan dari case folding untuk mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf ‘a’ sampai ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter. 

Ada beberapa cara yang dapat digunakan dalam tahap case folding, diantaranya:
* Menghapus tanda baca
* Menghapus angka
* Mengubah text menjadi lowercase
* Menghapus whitepace (karakter kosong)


In [77]:
# Menghapus tanda baca
print(teks[28])
teks[28]=re.sub(r'[^\w]|_',' ', teks[28])
teks[28]

@AdjieRimbawan isu lama diangkat lagi, video lama dishare lagi, padahal video sudah disebar buzzer #AHY eh jelang #putaranke2 disebar lagi


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


' AdjieRimbawan isu lama diangkat lagi  video lama dishare lagi  padahal video sudah disebar buzzer  AHY eh jelang  putaranke2 disebar lagi'

In [78]:
# Menghapus angka
print(teks[28])
teks[28] = re.sub("\S*\d\S*", "", teks[28]).strip()
teks[28] = re.sub(r"\b\d+\b", " ", teks[28])
teks[28]

 AdjieRimbawan isu lama diangkat lagi  video lama dishare lagi  padahal video sudah disebar buzzer  AHY eh jelang  putaranke2 disebar lagi


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'AdjieRimbawan isu lama diangkat lagi  video lama dishare lagi  padahal video sudah disebar buzzer  AHY eh jelang   disebar lagi'

In [79]:
#Mengubah text menjadi lowercase
print(teks[28])

teks[28]=teks[28].lower()
teks[28]

AdjieRimbawan isu lama diangkat lagi  video lama dishare lagi  padahal video sudah disebar buzzer  AHY eh jelang   disebar lagi


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'adjierimbawan isu lama diangkat lagi  video lama dishare lagi  padahal video sudah disebar buzzer  ahy eh jelang   disebar lagi'

In [80]:
# Menghapus white space
print(teks[28])

teks[28]=re.sub('[\s]+', ' ', teks[28])
teks[28]

adjierimbawan isu lama diangkat lagi  video lama dishare lagi  padahal video sudah disebar buzzer  ahy eh jelang   disebar lagi


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'adjierimbawan isu lama diangkat lagi video lama dishare lagi padahal video sudah disebar buzzer ahy eh jelang disebar lagi'

Membuat Fungsi untuk Melakukan Case Folding

In [81]:
import re, string, unicodedata 
def Case_Folding(text):
    # Hapus non-ascii
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')
    
    # Menghapus Tanda Baca
    text = re.sub(r'[^\w]|_',' ', text)
    
    # Menghapus Angka
    text = re.sub("\S*\d\S*", "", text).strip()
    text = re.sub(r"\b\d+\b", " ", text)
    
    # Mengubah text menjadi lowercase
    text = text.lower()
    
    # Menghapus white space
    text = re.sub('[\s]+', ' ', text)
    
    return text

## Lemmatization

Proses pengurangan berbagai bentuk kata yang berubah menjadi satu bentuk untuk memudahkan analisis. e.g. kata dari “swim”, “swimming”, “swims”, “swam”, adalah semua bentuk dari “swim”. Nah jadi lemma dari semua kata-kata tersebut adalah “swim”.

Untuk data teks berbahasa Indonesia, kita akan menggunakan library `nlp-id`. Pertama kita harus menginstallnya terlebih dahulu.

In [82]:
!pip install nlp-id



Kemudian kita akan menggunakan fungsi `Lemmatizer()` untuk melakukan lemmatisasi data teks.

In [83]:
from nlp_id.lemmatizer import Lemmatizer 
lemmatizer = Lemmatizer() 
print(teks[28])
teks[28]=lemmatizer.lemmatize(teks[28]) 
teks[28]

adjierimbawan isu lama diangkat lagi video lama dishare lagi padahal video sudah disebar buzzer ahy eh jelang disebar lagi


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'adjierimbawan isu lama angkat lagi video lama dishare lagi padahal video sudah sebar buzzer ahy eh jelang sebar lagi'

## **Stemming**

Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata. Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa Indonesia yang baik dan benar. 

Untuk data teks berbahasa Indonesia, kita akan menggunakan library `PySastrawi`. Pertama kita harus menginstallnya terlebih dahulu.

In [84]:
!pip install PySastrawi



Kemudian kita akan menggunakan fungsi `StemmerFactory()` untuk melakukan stemming.

In [85]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()
print(teks[30])

teks[30] = stemmer.stem(teks[30])
teks[30]

Awas ye kalo minta dukungan suara pendukung #AHY	


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


'awas ye kalo minta dukung suara dukung ahy'

## Slang Words

Slang adalah kata-kata yang tidak baku secara bahasa namun sering dipakai oleh pengguna bahasa. Kita perlu melakukan standarisasi untuk slang.


In [86]:
slang_dictionary = pd.read_csv('https://raw.githubusercontent.com/nikovs/data-science-portfolio/master/topic%20modelling/colloquial-indonesian-lexicon.csv')
slang_dict = pd.Series(slang_dictionary['formal'].values,index=slang_dictionary['slang']).to_dict()

In [87]:
def Slangwords(text):
    for word in text.split():
        if word in slang_dict.keys():
            text = text.replace(word, slang_dict[word])
    return text

In [88]:
print(teks[0])

teks[0]=Slangwords(teks[0]) 
teks[0]

Banyak akun kloning seolah2 pendukung #agussilvy mulai menyerang paslon #aniessandi dengan opini dan argumen pmbenaran..jangan terkecoh


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'Banyak akun kloning seolah2 pendukung #agussilvy mulai menyerang paslon #aniessandi dengan opini dan argumen pmbenaran..jangan terkecoh'

## **Stopword**

Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak memiliki makna.  Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini).  Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”.  Sedangkan untuk bahasa Indonesia diantaranya “yang”, “di”, “ke”.

In [89]:
from nlp_id.stopword import StopWord 
stopword = StopWord() 

In [90]:
from nlp_id.stopword import StopWord 
print(teks[28])

teks[28]=stopword.remove_stopword(teks[28])
teks[28]

adjierimbawan isu lama angkat lagi video lama dishare lagi padahal video sudah sebar buzzer ahy eh jelang sebar lagi


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'adjierimbawan isu angkat video dishare video sebar buzzer ahy eh jelang sebar'

## **Unwanted Words**

Unwanted words adalah kata-kata yang berada di luar beberapa hal di atas namun perlu untuk kita hapus. Kita bisa mendefinisikan sendiri kata-kata atau karakter yang ingin kita hilangkan dari data teks yang kita peroleh.

In [91]:
unwanted_words = ['sy', 'karna', 'gue', 'pun', 'nya', 'yg', 'gw', 'ke', 'gak', 'ga', 'buat', 'selama', 'akan', 'gua', 'gw', 
                 'gue', 'dampak', 'tau', 'banget', 'mohon', 'dii', 'kalo', 'dll', 'kadang', 'ya', 'coba', 'langsung',
                 'cuman', 'cuma', 'biar', 'an', 'kayak', 'dar', 'bikin', 'ssaja', 'sih', 'si', 'situ', 'e', 'utk', 'pake',
                 'diin', 'serba', 'ampun', 'untuj', 'deh', 'jd', 'ku', 'total', 'lg', 'arti', 'terimakasih','and', 'udah',
                 'kali', 'dasar', 'tiada', 'indonesia', 'pas', 'tidiak', 'the', 'http', 'co', 'com', 'di', 'https', 'kak',
                 'dr', 'aja', 'klo', 'tp', 'gitu', 'udh', 'min', 'halo', 'tidak', 'bisa', 'sudah', 'yg', 'apa', 'malah',
                 'masih', 'mau', 'kok', 'belum', 'buat', 'atau', 'sama', 'gak', 'ga', 'udah', 'banyak', 'selalu', 'masuk',
                 'atau', 'belum', 'ini', 'tp', 'ke', 'ya', 'itu', 'aja', 'saja', 'juga', 'aplikasi', 'my pertamina',
                 'mypertamina', 'maaf', 'gk', 'tdk', 'trus', 'jg', 'nih', 'sdh', 'mulu', 'padahal', 'kenapa', 'gimana',
                 'gmn', 'sih', 'bs', 'suruh', 'tolong', 'dah', 'bagus', 'my', 'pertamina', 'jadi', 'kalau', 'engenggakk',
                 'engenggak', 'pakai', 'bilang', 'mending', 'hasil', 'orang', 'muncul', 'ssudah', 'kasih', 'mala', 'malah']

In [92]:
import nltk
from nltk import word_tokenize, sent_tokenize
nltk.download('punkt')

def RemoveUnwantedwords(text):
    word_tokens = word_tokenize(text)
    filtered_sentence = [word for word in word_tokens if not word in unwanted_words]
    return ' '.join(filtered_sentence)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [93]:
print(teks[0])

teks[0]=RemoveUnwantedwords(teks[0])
teks[0]

Banyak akun kloning seolah2 pendukung #agussilvy mulai menyerang paslon #aniessandi dengan opini dan argumen pmbenaran..jangan terkecoh


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'Banyak akun kloning seolah2 pendukung # agussilvy mulai menyerang paslon # aniessandi dengan opini dan argumen pmbenaran..jangan terkecoh'

## **Menerapkan Semua Langkah**

In [94]:
Hasil_Scrapping['content_processed'] = ''

for i, row in Hasil_Scrapping.iterrows():
    content = Hasil_Scrapping['Text Tweet'][i]
    result = Case_Folding(content)
    result = lemmatizer.lemmatize(result)
    result = stemmer.stem(result)
    result = Slangwords(result)
    result = stopword.remove_stopword(result)
    result = RemoveUnwantedwords(result)
    Hasil_Scrapping['content_processed'][i] = result

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # This is added back by InteractiveShellApp.init_path()


In [95]:
Hasil_Scrapping[['Text Tweet', 'content_processed']]

Unnamed: 0,Text Tweet,content_processed
0,Banyak akun kloning seolah2 pendukung # agussi...,akun kloning dukung agussilvy serang paslon an...
1,#agussilvy bicara apa kasihan yaa...lap itu ai...,agussilvy bicara kasihan lap air mata wkwkwkwk
2,Kalau aku sih gak nunggu hasil akhir QC tp lag...,enggak memenunggu qc memenunggu motif cuit sby...
3,Kasian oh kasian dengan peluru 1milyar untuk t...,kasihh oh kasihh peluru rw agussilvy mempan me...
4,Maaf ya pendukung #AgusSilvy..hayo dukung #Ani...,dukung agussilvy hayo dukung aniessandi putar ...
...,...,...
895,"Kali saja bpk @aniesbaswedan @sandiuno lihat, ...",bpk aniesbaswedan sandiuno lihat rspun selfie ...
896,Kita harus dapat merangkul semua orang tanpa b...,rangkul batas usia kelamin okeoce ok hand sala...
897,Ini jagoanku dibidang digital <Smiling Face Wi...,jago bidang digital smiling face with sunglass...
898,#PesanBijak #OkeOce #GubernurGu3 ...,pesanbijak okeoce


In [96]:
Hasil_Scrapping.to_csv('Pilkada_DKI.csv',index=False)

In [98]:
Hasil_Scrapping.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 900 entries, 0 to 899
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Id                 900 non-null    int64 
 1   Sentiment          900 non-null    object
 2   Pasangan Calon     900 non-null    object
 3   Text Tweet         900 non-null    object
 4   content_processed  900 non-null    object
dtypes: int64(1), object(4)
memory usage: 35.3+ KB
