#Import Library

In [1]:
import sys

if not sys.warnoptions:
    import warnings
    warnings.simplefilter("ignore")

#Natural Language Processing

Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI yang berfokus pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain. Bahasan yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu supaya maksud dari user bisa dipahami dengan baik oleh komputer.

Ada berbagai alasan terapan aplikasi dari NLP. Diantaranya adalah Chatbot (aplikasi yang membuat user bisa seolah-olah melakukan komunikasi dengan komputer). Stemming atau Lemmatization (Pemotongan kata dalam bahasa tertentu menjadi bentuk dasar pengenalan fungsi setiap kata dalam kalimat). Summarization (ringkasan komputer mampu memahami instruksi bahasa yang diinputkan oleh user.

Pustejovsky dan Stubbs (2012) menjelaskan bahwa ada beberapa area utama penelitian pada field NLP diantaranya:

1. **Question Answering System (QAS)**. Kemampuan komputer untuk menjawab pertanyaan yang diberikan oleh user. Daripada memasukkan keyword ke dalam browser pencarian, dengan QAS, user bisa langsung bertanya dalam bahasa natural yang digunakannya, baik itu Inggris, Mandarin, ataupun Indonesia.
2. **Summarization**. Pembuatan ringkasan dari sekumpulan konten dokumen atau email. Dengan menggunakan aplikasi ini, user bisa dibantu untuk mengkonversikan dokumen teks yang besar ke dalam bentuk slide presentasi. Machine Translation produk yang dihasilkan adalah aplikasi yang dapat memahami bahasa manusia dan menterjemahkannya ke dalam bahasa lain, termasuk didalamnya adalah Google Translate yang apabila dicermati semakin membaik dalam penterjemahan bahasa. Contoh lain lagi adalah BabelFish yang menterjemahkan bahasa pada real time.
3. **Speech Recognition**. Field ini merupakan cabang ilmu NLP yang cukup sulit. Proses pembangunan model untuk digunakan telpon/komputer dalam mengenali bahasa yang diucapkan sudah banyak dikerjakan. Bahasa yang sering digunakan adalah berupa pertanyaan atau perintah.
4. **Document Classification**. Sedangkan aplikasi ini adalah area penelitian NLP yang paling sukses. Pekerjaan yang dilakukan aplikasi ini adalah menentukan dimana tempat terbaik dokumen yang baru diinputkan ke dalam sistem. Hal ini sangat berguna pada aplikasi spam filtering, news article classification, dan movie review.

#Scrapping Data Text

Sebelum melakukan penerapan dan berbagai penelitian, mengumpulkan data teks sebagai bahan dasar dari bidang ini merupakan hal yang sangat penting. Proses ini biasa disebut dengan scrapping data. Aktivitas scapping data bisa dilakukan melalui berbagai platfrom. Mulai langsung pada halaman web tertentu, melalui API seperti twitter, atau melalui tools yang sudah disediakan bisa free atau berbayar. Untuk mulai belajar NLP, kita akan menggunakan tools. Tools/Library google_play_scrapper adalah library yang dapat digunakan untuk mengambil review dari google apps. Pertama kita perlu melakukan instalasi sebagai berikut.

#Instalasi google play scrapper

In [2]:
!pip install google_play_scraper

Collecting google_play_scraper
  Downloading google-play-scraper-1.0.2.tar.gz (52 kB)
[?25l[K     |██████▏                         | 10 kB 28.8 MB/s eta 0:00:01[K     |████████████▍                   | 20 kB 38.4 MB/s eta 0:00:01[K     |██████████████████▋             | 30 kB 44.8 MB/s eta 0:00:01[K     |████████████████████████▉       | 40 kB 42.2 MB/s eta 0:00:01[K     |███████████████████████████████ | 51 kB 18.8 MB/s eta 0:00:01[K     |████████████████████████████████| 52 kB 1.1 MB/s 
[?25hBuilding wheels for collected packages: google-play-scraper
  Building wheel for google-play-scraper (setup.py) ... [?25l[?25hdone
  Created wheel for google-play-scraper: filename=google_play_scraper-1.0.2-py3-none-any.whl size=24393 sha256=cb5082037929206c1356e5df6fc198571af3f0a90d39a8b3fd499204c85dab55
  Stored in directory: /root/.cache/pip/wheels/98/99/eb/bbb9d24a5c526980647efc10336eaaeffcf07749f581111128
Successfully built google-play-scraper
Installing collected packages: g

**Import Library**

In [3]:
import numpy as np
import pandas as pd
from google_play_scraper import Sort, reviews       # Library untuk scrapping data
import re                                          # Library untuk teks

**Scrapping Data Review Teks**

In [10]:
Hasil_Scrapping = pd.read_csv('/content/dataset_tweet_sentiment_pilkada_DKI_2017.csv')
Hasil_Scrapping.head()

Unnamed: 0,Id,Sentiment,Pasangan Calon,Text Tweet
0,1,negative,Agus-Sylvi,Banyak akun kloning seolah2 pendukung #agussil...
1,2,negative,Agus-Sylvi,#agussilvy bicara apa kasihan yaa...lap itu ai...
2,3,negative,Agus-Sylvi,Kalau aku sih gak nunggu hasil akhir QC tp lag...
3,4,negative,Agus-Sylvi,Kasian oh kasian dengan peluru 1milyar untuk t...
4,5,negative,Agus-Sylvi,Maaf ya pendukung #AgusSilvy..hayo dukung #Ani...


**Mengambil Series Data Teks Review**

In [11]:
teks = Hasil_Scrapping['Text Tweet']
teks

0      Banyak akun kloning seolah2 pendukung #agussil...
1      #agussilvy bicara apa kasihan yaa...lap itu ai...
2      Kalau aku sih gak nunggu hasil akhir QC tp lag...
3      Kasian oh kasian dengan peluru 1milyar untuk t...
4      Maaf ya pendukung #AgusSilvy..hayo dukung #Ani...
                             ...                        
895    Kali saja bpk @aniesbaswedan @sandiuno lihat, ...
896    Kita harus dapat merangkul semua orang tanpa b...
897    Ini jagoanku dibidang digital <Smiling Face Wi...
898                 #PesanBijak #OkeOce #GubernurGu3 ...
899    Sandiaga: Bangun Rumah DP 0% Lebih Simpel Diba...
Name: Text Tweet, Length: 900, dtype: object

#Teks Preprocessing

Setelah mendapat data teks, salah satu tantangan dari data adalah bentuknya yang sangat beragam. Sebuah kata dapat ditulis dengan berbagai bentuk. Kemudian juga besar sekali kemungkinan adalah kesalahan penulisan, tanda baca, angka, dan lain-lain. Oleh sebab itu, sebelum diolah lebih lanjut untuk diproses menjadi data numerik, maka diperlukan pemrosesan data teks agar menjadi bentuk yang lebih bersih dan standar. Yang akan sangat mempengaruhi hasil analisis data teks tersebut. Pada sentimen analisis misalnya langkah ini menjadi sangat penting. Ada beberapa hal yang dilakukan pada tahap Teks Preprocessing:

1. **Case Folding dan Data Cleaning**
Case folding adalah salah satu bentuk text preprocessing yang paling sederhana dan efektif meskipun sering diabaikan. Tujuan dari case folding untuk mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya huruf 'a' sampai 'z' yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.

Ada beberapa cara yang dapat digunakan dalam tahap folding, diantaranya:

Menghapus tanda baca
Menghapus angka
Mengubah text menjadi lowercase
Menghapus whitepace (karakter kosong)

In [12]:
# Menghapus tanda baca
print(teks[13])
teks[13]=re.sub(r'[^\w]|_',' ',teks[13])
teks[13]

aku juga kemarin #AHY 19april2017 suaraku utk paslon 3 #DKI


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'aku juga kemarin  AHY 19april2017 suaraku utk paslon 3  DKI'

In [13]:
# Menghapus angka
print(teks[200])
teks[200]=re.sub("\S*\d\S*", "", teks[200]).strip()
teks[200]=re.sub(r"\b\d+\b", " ", teks[200])
teks[200]

Ngawal Abang dulu keliling Ampenan #AHY #fkppi #kawal #bodyguard #military #myjob https://www.instagram.com/p/BTySqVcjLv5/


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'Ngawal Abang dulu keliling Ampenan #AHY #fkppi #kawal #bodyguard #military #myjob'

In [14]:
# Mengubah text menjadi lowercase
print(teks[397])

teks[397]=teks[397].lower()
teks[397]

#AhokDjarot membuktikan bahwa tak selamanya mantan itu digantikan dengan yang lebih baik #mantanterindah #akakakakakk #maapnyampah


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'#ahokdjarot membuktikan bahwa tak selamanya mantan itu digantikan dengan yang lebih baik #mantanterindah #akakakakakk #maapnyampah'

In [15]:
# Menghapus white space
print(teks[28])

teks[28]= re.sub('[\s]+', ' ', teks[28])
teks[28]

@AdjieRimbawan isu lama diangkat lagi, video lama dishare lagi, padahal video sudah disebar buzzer #AHY eh jelang #putaranke2 disebar lagi


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'@AdjieRimbawan isu lama diangkat lagi, video lama dishare lagi, padahal video sudah disebar buzzer #AHY eh jelang #putaranke2 disebar lagi'

Membuat Fungsi untuk melakukan Case Folding

In [16]:
import re, string, unicodedata
def Case_Folding(text):
    # Hapus non-ascii
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', '')
    
    # Menghapus Tanda baca
    text = re.sub(r'[^\w]|_',' ', text)
    
    # Menghapus angka
    text = re.sub("\S*\d\S*", "", text).strip()
    text = re.sub(r"\b\d+\b", " ", text)
    
    # Mengubah text menjadi lowercase
    text = text.lower()
    
    # Menghapus white space
    text = re.sub('[\s]+', ' ', text)
    
    return text

#Lemmatization

Proses pengurangan berbagai bentuk kata yang berubah menjadi satu bentuk untuk memudahkan analisis, e.g kata dari "swim", "swimming", "swims", "swam", adalah semua betuk dari "swim". Nah jadi lemma dari kata-kata tersebut adalah "swim".

Untuk data teks berbahasa Indonesia, kita akan menggunakan library nlp-id. Pertama kita harus menginstallnya terlebih dahulu.

In [17]:
!pip install nlp-id

Collecting nlp-id
  Downloading nlp_id-0.1.12.0.tar.gz (7.9 MB)
[K     |████████████████████████████████| 7.9 MB 5.0 MB/s 
[?25hCollecting scikit-learn==0.22
  Downloading scikit_learn-0.22-cp37-cp37m-manylinux1_x86_64.whl (7.0 MB)
[K     |████████████████████████████████| 7.0 MB 62.4 MB/s 
[?25hCollecting nltk==3.4.5
  Downloading nltk-3.4.5.zip (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 47.8 MB/s 
[?25hCollecting wget==3.2
  Downloading wget-3.2.zip (10 kB)
Building wheels for collected packages: nlp-id, nltk, wget
  Building wheel for nlp-id (setup.py) ... [?25l[?25hdone
  Created wheel for nlp-id: filename=nlp_id-0.1.12.0-py3-none-any.whl size=8074105 sha256=2d4033248fafed297491658173306938b899d77f0f8448b2041cd47f8f6eafd9
  Stored in directory: /root/.cache/pip/wheels/b2/50/48/da59531125bd94f48dfe66140f41d8fd8a4f04062050375013
  Building wheel for nltk (setup.py) ... [?25l[?25hdone
  Created wheel for nltk: filename=nltk-3.4.5-py3-none-any.whl size=1449923 

Kemudian kita akan menggunakan fungsi _Lemmatizer()_ untuk melakukan lemmatisasi data teks.

In [18]:
from nlp_id.lemmatizer import Lemmatizer
lemmatizer = Lemmatizer()
print(teks[281])
teks[281]=lemmatizer.lemmatize(teks[281])
teks[281]

Sambutan hangat buat pendukung #AHY yang mau bergabung dengan kami <Smiling Face With Smiling Eyes> <FOLDED HANDS>


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'sambut hangat buat dukung ahy yang mau gabung dengan kami smiling face with smiling eyes folded hands'

#Stemming

Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata. Dengan menghilangkan semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan kombinasi dari awalan dan akhiran (cinfixes) pada kata turunan. Stemming digunakan untuk mengganti bentuk dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa Indonesia yang baik dan benar.

Untuk data teks berbahasa Indonesia, kita akan menggunakan library _PySastrawi_. Pertama kita harus menginstallnya terlebih dahulu.

In [19]:
!pip install PySastrawi

Collecting PySastrawi
  Downloading PySastrawi-1.2.0-py2.py3-none-any.whl (210 kB)
[?25l[K     |█▋                              | 10 kB 36.4 MB/s eta 0:00:01[K     |███▏                            | 20 kB 38.6 MB/s eta 0:00:01[K     |████▊                           | 30 kB 45.4 MB/s eta 0:00:01[K     |██████▎                         | 40 kB 24.3 MB/s eta 0:00:01[K     |███████▉                        | 51 kB 16.6 MB/s eta 0:00:01[K     |█████████▍                      | 61 kB 14.0 MB/s eta 0:00:01[K     |███████████                     | 71 kB 12.9 MB/s eta 0:00:01[K     |████████████▌                   | 81 kB 14.4 MB/s eta 0:00:01[K     |██████████████                  | 92 kB 14.6 MB/s eta 0:00:01[K     |███████████████▋                | 102 kB 12.1 MB/s eta 0:00:01[K     |█████████████████▏              | 112 kB 12.1 MB/s eta 0:00:01[K     |██████████████████▊             | 122 kB 12.1 MB/s eta 0:00:01[K     |████████████████████▎           | 133 kB 12.1 

Kemudian kita akan menggunakan fungsi _StemmerFactory()_ untuk melakukan stemming

In [20]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()
print(teks[129])

teks[129] = stemmer.stem(teks[129])
teks[129]

#ahy <Frowning Face>


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


'ahy frowning face'

#Slang Words

Slang adalah kata-kata yang tidak baku secara bahasa namun sering dipakai oleh pengguna bahasa. Kita perlu melakukan standarisasi untuk slang.

In [21]:
slang_dictionary = pd.read_csv('https://raw.githubusercontent.com/nikovs/data-science-portfolio/master/topic%20modelling/colloquial-indonesian-lexicon.csv')
slang_dict = pd.Series(slang_dictionary['formal'].values, index=slang_dictionary['slang']).to_dict()

In [22]:
def Slangwords(text):
    for word in text.split():
        if word in slang_dict.keys():
            text = text.replace(word, slang_dict[word])
    return text

In [23]:
print(teks[86])

teks[86]=Slangwords(teks[86])
teks[86]

lini pertahanan AHY rapuh debat efek, aksi 112 efek dan Antasari efek #pilkadaDKI


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'lini pertahanan AHY rapuh debat efek, aksi 112 efek dan Antasari efek #pilkadaDKI'

#Stop Words

Stop words adalah kata umum (common words) yang biasanya mncul dalam jumlah besar dan dianggap tidak memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google (penjelasannya di sini). Contoh stop words untuk bahasa Inggis diantaranya, "of", "the". Sedangkan untuk bahasa Indonesia diantaranya "yang", "di", "ke".

In [24]:
from nlp_id.stopword import StopWord
stopword = StopWord()

In [25]:
from nlp_id.stopword import StopWord
print(teks[99])

teks[99]=stopword.remove_stopword(teks[99])
teks[99]

heeebohhhh....Agus Sylvi kalah di TPS 6 tmpat @AgusYudhoyono menggunakan hak pilihnya... #PilkadaDKI #QuickCount #ahy	


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'heeebohhhh.... Agus Sylvi kalah TPS 6 tmpat@AgusYudhoyono hak pilihnya...#PilkadaDKI#QuickCount#ahy'

#Unwanted Words

Unwanted words adalah kata-kata yang berada di luar beberpa hal di atas namun perlu kita hapus. Kita bisa mendefinisikan sendiri kata-kata atau karakter yang ingin kita hilangkan dari data teks yang kita peroleh

In [26]:
unwanted_words = ['sy', 'karna', 'gue', 'pun', 'nya', 'yg', 'gw', 'ke', 'gak', 
                 'ga', 'buat', 'selama', 'akan', 'gua', 'gw', 'gue', 'banget', 
                 'mohon', 'dii', 'kalo', 'dll', 'cuman', 'cuma', 'biar', 'kayak', 
                 'ssaja', 'sih', 'si', 'situ', 'e', 'diin', 'serba', 'untuj', 'deh', 
                 'jd', 'ku', 'lg', 'and', 'tuh', 'nih', 'mas', 'mbak', 'tau', 'iya',
                 'ya', 'lu', 'pas', 'wkwk', 'haha', 'wkwkwk', 'wkwkw', 'wow', 'akak',
                 'anjir', 'lo', 'loh', 'bang', 'kak', 'jd', 'eh', 'oh', 'yuk', 'gila',
                 'asa', 'mending', 'engenggak', 'a', 'mah', 'kali', 'piss', 'dlu', 'eh', 'ttp']

In [27]:
import nltk
from nltk import word_tokenize, sent_tokenize
nltk.download('punkt')

def RemoveUnwantedWords(text):
    word_tokens = word_tokenize(text)
    filtered_sentence =[word for word in word_tokens if not word in unwanted_words]
    return ' '.join(filtered_sentence)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [28]:
print(teks[241])

teks[241] = RemoveUnwantedWords(teks[241])
teks[241]

Yuk #AHY Fans dukung dan menangkan #GubernurMuslim


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'Yuk # AHY Fans dukung dan menangkan # GubernurMuslim'

#Menerapkan Semua Langkah

In [29]:
Hasil_Scrapping['content_processed'] = ''

for i, row in Hasil_Scrapping.iterrows():
    text_tweet = Hasil_Scrapping['Text Tweet'][i]
    result = Case_Folding(text_tweet)
    result = lemmatizer.lemmatize(result)
    result = stemmer.stem(result)
    result = stopword.remove_stopword(result)
    result = RemoveUnwantedWords(result)
    Hasil_Scrapping['content_processed'][i]=result

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # Remove the CWD from sys.path while we load stuff.


In [30]:
Hasil_Scrapping[['Text Tweet', 'content_processed']]

Unnamed: 0,Text Tweet,content_processed
0,Banyak akun kloning seolah2 pendukung #agussil...,akun kloning dukung agussilvy serang paslon an...
1,#agussilvy bicara apa kasihan yaa...lap itu ai...,agussilvy bicara kasihan yaa lap air mata wkwk...
2,Kalau aku sih gak nunggu hasil akhir QC tp lag...,nunggu hasil qc tp nunggu motif cuit sbyudhoyo...
3,Kasian oh kasian dengan peluru 1milyar untuk t...,kasi kasi peluru rw agussilvy mempan menangin ...
4,Maaf ya pendukung #AgusSilvy..hayo dukung #Ani...,maaf dukung agussilvy hayo dukung aniessandi p...
...,...,...
895,"Kali saja bpk @aniesbaswedan @sandiuno lihat, ...",bpk aniesbaswedan sandiuno lihat rspun selfie ...
896,Kita harus dapat merangkul semua orang tanpa b...,rangkul orang batas usia kelamin okeoce ok han...
897,Ini jagoanku dibidang digital <Smiling Face Wi...,jago bidang digital smiling face with sunglass...
898,#PesanBijak #OkeOce #GubernurGu3 ...,pesanbijak okeoce


In [31]:
Hasil_Scrapping.to_csv('Pilkada_DKI.csv', index=False)

In [32]:
Hasil_Scrapping.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 900 entries, 0 to 899
Data columns (total 5 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Id                 900 non-null    int64 
 1   Sentiment          900 non-null    object
 2   Pasangan Calon     900 non-null    object
 3   Text Tweet         900 non-null    object
 4   content_processed  900 non-null    object
dtypes: int64(1), object(4)
memory usage: 35.3+ KB
