<a href="https://colab.research.google.com/github/ditamaylani/PSDS_KelasMahir_PejuangData3.0/blob/main/Materi7_NaturalLanguangeProcessing(NLP)Dasar.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Natural Language Processing (NLP) Dasar**

Pada pertemuan ini kamu akan belajar:
*  Apa itu NLP
*  Scrapping Data
*  Text Preprocessing
  * Case Folding & Data Cleaning
  * Lemmatisasi
  * Stemming
  * Slang Word
  * Stop Word
  * Unwanted Word


**Import Library**

In [1]:
import sys  # Modul sys digunakan untuk mengakses konfigurasi interpreter pada saat runtime dan berinteraksi dengan environment sistem operasi.
if not sys.warnoptions:
  import warnings
  warnings.simplefilter("ignore")

## **Apa itu NLP ?**

Natural Language Processing (NLP) merupakan salah satu cabang ilmu AI (*Artificial Intelligence*) yang berfokus pada pengolahan bahasa natural. Bahasa natural adalah bahasa yang secara umum digunakan oleh manusia dalam berkomunikasi satu sama lain. Bahasa yang diterima oleh komputer butuh untuk diproses dan dipahami terlebih dahulu supaya maksud dari user bisa dipahami dengan baik oleh komputer.

Ada berbagai terapan aplikasi dari NLP. Diantaranya adalah Chatbot (aplikasi yang membuat user bisa seolah-olah melakukan komunikasi dengan computer), Stemming atau Lemmatization (pemotongan kata dalam bahasa tertentu menjadi bentuk dasar pengenalan fungsi setiap kata dalam kalimat), Summarization (ringkasan dari bacaan), Translation Tools (menterjemahkan bahasa) dan aplikasi-aplikasi lain yang memungkinkan komputer mampu memahami instruksi bahasa yang diinputkan oleh user.

Pustejovsky dan Stubbs (2012) menjelaskan bahwa ada beberapa area utama penelitian pada field NLP, diantaranya:
1.  **Question Answering Systems (QAS)**. Kemampuan komputer untuk menjawab pertanyaan yang
diberikan oleh user. Daripada memasukkan keyword ke dalam browser pencarian, dengan QAS, user bisa
langsung bertanya dalam bahasa natural yang digunakannya, baik itu Inggris, Mandarin, ataupun
Indonesia.
2. **Summarization**. Pembuatan ringkasan dari sekumpulan konten dokumen atau email. Dengan
menggunakan aplikasi ini, user bisa dibantu untuk mengkonversikan dokumen teks yang besar ke dalam
bentuk slide presentasi. Machine Translation. Produk yang dihasilkan adalah aplikasi yang dapat
memahami bahasa manusia dan menterjemahkannya ke dalam bahasa lain. Termasuk di dalamnya adalah
Google Translate yang apabila dicermati semakin membaik dalam penterjemahan bahasa. Contoh lain lagi
adalah BabelFish yang menterjemahkan bahasa pada real time.
3.  **Speech Recognition**. Field ini merupakan cabang ilmu NLP yang cukup sulit. Proses pembangunan
model untuk digunakan telpon/komputer dalam mengenali bahasa yang diucapkan sudah banyak
dikerjakan. Bahasa yang sering digunakan adalah berupa pertanyaan dan perintah.
4. **Document classification**. Sedangkan aplikasi ini adalah merupakan area penelitian NLP Yang paling
sukses. Pekerjaan yang dilakukan aplikasi ini adalah menentukan dimana tempat terbaik dokumen yang
baru diinputkan ke dalam sistem. Hal ini sangat berguna pada aplikasi spam filtering, news article
classification, dan movie review.




## **Scrapping Data**

Sebelum melakukan penerapan dan berbagai penelitian. Mengumpulkan data teks sebagai bahan dasar dari
bidang ini merupakan hal yang sangat penting. Proses ini biasa disebut dengan scrapping data. Aktivitas
scrapping data bisa dilakukan melalui berbagai platfrom. Mulai langsung pada halaman web tertentu, melalui
API seperti Twitter, atau melalui tools yang sudah disediakan, bisa free atau berbayar. 

**Import Library**

In [2]:
import numpy as np
import pandas as pd
import re # Library untuk teks preprocessing


**Menggunakan Data Tweet Sentiment Pilkada DKI 2017**

In [3]:
df = pd.read_csv('https://raw.githubusercontent.com/ditamaylani/dataset/main/dataset_tweet_sentiment_pilkada_DKI_2017.csv')
df

Unnamed: 0,Id,Sentiment,Pasangan Calon,Text Tweet
0,1,negative,Agus-Sylvi,Banyak akun kloning seolah2 pendukung #agussil...
1,2,negative,Agus-Sylvi,#agussilvy bicara apa kasihan yaa...lap itu ai...
2,3,negative,Agus-Sylvi,Kalau aku sih gak nunggu hasil akhir QC tp lag...
3,4,negative,Agus-Sylvi,Kasian oh kasian dengan peluru 1milyar untuk t...
4,5,negative,Agus-Sylvi,Maaf ya pendukung #AgusSilvy..hayo dukung #Ani...
...,...,...,...,...
895,896,positive,Anies-Sandi,"Kali saja bpk @aniesbaswedan @sandiuno lihat, ..."
896,897,positive,Anies-Sandi,Kita harus dapat merangkul semua orang tanpa b...
897,898,positive,Anies-Sandi,Ini jagoanku dibidang digital <Smiling Face Wi...
898,899,positive,Anies-Sandi,#PesanBijak #OkeOce #GubernurGu3 ...


**Mengambil Series Data Teks Tweet**

In [4]:
tweet=df['Text Tweet']
tweet

0      Banyak akun kloning seolah2 pendukung #agussil...
1      #agussilvy bicara apa kasihan yaa...lap itu ai...
2      Kalau aku sih gak nunggu hasil akhir QC tp lag...
3      Kasian oh kasian dengan peluru 1milyar untuk t...
4      Maaf ya pendukung #AgusSilvy..hayo dukung #Ani...
                             ...                        
895    Kali saja bpk @aniesbaswedan @sandiuno lihat, ...
896    Kita harus dapat merangkul semua orang tanpa b...
897    Ini jagoanku dibidang digital <Smiling Face Wi...
898                 #PesanBijak #OkeOce #GubernurGu3 ...
899    Sandiaga: Bangun Rumah DP 0% Lebih Simpel Diba...
Name: Text Tweet, Length: 900, dtype: object

## **Text Preprocessing**

Setelah mendapat data teks. Salah satu tantangan dari data teks adalah bentuknya yang sangat beragam.
Sebuah kata dapat ditulis dengan berbagai bentuk. Kemudian juga besar sekali kemungkinan adalah
kesalahan penulisan. Tanda baca, angka, dan lain-lain. Oleh sebab itu, sebelum diolah lebih lanjut untuk
diproses menjadi data numerik, maka diperlukan pemrosesan data teks agar menjadi bentuk yang lebih bersih
dan standar. Yang akan sangat mempengaruhi hasil analisis data teks tersebut. Pada sentimen analisis
misalnya, langkah ini menjadi sangat penting. Ada beberapa hal yang dilakukan pada tahap Teks
Preprocessing:

### **1. Case Folding & Data Cleaning**

Case folding adalah salah satu bentuk text preprocessing yang paling sederhana dan efektif meskipun sering
diabaikan. Tujuan dari case folding untuk mengubah semua huruf dalam dokumen menjadi huruf kecil. Hanya
huruf ‘a’ sampai ‘z’ yang diterima. Karakter selain huruf dihilangkan dan dianggap delimiter.


Ada beberapa cara yang dapat digunakan dalam tahap case folding, diantaranya:

*  Menghapus tanda baca
*  Menghapus angka
*  Mengubah text menjadi lowercase
*  Menghapus whitepace (karakter kosong) 

In [5]:
# Menghapus tanda baca
print(tweet[103])
tweet[103]=re.sub(r'[^\w]|_',' ', tweet[103])
tweet[103]

Buat pendukung #AHY mari rapatkan barisan ke paslon #3 Buang issu miring paslon #3 Masih mau dipimpin seorang TERDAKWA? SIMULUT EMBER????


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'Buat pendukung  AHY mari rapatkan barisan ke paslon  3 Buang issu miring paslon  3 Masih mau dipimpin seorang TERDAKWA  SIMULUT EMBER    '

In [6]:
# Menghapus angka
print(tweet[103])
tweet[103] = re.sub("\S*\d\S*", "", tweet[103]).strip()
tweet[103] = re.sub(r"\b\d+\b", " ", tweet[103])
tweet[103]

Buat pendukung  AHY mari rapatkan barisan ke paslon  3 Buang issu miring paslon  3 Masih mau dipimpin seorang TERDAKWA  SIMULUT EMBER    


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'Buat pendukung  AHY mari rapatkan barisan ke paslon   Buang issu miring paslon   Masih mau dipimpin seorang TERDAKWA  SIMULUT EMBER'

In [7]:
#Mengubah text menjadi lowercase
print(tweet[103])
tweet[103]=tweet[103].lower()
tweet[103]

Buat pendukung  AHY mari rapatkan barisan ke paslon   Buang issu miring paslon   Masih mau dipimpin seorang TERDAKWA  SIMULUT EMBER


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'buat pendukung  ahy mari rapatkan barisan ke paslon   buang issu miring paslon   masih mau dipimpin seorang terdakwa  simulut ember'

In [8]:
# Menghapus white space
print(tweet[103])
tweet[103]=re.sub('[\s]+', ' ', tweet[103])
tweet[103]

buat pendukung  ahy mari rapatkan barisan ke paslon   buang issu miring paslon   masih mau dipimpin seorang terdakwa  simulut ember


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'buat pendukung ahy mari rapatkan barisan ke paslon buang issu miring paslon masih mau dipimpin seorang terdakwa simulut ember'

Membuat Fungsi untuk Melakukan Case Folding

In [9]:
import re, string, unicodedata
def Case_Folding(text):
    # Hapus non-ascii
    text = unicodedata.normalize('NFKD', text).encode('ascii', 'ignore').decode('utf-8', 'ignore')
 
    # Menghapus Tanda Baca
    text = re.sub(r'[^\w]|_',' ', text)
 
    # Menghapus Angka
    text = re.sub("\S*\d\S*", "", text).strip()
    text = re.sub(r"\b\d+\b", " ", text)
 
    # Mengubah text menjadi lowercase
    text = text.lower()
 
    # Menghapus white space
    text = re.sub('[\s]+', ' ', text)
 
    return text

### **2. Lemmatisasi**

Proses pengurangan berbagai bentuk kata yang berubah menjadi satu bentuk untuk memudahkan analisis. e.g.
kata dari “swim”, “swimming”, “swims”, “swam”, adalah semua bentuk dari “swim”. Nah jadi lemma dari semua
kata-kata tersebut adalah “swim”.


Untuk data teks berbahasa Indonesia, kita akan menggunakan library `nlp-id` . Pertama kita harus
menginstallnya terlebih dahulu.



In [10]:
!pip install nlp-id

Collecting nlp-id
  Downloading nlp_id-0.1.12.0.tar.gz (7.9 MB)
[K     |████████████████████████████████| 7.9 MB 15.1 MB/s 
[?25hCollecting scikit-learn==0.22
  Downloading scikit_learn-0.22-cp37-cp37m-manylinux1_x86_64.whl (7.0 MB)
[K     |████████████████████████████████| 7.0 MB 42.8 MB/s 
[?25hCollecting nltk==3.4.5
  Downloading nltk-3.4.5.zip (1.5 MB)
[K     |████████████████████████████████| 1.5 MB 42.6 MB/s 
[?25hCollecting wget==3.2
  Downloading wget-3.2.zip (10 kB)
Building wheels for collected packages: nlp-id, nltk, wget
  Building wheel for nlp-id (setup.py) ... [?25l[?25hdone
  Created wheel for nlp-id: filename=nlp_id-0.1.12.0-py3-none-any.whl size=8074105 sha256=debe53a841896b45b9c28545278be816cd2f489c7bcafc34d049d7068d69ad22
  Stored in directory: /root/.cache/pip/wheels/b2/50/48/da59531125bd94f48dfe66140f41d8fd8a4f04062050375013
  Building wheel for nltk (setup.py) ... [?25l[?25hdone
  Created wheel for nltk: filename=nltk-3.4.5-py3-none-any.whl size=1449924

Kemudian kita akan menggunakan fungsi `Lemmatizer()` untuk melakukan lemmatisasi data teks.

In [11]:
from nlp_id.lemmatizer import Lemmatizer
lemmatizer = Lemmatizer() 
print(tweet[103])
tweet[103]=lemmatizer.lemmatize(tweet[103]) 
tweet[103]

buat pendukung ahy mari rapatkan barisan ke paslon buang issu miring paslon masih mau dipimpin seorang terdakwa simulut ember


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'buat dukung ahy mari rapat baris ke paslon buang issu miring paslon masih mau pimpin orang dakwa simulut ember'

### **3. Stemming**

Stemming merupakan suatu proses untuk menemukan kata dasar dari sebuah kata. Dengan menghilangkan
semua imbuhan (affixes) baik yang terdiri dari awalan (prefixes), sisipan (infixes), akhiran (suffixes) dan
confixes (kombinasi dari awalan dan akhiran) pada kata turunan. Stemming digunakan untuk mengganti bentuk
dari suatu kata menjadi kata dasar dari kata tersebut yang sesuai dengan struktur morfologi Bahasa Indonesia
yang baik dan benar.


Untuk data teks berbahasa Indonesia, kita akan menggunakan library PySastrawi . Pertama kita harus
menginstallnya terlebih dahulu.


In [12]:
!pip install PySastrawi

Collecting PySastrawi
  Downloading PySastrawi-1.2.0-py2.py3-none-any.whl (210 kB)
[?25l[K     |█▋                              | 10 kB 20.7 MB/s eta 0:00:01[K     |███▏                            | 20 kB 27.2 MB/s eta 0:00:01[K     |████▊                           | 30 kB 32.3 MB/s eta 0:00:01[K     |██████▎                         | 40 kB 27.9 MB/s eta 0:00:01[K     |███████▉                        | 51 kB 22.5 MB/s eta 0:00:01[K     |█████████▍                      | 61 kB 23.5 MB/s eta 0:00:01[K     |███████████                     | 71 kB 23.6 MB/s eta 0:00:01[K     |████████████▌                   | 81 kB 24.8 MB/s eta 0:00:01[K     |██████████████                  | 92 kB 25.1 MB/s eta 0:00:01[K     |███████████████▋                | 102 kB 26.7 MB/s eta 0:00:01[K     |█████████████████▏              | 112 kB 26.7 MB/s eta 0:00:01[K     |██████████████████▊             | 122 kB 26.7 MB/s eta 0:00:01[K     |████████████████████▎           | 133 kB 26.7 

Kemudian kita akan menggunakan fungsi `StemmerFactory()` untuk melakukan stemming.

In [13]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Membuat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()
print(tweet[290])

tweet[290] = stemmer.stem(tweet[290])
tweet[290]


Mas #Agus Tetap Semangat . Pendukung #Ahy Jangan Tidur . #Basuki Maju Terus InsyaAllah Menang


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


'mas agus tetap semangat dukung ahy jangan tidur basuki maju terus insyaallah menang'

### **4. Slang Word**

Slang adalah kata-kata yang tidak baku secara bahasa namun sering dipakai oleh pengguna bahasa. Kita perlu
melakukan standarisasi untuk slang.

In [14]:
slang_dictionary = pd.read_csv('https://raw.githubusercontent.com/nikovs/data-science-portfolio/master/topic%20modelling/colloquial-indonesian-lexicon.csv')
slang_dict = pd.Series(slang_dictionary['formal'].values,index=slang_dictionary['slang']).to_dict()


In [15]:
def Slangwords(text):
 for word in text.split():
   if word in slang_dict.keys():
     text = text.replace(word, slang_dict[word])
 return text

In [16]:
print(tweet[350])

tweet[350]=Slangwords(tweet[350]) 
tweet[350]

habiburokhman sindir #Ahok via #puisi #Sembako http://obsessionnews.com #AniesSandiGubernurKita #AhokDjarot #Aniesâ€¦ https://twitter.com


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'habiburokhman sindir #Ahok via #puisi #Sembako http://obsessionnews.com #AniesSandiGubernurKita #AhokDjarot #Aniesâ€¦ https://twitter.com'

### **5. Stop Word**

Stop words adalah kata umum (common words) yang biasanya muncul dalam jumlah besar dan dianggap tidak
memiliki makna. Stop words umumnya dimanfaatkan dalam task information retrieval, termasuk oleh Google
(penjelasannya di sini). Contoh stop words untuk bahasa Inggris diantaranya “of”, “the”. Sedangkan untuk
bahasa Indonesia diantaranya “yang”, “di”, “ke”.


In [17]:
from nlp_id.stopword import StopWord
stopword = StopWord() 

In [18]:
from nlp_id.stopword import StopWord
print(tweet[399])

tweet[399]=stopword.remove_stopword(tweet[399])
tweet[399]

Sederhana aja kan? Ya orang yang mempertanyakan soal susah move on berarti cuma yang sok skeptis dan tim kontra Ahok #AhokDjarot


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  after removing the cwd from sys.path.


'Sederhana? orang susah move on sok skeptis tim kontra Ahok#AhokDjarot'

### **6. Unwated Word**

Unwanted words adalah kata-kata yang berada di luar beberapa hal di atas namun perlu untuk kita hapus. Kita
bisa mendefinisikan sendiri kata-kata atau karakter yang ingin kita hilangkan dari data teks yang kita peroleh.

In [19]:
unwanted_words = ['sy', 'karna', 'gue', 'pun', 'nya', 'yg', 'gw', 'ke', 'gak', 'ga', 'buat'
 'gue', 'dampak', 'tau', 'banget', 'mohon', 'dii', 'kalo', 'dll', 'kadang',
 'cuman', 'cuma', 'biar', 'an', 'kayak', 'dar', 'bikin', 'ssaja', 'sih',
 'diin', 'serba', 'ampun', 'untuj', 'deh', 'jd', 'ku', 'total', 'lg', 'arti'
 'kali', 'dasar', 'tiada', 'indonesia', 'pas', 'tidiak', 'the', 'http',
 'dr', 'aja', 'klo', 'tp', 'gitu', 'udh', 'min', 'halo', 'tidak', 'bisa',
 'masih', 'mau', 'kok', 'belum', 'buat', 'atau', 'sama', 'gak', 'ga', 'udah'
 'atau', 'belum', 'ini', 'tp', 'ke', 'ya', 'itu', 'aja', 'saja', 'juga',
 'mypertamina', 'maaf', 'gk', 'tdk', 'trus', 'jg', 'nih', 'sdh', 'mulu',
 'gmn', 'sih', 'bs', 'suruh', 'tolong', 'dah', 'bagus', 'my', 'pertamina', 
 'engenggak', 'pakai', 'bilang', 'mending', 'hasil', 'orang', 'muncul']


In [20]:
import nltk
from nltk import word_tokenize, sent_tokenize
nltk.download('punkt')

def RemoveUnwantedwords(text):
    word_tokens = word_tokenize(text)
    filtered_sentence = [word for word in word_tokens if not word in unwanted_words]
    return ' '.join(filtered_sentence)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


In [21]:
print(tweet[700])

tweet[700]=RemoveUnwantedwords(tweet[700])
tweet[700]

Ahok menistakan agama untuk menang pilkada - Logika timses @aniesbaswedan #MataNajwaDebatJakarta #salambersama #okeoce


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


'Ahok menistakan agama untuk menang pilkada - Logika timses @ aniesbaswedan # MataNajwaDebatJakarta # salambersama # okeoce'

### **Menerapkan Semua Langkah**

In [22]:
df['Tidy Tweet'] = ''
for i, row in df.iterrows():
    content = tweet[i]
    result = Case_Folding(content)
    result = lemmatizer.lemmatize(result)
    result = stemmer.stem(result)
    result = Slangwords(result)
    result = stopword.remove_stopword(result)
    result = RemoveUnwantedwords(result)
    df['Tidy Tweet'][i] = result
df[['Text Tweet', 'Tidy Tweet']]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  # Remove the CWD from sys.path while we load stuff.


Unnamed: 0,Text Tweet,Tidy Tweet
0,Banyak akun kloning seolah2 pendukung #agussil...,akun kloning dukung agussilvy serang paslon an...
1,#agussilvy bicara apa kasihan yaa...lap itu ai...,agussilvy bicara kasihan lap air mata wkwkwkwk
2,Kalau aku sih gak nunggu hasil akhir QC tp lag...,enggak memenunggu qc memenunggu motif cuit sby...
3,Kasian oh kasian dengan peluru 1milyar untuk t...,kasihh oh kasihh peluru rw agussilvy mempan me...
4,Maaf ya pendukung #AgusSilvy..hayo dukung #Ani...,dukung agussilvy hayo dukung aniessandi putar ...
...,...,...
895,"Kali saja bpk @aniesbaswedan @sandiuno lihat, ...",bpk aniesbaswedan sandiuno lihat rspun selfie ...
896,Kita harus dapat merangkul semua orang tanpa b...,rangkul batas usia kelamin okeoce ok hand sala...
897,Ini jagoanku dibidang digital <Smiling Face Wi...,jago bidang digital smiling face with sunglass...
898,#PesanBijak #OkeOce #GubernurGu3 ...,pesanbijak okeoce


In [28]:
df.to_csv('Pilkada_DKI.csv',index=False)

In [29]:
from google.colab import files
files.download("Pilkada_DKI.csv")

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>