# Praktikum 1 - Dasar Penggunaan NLTK #

**NLTK** (https://www.nltk.org) adalah library yang digunakan untuk pengolahan data bahasa manusia.

Pada bagian ini, kita belajar cara instalasi NLTK dan beberapa contoh dasar penggunaannya.

# Instalasi dan Setup

Instalasi nltk cukup sederhana, yaitu hanya menggunakan perintah `pip`

### Dari command line atau terminal:
> `pip install -U nltk`


# Bermain dengan nltk di Python

Berikut ini adalah beberapa contoh perintah dasar untuk nltk.

## 1. Tokenization
Langkah pertama dalam memproses teks adalah membagi semua bagian komponen (kata & tanda baca) menjadi "token". Token ini sangat berguna untuk menemukan pola dan dianggap sebagai langkah dasar untuk stemming dan lemmatization. 
Tokenisasi nltk ada dua, yaitu: tokenisasi kata dan tokenisasi kalimat. 
Mari kita lihat contoh masing-masing:

### A. Tokenisasi Kata ###

In [160]:
# import librari nltk
import nltk

# download corpus punkt
nltk.download('punkt')

from nltk.tokenize import word_tokenize
text = "Alhamdulillah, hari ini cuacanya cerah. Tapi, sore hari hujan"
print(word_tokenize(text))


['Alhamdulillah', ',', 'hari', 'ini', 'cuacanya', 'cerah', '.', 'Tapi', ',', 'sore', 'hari', 'hujan']


[nltk_data] Downloading package punkt to /home/oddy/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


#### Penjelasan kode ####
1. `import nltk` adalah import librari nltk
1. `nltk.download('punkt')` adalah download database corpus dari nltk. Proses ini hanya sekali ketika running awal.
1. `word_tokenize` adalah modul dari librari NLTK.
1. `text` adalah variabel yang menampung data teks tipe string

#### B. Tokenisasi Kalimat ####

In [161]:
from nltk.tokenize import sent_tokenize

text = "Alhamdulillah, hari ini cuacanya cerah. Tapi, sore hari hujan"
print(sent_tokenize(text))

['Alhamdulillah, hari ini cuacanya cerah.', 'Tapi, sore hari hujan']


Output dari tokenisasi kata dan kalimat berbeda. Kita amati perbedaan output berikut:
1. Tokenisasi kata: `['Alhamdulillah', ',', 'hari', 'ini', 'cuacanya', 'cerah', '.', 'Tapi', ',', 'sore', 'hari', 'hujan']`, 
1. Tokenisasi kalimat: `['Alhamdulillah, hari ini cuacanya cerah.', 'Tapi, sore hari hujan']`. 

Tokenisasi pada nltk sudah bisa membedakan mana kalimat dan mana kata berdasarkan tanda baca.

## 2. Stopword Removal ##

**Stop words** adalah kata-kata yang ingin diabaikan atau difilter dari teks. Kata-kata yang sangat umum seperti 'di', 'yang', dan 'saya' sering digunakan sebagai stopword karena tidak menambahkan banyak arti pada teks itu sendiri. Di sini, kita memanfaatkan fitur stopword removal untuk bahasa Inggris.

In [162]:
# download corpus stopwords
nltk.download('stopwords')
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

[nltk_data] Downloading package stopwords to /home/oddy/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


#### Penjelasan kode ####
1. `nltk.download('stopwords')` adalah import corpus stopwords yang akan digunakan untuk filter corpus
1. `from nltk.corpus import stopwords` adalah import stopwords.

In [163]:
benjamin_quote = "Tell me and I forget. Teach me and I remember. Involve me and I learn"

words = word_tokenize(benjamin_quote)
print(words)

['Tell', 'me', 'and', 'I', 'forget', '.', 'Teach', 'me', 'and', 'I', 'remember', '.', 'Involve', 'me', 'and', 'I', 'learn']


In [164]:
stop_words = set(stopwords.words("english"))
print(stop_words)

{'why', 'down', 'doesn', "needn't", 'haven', 'more', 've', "hadn't", 'their', 'above', 'needn', 'just', "couldn't", 'the', 'i', 'while', "wasn't", 'his', 'before', 'on', 'but', 'll', 'by', "hasn't", 'here', 'of', "won't", 'shouldn', 'been', 'had', 'and', "you've", 'from', 'too', 'that', 's', 'we', 'it', 'there', 'should', 'at', 'o', 'through', "wouldn't", 'when', 'was', 'ourselves', 'out', 'didn', 'as', 'him', 'he', 'do', 'can', 'mustn', 'an', 'our', 'or', 'no', 'am', 'once', 'few', 'is', 'against', 'which', 'does', 're', "didn't", "it's", 'between', 'any', 'me', 'both', 'theirs', 'its', 'over', "don't", 'mightn', 'them', 'only', 'will', 'wasn', 'this', 'ain', 'most', 'hers', 'about', 'until', 'they', "shouldn't", 'were', 'doing', 'again', 'these', "weren't", 'aren', "isn't", 'shan', 'other', 'nor', 'did', 'up', 'such', 'own', 'because', 'wouldn', 'where', "shan't", "mightn't", 'are', 'further', 'ma', 'yourselves', 'having', 'her', "should've", 'she', 'in', 'isn', 'whom', "that'll", "s

#### Penjelasan kode ####
1. `stopwords.words("english")` adalah memilih stopwords yang dipakai dalam bahasa Inggris
1. `set(stopwords.words("english"))` adalah mengubah tipe data `list` dari poin 1 ke dalam bentuk tipe `set`.
1. `print(stop_words)` adalah mencetak daftar stopword.

In [165]:
quote_tanpa_stopwords = []

for word in words:
    if word.casefold() not in stop_words:
        quote_tanpa_stopwords.append(word)
        
print(quote_tanpa_stopwords)

['Tell', 'forget', '.', 'Teach', 'remember', '.', 'Involve', 'learn']


#### Penjelasan kode ####
1. `quote_tanpa_stopwords` adalah variabel yang dipakai untuk menampung teks tanpa stopwords
1. `word.casefold()` digunakan untuk mengabaikan besar-kecilnya huruf (upper atau lower case).
1. `quote_tanpa_stopwords.append(word)` digunakan untuk memasukkan kata ke dalam list.

Untuk penulisan kode python yang berkaitan dengan list, ada beberapa cara. Cara pertama adalah seperti kode berikut:
```python
quote_tanpa_stopwords = []

for word in words:
    if word.casefold() not in stop_words:
        quote_tanpa_stopwords.append(word)
        
print(quote_tanpa_stopwords)
```

sedangkan cara kedua, adalah sebagai berikut:
```python
quote_tanpa_stopwords = [
    word for word in words if word.casefold() not in stop_words
]
```
Kedua model penulisan list tersebut menghasilkan data dan tipe yang sama. Perbedaannya adalah lebih ke gaya penulisan di mana yang kedua itu terkesan lebih **Python**

In [166]:
quote_tanpa_stopwords = [
    word for word in words if word.casefold() not in stop_words
]

print(quote_tanpa_stopwords)

['Tell', 'forget', '.', 'Teach', 'remember', '.', 'Involve', 'learn']


Oke, berikutnya kita lanjutkan ke praktikum tentang **Stemming** dan **Lemmatization**

## 3. Stemming ##

**Stemming** adalah salah satu bagian dari pemrosesan teks di mana kata direduksi untuk diambil kata dasarnya. Misalnya, kata "helping" dan "helper" memiliki akar kata "help". Stemming memungkinkan Anda untuk membidik arti dasar sebuah kata daripada semua detil tentang bagaimana kata itu digunakan. NLTK memiliki lebih dari satu stemmer, tetapi, di sini kita menggunakan **Stemmer Porter**.

In [167]:
from nltk.stem import PorterStemmer

teks_untuk_stemming = "studying loving lovingly loved lover lovely repeatedly"

token_teks_untuk_stemming = word_tokenize(teks_untuk_stemming)

stemmer = PorterStemmer()

stemmed_words = [stemmer.stem(word) for word in token_teks_untuk_stemming]
print(stemmed_words)

['studi', 'love', 'lovingli', 'love', 'lover', 'love', 'repeatedli']


#### Penjelasan kode ####
1. `from nltk.stem import PorterStemmer` adalah import PorterStemmer untuk stemming 
1. `teks_untuk_stemming` adalah variabel yang berisi kata yang akan di-stemming
1. `stemmer = PorterStemmer()` adalah membuat object dari stemmer
1. `stemmed_words` adalah variabel yang berisi kata-kata yang sudah di-stemming
1. `stemmer.stem(word)` digunakan untuk stemming per token atau per kata.


Dari kode sebelumnya, outputnya adalah:
`['studi', 'love', 'lovingli', 'love', 'lover', 'love', 'repeatedli']`

Selain PorterStemmer, NLTK juga memiliki beberapa jenis stemmer yang lain seperti: LancasterStemmer, SnowballStemmer, dan ARLSTem.

Mari kita bahas satu per satu perbedaan dari masing-masing stemmer. Langkah-langkahnya adalah
1. pertama adalah import librari Stemmer-nya

In [168]:
# import librari
from nltk.stem import PorterStemmer, LancasterStemmer, SnowballStemmer

2. kedua, membuat variabel untuk teks yang akan distemming dan mengubahnya menjadi bentuk token

In [169]:
teks_untuk_stemming = "studying loving lovingly loved lover lovely repeatedly"
token_teks_untuk_stemming = word_tokenize(teks_untuk_stemming)

3. ketiga adalah membuat object dari masing-masing Stemmer satu per satu. 

In [170]:
porterStemmer = PorterStemmer()
lancasterStemmer = LancasterStemmer()
snowballStemmer = SnowballStemmer(language="english")
arslStemmer = ARLSTem()

4. keempat adalah melakukan stemming pada token

In [171]:
porter_stemmed_words = []
lancaster_stemmed_words = []
snowball_stemmed_words = []

for word in token_teks_untuk_stemming:
    porter_stemmed_words.append(porterStemmer.stem(word))
    lancaster_stemmed_words.append(lancasterStemmer.stem(word))
    snowball_stemmed_words.append(snowballStemmer.stem(word))

In [172]:
print("Porter: ",porter_stemmed_words)
print("Lancaster: ", lancaster_stemmed_words)
print("Snowball: ",snowball_stemmed_words)

Porter:  ['studi', 'love', 'lovingli', 'love', 'lover', 'love', 'repeatedli']
Lancaster:  ['study', 'lov', 'lov', 'lov', 'lov', 'lov', 'rep']
Snowball:  ['studi', 'love', 'love', 'love', 'lover', 'love', 'repeat']


#### Penjelasan kode ####
1. `from nltk.stem import PorterStemmer, LancasterStemmer, SnowballStemmer` adalah import langsung 3 Stemmer 
1. Inisiasi variabel
```python
porterStemmer = PorterStemmer()
lancasterStemmer = LancasterStemmer()
snowballStemmer = SnowballStemmer(language="english")
``` 
adalah pembuatan object (instantiate) dari masing-masing Stemmer
1. Variabel penampung kata yang di-stemming
```python
porter_stemmed_words = []
lancaster_stemmed_words = []
snowball_stemmed_words = []
```
adalah inisialisasi variabel kosong dengan tipe list
1. Mencetak hasil tiap-tiap stemming
```python
print("Porter: ",porter_stemmed_words)
print("Lancaster: ", lancaster_stemmed_words)
print("Snowball: ",snowball_stemmed_words)
```
digunakan untuk mencetak hasil stemming

### Pertanyaan ###
Dari hasil stemming masing-masing teknik, apa yang bisa kalian simpulkan? 

## 4. Lemmatization ##

Berbeda dengan stemming, lemmatization lebih dari sekadar pengurangan kata, dan mempertimbangkan kosakata lengkap bahasa serta susunan morfologi kata-kata. Lemma dari 'was' adalah 'be' dan lemma dari 'mice' adalah 'mouse'. Selanjutnya, lemma dari 'meeting' mungkin 'meet' atau 'meeting' tergantung pada penggunaannya dalam sebuah kalimat.

In [173]:
from nltk.stem import WordNetLemmatizer
nltk.download('wordnet')

[nltk_data] Downloading package wordnet to /home/oddy/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


True

In [174]:
lemmatizer = WordNetLemmatizer()

Contoh lemma dari kata 'scarves'

In [175]:
print(lemmatizer.lemmatize("scarves"))

scarf


Dari hasil print pada kode sebelumnya, lemma dari 'scarves' menghasilkan 'scarf'. **Lemma mengubah kata ke bentuk asalnya**. Mari kita coba lagi lemma dengan contoh kalimat berikut ini,"*The striped bats are hanging on their feet for best*". Di sini, kita mencoba pengaruh lemma terhadap kalimat yang di-stemming dengan tanpa stemming menggunakan teknik Porter.


In [176]:
kalimat = "The striped bats are hanging on their feet in a dangerous place"
kalimat_token = word_tokenize(kalimat)

#### A. Dengan PorterStemmer ####

In [177]:
kalimat_token_stemmed = [porterStemmer.stem(word) for word in kalimat_token]
kalimat_token_lemmatized_stemmed = [lemmatizer.lemmatize(word) for word in kalimat_token_stemmed]

print("Stemming tanpa Lemma: ",kalimat_token_stemmed)
print("Stemming dan Lemma: ",kalimat_token_lemmatized_stemmed)

Stemming tanpa Lemma:  ['the', 'stripe', 'bat', 'are', 'hang', 'on', 'their', 'feet', 'in', 'a', 'danger', 'place']
Stemming dan Lemma:  ['the', 'stripe', 'bat', 'are', 'hang', 'on', 'their', 'foot', 'in', 'a', 'danger', 'place']


#### B. Tanpa PorterStemmer ####

In [178]:
kalimat_token_lemmatized_non_stemmed = [lemmatizer.lemmatize(word) for word in kalimat_token]

print("Lemma tanpa Stemming: ",kalimat_token_lemmatized_non_stemmed)

Lemma tanpa Stemming:  ['The', 'striped', 'bat', 'are', 'hanging', 'on', 'their', 'foot', 'in', 'a', 'dangerous', 'place']


#### Penjelasan kode ####
1. `from nltk.stem import WordNetLemmatizer` adalah mengimpor WordNetLemmatizer sebagai fitur Lemmatization
1. `nltk.download('wordnet')` adalah corpus yang digunakan untuk lemma
1. `lemmatizer = WordNetLemmatizer()` adalah pembuatan (instantiate) object WordNetLemmatizer
1. `lemmatizer.lemmatize("scarves")` adalah contoh penggunaan lemma pada kata "scarves" yang menghasilkan bentuk dasar katanya

Demikian praktikum 1, semoga lancar dan penuh berkah belajarnya.

## 5. Referensi ##

1. N. Indurkhya and F. J. Damerau, Handbook of Natural Language Processing. CRC Press, 2010.
1. https://realpython.com/nltk-nlp-python/
1. https://www.nltk.org/index.html