## Pre-processing

Fungsi dari tahap ini adalah untuk mengekstrasi struktur bahasa yang ada dalams sebuah. Ada beberapa tahapan yang akan dilakukan seperti:
- Tokenization
- Filtering Stopword
- Lemma
- Calculating Wordnet Similarity}

Terdapat beberapa tools yang berguna di dunia pada saat ini. Namun untuk pengembangan NLP pada saat ini sebagian besar tools menggunakan bahasa pemograman python. Mengapa NLP menggunakan python? Karena Python adalah satu bahasa pemograman yang baik untuk melakukan proses NLP dengan beberapa faktor yaitu:
- Simple
- Mudah untuk di debug:
- Struktur yang bagus karena terdiri dari modul dan object orientied
- Mempunyai fungsi manipulasi

# Tools 
Tools yang digunakan:
- Python version 2 dan 3
- Gensim
- NLTK
- Spacy
- Scikit-Learn
- PyLDAVis
- matplotlib
- Wordcloud




## 1. Tokenisation

Tokenisation adalah proses untuk memisahkan kalimat ke dalam daftar *token*
...Apa itu token? Token adalah unit terkeceil dari sebuah bahasa yang dapat berupa

- Sentences (Kalimat)
- Words (Kata)
- Phrases (Frase)
- Punctuation (Tanda Baca)
- Numbers (Angka)
- Dates (Tanggal)
- Currencies (Mata Uang)
- Hashtags 
- ...?

## Sentence_Tokenize

In [2]:
from nltk.tokenize import sent_tokenize
kalimat_id = "Harga ikan di papua meningkat tajam, tetapi harga ikan di jakarta cenderung stabil"
array_kalimat=sent_tokenize(kalimat_id)
array_kalimat


LookupError: 
**********************************************************************
  Resource [93mpunkt[0m not found.
  Please use the NLTK Downloader to obtain the resource:

  [31m>>> import nltk
  >>> nltk.download('punkt')
  [0m
  Attempted to load [93mtokenizers/punkt/PY3/english.pickle[0m

  Searched in:
    - '/home/andreas/nltk_data'
    - '/usr/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/share/nltk_data'
    - '/usr/local/share/nltk_data'
    - '/usr/lib/nltk_data'
    - '/usr/local/lib/nltk_data'
    - ''
**********************************************************************


Fungsi *sent_tokenize* adalah untuk memisahkan paragraph menjadi kalimat

** Catatan **
*Sent_tokenize* merupakan modul nltk yang biasa digunakan untuk bahasa inggris 

## Word_Tokenize

In [None]:
from nltk.tokenize import word_tokenize
kata=word_tokenize(array_kalimat[0])
kata

Fungsi *word_tokenize* untuk memisahkan kata dalam sebuah kalimat. Adapun fungsi tokenize dibagi menjadi beberapa bagian seperti pada gambar berikut:
![tokinize-nlp.png](attachment:tokinize-nlp.png)

In [None]:
word_tokenize("don't")

### WordPunctTokenizer

In [None]:
from nltk.tokenize import WordPunctTokenizer
tokenizer = WordPunctTokenizer()
tokenizer.tokenize("Can't is a contraction, I will do my best. . . .....")

## Tokenize menggunakan Regular Expressions

In [None]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer("[\w']+")
tokenizer.tokenize("Can't is a contraction, I will do my best.  . . .....")


[\w'+] == Memecahkan kalimat berdasrkan spasi tetapi memasukan tanda ' sebagai kesatuan dari sebuah kata

In [None]:
tokenizer = RegexpTokenizer('\s+', gaps=True)
tokenizer.tokenize("Can't is a contraction.")

## Tokenize menggunakan  PunktSentenceTokenizer


In [None]:
from nltk.tokenize import PunktSentenceTokenizer
from nltk.corpus import webtext
#text = webtext.raw('/home/nlp/tutorial/Training-NLP-Kemenlu/data/percakapan.txt')
text = webtext.raw('overheard.txt')
sent_tokenizer = PunktSentenceTokenizer(text)
sent_tokenizer

u == Unicode string

In [None]:
sents1 =sent_tokenizer.tokenize(text)
sents1

In [None]:
from nltk.tokenize import sent_tokenize
sents2 = sent_tokenize(text)


In [None]:
 sents1[678]


In [None]:
 sents2[678]


Terdapat perbedaan hasil antara dua metode yang dipakai untuk itulah NLP harus menggunakan analisa secara bertahapa dan menggunakan learning untuk meningkatkan akurasi dari hasil yang diharapkan

## 2. Filtering Word menggunakan StopWords

Stopwords adalah kumpulan kata, frase, tanda baca dan berbagai macam karakter lain yang tidak memiliki arti atau kontrobusi  dalam sebuah bahasa yang akan digunakan. 

Secara umum NLTK telah memiliki corpus untuk bahasa Inggris dan terletak pada nltk_data/corpora/stopwords/english.

In [None]:
from nltk.corpus import stopwords
english_stops = set(stopwords.words('english'))
words = ["Can't", 'is', 'a', 'contraction']
[word for word in words if word not in english_stops]


In [None]:
stopwords.fileids()

In [None]:
stopwords.words('english')

Karena  ***stopwords bahasa Indonesia*** maka kita harus membuat corpus untuk stopword  bahasa indonesia.


In [None]:
import io
import os
f=open("data/StopWordID")
stopword_id=f.read()
indonesia_stopwords  =word_tokenize(stopword_id)
indonesia_stopwords

In [None]:
kalimat="tawuran antar kota menyebabkan puluhan orang terluka"
kata_id=word_tokenize(kalimat)
kata_id

In [None]:
[kata for kata in kata_id if kata not in indonesia_stopwords]

## 3. Melihat Sinomin dengan menggunakan Wordnet

WordNet is a lexical database untuk bahasa Inggris.Dengan kata lain merupakan kamus yang direncanakan untuk digunakan dalam NLP. Terdapat beberapa fitur dalam kamus ini seperti:
- Sinonim 
- Hiponim 
- Lemma
- Antonim


In [None]:
from nltk.corpus import wordnet
syn = wordnet.synsets('money')
#syn = wordnet.synsets('bagus',pos=None,lang='ind')
syn

In [None]:
syn = wordnet.synsets('money')[2]

In [None]:
syn.definition()

In [None]:
syn.examples()

In [None]:
syn.hypernyms()


In [None]:
syn.hypernym_paths()


In [None]:
syn.lemmas()


In [None]:
syn.lemmas()[0].antonyms()

### Sinonim

In [None]:
synonyms = []
#for syn in wordnet.synsets('bagus',pos=None,lang='ind'):
for syn in wordnet.synsets('good'):
    for lemma in syn.lemmas():
        synonyms.append(lemma.name())
synonyms


In [None]:
from nltk.corpus import wordnet as wn
wn.langs()

In [None]:
wn.synsets('teacher')[0]

In [None]:
wn.lemmas("good")

### Menghitung Wordnet Similarity
Synsets terdiri dari pohon hiponim sehingga kita dapat menghitung kesamaan atau similarity dari dua synsets. Semakin dekat maka semakin similar.

In [None]:
from nltk.corpus import wordnet
cb = wordnet.synset('cookbook.n.01')
ib = wordnet.synset('instruction_book.n.01')
cb.wup_similarity(ib)


In [None]:
ref = cb.hypernyms()
ref


In [None]:
cb.shortest_path_distance(ref[0])


In [None]:
%matplotlib inline
from pprint import pprint
import matplotlib.pyplot as plt
from wordcloud import WordCloud
kalimat_id = "Harga ikan di papua meningkat tajam, tetapi harga ikan di jakarta cenderung stabil"

cloud = WordCloud(max_words=1200)
cloud.generate_from_text(kalimat_id)
plt.figure(figsize=(12,8))
plt.imshow(cloud)
plt.axis('off')
plt.show()