# Book 6 (Learning to Classify Text)
#### SIDE-39-GAB
#### Bastomy - 1301178418 - Text Mining

### 6. Learning to Classify Text

### 1   Supervised Classification

<img src="supervised-classification.png" style="width:500px"/>

pada pemograman ini kita akan mengklasifikasikan gender berdasarkan nama berikut caranya

### 1.1   Gender Identification

fungsi dibawah berfungsi untuk mengembalikan huruf terakhir dari kata inputan

In [1]:
def gender_features(word):
    return {'last_letter': word[-1]}

In [2]:
gender_features("bastomy")

{'last_letter': 'y'}

In [3]:
import pandas as pd
import nltk
from nltk.corpus import names
labeled_names = ([(name, 'male') for name in names.words('male.txt')] +
                 [(name, 'female') for name in names.words('female.txt')])
import random
random.shuffle(labeled_names)

berikut daftar nama yang tersedia

In [4]:
data_nama = pd.DataFrame(labeled_names)
print("terdapat ",len(data_nama), "daftar nama")

terdapat  7944 daftar nama


In [5]:
data_nama[:20]

Unnamed: 0,0,1
0,Rebecka,female
1,Carol-Jean,female
2,Michaella,female
3,Lavinie,female
4,Anabel,female
5,Lester,male
6,Gretel,female
7,Halie,female
8,Adeline,female
9,Terrel,male


In [6]:
featuresets = [(gender_features(n), gender) for (n, gender) in labeled_names]
train_set, test_set = featuresets[500:], featuresets[:500]
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [7]:
classifier.classify(gender_features('Neo'))

'male'

In [8]:
classifier.classify(gender_features('Neo'))

'male'

klasifikasi diatas sangat case sensitif contoh antara NeO dan Neo menghasilkan hasil yang berbeda, karena klasifikasi di atas hanya memperhatikan huruf terakhir <br> berikut fitur yang tersedia

In [9]:
featuresets[:10]

[({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'n'}, 'female'),
 ({'last_letter': 'a'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'l'}, 'female'),
 ({'last_letter': 'r'}, 'male'),
 ({'last_letter': 'l'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'e'}, 'female'),
 ({'last_letter': 'l'}, 'male')]

akurasi klasifikasi sekitar 71 persen

In [10]:
print(nltk.classify.accuracy(classifier, test_set))

0.724


berikut akhiran nama yang memiliki probabilitas yang tinggi

In [11]:
classifier.show_most_informative_features(5)

Most Informative Features
             last_letter = 'a'            female : male   =     34.4 : 1.0
             last_letter = 'k'              male : female =     31.9 : 1.0
             last_letter = 'v'              male : female =     18.8 : 1.0
             last_letter = 'f'              male : female =     17.4 : 1.0
             last_letter = 'p'              male : female =     11.9 : 1.0


### 1.2   Choosing The Right Features

In [12]:
def gender_features2(name):
    features = {}
    features["first_letter"] = name[0].lower()
    features["last_letter"] = name[-1].lower()
    for letter in 'abcdefghijklmnopqrstuvwxyz':
        features["count({})".format(letter)] = name.lower().count(letter)
        features["has({})".format(letter)] = (letter in name.lower())
    return features

fungsi diatas akan mengecek inputan nama dari a-z dan menghitung setiap huruf tersebut, berikut contoh dari hasil fungsi di atas

In [13]:
gender_features2('Bastomy') 

{'first_letter': 'b',
 'last_letter': 'y',
 'count(a)': 1,
 'has(a)': True,
 'count(b)': 1,
 'has(b)': True,
 'count(c)': 0,
 'has(c)': False,
 'count(d)': 0,
 'has(d)': False,
 'count(e)': 0,
 'has(e)': False,
 'count(f)': 0,
 'has(f)': False,
 'count(g)': 0,
 'has(g)': False,
 'count(h)': 0,
 'has(h)': False,
 'count(i)': 0,
 'has(i)': False,
 'count(j)': 0,
 'has(j)': False,
 'count(k)': 0,
 'has(k)': False,
 'count(l)': 0,
 'has(l)': False,
 'count(m)': 1,
 'has(m)': True,
 'count(n)': 0,
 'has(n)': False,
 'count(o)': 1,
 'has(o)': True,
 'count(p)': 0,
 'has(p)': False,
 'count(q)': 0,
 'has(q)': False,
 'count(r)': 0,
 'has(r)': False,
 'count(s)': 1,
 'has(s)': True,
 'count(t)': 1,
 'has(t)': True,
 'count(u)': 0,
 'has(u)': False,
 'count(v)': 0,
 'has(v)': False,
 'count(w)': 0,
 'has(w)': False,
 'count(x)': 0,
 'has(x)': False,
 'count(y)': 1,
 'has(y)': True,
 'count(z)': 0,
 'has(z)': False}

In [14]:
featuresets = [(gender_features2(n), gender) for (n, gender) in labeled_names]
train_set, test_set = featuresets[500:], featuresets[:500]
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [15]:
print(nltk.classify.accuracy(classifier, test_set))

0.754


pemilihan fitur seperti di atas meningkatkan akurasi sebesar 3 persen yaitu dari 71 ke 74 <br> hal ini di karenakan ada penambahan fitur yaitu menghitung setiap huruf dari a sampai dengan z

In [16]:
train_names = labeled_names[1500:]
devtest_names = labeled_names[500:1500]
test_names = labeled_names[:500]

<img src="corpus-org.png"/>

data corpus dibagi menjadi 3 bagian yaitu train,dev dan tes name seperti pada gambar diatas dengan pembagian data <br>
<ul>
    <li>train_names 1500 data pertama</li>
    <li>devtest_names 500 sampai 1500 data </li>
    <li>test_names 500 data terakhir</li>
</ul>

In [17]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
test_set = [(gender_features(n), gender) for (n, gender) in test_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [18]:
print(nltk.classify.accuracy(classifier, devtest_set))

0.755


dengan pembagian data tersebut mendapatkan akurasi yang meningkat yaitu sebesar 76 persen

In [19]:
def gender_features(word):
    return {'suffix1': word[-1:],
            'suffix2': word[-2:]}

In [20]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, devtest_set))

0.768


### 1.3   Document Classification

berbeda dengan klasifikasi nama di atas disini yang akan di klasifikasi adalah documen berikut beberapa sample klasifikasi dokumen

In [21]:
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
             for category in movie_reviews.categories()
             for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)

In [22]:
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]

In [23]:
def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features

cara kerja klasifikasi dokumen ini yaitu dengan mengecek setiap kata yang terkandung dalam dokumen tersebut 

In [24]:
data = document_features(movie_reviews.words('pos/cv957_8737.txt'))
data = list(data)

sampel dari ektrasi featur fungsi diatas

In [25]:
data[:10]

['contains(plot)',
 'contains(:)',
 'contains(two)',
 'contains(teen)',
 'contains(couples)',
 'contains(go)',
 'contains(to)',
 'contains(a)',
 'contains(church)',
 'contains(party)']

In [26]:
featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [27]:
print(nltk.classify.accuracy(classifier, test_set))

0.83


In [28]:
classifier.show_most_informative_features(5)

Most Informative Features
 contains(unimaginative) = True              neg : pos    =      8.5 : 1.0
        contains(suvari) = True              neg : pos    =      7.1 : 1.0
          contains(mena) = True              neg : pos    =      7.1 : 1.0
    contains(schumacher) = True              neg : pos    =      6.7 : 1.0
        contains(shoddy) = True              neg : pos    =      6.4 : 1.0


### 1.4   Part-of-Speech Tagging

In [29]:
from nltk.corpus import brown
suffix_fdist = nltk.FreqDist()
for word in brown.words():
    word = word.lower()
    suffix_fdist[word[-1:]] += 1
    suffix_fdist[word[-2:]] += 1
    suffix_fdist[word[-3:]] += 1

In [30]:
common_suffixes = [suffix for (suffix, count) in suffix_fdist.most_common(100)]

In [31]:
print(common_suffixes)

['e', ',', '.', 's', 'd', 't', 'he', 'n', 'a', 'of', 'the', 'y', 'r', 'to', 'in', 'f', 'o', 'ed', 'nd', 'is', 'on', 'l', 'g', 'and', 'ng', 'er', 'as', 'ing', 'h', 'at', 'es', 'or', 're', 'it', '``', 'an', "''", 'm', ';', 'i', 'ly', 'ion', 'en', 'al', '?', 'nt', 'be', 'hat', 'st', 'his', 'th', 'll', 'le', 'ce', 'by', 'ts', 'me', 've', "'", 'se', 'ut', 'was', 'for', 'ent', 'ch', 'k', 'w', 'ld', '`', 'rs', 'ted', 'ere', 'her', 'ne', 'ns', 'ith', 'ad', 'ry', ')', '(', 'te', '--', 'ay', 'ty', 'ot', 'p', 'nce', "'s", 'ter', 'om', 'ss', ':', 'we', 'are', 'c', 'ers', 'uld', 'had', 'so', 'ey']


In [32]:
def pos_features(word):
    features = {}
    for suffix in common_suffixes:
        features['endswith({})'.format(suffix)] = word.lower().endswith(suffix)
        return features

In [33]:
tagged_words = brown.tagged_words(categories='news')
featuresets = [(pos_features(n), g) for (n,g) in tagged_words]

In [34]:
size = int(len(featuresets) * 0.1)
train_set, test_set = featuresets[size:], featuresets[:size]

In [35]:
classifier = nltk.DecisionTreeClassifier.train(train_set)
nltk.classify.accuracy(classifier, test_set)

0.17135753356539035

contoh dari klasifikasi cats

In [36]:
classifier.classify(pos_features('cats'))

'IN'

contoh lain

In [37]:
classifier.classify(pos_features('dogs'))

'IN'

In [39]:
classifier.classify(pos_features('fish'))

'IN'

kita bisa mnegecek pseudocode pada librari classifier nltk dengan menggunakan kode dibawah ini, dimana depth adalah kedalaman dari kode tersebut, berikut depth dari klasifier tersebut

In [42]:
print(classifier.pseudocode(depth=1))

if endswith(e) == False: return 'IN'
if endswith(e) == True: return 'AT'



In [43]:
print(classifier.pseudocode(depth=2))

if endswith(e) == False: return 'IN'
if endswith(e) == True: return 'AT'



In [44]:
print(classifier.pseudocode(depth=3))

if endswith(e) == False: return 'IN'
if endswith(e) == True: return 'AT'



In [45]:
print(classifier.pseudocode(depth=4))

if endswith(e) == False: return 'IN'
if endswith(e) == True: return 'AT'



### 1.5   Exploiting Context

pada fungsi di atas kita akan mengekstrak suatufitur dimana terdapat surfix 1 , 2 dan 3, berikut contoh jika fungsi itu di panggil

In [46]:
def pos_features(sentence, i):
    features = {"suffix(1)": sentence[i][-1:],
                "suffix(2)": sentence[i][-2:],
                "suffix(3)": sentence[i][-3:]}
    if i == 0:
        features["prev-word"] = "<START>"
    else:
        features["prev-word"] = sentence[i-1]
    return features

kalimat yang akan dijadikan parameter

In [51]:
" ".join(brown.sents()[0])

"The Fulton County Grand Jury said Friday an investigation of Atlanta's recent primary election produced `` no evidence '' that any irregularities took place ."

hasil dari return value fungsi di atas

In [53]:
pos_features(brown.sents()[0], 8)

{'suffix(1)': 'n', 'suffix(2)': 'on', 'suffix(3)': 'ion', 'prev-word': 'an'}

In [54]:
tagged_sents = brown.tagged_sents(categories='news')
featuresets = []
for tagged_sent in tagged_sents:
    untagged_sent = nltk.tag.untag(tagged_sent)
    for i, (word, tag) in enumerate(tagged_sent):
        featuresets.append( (pos_features(untagged_sent, i), tag) )

In [56]:
size = int(len(featuresets) * 0.1)
train_set, test_set = featuresets[size:], featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [57]:
nltk.classify.accuracy(classifier, test_set)

0.7891596220785678

### 1.6   Sequence Classification

In [60]:
def pos_features(sentence, i, history):
    features = {"suffix(1)": sentence[i][-1:],
                "suffix(2)": sentence[i][-2:],
                "suffix(3)": sentence[i][-3:]}
    if i == 0:
        features["prev-word"] = "<START>"
        features["prev-tag"] = "<START>"
    else:
        features["prev-word"] = sentence[i-1]
        features["prev-tag"] = history[i-1]
    return features

In [61]:
class ConsecutivePosTagger(nltk.TaggerI):
    def __init__(self, train_sents):
        train_set = []
        for tagged_sent in train_sents:
            untagged_sent = nltk.tag.untag(tagged_sent)
            history = []
            for i, (word, tag) in enumerate(tagged_sent):
                featureset = pos_features(untagged_sent, i, history)
                train_set.append( (featureset, tag) )
                history.append(tag)
        self.classifier = nltk.NaiveBayesClassifier.train(train_set)

    def tag(self, sentence):
        history = []
        for i, word in enumerate(sentence):
            featureset = pos_features(sentence, i, history)
            tag = self.classifier.classify(featureset)
            history.append(tag)
        return zip(sentence, history)

In [62]:
tagged_sents = brown.tagged_sents(categories='news')
size = int(len(tagged_sents) * 0.1)
train_sents, test_sents = tagged_sents[size:], tagged_sents[:size]
tagger = ConsecutivePosTagger(train_sents)

In [63]:
print(tagger.evaluate(test_sents))

0.7980528511821975


### 1.7   Other Methods for Sequence Classification

## 2   Further Examples of Supervised Classification

### 2.1   Sentence Segmentation

In [64]:
sents = nltk.corpus.treebank_raw.sents()
tokens = []
boundaries = set()
offset = 0
for sent in sents:
    tokens.extend(sent)
    offset += len(sent)
    boundaries.add(offset-1)

In [65]:
def punct_features(tokens, i):
    return {'next-word-capitalized': tokens[i+1][0].isupper(),
            'prev-word': tokens[i-1].lower(),
            'punct': tokens[i],
            'prev-word-is-one-char': len(tokens[i-1]) == 1}

In [67]:
featuresets = [(punct_features(tokens, i), (i in boundaries))
               for i in range(1, len(tokens)-1)
               if tokens[i] in '.?!']

dengan menggunakan fitur kata berikutnya dan sebelumnya dan huruf pertama pada kata sebelumnya menghasilkan akurasi yang sangat tinggi yaitu sebesar 93 persen

In [69]:
size = int(len(featuresets) * 0.1)
train_set, test_set = featuresets[size:], featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)
nltk.classify.accuracy(classifier, test_set)


0.936026936026936

### 2.2   Identifying Dialogue Act Types

In [70]:
posts = nltk.corpus.nps_chat.xml_posts()[:10000]

In [71]:
def dialogue_act_features(post):
    features = {}
    for word in nltk.word_tokenize(post):
        features['contains({})'.format(word.lower())] = True
    return features

In [72]:
featuresets = [(dialogue_act_features(post.text), post.get('class'))
               for post in posts]
size = int(len(featuresets) * 0.1)
train_set, test_set = featuresets[size:], featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))

0.668


### 2.3   Recognizing Textual Entailment

In [76]:
import nltk
nltk.download('rte')

[nltk_data] Downloading package rte to
[nltk_data]     C:\Users\Bastomy\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\rte.zip.


True

In [77]:
def rte_features(rtepair):
    extractor = nltk.RTEFeatureExtractor(rtepair)
    features = {}
    features['word_overlap'] = len(extractor.overlap('word'))
    features['word_hyp_extra'] = len(extractor.hyp_extra('word'))
    features['ne_overlap'] = len(extractor.overlap('ne'))
    features['ne_hyp_extra'] = len(extractor.hyp_extra('ne'))
    return features

In [78]:
rtepair = nltk.corpus.rte.pairs(['rte3_dev.xml'])[33]
extractor = nltk.RTEFeatureExtractor(rtepair)

In [79]:
print(extractor.text_words)

{'Russia', 'representing', 'was', 'former', 'China', 'terrorism.', 'Soviet', 'SCO', 'republics', 'Organisation', 'binds', 'central', 'Iran', 'Co', 'fight', 'Parviz', 'Davudi', 'at', 'Asia', 'meeting', 'Shanghai', 'association', 'fledgling', 'that', 'four', 'operation', 'together'}


In [80]:
print(extractor.hyp_words)

{'SCO.', 'member', 'China'}


In [81]:
print(extractor.overlap('word'))

set()


In [82]:
print(extractor.overlap('ne'))

{'China'}


In [83]:
print(extractor.hyp_extra('word'))

{'member'}


### 2.4   Scaling Up to Large Datasets

Python menyediakan lingkungan yang sangat baik untuk melakukan pemrosesan teks dasar dan ekstraksi fitur. Namun, itu tidak dapat melakukan perhitungan intensif numerik yang diperlukan oleh metode pembelajaran mesin hampir secepat bahasa tingkat rendah seperti C. Dengan demikian, jika Anda mencoba menggunakan implementasi pembelajaran mesin pure-Python (seperti nltk.NaiveBayesClassifier) pada dataset besar, Anda mungkin menemukan bahwa algoritma pembelajaran membutuhkan waktu dan memori yang tidak masuk akal untuk diselesaikan.<br>

Jika Anda berencana untuk melatih pengklasifikasi dengan sejumlah besar data pelatihan atau sejumlah besar fitur, kami sarankan Anda menjelajahi fasilitas NLTK untuk berinteraksi dengan paket pembelajaran mesin eksternal. Setelah paket-paket ini telah diinstal, NLTK dapat secara transparan memanggil mereka (melalui panggilan sistem) untuk melatih model classifier secara signifikan lebih cepat daripada implementasi classifier murni-Python. Lihat halaman web NLTK untuk daftar paket pembelajaran mesin yang direkomendasikan yang didukung oleh NLTK.

## 3   Evaluation

### 3.1   The Test Set

In [84]:
import random
from nltk.corpus import brown
tagged_sents = list(brown.tagged_sents(categories='news'))
random.shuffle(tagged_sents)
size = int(len(tagged_sents) * 0.1)
train_set, test_set = tagged_sents[size:], tagged_sents[:size]

In [97]:
file_ids = brown.fileids(categories='news')
size = int(len(file_ids) * 0.1)
train_set = brown.tagged_sents(file_ids[size:])
test_set = brown.tagged_sents(file_ids[:size])

In [98]:
train_set = brown.tagged_sents(categories='news')
test_set = brown.tagged_sents(categories='fiction')

pada data tes set diatas kita menggunakan categori news sebagai train dan fiction sebagai data tes nya

### 3.2   Accuracy

In [91]:
classifier = nltk.NaiveBayesClassifier.train(train_set)
print('Accuracy: {:4.2f}'.format(nltk.classify.accuracy(classifier, test_set)))

In [92]:
0.75

0.75

### 3.3   Precision and Recall

<img src="precision-recall.png" style="height:400px"/>

<ul>
	<li><b>True Positif</b> : hasil prediksi positif dan label sebenarnya juga positif</li>
	<li><b>True Negatif</b> : hasil prediksi negatif dan label sebenarnya juga negatif</li>
	<li><b>False Positif</b> : hasil prediksi negatif dan label sebenarnya positif</li>
	<li><b>False Positif</b> : hasil prediksi positif dan label sebenarnya juga negatif</li>
</ul>

<ul>
    <li><b>Precision</b> : TP/(TP+FP)</li>
    <li><b>Recall</b> : TP/(TP+FN)</li>
    <li><b> F-Measure</b>:(2 × Precision × Recall) / (Precision + Recall)</li>
</ul>

### 3.4   Confusion Matrices

In [93]:
def tag_list(tagged_sents):
    return [tag for sent in tagged_sents for (word, tag) in sent]
def apply_tagger(tagger, corpus):
    return [tagger.tag(nltk.tag.untag(sent)) for sent in corpus]

In [99]:
t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents, backoff=t0)
t2 = nltk.BigramTagger(train_sents, backoff=t1)

In [100]:
gold = tag_list(brown.tagged_sents(categories='editorial'))
test = tag_list(apply_tagger(t2, brown.tagged_sents(categories='editorial')))
cm = nltk.ConfusionMatrix(gold, test)

In [101]:
print(cm.pretty_format(sort_by_count=True, show_percents=True, truncate=9))

    |                                         N                      |
    |      N      I      A      J             N             V      N |
    |      N      N      T      J      .      S      ,      B      P |
----+----------------------------------------------------------------+
 NN | <11.9%>  0.0%      .   0.2%      .   0.0%      .   0.2%   0.0% |
 IN |   0.0%  <9.0%>     .      .      .   0.0%      .      .      . |
 AT |      .      .  <8.6%>     .      .      .      .      .      . |
 JJ |   1.7%      .      .  <4.0%>     .      .      .   0.0%   0.0% |
  . |      .      .      .      .  <4.8%>     .      .      .      . |
NNS |   1.4%      .      .      .      .  <3.3%>     .      .   0.0% |
  , |      .      .      .      .      .      .  <4.4%>     .      . |
 VB |   1.0%      .      .   0.0%      .      .      .  <2.4%>     . |
 NP |   1.0%      .      .   0.0%      .      .      .      .  <1.9%>|
----+----------------------------------------------------------------+
(row =

### 3.5   Cross-Validation

cross validation adalah membagi data set kedalam beberapa bagian , sepeti pembagian data tes dan training di bawah <br> dimana data tes akan terus bergerak ke kanan hingga semua data set teruji dan hasil akhirnya akan di rata-ratakan untuk mengambil nilai akhirnya

<img src="cross_validation.png" style="height:400px"/>

## 4   Decision Trees

Decision tree adalah model prediksi dengan menggunakan struktur pohon atau struktur berhirarki.
Pada decision tree akan memiliki banyak kriteria di mana kriteria tersebut menjadi sabang pada pohon,
untuk lebih jelasnya dapat di lihat pada gambar di bawah

<img src="1_LlUwyaWkUGJFeEYrWN9_gA.png"/>

### 4.1   Entropy and Information Gain

In [104]:
import math
def entropy(labels):
    freqdist = nltk.FreqDist(labels)
    probs = [freqdist.freq(l) for l in freqdist]
    return -sum(p * math.log(p,2) for p in probs)

In [105]:
print(entropy(['male', 'male', 'male', 'male'])) 
print(entropy(['male', 'female', 'male', 'male']))
print(entropy(['female', 'male', 'female', 'male']))
print(entropy(['female', 'female', 'male', 'female']))
print(entropy(['female', 'female', 'female', 'female'])) 

-0.0
0.8112781244591328
1.0
0.8112781244591328
-0.0


## 5   Naive Bayes Classifiers

Preprocessing adalah tahap mempersiapkan data sebelum di proses, dimana pada tahap preprocessing ini terdapat beberapa poses yaitu. <br>
<ul>
	<li>casefold</li>
	<li>tokenisasi</li>
	<li>stopword removal</li>
	<li>remove symbol dan character</li>
</ul>

pada tahap ini dibutuhkan beberapa library yang dibutuhkan yaitu.
<ul>
	<li><b>nltk.tokenize</b>: berfungsi untuk membuat kalimat tweet menjadi token</li>
	<li><b>Regular Expresion (re)</b> : untuk menghapus karakter dan simbol yang tidak dibutuhkan</li>
	<li><b>nltk.corpus </b> : untuk mendapatkan daftar kata yang tidak memiliki makna</li>
	<li><b>pandas</b> : untuk memproses data yang berhubungan dengan csv</li>
	<li><b>numpy</b> : untuk memproses data yang berhubungan dengan array</li>
</ul>

In [106]:
from nltk.tokenize import TweetTokenizer
tknzr = TweetTokenizer()
import re
from nltk.corpus import stopwords
stopWords = set(stopwords.words('indonesian'))
import pandas as pd
import numpy as np

### Casefold

untuk merubah kalimat tweet menjadi lowercase (huruf kecil)

In [107]:
def casefold(str):
    return str.casefold()

### Tokenisasi

merubah kalimat tweet menjadi sebuah token

In [108]:
def tokenisasi(str):
    return tknzr.tokenize(str)

### Stopword removal

untuk menghapus kata yang tidak memiliki makna. berikut contoh beberapa kata yang terdapat dalam stopword

In [109]:
data = list(set(stopWords))
print(data[:30])

['termasuk', 'ketika', 'sebagaimana', 'pada', 'sana', 'atau', 'karenanya', 'itulah', 'menantikan', 'sekalian', 'amatlah', 'semata-mata', 'jikalau', 'tegasnya', 'sesama', 'memberikan', 'harus', 'menambahkan', 'diperlukannya', 'sekecil', 'usai', 'diberi', 'berarti', 'bakal', 'beginian', 'melakukan', 'waktunya', 'seharusnya', 'per', 'tiap']


In [110]:
def stopword_removal(token):
    result = []
    for i in range(len(token)):
        if token[i] not in stopWords: #mengecek apakah token tidak ada dalam stopword
            result.append(token[i]) #menyimpan dalam result untuk d return
    return result

### Remove symbol

pada fungsi ini dilakukan tahap penghapusan.<br>
<ul>
	<li>mention dan hastag</li>
	<li>Link</li>
	<li>Symbol</li>
</ul>

In [111]:
def url_symbol_removal(token):
    new_token = []
    for t in token:
        if t[:1] != "@" and t[:1] != "#": # mengecek token yang tidak diawali dengan @ dan #
            url_removed = re.sub(r"http\S+", "", t) #mengubah http menjadi "" agar terhapus
            emoji_removed = re.sub(r"([\\x][a-z0-9A-Z]+)","",url_removed)
            symbol_removed = re.sub(r"[^\w]", "", emoji_removed)
            if symbol_removed != '' and symbol_removed != '\xF0': # mengecek agar tidak ada token yang kosong nantinya
                new_token.append(symbol_removed)
    return new_token

pada tahap ini fungsi di atas digabung menjadi satu agar mudah di panggil

In [112]:
def preprocessing(string):
    string = string[2:-1] # string dimulai dari 2 sampai -1 karena data sebelumnya telah di encode
    a = casefold(string) # merubah ke huruf kecil
    a = tokenisasi(a) # membuat token
    a = stopword_removal(a) # menghapus kata yang tidak penting
    a = url_symbol_removal(a) # menghapus simbol dan link
    a = ' '.join(a) # membuat array menjadi string
    return a

### Read data

pada tahap ini data yang telah di training atau diberi label akan di baca menggunakan pandas

In [113]:
data = pd.read_csv("training_labeled.csv")

berikut sample data dari data training<br>
<ul>
	<li>1 = positif</li>
	<li>0 = negatif</li>
</ul>

In [114]:
data[:10]

Unnamed: 0,ID Tweet,ID User,Screen Name,Tweet,Timestamp,Label
0,b'1127125080545189888',b'1115202813968015360',SGanjen,b'@katakitatweet @Aryprasetyo85 @emhaainunnadj...,05-11-19 08:15,1
1,b'1127125040342786050',b'973292600017895425',brothe28,b'@RachlanNashidik @prabowo @jokowi Biasa demo...,05-11-19 08:15,0
2,b'1127125027827044352',b'1058630527119323136',Toyezzz1,b'@DiniKurnia21 @MangiranNing @MahesaTiwi @kan...,05-11-19 08:15,0
3,b'1127125020407320576',b'1119035387387600896',Faqih07380284,b'@permadiaktivis @bawaslu_RI @prabowo @DivHum...,05-11-19 08:15,0
4,b'1127125017613881344',b'1018171197350035456',Jusca07538974,b'Makin muak dgn tingkah2 para Pengumpat dari ...,05-11-19 08:15,1
5,b'1127125008566837248',b'887520780354953216',leenahanwoo,b'@FerdinandHaean2 @jokowi @KPU_ID @prabowo In...,05-11-19 08:15,1
6,b'1127124908838871040',b'1100944001115406336',sasauw_nelson,b'@FerdinandHaean2 @jokowi @KPU_ID @prabowo HA...,05-11-19 08:14,1
7,b'1127124904405377024',b'437379680',Rien_Harbani,b'@RachlanNashidik @prabowo @jokowi Klo drmokr...,05-11-19 08:14,1
8,b'1127124885279350784',b'941513645925658624',beritaemak,b'@FerdinandHaean2 Pa @prabowo gausah turun bi...,05-11-19 08:14,1
9,b'1127124880598585345',b'2321810466',NiswariSejuk,b'@Demokrat_TV @renandabachtar Apa 02 gk suka ...,05-11-19 08:14,1


In [115]:
tweets = data["Tweet"]
label = data["Label"]

setiap tweet akan looping dan di klasifikasikan menjadi kelas Positif atau Negatif

In [116]:
result = []
for i in range(len(tweets)):
    pre = preprocessing(tweets[i]) if preprocessing(tweets[i]) != "" else "bagus" if label[i] == 1 else "payah"
    result.append({'Text' : pre,'Label' : label[i]})
df = pd.DataFrame(result) # membuat data frame dari result
df.to_csv('preprocessing result.csv', index=False, header='column_names') # mengubah dataframe ke csv

data hasil processing

In [117]:
pd.read_csv('preprocessing result.csv')[:10]

Unnamed: 0,Label,Text
0,1,orang disampingnya
1,0,demokratnya mah gk
2,0,wowo anak buah kayak dancok untung kau yg dian...
3,0,lucu gue liat d yg dukung orng ndtang d ilc bi...
4,1,muak dgn tingkah 2 pengumpat kubu puasa ramadh...
5,1,insya allah ayahanda tulus jujur jujur membela...
6,1,rakyat bodoh dungu sj ndpt dipengaruhi elit po...
7,1,klo drmokrat tdk keprntingan lg kah
8,1,pa gausah turun biar emak aja
9,1,02 gk suka tdk menganggp lbih yg kalah jk kalh...


# NBC

### Likelihood

pada fungsi ini data training akan dihitung frequensi kata untuk melanjutkan ke tahap berikutnya yaitu menghitung probability setiap kata

In [118]:
def is_number(s):
    try:
        float(s)
        return True
    except ValueError:
        return False

In [119]:
def likelihood(texts):
    token=[]
    positive={}
    negative={}
    for i in range(len(texts)):
        t = tokenisasi(texts[i])
        for something in t:
            if len(something) > 2 and not is_number(something):
                if something not in token:
                    token.append(something)
                    if labels[i] == 1:
                        positive[something] = 1
                        negative[something] = 0
                    else:
                        positive[something] = 0
                        negative[something] = 1
                else:
                    if label[i] == 1:
                        positive[something] += 1
                    else:
                        negative[something] += 1
    kata = []
    positif = []
    negatif = []
    for key in positive:
        kata.append(key)
        positif.append(positive[key])
        negatif.append(negative[key])
    res = pd.DataFrame({
        "kata" : kata,
        "positif" : positif,
        "negatif" : negatif
    })
    return res,token,positif,negatif,positive,negative    

fungsi dibawah untuk menghitung probabilitas dari setiap kata

In [120]:
def prob(w,c,token,positif,negatif,positive,negative):
    if c == "positif":
        if w not in token:
            return (0+1)/(sum(positif)+len(token))
        else:
            return (positive[w]+1)/(sum(positif)+len(token))
    elif c == "negatif":
        if w not in token:
            return (0+1)/(sum(negatif)+len(token))
        else:
            return (negative[w]+1)/(sum(negatif)+len(token))

fungsi dibawah untuk menghitung probabilitas dari satu tweet

In [121]:
def P(text,token,positif,negatif):
    words = tokenisasi(text)
    positive_probability = np.prod([prob(word,"positif",token,positif,negatif,positive,negative) for word in words]+[prior_positif])
    negative_probability = np.prod([prob(word,"negatif",token,positif,negatif,positive,negative) for word in words]+[prior_negatif])
    return "positif" if positive_probability > negative_probability else "negatif"

Classification berfungsi untuk menghitung akurasi dan F1 score dimana hasil prediksi akan dibandungkan dengan data yang telah di beri label, hasil dari fungsi ini akan menghasilkan nilai TP,FP,TN,FN

In [122]:
def Classification(length_training,likelihood,testing):
    TP,FP,TN,FN =0,0,0,0
    precision,recall,F1,accuracy=0,0,0,0
    unique, counts = np.unique(testing['label'],return_counts=True)
    prior_positif = dict(zip(unique,counts))['positif']/100
    prior_negatif = dict(zip(unique,counts))['negatif']/100
    result = {"kalimat":[],"label":[]}
    for i in range(len(testing)):
        prediction = P(texts[i],token,positif,negatif)
        if prediction=="positif":
            if testing['label'][i]=="positif":
                TP = TP+1
            else:
                FP = FP+1
        else:
            if testing['label'][i]=="negatif":
                TN = TN+1
            else:
                FN=FN+1
    precision=TP/(TP+FP)
    recall=TP/(TP+FN)
    F1=(2*precision*recall)/(precision+recall)
    accuracy=(TP+TN)/(TP+FP+TN+FN)
    return TP,FP,TN,FN,precision,recall,F1,accuracy

In [123]:
data_preprocessing = pd.read_csv('preprocessing result.csv')
texts = data_preprocessing["Text"]
labels = data_preprocessing["Label"]

In [124]:
data_preprocessing[:10]

Unnamed: 0,Label,Text
0,1,orang disampingnya
1,0,demokratnya mah gk
2,0,wowo anak buah kayak dancok untung kau yg dian...
3,0,lucu gue liat d yg dukung orng ndtang d ilc bi...
4,1,muak dgn tingkah 2 pengumpat kubu puasa ramadh...
5,1,insya allah ayahanda tulus jujur jujur membela...
6,1,rakyat bodoh dungu sj ndpt dipengaruhi elit po...
7,1,klo drmokrat tdk keprntingan lg kah
8,1,pa gausah turun biar emak aja
9,1,02 gk suka tdk menganggp lbih yg kalah jk kalh...


Memanggil fungsi likekihood untuk menghasilkan data frequency word

In [125]:
res,token,positif,negatif,positive,negative   = likelihood(texts)

In [126]:
res.to_csv("likelihood.csv",index=False)

berikut sampel data dari hasil likelihood

In [127]:
res[:50]

Unnamed: 0,kata,positif,negatif
0,orang,1,1
1,disampingnya,1,0
2,demokratnya,0,1
3,mah,0,1
4,wowo,0,1
5,anak,2,1
6,buah,0,1
7,kayak,0,1
8,dancok,0,1
9,untung,0,1


pada tahap ini dilakukan penghitungan prior, yaitu kemungkinan persentasi kelas tertentu

In [128]:
unique, counts = np.unique(labels,return_counts=True)
prior_positif = dict(zip(unique,counts))[1]/100
prior_negatif = dict(zip(unique,counts))[0]/100

In [129]:
print("prior positif ",prior_positif)
print("prior negatif ",prior_negatif)

prior positif  0.61
prior negatif  0.39


pada tahap ini dilakukan looping semua data dan dilakukan klasifikasi

In [130]:
result = {"kalimat":[],"label":[]}
for i in range(len(texts)):
    result['kalimat'].append(texts[i])                       
    result['label'].append(P(texts[i],token,positif,negatif))

In [131]:
res = pd.DataFrame(result)

In [132]:
res.to_csv("prediction.csv", index=False, header='column_names')

berikut adalah hasil prediksi dari klasifikasi

In [133]:
pd.read_csv("prediction.csv")

Unnamed: 0,kalimat,label
0,orang disampingnya,positif
1,demokratnya mah gk,negatif
2,wowo anak buah kayak dancok untung kau yg dian...,negatif
3,lucu gue liat d yg dukung orng ndtang d ilc bi...,negatif
4,muak dgn tingkah 2 pengumpat kubu puasa ramadh...,positif
5,insya allah ayahanda tulus jujur jujur membela...,positif
6,rakyat bodoh dungu sj ndpt dipengaruhi elit po...,positif
7,klo drmokrat tdk keprntingan lg kah,positif
8,pa gausah turun biar emak aja,positif
9,02 gk suka tdk menganggp lbih yg kalah jk kalh...,positif


# Validation

### cross validation

pada tahap ini dilakukan pengujian menggunakan cross validation dengan k-fold = 10 untuk menghasilkan nilai yang stabil

<img src="cross_validation.png" style="height:400px"/>

In [134]:
def crossValidations(kfold,data):
    result = {'Fold':[],'TP':[],'FP':[],'TN':[],'FN':[],'precision':[],'recall':[],'F1':[],'accuracy':[]}
    fold = round(len(data) / kfold)
    for i in range(kfold):
        start = i * fold
        end = (i + 1) * fold
        training_set = {'kalimat': [],'label':[]}
        testing_set = {'kalimat': [],'label':[]}

        if end > len(data):
            end = len(data)
        for j in range(len(data)):
            if start<= j <= end:
                testing_set['kalimat'].append(data['kalimat'][j])
                testing_set['label'].append(data['label'][j])
            else:
                training_set['kalimat'].append(data['kalimat'][j])
                training_set['label'].append(data['label'][j])
        training = pd.DataFrame(training_set)
        testing = pd.DataFrame(testing_set)
        res,token,positif,negatif,positive,negative = likelihood(training['kalimat'])
        frequencyWord = pd.DataFrame(res)
        TP, FP, TN, FN,precision,recall,F1,accuracy = Classification(len(training),frequencyWord,testing)
        result['Fold'].append(i+1)
        result['TP'].append(TP)
        result['FP'].append(FP)
        result['TN'].append(TN)
        result['FN'].append(FN)
        
        result['precision'].append(precision)
        result['recall'].append(recall)
        result['F1'].append(F1)
        result['accuracy'].append(accuracy)
    return result

In [135]:
data_testing = pd.read_csv('prediction.csv')
fold =10

In [136]:
result = crossValidations(10,data_testing)

In [137]:
res = pd.DataFrame(result)

In [138]:
res.to_csv("hasil_cross.csv", index=False, header='column_names')

In [139]:
pd.read_csv("hasil_cross.csv")

Unnamed: 0,Fold,TP,FP,TN,FN,precision,recall,F1,accuracy
0,1,7,0,4,0,1.0,1.0,1.0,1.0
1,2,6,1,0,4,0.857143,0.6,0.705882,0.545455
2,3,1,6,2,2,0.142857,0.333333,0.2,0.272727
3,4,5,2,1,3,0.714286,0.625,0.666667,0.545455
4,5,4,3,3,1,0.571429,0.8,0.666667,0.636364
5,6,5,2,1,3,0.714286,0.625,0.666667,0.545455
6,7,5,2,4,0,0.714286,1.0,0.833333,0.818182
7,8,5,2,1,3,0.714286,0.625,0.666667,0.545455
8,9,5,2,3,1,0.714286,0.833333,0.769231,0.727273
9,10,5,2,2,1,0.714286,0.833333,0.769231,0.7


hasil pengujian menggunakan cross-validation menghasilkan nilai

In [141]:
f1,accuracy=0,0
for i in range(len(result)):
    f1 = f1+result['F1'][i]
    accuracy=accuracy+ result['accuracy'][i]
print("rata-rata F1 ",f1/len(result))
print("rata-rata accuracy ",accuracy/len(result))

rata-rata F1  0.6861236802413272
rata-rata accuracy  0.6262626262626262


## 6   Maximum Entropy Classifiers

P(features) = Σx |in| corpus P(label(x)|features(x)) <br>
dimana P(label|features), probabilitas bahwa input yang fitur-fiturnya fitur akan memiliki label label kelas, didefinisikan sebagai:<br>

P(label|features) = P(label, features) / Σlabel P(label, features)


### 6.1   The Maximum Entropy Model

### 6.2   Maximizing Entropy

### 6.3   Generative vs Conditional Classifiers

### 7   Modeling Linguistic Patterns

## 8   Summary

<ul>
	<li>
		Pemodelan data linguistik yang ditemukan dalam korpora dapat membantu kita memahami pola linguistik, dan dapat digunakan untuk membuat prediksi tentang data bahasa baru.
	</li>
	<li>
		Pengklasifikasi yang diawasi menggunakan korpora pelatihan berlabel untuk membangun model yang memprediksi label suatu input berdasarkan fitur spesifik dari input tersebut.
	</li>
	<li>
		Klasifikasi yang diawasi dapat melakukan berbagai macam tugas NLP, termasuk klasifikasi dokumen, penandaan 	bagian-pidato, segmentasi kalimat, identifikasi jenis tindakan dialog, dan menentukan hubungan keterkaitan, dan banyak tugas lainnya.
	</li>
	<li>
		Saat melatih classifier terawasi, Anda harus membagi korpus Anda menjadi tiga dataset: set pelatihan untuk membangun model classifier; satu set dev-test untuk membantu memilih dan menyempurnakan fitur-fitur model; dan satu set uji untuk mengevaluasi kinerja model akhir.
	</li>
	<li>
		Saat mengevaluasi classifier yang diawasi, penting bahwa Anda menggunakan data baru, yang tidak termasuk dalam pelatihan atau set dev-test. Jika tidak, hasil evaluasi Anda mungkin optimis secara tidak realistis.
	</li>
	<li>
		Pohon keputusan secara otomatis dibuat bagan alur struktur pohon yang digunakan untuk menetapkan label pada nilai input berdasarkan fitur mereka. Meskipun mereka mudah diinterpretasikan, mereka tidak pandai menangani kasus di mana nilai fitur berinteraksi dalam menentukan label yang tepat.
	</li>
	<li>
		Dalam pengklasifikasi naif Bayes, setiap fitur berkontribusi secara independen terhadap keputusan label mana yang harus digunakan. Ini memungkinkan nilai fitur untuk berinteraksi, tetapi bisa bermasalah ketika dua atau lebih fitur sangat berkorelasi satu sama lain.
	</li>
	<li>
		Pengklasifikasi Entropi maksimum menggunakan model dasar yang mirip dengan model yang digunakan oleh Bayes naif; Namun, mereka menggunakan pengulangan iteratif untuk menemukan set bobot fitur yang memaksimalkan probabilitas set pelatihan.
	</li>
	<li>
		Sebagian besar model yang dibangun secara otomatis dari corpus bersifat deskriptif - mereka memberi tahu kami fitur mana yang relevan dengan pola atau konstruksi tertentu, tetapi mereka tidak memberikan informasi tentang hubungan sebab akibat antara fitur dan pola tersebut.
	</li>
</ul>

