# Book 5 (Categorizing and Tagging Words)
#### SIDE-39-GAB
#### Bastomy - 1301178418 - Text Mining

## 5. Categorizing and Tagging Words

Tag yang di sediakan nltk adalah sebagai berikut

<img src="pos_tagging.png"/>

### 1   Using a Tagger

In [3]:
import nltk
from nltk import word_tokenize

nltk memberikan library untuk Pos-Tagging , dimana pos tagging ini membutuhkan input berupa token, untuk contoh penggunaanya dapat di lihat pada kode dibawah ini

In [4]:
text = word_tokenize("I very happy right now")
nltk.pos_tag(text)

[('I', 'PRP'), ('very', 'RB'), ('happy', 'JJ'), ('right', 'NN'), ('now', 'RB')]

agar penggunaan lebih mudah kita akan membuat sebuah fungsi untuk menggunakan pos-tagging tersebut, seperti kode dibawah ini

In [5]:
def pos_tagging(string):
    token = word_tokenize(string)
    return nltk.pos_tag(token)

In [6]:
pos_tagging("Nice to meet you!")

[('Nice', 'NNP'), ('to', 'TO'), ('meet', 'VB'), ('you', 'PRP'), ('!', '.')]

In [7]:
pos_tagging("They refuse to permit us to obtain the refuse permit")

[('They', 'PRP'),
 ('refuse', 'VBP'),
 ('to', 'TO'),
 ('permit', 'VB'),
 ('us', 'PRP'),
 ('to', 'TO'),
 ('obtain', 'VB'),
 ('the', 'DT'),
 ('refuse', 'NN'),
 ('permit', 'NN')]

pada kode dibawah kita akan menggunakan words yang di sediakan korpus brown dan mencari similarity nya

In [8]:
text = nltk.Text(word.lower() for word in nltk.corpus.brown.words())

In [9]:
text.similar('handsome')

black and good strong time learned true young clear proud the is one
seen all there more made about research


In [11]:
text.similar("excellent")

the used important available there reasonable made good high needed
assigned is effective seen not fair his out registered first


In [12]:
text.similar('happy')

that made and not just good much important possible it all told right
necessary in for on there left close


### 2   Tagged Corpora

### 2.1   Representing Tagged Tokens

kita bisa menambahkan tag dan kata yang kita mau sendiri dengan menggunakan kode dibawah ini

In [14]:
tagged_token = nltk.tag.str2tuple('fly/NN')

In [16]:
tagged_token

('fly', 'NN')

In [17]:
tagged_token = nltk.tag.str2tuple('pintar/JJ')

In [18]:
tagged_token

('pintar', 'JJ')

In [20]:
print(tagged_token[0])
print(tagged_token[1])

pintar
JJ


### 2.2   Reading Tagged Corpora

In [21]:
nltk.corpus.brown.tagged_words()

[('The', 'AT'), ('Fulton', 'NP-TL'), ...]

untuk mencari tag set dalam corpus brown kita bisa menggunakan kode dibawah ini

In [26]:
nltk.corpus.brown.tagged_words(tagset='smart')

[('The', 'UNK'), ('Fulton', 'UNK'), ('County', 'UNK'), ...]

In [27]:
nltk.corpus.brown.tagged_words(tagset='dummy')

[('The', 'UNK'), ('Fulton', 'UNK'), ('County', 'UNK'), ...]

tag dari corpus nps_chat yang disediakan nltk

In [29]:
print(nltk.corpus.nps_chat.tagged_words())

[('now', 'RB'), ('im', 'PRP'), ('left', 'VBD'), ...]


In [30]:
nltk.corpus.conll2000.tagged_words()

[('Confidence', 'NN'), ('in', 'IN'), ('the', 'DT'), ...]

In [31]:
nltk.corpus.treebank.tagged_words()

[('Pierre', 'NNP'), ('Vinken', 'NNP'), (',', ','), ...]

### 2.3   A Universal Part-of-Speech Tagset

<img src="universal_pos.png"/>

untuk melihat tag yang paling sering muncul di categori tertentu dalam corpus brown kita bisa menggunakan kode di bawah ini

In [34]:
from nltk.corpus import brown

In [35]:
brown_news_tagged = brown.tagged_words(categories='news', tagset='universal')
tag_fd = nltk.FreqDist(tag for (word, tag) in brown_news_tagged)
tag_fd.most_common()

[('NOUN', 30654),
 ('VERB', 14399),
 ('ADP', 12355),
 ('.', 11928),
 ('DET', 11389),
 ('ADJ', 6706),
 ('ADV', 3349),
 ('CONJ', 2717),
 ('PRON', 2535),
 ('PRT', 2264),
 ('NUM', 2166),
 ('X', 92)]

### 2.4   Nouns

pada tag juga bisa digunakan bigram dimana pasangan tag yang paling sering muncul akan membuat kemungikinan tag tersebut semakin besar untuk terpilih

In [39]:
word_tag_pairs = nltk.bigrams(brown_news_tagged)
noun_preceders = [a[1] for (a, b) in word_tag_pairs if b[1] == 'NOUN']
fdist = nltk.FreqDist(noun_preceders)
[tag for (tag, _) in fdist.most_common()]

['NOUN',
 'DET',
 'ADJ',
 'ADP',
 '.',
 'VERB',
 'CONJ',
 'NUM',
 'ADV',
 'PRT',
 'PRON',
 'X']

urutan tag yang paling sering untuk NOUN dapat di lihat pada kode di atas mulai dari NOUN DET sampai dengan X

In [40]:
word_tag_pairs = nltk.bigrams(brown_news_tagged)
noun_preceders = [a[1] for (a, b) in word_tag_pairs if b[1] == 'VERB']
fdist = nltk.FreqDist(noun_preceders)
[tag for (tag, _) in fdist.most_common()]

['NOUN',
 'VERB',
 'PRON',
 'PRT',
 '.',
 'ADV',
 'DET',
 'CONJ',
 'ADP',
 'ADJ',
 'NUM',
 'X']

urutan tag yang paling sering untuk VERB dapat di lihat pada kode di atas mulai dari NOUN VERB sampai dengan X

### 2.5   Verbs

In [43]:
wsj = nltk.corpus.treebank.tagged_words(tagset='universal')
word_tag_fd = nltk.FreqDist(wsj)
data = [wt[0] for (wt, _) in word_tag_fd.most_common() if wt[1] == 'VERB']

Kata yang paling sering muncul dari verb adalah sebagai berikut

In [45]:
data[:10]

['is', 'said', 'was', 'are', 'be', 'has', 'have', 'will', 'says', 'would']

untuk mengecek kata lainnya kita tinggal merubah isi dari VERB tersebut sesuai dengan tag yang ingin di cari

In [48]:
wsj = nltk.corpus.treebank.tagged_words(tagset='universal')
word_tag_fd = nltk.FreqDist(wsj)
data = [wt[0] for (wt, _) in word_tag_fd.most_common() if wt[1] == 'NOUN']

In [49]:
data[:10]

['%',
 'Mr.',
 'company',
 'U.S.',
 'year',
 'market',
 'New',
 'trading',
 'stock',
 'president']

In [52]:
cfd1 = nltk.ConditionalFreqDist(wsj)
cfd1['yield'].most_common()

[('VERB', 28), ('NOUN', 20)]

In [53]:
cfd1['cut'].most_common()

[('VERB', 25), ('NOUN', 3)]

ada cara lain untuk mencari tag yang paling sering muncul yaitu menggunakan cfd atau ConditionalFreqDist, kita tinggal memanggil seperti kode dibawah ini.

In [55]:
cfd1['task'].most_common()

[('NOUN', 3)]

In [57]:
wsj = nltk.corpus.treebank.tagged_words()
cfd2 = nltk.ConditionalFreqDist((tag, word) for (word, tag) in wsj)
data = list(cfd2['VBN'])

In [58]:
data[:10]

['named',
 'used',
 'caused',
 'exposed',
 'reported',
 'replaced',
 'sold',
 'died',
 'expected',
 'diagnosed']

### 2.6   Adjectives and Adverbs

Dua kelas kata penting lainnya adalah kata sifat dan kata keterangan. Kata sifat menggambarkan kata benda, dan dapat digunakan sebagai pengubah (mis. Besar di pizza besar), atau dalam predikat (mis. Pizza besar). Kata sifat Bahasa Inggris dapat memiliki struktur internal (mis. Jatuh + dalam stok yang jatuh). Adverbia memodifikasi kata kerja untuk menentukan waktu, cara, tempat atau arah acara yang dijelaskan oleh kata kerja (mis. Cepat dalam stok jatuh dengan cepat). Adverbia juga dapat mengubah kata sifat (mis. Benar-benar menurut guru Mary sangat bagus).

### 2.7   Unsimplified Tags

fungsi di bawah adalah untuk mencari tag dalam corpus berdasarkan kategori tertentu

In [60]:
def findtags(tag_prefix, tagged_text):
    cfd = nltk.ConditionalFreqDist((tag, word) for (word, tag) in tagged_text
                                  if tag.startswith(tag_prefix))
    return dict((tag, cfd[tag].most_common(5)) for tag in cfd.conditions())

mencari tag NN dengan categori news pada korpus brown

In [61]:
tagdict = findtags('NN', nltk.corpus.brown.tagged_words(categories='news'))

In [63]:
for tag in sorted(tagdict):
    print(tag, tagdict[tag])

NN [('year', 137), ('time', 97), ('state', 88), ('week', 85), ('man', 72)]
NN$ [("year's", 13), ("world's", 8), ("state's", 7), ("nation's", 6), ("city's", 6)]
NN$-HL [("Golf's", 1), ("Navy's", 1)]
NN$-TL [("President's", 11), ("Administration's", 3), ("Army's", 3), ("League's", 3), ("University's", 3)]
NN-HL [('sp.', 2), ('problem', 2), ('Question', 2), ('cut', 2), ('party', 2)]
NN-NC [('ova', 1), ('eva', 1), ('aya', 1)]
NN-TL [('President', 88), ('House', 68), ('State', 59), ('University', 42), ('City', 41)]
NN-TL-HL [('Fort', 2), ('Mayor', 1), ('Commissioner', 1), ('City', 1), ('Oak', 1)]
NNS [('years', 101), ('members', 69), ('people', 52), ('sales', 51), ('men', 46)]
NNS$ [("children's", 7), ("women's", 5), ("men's", 3), ("janitors'", 3), ("taxpayers'", 2)]
NNS$-HL [("Dealers'", 1), ("Idols'", 1)]
NNS$-TL [("Women's", 4), ("States'", 3), ("Giants'", 2), ("Princes'", 1), ("Bombers'", 1)]
NNS-HL [('Wards', 1), ('deputies', 1), ('bonds', 1), ('aspects', 1), ('Decisions', 1)]
NNS-TL [

Contoh lainnya

In [64]:
tagdict = findtags('JJ', nltk.corpus.brown.tagged_words(categories='news'))

In [65]:
for tag in sorted(tagdict):
    print(tag, tagdict[tag])

JJ [('new', 147), ('such', 51), ('good', 45), ('high', 43), ('American', 40)]
JJ-HL [('special', 4), ('modest', 2), ('New', 2), ('prejudicial', 1), ('Exploratory', 1)]
JJ-NC [('dull', 1)]
JJ-TL [('New', 88), ('National', 39), ('Democratic', 35), ('White', 34), ('North', 28)]
JJR [('higher', 23), ('better', 17), ('greater', 10), ('further', 10), ('earlier', 7)]
JJR-HL [('higher', 1), ('lighter', 1), ('Younger', 1), ('Easier', 1)]
JJR-NC [('Calmer', 1)]
JJR-TL [('Greater', 2), ('Better', 1), ('Elder', 1)]
JJS [('top', 23), ('chief', 6), ('principal', 5), ('key', 4), ('main', 3)]
JJS-TL [('Chief', 2)]
JJT [('best', 26), ('largest', 10), ('greatest', 9), ('biggest', 9), ('highest', 6)]
JJT-HL [('best', 1), ('highest', 1)]


### 2.8   Exploring Tagged Corpora

In [66]:
brown_learned_text = brown.words(categories='learned')
sorted(set(b for (a, b) in nltk.bigrams(brown_learned_text) if a == 'often'))

[',',
 '.',
 'accomplished',
 'analytically',
 'appear',
 'apt',
 'associated',
 'assuming',
 'became',
 'become',
 'been',
 'began',
 'call',
 'called',
 'carefully',
 'chose',
 'classified',
 'colorful',
 'composed',
 'contain',
 'differed',
 'difficult',
 'encountered',
 'enough',
 'equate',
 'extremely',
 'found',
 'happens',
 'have',
 'ignored',
 'in',
 'involved',
 'more',
 'needed',
 'nightly',
 'observed',
 'of',
 'on',
 'out',
 'quite',
 'represent',
 'responsible',
 'revamped',
 'seclude',
 'set',
 'shortened',
 'sing',
 'sounded',
 'stated',
 'still',
 'sung',
 'supported',
 'than',
 'to',
 'when',
 'work']

mengecek kata tertentu dan menghitung kemunculan tag tersebut, contoh kode seperti dibawah ini

In [70]:
brown_lrnd_tagged = brown.tagged_words(categories='learned', tagset='universal')
tags = [b[1] for (a, b) in nltk.bigrams(brown_lrnd_tagged) if a[0] == 'often']
fd = nltk.FreqDist(tags)
fd.tabulate()

VERB  ADV  ADP  ADJ    .  PRT 
  37    8    7    6    4    2 


kata often muncul sebanyak 37 kali dalam tag VERB dan lainnnya, berikut untuk contoh lain

In [72]:
brown_lrnd_tagged = brown.tagged_words(categories='learned', tagset='universal')
tags = [b[1] for (a, b) in nltk.bigrams(brown_lrnd_tagged) if a[0] == 'happy']
fd = nltk.FreqDist(tags)
fd.tabulate()

   .  ADV CONJ 
   2    1    1 


In [73]:
brown_news_tagged = brown.tagged_words(categories='news', tagset='universal')
data = nltk.ConditionalFreqDist((word.lower(), tag)
                                for (word, tag) in brown_news_tagged)

In [74]:
for word in sorted(data.conditions()):
    if len(data[word]) > 3:
        tags = [tag for (tag, _) in data[word].most_common()]
        print(word, ' '.join(tags))

best ADJ ADV VERB NOUN
close ADV ADJ VERB NOUN
open ADJ VERB NOUN ADV
present ADJ ADV NOUN VERB
that ADP DET PRON ADV


### 3   Mapping Words to Properties Using Python Dictionaries

### 3.1   Indexing Lists vs Dictionaries

<img src="maps02.png"/>

<img src="linguistic.png"/>

### 3.2   Dictionaries in Python

kita bisa menambahkan dictiionari pada python dengan memanfaatkan object, contoh pada kode di bawah kita menggunakan colorless sebagai index dan ADJ sebagai isinya

In [79]:
pos = {}
pos['colorless'] = 'ADJ'
pos['apple'] = 'N'
pos['ideas'] = 'N'
pos['water'] = 'N'

In [80]:
pos

{'colorless': 'ADJ', 'apple': 'N', 'ideas': 'N', 'water': 'N'}

untuk menampilkan list dari pos bisa menggunakan perintah <b> list</b>

In [82]:
list(pos)

['colorless', 'apple', 'ideas', 'water']

In [83]:
for word in sorted(pos):
    print(word + ":", pos[word])

apple: N
colorless: ADJ
ideas: N
water: N


untuk menampilkan value dari pos bisa menggunakan perintah <b>values()</b>

In [85]:
list(pos.values())

['ADJ', 'N', 'N', 'N']

untuk menampilkan index atau key dari pos bisa menggunakan perintah <b>keys()</b>

In [86]:
list(pos.keys())

['colorless', 'apple', 'ideas', 'water']

untuk menampilkan keduanya bisa menggunakan perintah <b>intems()</b>

In [87]:
list(pos.items())

[('colorless', 'ADJ'), ('apple', 'N'), ('ideas', 'N'), ('water', 'N')]

### 3.3   Defining Dictionaries

ada 2 cara pendefinisian dictionary yaitu

In [88]:
pos = {'colorless': 'ADJ', 'ideas': 'N', 'sleep': 'V', 'furiously': 'ADV'}

In [89]:
pos

{'colorless': 'ADJ', 'ideas': 'N', 'sleep': 'V', 'furiously': 'ADV'}

cara kedua 

In [90]:
pos = dict(colorless='ADJ', ideas='N', sleep='V', furiously='ADV')

In [91]:
pos

{'colorless': 'ADJ', 'ideas': 'N', 'sleep': 'V', 'furiously': 'ADV'}

### 3.4   Default Dictionaries

secara default python akan memberi nilai 0 untuk index yang tidak di temukan seperti pada contoh di bawah, hal ini berguna untuk menghindari error apabila index atau key tidak ditemukan

In [95]:
from collections import defaultdict
frequency = defaultdict(int)
frequency['colorless'] = 4

In [96]:
frequency['colorless']

4

In [97]:
frequency['ideas']

0

In [99]:
alice = nltk.corpus.gutenberg.words('carroll-alice.txt')
vocab = nltk.FreqDist(alice)
v1000 = [word for (word, _) in vocab.most_common(1000)]
mapping = defaultdict(lambda: 'UNK')

In [100]:
for v in v1000:
    mapping[v] = v

In [103]:
alice2 = [mapping[v] for v in alice]
print(alice2[:40])

['[', 'Alice', "'", 's', 'Adventures', 'in', 'Wonderland', 'by', 'UNK', 'UNK', 'UNK', 'UNK', 'CHAPTER', 'I', '.', 'Down', 'the', 'Rabbit', '-', 'UNK', 'Alice', 'was', 'beginning', 'to', 'get', 'very', 'tired', 'of', 'sitting', 'by', 'her', 'sister', 'on', 'the', 'bank', ',', 'and', 'of', 'having', 'nothing']


In [104]:
len(set(alice2))

1001

### 3.5   Incrementally Updating a Dictionary

In [112]:
pair = ('NN', 8876)
pair[1]

8876

untuk membuat pengecekan kata akhir kita akan membutuhkan sebuah korpus untuk data tes, disini kita menggunakan corpus bahasa inggris

In [108]:
last_letters = defaultdict(list)
words = nltk.corpus.words.words('en')

pada perulangan dibawah akan di cek -2 artinya 2 karakter terakhir akan di cocokan untuk mendapatkan akhiran suatu kata

In [109]:
for word in words:
    key = word[-2:]
    last_letters[key].append(word)

contoh kata yang berakhiran <b>ly</b>

In [111]:
data = last_letters['ly']
print(data[:10])

['abactinally', 'abandonedly', 'abasedly', 'abashedly', 'abashlessly', 'abbreviately', 'abdominally', 'abhorrently', 'abidingly', 'abiogenetically']


contoh kata yang berakhiran <b>st</b>

In [114]:
data = last_letters['st']
print(data[:15])

['abacist', 'abdest', 'abiogenesist', 'abiogenist', 'ablest', 'abnormalist', 'abolitionist', 'abortionist', 'abreast', 'absolutist', 'abstentionist', 'abstractionist', 'aburst', 'academist', 'acarologist']


<b>anagram</b>

In [115]:
anagrams = defaultdict(list)
for word in words:
    key = ''.join(sorted(word))
    anagrams[key].append(word)

In [121]:
anagrams['aeilnrt']

['entrail', 'latrine', 'ratline', 'reliant', 'retinal', 'trenail']

contoh lain

In [123]:
anagrams['ahhpy']

['hypha']

### 3.6   Complex Keys and Values

In [124]:
pos = defaultdict(lambda: defaultdict(int))
brown_news_tagged = brown.tagged_words(categories='news', tagset='universal')

In [125]:
for ((w1, t1), (w2, t2)) in nltk.bigrams(brown_news_tagged):
    pos[(t1, w2)][t2] += 1

In [126]:
pos[('DET', 'right')]

defaultdict(int, {'NOUN': 5, 'ADJ': 11})

### 3.7   Inverting a Dictionary

In [128]:
counts = defaultdict(int)
for word in nltk.corpus.gutenberg.words('milton-paradise.txt'):
    counts[word] += 1

In [130]:
[key for (key, value) in counts.items() if value == 30]

['whence', 'These', 'face', 'divine', 'too']

In [133]:
[key for (key, value) in counts.items() if value == 25]

['Chaos',
 'cause',
 'High',
 'fiery',
 'wrath',
 'hate',
 'winds',
 'Be',
 'serve',
 'ease',
 'Whose',
 'sacred',
 'hands',
 'Maker',
 'Far',
 'Each',
 'fight',
 'law',
 'creatures',
 'back']

In [135]:
pos = {'colorless': 'ADJ', 'ideas': 'N', 'sleep': 'V', 'furiously': 'ADV'}
pos2 = dict((value, key) for (key, value) in pos.items())

In [136]:
print("N",pos2['N'])
print("V",pos2['V'])

N ideas
V sleep


In [137]:
pos.update({'cats': 'N', 'scratch': 'V', 'peacefully': 'ADV', 'old': 'ADJ'})
pos2 = defaultdict(list)

In [138]:
for key, value in pos.items():
    pos2[value].append(key)

In [139]:
print("ADV",pos2['ADV'])
print("ADJ",pos2['ADJ'])

ADV ['furiously', 'peacefully']
ADJ ['colorless', 'old']


### 4   Automatic Tagging