# Part-Of-Speech Tagger

Part-of-Speech tagging(POS tagging) 은 NLP 분석의 주요 구성요소 중 하나이다. POS 태그는 아래 사진과 같이 단어를 (명사, 동사, 형용사, 부사, 대명사 등)으로 라벨링 하는 것을 말한다.

![title](img/Postag.png)


### tag set 종류
*Penn Treebank tag set : 대부분 사용되는 tag set

![title](img/PennTreeBank.png)

*Universal tag set : 
![title](img/universalTagSet.png)

## Simple Pos-Tag example

In [18]:
from nltk import word_tokenize, pos_tag
 
print(pos_tag(word_tokenize("I'm learning NLP")))

[('I', 'PRP'), ("'m", 'VBP'), ('learning', 'VBG'), ('NLP', 'NNP')]


위는 nltk에서 기본적으로 제공하는 pos_tag 함수의 예이다.

## POS tagging tools in NLTK

NLTK에는 POS 태그를 구축할 수 있는 몇가지 간단한 툴이 있다. 
(NLTK chap5 의 section 4 : Automatic Tagging 참고)

- DefaultTagger : 모든 항목에 동일한 태그를 지정
- RegexpTagger : Regular expression에 따라 태그를 지정
- UnigramTagger : known word 에 대해 가장 빈번한 태그를 지정
- BigramTagger, TrigramTagger : UnigramTagger와 유사하게 작업하지만 일부 문맥도 고려

In [31]:
from nltk.corpus import brown

# DefaultTagger
tags = [tag for (word, tag) in brown.tagged_words(categories='news')]
tokens = nltk.word_tokenize(raw)
raw = 'I do not like green eggs and ham, I do not like them Sam I am!'
default_tagger = nltk.DefaultTagger('NN')
default_tagger.tag(tokens)

[('I', 'NN'),
 ('do', 'NN'),
 ('not', 'NN'),
 ('like', 'NN'),
 ('green', 'NN'),
 ('eggs', 'NN'),
 ('and', 'NN'),
 ('ham', 'NN'),
 (',', 'NN'),
 ('I', 'NN'),
 ('do', 'NN'),
 ('not', 'NN'),
 ('like', 'NN'),
 ('them', 'NN'),
 ('Sam', 'NN'),
 ('I', 'NN'),
 ('am', 'NN'),
 ('!', 'NN')]

In [32]:
# RegexpTagger
patterns = [
     (r'.*ing$', 'VBG'),                # gerunds
     (r'.*ed$', 'VBD'),                 # simple past
     (r'.*es$', 'VBZ'),                 # 3rd singular present
     (r'.*ould$', 'MD'),                # modals
     (r'.*\'s$', 'NN$'),                # possessive nouns
     (r'.*s$', 'NNS'),                  # plural nouns
     (r'^-?[0-9]+(\.[0-9]+)?$', 'CD'),  # cardinal numbers
     (r'.*', 'NN')                      # nouns (default)
]
regexp_tagger = nltk.RegexpTagger(patterns)
brown_sents = brown.sents(categories='news')
regexp_tagger.tag(brown_sents[3])

[('``', 'NN'),
 ('Only', 'NN'),
 ('a', 'NN'),
 ('relative', 'NN'),
 ('handful', 'NN'),
 ('of', 'NN'),
 ('such', 'NN'),
 ('reports', 'NNS'),
 ('was', 'NNS'),
 ('received', 'VBD'),
 ("''", 'NN'),
 (',', 'NN'),
 ('the', 'NN'),
 ('jury', 'NN'),
 ('said', 'NN'),
 (',', 'NN'),
 ('``', 'NN'),
 ('considering', 'VBG'),
 ('the', 'NN'),
 ('widespread', 'NN'),
 ('interest', 'NN'),
 ('in', 'NN'),
 ('the', 'NN'),
 ('election', 'NN'),
 (',', 'NN'),
 ('the', 'NN'),
 ('number', 'NN'),
 ('of', 'NN'),
 ('voters', 'NNS'),
 ('and', 'NN'),
 ('the', 'NN'),
 ('size', 'NN'),
 ('of', 'NN'),
 ('this', 'NNS'),
 ('city', 'NN'),
 ("''", 'NN'),
 ('.', 'NN')]

In [33]:
# UnigramTagger
brown_tagged_sents = brown.tagged_sents(categories='news')
unigram_tagger = nltk.UnigramTagger(brown_tagged_sents)
unigram_tagger.tag(brown_sents[2007])

[('Various', 'JJ'),
 ('of', 'IN'),
 ('the', 'AT'),
 ('apartments', 'NNS'),
 ('are', 'BER'),
 ('of', 'IN'),
 ('the', 'AT'),
 ('terrace', 'NN'),
 ('type', 'NN'),
 (',', ','),
 ('being', 'BEG'),
 ('on', 'IN'),
 ('the', 'AT'),
 ('ground', 'NN'),
 ('floor', 'NN'),
 ('so', 'QL'),
 ('that', 'CS'),
 ('entrance', 'NN'),
 ('is', 'BEZ'),
 ('direct', 'JJ'),
 ('.', '.')]

In [34]:
# BigramTagger, TrigramTagger
bigram_tagger = nltk.BigramTagger(brown_tagged_sents)
bigram_tagger.tag(brown_sents[2007])

[('Various', 'JJ'),
 ('of', 'IN'),
 ('the', 'AT'),
 ('apartments', 'NNS'),
 ('are', 'BER'),
 ('of', 'IN'),
 ('the', 'AT'),
 ('terrace', 'NN'),
 ('type', 'NN'),
 (',', ','),
 ('being', 'BEG'),
 ('on', 'IN'),
 ('the', 'AT'),
 ('ground', 'NN'),
 ('floor', 'NN'),
 ('so', 'CS'),
 ('that', 'CS'),
 ('entrance', 'NN'),
 ('is', 'BEZ'),
 ('direct', 'JJ'),
 ('.', '.')]

## Picking a corpus to train the POS tagger

방대한 양의 텍스트에 주석을 다는 것은 매우 지루한 작업이기 때문에 Resources for building POS taggers은 매우 부족하다. 그중 하나의 resource로는 NLTK 내부에서 선호되는 tag set을 사용할 수 있다.

In [35]:
import nltk
tagged_sentences = nltk.corpus.treebank.tagged_sents()

In [36]:
print(tagged_sentences[0])

[('Pierre', 'NNP'), ('Vinken', 'NNP'), (',', ','), ('61', 'CD'), ('years', 'NNS'), ('old', 'JJ'), (',', ','), ('will', 'MD'), ('join', 'VB'), ('the', 'DT'), ('board', 'NN'), ('as', 'IN'), ('a', 'DT'), ('nonexecutive', 'JJ'), ('director', 'NN'), ('Nov.', 'NNP'), ('29', 'CD'), ('.', '.')]


In [37]:
print("Tagged sentences: ", len(tagged_sentences))

Tagged sentences:  3914


In [38]:
print("Tagged words:", len(nltk.corpus.treebank.tagged_words()))

Tagged words: 100676


## Training our own POS Tagger using scikit-learn

분류기를 training 하기 전에 어떤 feature 들을 사용할지에 대해 먼저 생각해야한다.

Most obvious chocies : the word itself, the word before and the word after

좋은 시작 방법이지만 우리는 성능을 더 향상시킬 수 있다. 
예를 들어, 2글자 접미사는 "-ed"로 끝나는 과거 동사의 훌륭한 지표다. 3글자 접미사는 "-ing"으로 끝나는 현재 분사를 인식하는데 도움이 된다.

In [39]:
def features(sentence, index):
    """ sentence: [w1, w2, ...], index: the index of the word """
    return {
        'word': sentence[index],
        'is_first': index == 0,
        'is_last': index == len(sentence) - 1,
        'is_capitalized': sentence[index][0].upper() == sentence[index][0],
        'is_all_caps': sentence[index].upper() == sentence[index],
        'is_all_lower': sentence[index].lower() == sentence[index],
        'prefix-1': sentence[index][0],
        'prefix-2': sentence[index][:2],
        'prefix-3': sentence[index][:3],
        'suffix-1': sentence[index][-1],
        'suffix-2': sentence[index][-2:],
        'suffix-3': sentence[index][-3:],
        'prev_word': '' if index == 0 else sentence[index - 1],
        'next_word': '' if index == len(sentence) - 1 else sentence[index + 1],
        'has_hyphen': '-' in sentence[index],
        'is_numeric': sentence[index].isdigit(),
        'capitals_inside': sentence[index][1:].lower() != sentence[index][1:]
    }

In [40]:
import pprint 
pprint.pprint(features(['This', 'is', 'a', 'sentence'], 2))

{'capitals_inside': False,
 'has_hyphen': False,
 'is_all_caps': False,
 'is_all_lower': True,
 'is_capitalized': False,
 'is_first': False,
 'is_last': False,
 'is_numeric': False,
 'next_word': 'sentence',
 'prefix-1': 'a',
 'prefix-2': 'a',
 'prefix-3': 'a',
 'prev_word': 'is',
 'suffix-1': 'a',
 'suffix-2': 'a',
 'suffix-3': 'a',
 'word': 'a'}


아래와 같이 태그가 지정된 말뭉치에서 태그를 제거하고 분류기에 적용하는 방법이 도움이 될 수 있다.

In [41]:
def untag(tagged_sentence):
    return [w for w, t in tagged_sentence]

Split the dataset for training and testing

In [42]:
cutoff = int(.75 * len(tagged_sentences))
training_sentences = tagged_sentences[:cutoff]
test_sentences = tagged_sentences[cutoff:]

In [43]:
print(len(training_sentences))  
print(len(test_sentences))

2935
979


이제 training set을 만들어보자.
classifier는 한 단어에 대해 feature 들을 accept 해야하지만 corpus는 문장으로 구성되어있다. 따라서 아래와 같이 변형을 해줄 필요가 있다.

In [44]:
def transform_to_dataset(tagged_sentences):
    X, y = [], []
 
    for tagged in tagged_sentences:
        for index in range(len(tagged)):
            X.append(features(untag(tagged), index))
            y.append(tagged[index][1])
 
    return X, y
 
X, y = transform_to_dataset(training_sentences)

이제 분류기를 훈련시킬 준비가 되었다. 

DecisionTreeClssifier를 선택하여 적용해보면 아래와 같다.

*DecisionTreeClassifier

![title](img/decision-tree.png)

In [45]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.feature_extraction import DictVectorizer
from sklearn.pipeline import Pipeline
 
clf = Pipeline([
    ('vectorizer', DictVectorizer(sparse=False)),
    ('classifier', DecisionTreeClassifier(criterion='entropy'))
])

In [46]:
clf.fit(X[:10000], y[:10000])   # Use only the first 10K samples if you're running it multiple times. It takes a fair bit :)
print('Training completed')

Training completed


In [47]:
X_test, y_test = transform_to_dataset(test_sentences)
 
print("Accuracy:", clf.score(X_test, y_test))

Accuracy: 0.8952273822914992


## tagging

In [52]:
def pos_tag(sentence):
    tags = clf.predict([features(sentence, index) for index in range(len(sentence))])
    return zip(sentence, tags)
 
pos_tag(word_tokenize('This is my friend, John.'))

<zip at 0x2265601ba08>

In [55]:
def pos_tag2(sentence):
    tags = clf.predict([features(sentence, index) for index in range(len(sentence))])
    return (sentence, tags)

pos_tag2(word_tokenize('This is my friend, John.'))

(['This', 'is', 'my', 'friend', ',', 'John', '.'],
 array(['DT', 'VBZ', 'NN', 'NN', ',', 'NNP', '.'], dtype='<U6'))

## Conclusions

Training your own POS tagger is not that
hard
All the resources you need are right there
Hopefully this article sheds some light on
this subject, that can sometimes be
considered extremely tedious and
“esoteric”
