In [3]:
%autosave 300 
from IPython.display import Image
import nltk

Autosaving every 300 seconds


# Learning to Classify Text

## 학습목표

1. 언어 데이터에서 분류를 위해 특징적인 피처들을 어떻게 알아낼 수 있는가? <br>
2. 자동 언어 처리를 위해 필요한 언어 모델을 어떻게 만드는가? <br>
3. 이러한 모델들을 통하여 우리가 언어에 대해 배울 수 있는 것은 무엇인가? 

### 1. 지도 분류 (Supervised Classification)

분류란 주어진 인풋에 대하여 알맞은 'class label'을 선택하는 것 <br>
- 이메일이 스팸인지 아닌지
- 뉴스 기사의 주제가 무엇인지 
- 단어의 뜻이 무엇으로 쓰였는지 (뜻이 여러 개인 경우)<br>
분류기는 학습 코퍼스가 각각의 인풋에 대해 정확한 레이블을 가지고 있을 때 '지도'되었다고 한다.

<img src = "images/supervised.png">

## 1.1 Gender Identification

In [10]:
# 분류기를 만들 때 중요한 것은 어떤 인풋 피처들이 관련성이 높은지, 그리고 그 피처들을 어떻게 인코딩할것인지이다.
# 예를 들면, a, e, i로 끝나는 이름들은 여성일 확률이 높고, k, o, r, s 등은 남성일 확률이 높다.
def gender_features(word):
    return {'last_letter': word[-1]} # feature set: feature name: 'last_letter'
gender_features('Shrek')

{'last_letter': 'k'}

In [13]:
from nltk.corpus import names
labeled_names = ([(name, 'male') for name in names.words('male.txt')] +
    [(name, 'female') for name in names.words('female.txt')])
import random
random.shuffle(labeled_names)

In [14]:
names.words('male.txt')

['Aamir',
 'Aaron',
 'Abbey',
 'Abbie',
 'Abbot',
 'Abbott',
 'Abby',
 'Abdel',
 'Abdul',
 'Abdulkarim',
 'Abdullah',
 'Abe',
 'Abel',
 'Abelard',
 'Abner',
 'Abraham',
 'Abram',
 'Ace',
 'Adair',
 'Adam',
 'Adams',
 'Addie',
 'Adger',
 'Aditya',
 'Adlai',
 'Adnan',
 'Adolf',
 'Adolfo',
 'Adolph',
 'Adolphe',
 'Adolpho',
 'Adolphus',
 'Adrian',
 'Adrick',
 'Adrien',
 'Agamemnon',
 'Aguinaldo',
 'Aguste',
 'Agustin',
 'Aharon',
 'Ahmad',
 'Ahmed',
 'Ahmet',
 'Ajai',
 'Ajay',
 'Al',
 'Alaa',
 'Alain',
 'Alan',
 'Alasdair',
 'Alastair',
 'Albatros',
 'Albert',
 'Alberto',
 'Albrecht',
 'Alden',
 'Aldis',
 'Aldo',
 'Aldric',
 'Aldrich',
 'Aldus',
 'Aldwin',
 'Alec',
 'Aleck',
 'Alejandro',
 'Aleks',
 'Aleksandrs',
 'Alessandro',
 'Alex',
 'Alexander',
 'Alexei',
 'Alexis',
 'Alf',
 'Alfie',
 'Alfonse',
 'Alfonso',
 'Alfonzo',
 'Alford',
 'Alfred',
 'Alfredo',
 'Algernon',
 'Ali',
 'Alic',
 'Alister',
 'Alix',
 'Allah',
 'Allan',
 'Allen',
 'Alley',
 'Allie',
 'Allin',
 'Allyn',
 'Alonso',


In [16]:
# 피처셋 (각 이름의 마지막 글자) 만들기
featuresets = [(gender_features(n), gender) for (n, gender) in labeled_names]

In [17]:
# 데이터를 나누자
train_set, test_set = featuresets[500:], featuresets[:500]

In [20]:
# 분류기를 만들자
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [21]:
# 예를 들어보자
classifier.classify(gender_features('Neo'))

'male'

In [22]:
classifier.classify(gender_features('Trinity'))

'female'

In [24]:
# 우리가 만든 분류기 평가
print(nltk.classify.accuracy(classifier, test_set))

0.754


In [25]:
# 무슨 피처가 제일 중요했나?
classifier.show_most_informative_features(5)

Most Informative Features
             last_letter = 'a'            female : male   =     38.6 : 1.0
             last_letter = 'k'              male : female =     33.0 : 1.0
             last_letter = 'v'              male : female =     18.5 : 1.0
             last_letter = 'f'              male : female =     15.9 : 1.0
             last_letter = 'p'              male : female =     11.1 : 1.0


In [27]:
# 메모리를 너무 많이 차지하니, 리스트로 저장하되 메모리는 차지하지 않도록 하자
from nltk.classify import apply_features
train_set = apply_features(gender_features, labeled_names[500:])
test_set = apply_features(gender_features, labeled_names[:500])

## 1.2 Choosing the Right Features

적절한 피처를 찾는 일은 매우 중요하다 (당연) 보통 "kitchen sink" 방법을 사용한다 -- 생각해낼 수 있는 모든 피처를 찾은 다음 어떤 피처가 도움이 되는지 좁혀 나가는 방법

In [31]:
def gender_features2(name):
    features = {}
    features["first_letter"] = name[0].lower()
    features["last_letter"] = name[-1].lower()
    for letter in 'abcdefghijklmnopqrstuvwxyz':
        features["count({})".format(letter)] = name.lower().count(letter)
        features["has({})".format(letter)] = (letter in name.lower())
    return features

In [32]:
gender_features2('John')

{'count(a)': 0,
 'count(b)': 0,
 'count(c)': 0,
 'count(d)': 0,
 'count(e)': 0,
 'count(f)': 0,
 'count(g)': 0,
 'count(h)': 1,
 'count(i)': 0,
 'count(j)': 1,
 'count(k)': 0,
 'count(l)': 0,
 'count(m)': 0,
 'count(n)': 1,
 'count(o)': 1,
 'count(p)': 0,
 'count(q)': 0,
 'count(r)': 0,
 'count(s)': 0,
 'count(t)': 0,
 'count(u)': 0,
 'count(v)': 0,
 'count(w)': 0,
 'count(x)': 0,
 'count(y)': 0,
 'count(z)': 0,
 'first_letter': 'j',
 'has(a)': False,
 'has(b)': False,
 'has(c)': False,
 'has(d)': False,
 'has(e)': False,
 'has(f)': False,
 'has(g)': False,
 'has(h)': True,
 'has(i)': False,
 'has(j)': True,
 'has(k)': False,
 'has(l)': False,
 'has(m)': False,
 'has(n)': True,
 'has(o)': True,
 'has(p)': False,
 'has(q)': False,
 'has(r)': False,
 'has(s)': False,
 'has(t)': False,
 'has(u)': False,
 'has(v)': False,
 'has(w)': False,
 'has(x)': False,
 'has(y)': False,
 'has(z)': False,
 'last_letter': 'n'}

In [33]:
# overfitting을 주의해야 한다 (특히 학습 데이터가 적을 때)
featuresets = [(gender_features2(n), gender) for (n, gender) in labeled_names]

In [34]:
train_set, test_set = featuresets[500:], featuresets[:500]

In [35]:
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [36]:
print(nltk.classify.accuracy(classifier, test_set))

0.782


In [37]:
# error analysis를 통해 피처를 줄여 갈 수 있다
# development set = training set + dev-test set
train_names = labeled_names[1500:]
devtest_names = labeled_names[500:1500]
test_names = labeled_names[:500]

<img src = "images/test_train.png">

In [39]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]

In [40]:
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]

In [41]:
test_set = [(gender_features(n), gender) for (n, gender) in test_names]

In [42]:
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [43]:
print(nltk.classify.accuracy(classifier, devtest_set))

0.776


In [44]:
errors = []
for (name, tag) in devtest_names:
    guess = classifier.classify(gender_features(name))
    if guess != tag:
        errors.append((tag, guess, name))

In [45]:
for (tag, guess, name) in sorted(errors):
    print('correct={:<8} guess={:8} name={:30}'.format(tag, guess, name))

correct=female   guess=male     name=Agnes                         
correct=female   guess=male     name=Alisun                        
correct=female   guess=male     name=Allyson                       
correct=female   guess=male     name=Ann                           
correct=female   guess=male     name=Arleen                        
correct=female   guess=male     name=Avrit                         
correct=female   guess=male     name=Bab                           
correct=female   guess=male     name=Beitris                       
correct=female   guess=male     name=Bev                           
correct=female   guess=male     name=Brigid                        
correct=female   guess=male     name=Candis                        
correct=female   guess=male     name=Carlynn                       
correct=female   guess=male     name=Carolan                       
correct=female   guess=male     name=Caryn                         
correct=female   guess=male     name=Charin     

In [46]:
# 성별을 맞추는 데 한 글자 이상의 글자들이 필요할 수 있다는 것을 확인하였다
# 이제 두 글자 접미사를 사용하여 성별을 구분해 보자
def gender_features(word):
    return {'suffix1': word[-1:],
           'suffix2': word[-2:]}

In [47]:
train_set = [(gender_features(n), gender) for (n, gender) in train_names]

In [48]:
devtest_set = [(gender_features(n), gender) for (n, gender) in devtest_names]

In [49]:
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [50]:
print(nltk.classify.accuracy(classifier, devtest_set)) # 정확도가 조금 증가함 

0.781


## 1.3 Document Classification

1과에서 레이블 된 코퍼스를 본 것처럼, 새로운 문서가 들어왔을 때 태그를 새로 달아줄 수 있는 분류기를 만들 수 있다

In [51]:
from nltk.corpus import movie_reviews
documents = [(list(movie_reviews.words(fileid)), category)
            for category in movie_reviews.categories()
            for fileid in movie_reviews.fileids(category)]
random.shuffle(documents)

In [52]:
# 문서에서 피처 추출 - 문서가 특정 단어를 포함하고 있는지 아닌지를 판별 
# 전체 코퍼스에서 가장 빈번하게 등장하는 단어 2000개 
# 이 2000개의 단어들이 각 문서에 있는지 확인
all_words = nltk.FreqDist(w.lower() for w in movie_reviews.words())
word_features = list(all_words)[:2000]

In [53]:
def document_features(document):
    document_words = set(document)
    features = {}
    for word in word_features:
        features['contains({})'.format(word)] = (word in document_words)
    return features

In [54]:
print(document_features(movie_reviews.words('pos/cv957_8737.txt')))

{'contains(plot)': True, 'contains(:)': True, 'contains(two)': True, 'contains(teen)': False, 'contains(couples)': False, 'contains(go)': False, 'contains(to)': True, 'contains(a)': True, 'contains(church)': False, 'contains(party)': False, 'contains(,)': True, 'contains(drink)': False, 'contains(and)': True, 'contains(then)': True, 'contains(drive)': False, 'contains(.)': True, 'contains(they)': True, 'contains(get)': True, 'contains(into)': True, 'contains(an)': True, 'contains(accident)': False, 'contains(one)': True, 'contains(of)': True, 'contains(the)': True, 'contains(guys)': False, 'contains(dies)': False, 'contains(but)': True, 'contains(his)': True, 'contains(girlfriend)': True, 'contains(continues)': False, 'contains(see)': False, 'contains(him)': True, 'contains(in)': True, 'contains(her)': False, 'contains(life)': False, 'contains(has)': True, 'contains(nightmares)': False, 'contains(what)': True, "contains(')": True, 'contains(s)': True, 'contains(deal)': False, 'contains

In [55]:
# 테스트 데이터로 정확도를 검증
# 어떤 피처가 가장 유용했는지 검사
featuresets = [(document_features(d), c) for (d,c) in documents]
train_set, test_set = featuresets[100:], featuresets[:100]
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [56]:
print(nltk.classify.accuracy(classifier, test_set))

0.82


In [57]:
classifier.show_most_informative_features(5)

Most Informative Features
 contains(unimaginative) = True              neg : pos    =      8.3 : 1.0
     contains(atrocious) = True              neg : pos    =      7.0 : 1.0
        contains(shoddy) = True              neg : pos    =      7.0 : 1.0
    contains(schumacher) = True              neg : pos    =      7.0 : 1.0
        contains(neatly) = True              pos : neg    =      6.4 : 1.0


## 1.4 Part-of-Speech Tagging

분류기를 사용하여 어떤 접미사가 가장 유용한지 알아낼 수 있다

In [59]:
from nltk.corpus import brown
suffix_fdist = nltk.FreqDist()
for word in brown.words():
    word = word.lower()
    suffix_fdist[word[-1:]] += 1
    suffix_fdist[word[-2:]] += 1
    suffix_fdist[word[-3:]] += 1

In [60]:
common_suffixes = [suffix for (suffix, count) in suffix_fdist.most_common(100)]

In [61]:
print(common_suffixes)

['e', ',', '.', 's', 'd', 't', 'he', 'n', 'a', 'of', 'the', 'y', 'r', 'to', 'in', 'f', 'o', 'ed', 'nd', 'is', 'on', 'l', 'g', 'and', 'ng', 'er', 'as', 'ing', 'h', 'at', 'es', 'or', 're', 'it', '``', 'an', "''", 'm', ';', 'i', 'ly', 'ion', 'en', 'al', '?', 'nt', 'be', 'hat', 'st', 'his', 'th', 'll', 'le', 'ce', 'by', 'ts', 'me', 've', "'", 'se', 'ut', 'was', 'for', 'ent', 'ch', 'k', 'w', 'ld', '`', 'rs', 'ted', 'ere', 'her', 'ne', 'ns', 'ith', 'ad', 'ry', ')', '(', 'te', '--', 'ay', 'ty', 'ot', 'p', 'nce', "'s", 'ter', 'om', 'ss', ':', 'we', 'are', 'c', 'ers', 'uld', 'had', 'so', 'ey']


In [63]:
def pos_features(word):
    features = {}
    for suffix in common_suffixes:
        features['endswith({})'.format(suffix)] = word.lower().endswith(suffix)
    return features

In [64]:
tagged_words = brown.tagged_words(categories='news')

In [65]:
featuresets = [(pos_features(n), g) for (n,g) in tagged_words]

In [66]:
size = int(len(featuresets)*0.1)

In [67]:
train_set, test_set = featuresets[size:], featuresets[:size]

In [69]:
classifier = nltk.DecisionTreeClassifier.train(train_set)

KeyboardInterrupt: 

In [None]:
nltk.classify.accuracy(classifier, test_set)

In [None]:
classifier.classify(pos_features('cats'))

In [None]:
print(classifier.pseudocode(depth=4))

## 1.5 Exploiting Context

여기까지 살펴본 단어 베이스 분류기는 특정 단어가 어떤 문맥에서 어떤 품사로 쓰이는지 알 수 없다. 따라서 태깅되지 않은 문장과 타겟 단어의 인덱스를 인풋으로 넣어서 문맥에 기반한 피처 추출기를 만들어 보자.

In [72]:
def pos_features(sentence, i):
    features = {"suffix(1)": sentence[i][-1:],
               "suffix(2)": sentence[i][-2:],
               "suffix(3)": sentence[i][-3:]}
    if i == 0:
        features["prev-word"] = "<START>"
    else:
        features["prev-word"] = sentence[i-1]
    return features

In [73]:
pos_features(brown.sents()[0], 8)

{'prev-word': 'an', 'suffix(1)': 'n', 'suffix(2)': 'on', 'suffix(3)': 'ion'}

In [74]:
tagged_sents = brown.tagged_sents(categories='news')

In [75]:
featuresets = []

In [77]:
for tagged_sent in tagged_sents:
    untagged_sent = nltk.tag.untag(tagged_sent)
    for i, (word, tag) in enumerate(tagged_sent):
        featuresets.append((pos_features(untagged_sent, i), tag))

In [78]:
size = int(len(featuresets)*0.1)

In [79]:
train_set, test_set = featuresets[size:], featuresets[:size]

In [80]:
classifier = nltk.NaiveBayesClassifier.train(train_set)

In [83]:
nltk.classify.accuracy(classifier, test_set) # 문맥 정보를 추가하니 정확도 증가

0.7891596220785678

## 1.6 Sequence Classification

여러 개의 서로 관련된 인풋에 대해서 가장 적절한 레이블을 찾아 주는 joint classifier를 만들 수 있다. 일례로는 consecutive classification 또는 greedy sequence classification이 있는데, 첫 번째 인풋에 대한 레이블을 찾고 그 다음 인풋에 대해서 최적의 레이블을 찾는 방법이다. 

In [97]:
def pos_features(sentence, i, history):
    features = {"suffix(1)": sentence[i][-1:],
                "suffix(2)": sentence[i][-2:],
                "suffix(3)": sentence[i][-3:]}
    if i == 0:
        features["prev-word"] = "<START>"
        features["prev-tag"] = "<START>"
    else:
        features["prev-word"] = sentence[i-1]
        features["prev-tag"] = history[i-1]
    return features

class ConsecutivePosTagger(nltk.TaggerI):
    def __init__(self, train_sents):
        train_set = []
        for tagged_sent in train_sents:
            untagged_sent = nltk.tag.untag(tagged_sent)
            history = []
            for i, (word, tag) in enumerate(tagged_sent):
                featureset = pos_features(untagged_sent, i, history)
                train_set.append((featureset, tag))
                history.append(tag)
        self.classifier = nltk.NaiveBayesClassifier.train(train_set)
    
    def tag(self, sentence):
        history = []
        for i, word in enumerate(sentence):
            featureset = pos_features(sentence, i, history)
            tag = self.classifier.classify(featureset)
            history.append(tag)
        return zip(sentence, history)

In [98]:
tagged_sents = brown.tagged_sents(categories='news')
size = int(len(tagged_sents)*0.1)
train_sents, test_sents = tagged_sents[size:], tagged_sents[:size]
tagger = ConsecutivePosTagger(train_sents)

In [99]:
print(tagger.evaluate(test_sents))

0.7980528511821975


## 1.7 Other Methods for Sequence Classification

위 설명된 방법의 단점은 어떤 단어를 명사로 태깅한 후, 나중에 동사인걸 알게 되어도 고칠 방법이 없다는 것이다. 이 단점을 극복하는 방법으로는 Transformational joint classifier를 만드는 방법이 있는데, 이것은 인풋에 대하여 초기값을 부여하고, 이후 인풋값의 변화에 따라 초기값을 조정하는 방식으로 작동한다. 예시로는 Brill Tagger가 있다.

또 다른 방법은 모든 가능한 POS태그에 점수를 부여하고, 가장 점수가 높은 시퀀스를 선택하는 것이다. 이것이 Hidden Markov Model에 적용된 방법이다. Hidden Markov Model은 consecutive classifier처럼 인풋과 여태까지 예측된 태그들 모두를 본다는 점에서 비슷하다. 하지만 주어진 단어에 대해서 최선의 태그 하나만 부여하는 것이 아니라, 확률 분포를 만들어낸다. 이 확률값은 태그 시퀀스에 대해서 확률 점수를 만들 수 있게 조합되고, 가장 확률값이 높은 태그 시퀀스가 선택되게 된다. 
하지만 30개의 태그가 있는 셋이 있다고 했을 때, 10단어로 만들어진 문장을 다 검토하는데에는 30^10의 방법이 생기게 된다. 이러한 연산의 부담을 줄이기 위하여, Hidden Markov Model은 가장 최근의 n개 태그를 보는 방법을 차용한다. 이러한 방식이 Maximum Entropy Markov Model 그리고 Linear-Chain Conditional Random Field Model에 사용된다.

# 2 Further Examples of Supervised Classification

## 2.1 Sentence Segmentation

이것은 문장 부호에 대한 분류 작업이라고 생각해도 좋다: 문장의 끝을 의미할 수 있는 어떤 부호에 도달했을 때, 우리는 이전 문장을 끝내는 것인지 결정해야 하는 것이다.

In [100]:
sents = nltk.corpus.treebank_raw.sents()
tokens = [] # 문장에서 나온 토큰들의 리스트 
boundaries = set() # 문장으로 구별된 모든 토큰들의 인덱스의 집합
offset = 0
for sent in sents:
    tokens.extend(sent)
    offset += len(sent)
    boundaries.add(offset-1)

In [103]:
def punct_features(tokens, i):
    return {'next-word-capitalized': tokens[i+1][0].isupper(),
           'prev-word': tokens[i-1].lower(),
           'punct': tokens[i],
           'prev-word-is-one-char': len(tokens[i-1]) == 1}

In [104]:
featuresets = [(punct_features(tokens, i), (i in boundaries))
              for i in range(1, len(tokens)-1)
              if tokens[i] in ".?!"]

In [105]:
size = int(len(featuresets)*0.1)
train_set, test_set = featuresets[size:], featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)
nltk.classify.accuracy(classifier, test_set)

0.936026936026936

In [106]:
def segment_sentences(words):
    start = 0
    sents = []
    for i, word in enumerate(words):
        if word in ".?!" and classifer.classify(punct_features(words, i)) == True:
            sents.append(words[start:i+1])
            start = i+1
    if start < len(words):
        sents.append(words[start:])
    return sents

## 2.2 Identifying Dialogue Act Types

대화문을 처리할 때는, 한 화자가 말하는 utterance = action이라고 생각할 수 있다. Dialogue act 에는 statement, emotion, ynQuestion, continuer 등이 있다. 

In [107]:
posts = nltk.corpus.nps_chat.xml_posts()[:10000]

In [108]:
def dialogue_act_features(post):
    features = {}
    for word in nltk.word_tokenize(post):
        features['contains({})'.format(word.lower())] = True
    return features

In [109]:
featuresets = [(dialogue_act_features(post.text), post.get('class'))
              for post in posts]
size = int(len(featuresets)*0.1)
train_set, test_set = featuresets[size:], featuresets[:size]
classifier = nltk.NaiveBayesClassifier.train(train_set)
print(nltk.classify.accuracy(classifier, test_set))

0.668


## 2.3 Recognizing Textual Entailment

## 2.4 Scaling Up to Large Datasets

# 3 Evaluation

## 3.1 The Test Set

테스트 셋을 만들 때 고려해야 할 점 하나는 학습 데이터 셋과의 tradeoff이고, 다른 하나는 둘 간의 유사도이다. 더 비슷할수록 우리의 evaluation의 confidence가 떨어진다.  

In [111]:
import random
from nltk.corpus import brown
tagged_sents = list(brown.tagged_sents(categories='news'))
random.shuffle(tagged_sents)
size = int(len(tagged_sents)*0.1)
train_set, test_set = tagged_sents[size:], tagged_sents[:size]
# 이 경우 우리의 학습 데이터와 테스트 데이터가 너무 유사해서, 다른 장르로 generalize할 수 없다
# 또한, 학습 데이터 셋을 만들 때 random.shuffle()을 사용했기 때문에, 여기에 쓰인 데이터가 테스트 데이터에 있을 수 있다

In [115]:
file_ids = brown.fileids(categories='news')
size = int(len(file_ids)*0.1)
train_set = brown.tagged_sents(file_ids[size:])
test_set = brown.tagged_sents(file_ids[:size])

In [113]:
# 만약 더 엄격하게 나누고 싶다면, 아예 장르를 다르게 선택하면 된다
train_set = brown.tagged_sents(categories='news')
test_set = brown.tagged_sents(categories='fiction')

## 3.2 Accuracy

In [116]:
classifier = nltk.NaiveBayesClassifier.train(train_set)
print('Accuracy: {:4.2f}'.format(nltk.classify.accuracy(classifier, test_set)))

ValueError: too many values to unpack (expected 2)

## 3.3 Precision and Recall

<img src = "images/precisionandrecall.png">

<strong>Precision</strong>, which indicates how many of the items that we identified were relevant, is TP/(TP+FP). <br>
<strong>Recall</strong>, which indicates how many of the relevant items that we identified, is TP/(TP+FN). <br>
The <strong>F-Measure</strong> (or F-Score), which combines the precision and recall to give a single score, is defined to be the harmonic mean of the precision and recall: (2 × Precision × Recall) / (Precision + Recall)

## 3.4 Confusion Matrices

Confusion matrix란 올바른 레이블이 i일때, [i, j]에 얼마나 j 레이블이 많이 예측되었는지를 나타낸 표이다. 

In [117]:
def tag_list(tagged_sents):
    return [tag for sent in tagged_sents for (word, tag) in sent]

In [118]:
def apply_tagger(tagger, corpus):
    return [tagger.tag(nltk.tag.untag(sent)) for sent in corpus]

In [124]:
t2 = nltk.BigramTagger(train_sents)
gold = tag_list(brown.tagged_sents(categories='editorial'))
test = tag_list(apply_tagger(t2, brown.tagged_sents(categories='editorial')))
cm = nltk.ConfusionMatrix(gold, test)
print(cm.pretty_format(sort_by_count=True, show_percents=True, truncate=9))

TypeError: '<' not supported between instances of 'NoneType' and 'str'

## 3.5 Cross-Validation

원래의 코퍼스를 N개의 섭셋으로 나누는데, 이것을 folds라고 한다. 각각의 folds에 대해 그 fold를 제외한 모든 데이터에 대해 학습을 시킨 후, 해당 fold에 테스트한다. 

Cross-Validation의 또다른 좋은 점은 각각의 학습 데이터에 대하여 성능이 얼마나 변하는지를 관찰할 수 있다는 것이다. 성능이 비슷비슷하게 나오면, 우리는 학습 모델에 대해 confidence를 어느정도 가질 수 있기 때문이다.

# 4 Decision Trees

Decision Tree는 인풋 값에 대하여 레이블을 선택하는 단순한 플로우차트이다. <br>
이 플로우차트는 decision nodes (피처 값을 체크하는 것), leaf nodes (레이블을 달아주는 것)로 구성되어 있다. 또한 root node는 초기 decision node로서 한 인풋 값의 피처를 체크한 후 가지를 선택해 나가게 된다. 

Decision stump는 하나의 node가 하나의 피처만을 고려하여 인풋들을 분류하는 Decision Tree의 일종이다. Decision Tree를 만들기 전에, 각각의 피처에 대하여 가장 최적의 Decision stump를 만들어보기로 하자.

## 4.1 Entropy and Information Gain

어떤 피처가 가장 유용한지 판별하는 방법으로 가장 잘 쓰이는 것 중 하나가 information gain이다. Information gain은 하나의 피처로 인풋을 나누었을 때 얼마나 잘 정돈되어 나오는지를 측정한다. 초기 인풋 값이 얼마나 '덜 정돈'되어있는지 측정하려면, 우리는 레이블의 entropy를 계산한다. 여기서 entropy는 각 레이블의 확률 * 해당 레이블의 로그 확률의 총합으로 계산한다.

In [8]:
# 다음 예제를 보자
import math
def entropy(labels):
    freqdist = nltk.FreqDist(labels)
    probs = [freqdist.freq(l) for l in freqdist]
    return -sum(p*math.log(p,2) for p in probs)

In [9]:
print(entropy(['male', 'male', 'male', 'male']))

-0.0


In [10]:
print(entropy(['male', 'female', 'male', 'male']))

0.8112781244591328


In [11]:
print(entropy(['female', 'male', 'female', 'male']))

1.0


In [12]:
print(entropy(['female', 'female', 'male', 'female']))

0.8112781244591328


In [13]:
print(entropy(['female', 'female', 'female', 'female']))

-0.0


먼저 초기 인풋 값의 entropy를 계산한 후, decision stump를 적용한 후에 얼마나 레이블이 정돈되는지 결정하면 된다. 이렇게 하기 위해서는, decision stump의 leaf에 대한 entropy를 각각 계산한 후, 이 entropy의 평균값을 계산한다. 여기서의 information gain은 original entropy - reduced entropy가 된다. Information gain이 클수록 decision stump의 성능이 좋아진다. 

<strong>Decision Tree의 장점</strong><br>
- 단순해서 이해하기 쉽다 <br>
- 많은 위계적 분류 기준이 존재할 때 적절하게 사용할 수 있다 

<strong>Decision Tree의 단점</strong>
- 가지치기를 해나가게 될 수록, 하나의 가지가 데이터를 분리해 나가기 때문에, 결국 학습 데이터의 양이 적어지면서 overfitting의 문제가 생긴다 --> (1) 너무 학습 데이터가 적어지지 않게 node를 세부적으로 나누지 않는다 (2) full tree를 만든 후, 성능에 도움이 되지 않는 가지들은 가지치기를 한다
- 또 하나의 문제는 tree를 만들어 나가면서 피처가 어떤 특정한 순서를 가지고 체크되어진다는 것이다 --> 피처가 서로 독립일 경우에 문제가 될 수 있다
- 피처의 설명력이 약할 때, 보통 이러한 피처가 tree의 마지막에 나타나므로, 그때가 되면 학습 데이터가 많이 남아있지 않아서 정확히 피처가 어떤 정도의 영향을 줄 수 있는지 판단하기 어렵다 

# 5 Naive Bayes Classifiers

naive bayes 분류기의 경우에는 모든 피처가 주어진 인풋 값에 대해서 어떤 레이블을 가지게 될지에 대해 '같은 목소리'를 가진다. 레이블을 결정하기 위해서, naive bayes는 각 레이블의 prior probability를 계산하는데 - 이것은 학습 데이터에 있는 각 레이블의 빈도를 체크하는 것이다 - 이 과정과 각 피처가 결합하여 각 레이블의 likelihood estimate를 계산하게 되고, 이 값이 가장 큰 것이 레이블로 결정되게 된다.

## 5.1 Underlying Probabilistic Model

naive bayes를 이해하는 또 다른 방법은 이 분류기가 한 인풋에 대하여 가장 '그럴듯한' 레이블을 선택한다는 것이다. 여기서의 가정은 모든 인풋값이 해당 값에 대해 레이블을 일단 선택하고 나서 서로 독립된 피처들을 생성한다는 것에 있다. 물론 이 가정은 비현실적이다 -- 피처들은 종종 서로와의 관련성이 크기 때문이다. 이러한 가정을 naive Bayes assumption (independence assumption)이라고 하는데, 이 가정으로 인해 우리는 서로 다른 피처들의 영향을 합할 수 있게 된다. 

<img src = "images/naivebayes.png">

## 5.2 Zero Counts and Smoothing

P(f|label), 즉 주어진 label을 가지고 있을 확률에 대한 어떤 피처 feature의 기여도를 계산하는 가장 간단한 방법은 학습 데이터 내에서 그 레이블을 가지고 있으면서 그 피처에 해당하는 instance들의 비율을 구하는 것이다.  

<img src = "images/zerocount.png">

하지만 학습 데이터 내에서 주어진 레이블에 대해 그 피처가 한번도 해당하지 않는 경우 문제가 된다. 이 경우 우리의 P(f|label) = 0 이기 때문이다. 이 경우 우리의 인풋은 이 레이블을 절대 가지지 못하게 될 것이다. 여기서 문제는 우리가 주어진 레이블에 대해서 한 인풋이 해당 피처를 가지고 있을 거라고 생각하는 데 있다. 즉, count(f)가 점점 작아질 때, 우리의 estimate의 신뢰도가 점점 떨어지게 되므로 우리는 smoothing 기법을 사용한다. 

예를 들면, Expected Likelihood Estimation은 모든 count(f, label)값에 0.5를 더한다. 그리고 Heldout Estimation은 피처의 빈도와 피처의 확률 사이의 관계를 계산하기 위해 heldout corpus를 사용한다. 이를 위해 우리는 nltk.probability 모듈을 사용할 수 있다.

## 5.3 Non-Binary Features

우리는 그동안 각 피처가 binary라는 것을 가정해 왔으나, 멀티클래스의 경우에도 binary로 바꾸어서 계산할 수 있다. 숫자 피처의 경우 binning을 통해 마찬가지로 계산할 수 있다. 

또다른 방법은 회귀분석 방법을 통해서 숫자 피처의 확률을 모델링하는 방법이다. 만약 height 피처가 정규분포를 가지고 있다고 가정한다면, 우리는 mean과 variance를 계산해서 P(height|label)을 구할 수 있을 것이다. 

## 5.4 The Naivete of Independence

naive Bayes가 naive인 이유는 모든 피처가 독립이라고 가정하는 것이 말이 안되기 때문이다. 하지만 현실에서 서로 독립이 아닌 피처들을 피하기란 매우 어렵다. 그런데 만약 naive bayes에서 독립 가정을 무시한다면? 분류기는 서로 관련이 높은 피처들의 효과를 "double counting"하게 될 것이다. 

물론 우리가 분류기를 만들 때에는 똑같은 피처들을 사용하지 않지만, 대부분의 경우 서로 관련이 있는 피처들을 사용하므로, 겹치는 정보량이 많아질 경우 bias가 생길 수 있음을 유의해야 한다. 

## 5.5 The Cause of Double-Counting

Double-counting의 문제는 학습 과정 중에 피처의 기여도가 각각 계산되는데, 분류기를 사용하여 새로운 인풋에 대한 레이블을 주게 될 때에는 이러한 피처들이 합해진다는 데 있다. 해결책은 학습 과정 중에 피처들 사이의 상호작용을 고려하는 것이다. 

<img src ="images/parametersandweights.png">

naive bayes에서는 parameter와 weight를 독립적으로 세팅한다. 

# 6 Maximum Entropy Classifiers

maximum entropy는 naive bayes와 유사하지만 모델의 parameter를 정희하기 위해 확률을 사용하는 것이 아니라 분류기의 성능을 최대로 하기 위하여 search 테크닉을 사용한다. 즉, 학습 코퍼스의 total likelihood를 최대화하기 위한 parameter set을 찾는다. 

하지만 피처들 간의 상호작용 때문에 직접적으로 학습 데이터의 likelihood를 최대화할 수 있는 parameter를 계산하는 것은 불가능하다. 따라서 maximum entropy 분류기는 iterative optimization 테크닉을 사용한다. 즉, 처음에 parameter의 초기값을 random value로 정의하고 나서 최적화 프로세스를 통해 재설정하는 것이다. 여기서의 문제점은 이 과정이 오래 걸릴 수 있다는 것인데, 학습 데이터 셋이 크거나, 피처의 수가 많거나, 레이블이 많을때 특히 더 그러하다.

## 6.1 The Maximum Entropy Model

naive bayes처럼 maximum entropy 모델도 가능한 parameter들을 곱하여 레이블의 likelihood를 계산하는것은 유사하다. 하지만 maximum enropy 분류기는 유저로 하여금 어떤 레이블과 피처의 조합을 parameter로 받을 것인지 결정하게끔 한다. 이 조합을 joint feature라고 부른다. 

## 6.2 Maximizing Entropy

다음의 예를 통해 entropy maximization을 살펴보자.

<img src = "images/maxentropy.png">

예를 들어, 주어진 단어에 대해 올바른 word sense를 골라야 한다고 해보자. 이럴 때 가능한 확률 분포는 굉장히 많을 것이다. 위 테이블은 이중 세개를 나열하였다. 

위 세 개의 분포 중 어느 것도 가능할 수 있겠지만, 우리는 아마 (i)를 선택할 것이다. 왜냐하면 10개의 sense에 대하여 확률이 고르게 분포되어 있기 때문에 - 즉 entropy가 다른 두 개보다 더 높기 때문이다. 이런 방식으로 우리가 joint feature를 고를 때에는 empirifcal frequency가 더 높은 것을 고르는 것이 일반적이다. 

## 6.3 Generative vs Conditional Classifiers

naive bayes와 maximum entropy의 가장 중요한 차이점은 naive bayes는 generative 분류기이고, maximum entropy는 conditional 분류기라는 것이다. 
- What is the most likely label for a given input?
- How likely is a given label for a given input?
- What is the most likely input value?
- How likely is a given input value?
- How likely is a given input value with a given label?
- What is the most likely label for an input that might have one of two values (but we don't know which)?

<strong>Generative</strong> P(input, label) 즉 (input, label) 쌍의 joint probability를 구한다.<br>
<strong>Conditional</strong> P(label|input) 즉 input이 주어졌을 때 label의 확률을 구한다. 

# 7 Modeling Linguistic Patterns

분류기는 자연어에서 나타나는 언어적 패턴을 이해하는 데 도움을 준다. 우리는 이러한 패턴을 캡처하여 모델을 만들 수 있다. 또한 이러한 모델을 사용하여 새로운 언어 데이터에 대한 예측을 할 수도 있다.

## 7.1 What Do Models Tell Us?

<strong>Descriptive Models</strong> 왜 데이터가 어떤 패턴을 가지고 있는지 정보를 알 수 없는 패턴들을 캡처한다. <br>
<strong>Explanatory Models</strong> 특정 언어적 패턴의 이유가 되는 특징과 관계를 캡처하고자 시도한다. 

# 8 Summary

- Modeling the linguistic data found in corpora can help us to understand linguistic patterns, and can be used to make predictions about new language data.
- Supervised classifiers use labeled training corpora to build models that predict the label of an input based on specific features of that input.
- Supervised classifiers can perform a wide variety of NLP tasks, including document classification, part-of-speech tagging, sentence segmentation, dialogue act type identification, and determining entailment relations, and many other tasks.
- When training a supervised classifier, you should split your corpus into three datasets: a training set for building the classifier model; a dev-test set for helping select and tune the model's features; and a test set for evaluating the final model's performance.
- When evaluating a supervised classifier, it is important that you use fresh data, that was not included in the training or dev-test set. Otherwise, your evaluation results may be unrealistically optimistic.
- Decision trees are automatically constructed tree-structured flowcharts that are used to assign labels to input values based on their features. Although they're easy to interpret, they are not very good at handling cases where feature values interact in determining the proper label.
- In naive Bayes classifiers, each feature independently contributes to the decision of which label should be used. This allows feature values to interact, but can be problematic when two or more features are highly correlated with one another.
- Maximum Entropy classifiers use a basic model that is similar to the model used by naive Bayes; however, they employ iterative optimization to find the set of feature weights that maximizes the probability of the training set.
- Most of the models that are automatically constructed from a corpus are descriptive — they let us know which features are relevant to a given patterns or construction, but they don't give any information about causal relationships between those features and patterns.