In [2]:
#라이브 러리 소환
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import nltk

# 이 코드에서는 문장을 형태소로 분류해주는 pos_tagging을 해 볼 것이다.
Part-Of-Speech tagging(POS tagging)은 문장 내 단어들의 품사를 식별하여 태그를 붙여주는 것을 말한다.  투플(tuple)의 형태로 출력되며 (단어, 태그)로 출력된다. 여기서 태그는 품사(POS) 태그다.

# https://excelsior-cjh.tistory.com/71



# Sentence : I left my phone on the left side of the room.

In [3]:
# 토큰화
text = nltk.word_tokenize("I left my phone on the left side of the room.")

In [4]:
#토큰 출력(형태는 리스트)
print(text)

['I', 'left', 'my', 'phone', 'on', 'the', 'left', 'side', 'of', 'the', 'room', '.']


In [5]:
# 토큰화한 단어들 태깅
tagged_text = nltk.pos_tag(text)

In [6]:
#투플 형태로 짝을 이루어 태깅된것들 출력하기
tagged_text

[('I', 'PRP'),
 ('left', 'VBD'),
 ('my', 'PRP$'),
 ('phone', 'NN'),
 ('on', 'IN'),
 ('the', 'DT'),
 ('left', 'JJ'),
 ('side', 'NN'),
 ('of', 'IN'),
 ('the', 'DT'),
 ('room', 'NN'),
 ('.', '.')]

# 태깅 참조표
| Tag  | Description                            | 설명             | Example                        |
| ---- | :------------------------------------- | ---------------- | ------------------------------ |
| CC   | coordinating  conjuntion               |                  |                                |
| CD   | cardinal digit                         |                  |                                |
| DT   | determiner                             |                  |                                |
| EX   | existential there                      |                  | 'there' is.., 'there' exists.. |
| FW   | foreign word                           |                  |                                |
| IN   | preposition/subordiateing  conjunction |                  |                                |
| JJ   | adjective                              | 형용사           | 'big'                          |
| JJR  | adjective,  comparative                | 형용사, 비교급   | 'bigger'                       |
| JJS  | adjective,  superlative                | 형용사, 최상급   | 'biggest'                      |
| LS   | list marker                            |                  | '1)'                           |
| MD   | modal                                  |                  | 'could', 'will'                |
| NN   | noun, singular                         | 명사, 단수형     | 'desk'                         |
| NNS  | noun, plural                           | 명사, 복수형     | 'desks'                        |
| NNP  | proper noun, singular                  | 고유명사, 단수형 | 'Harrison'                     |
| NNPS | proper noun, plural                    | 고유명사, 복수형 | 'Americans'                    |
| PDT  | predeterminer                          |                  | 'all the kids'                 |
| POS  | possessive ending                      |                  | 'parent's '                    |
| PRP  | personal pronoun                       | 인칭 대명사      | 'I', 'he', 'she'               |
| PRP$ | possessive pronoun                     | 소유 대명사      | 'my', 'his', 'hers'            |
| RB   | adverb                                 | 형용사           | 'very', 'silently'             |
| RBR  | adverb, comparative                    | 형용사, 비교급   | 'better'                       |
| RBS  | adverb, superlative                    | 형용사, 최상급   | 'best'                         |
| RP   | particle                               |                  | 'give up'                      |
| TO   | to                                     |                  | go  'to' the store             |
| UH   | interjection                           |                  | 'errrrrm'                      |
| VB   | verb, base form                        | 동사, 원형       | 'take'                         |
| VBD  | verb, past tense                       | 동사, 과거형     | 'took'                         |
| VBG  | verb, gerund/present  participle       | 동사, 현재분사   | 'taking'                       |
| VBN  | verb, past participle                  | 동사, 과거분사   | 'taken'                        |
| VBP  | verb, sing. Present,  non-3d           |                  | 'take'                         |
| VBZ  | verb, 3rd person  sing. Present        |                  | 'takes'                        |
| WDT  | wh-determiner                          |                  | 'which'                        |
| WP   | wh-pronoun                             |                  | 'who', 'what'                  |
| WP$  | possessive                             |                  | 'wh-pronoun', 'whose'          |
| WRB  | wh-adverb                              |                  | 'where', 'when'                |

# Sentence : Who will play with the dog while they are at the play?

In [7]:
# 문장을 단어로 토큰화
text = nltk.word_tokenize("Who will play with the dog while they are at the play?")
text

['Who',
 'will',
 'play',
 'with',
 'the',
 'dog',
 'while',
 'they',
 'are',
 'at',
 'the',
 'play',
 '?']

In [8]:
# 태깅 과정
# input : 단어 리스트
# output : 단어 태깅 리스트
tagged_text = nltk.pos_tag(text)
tagged_text

[('Who', 'WP'),
 ('will', 'MD'),
 ('play', 'VB'),
 ('with', 'IN'),
 ('the', 'DT'),
 ('dog', 'NN'),
 ('while', 'IN'),
 ('they', 'PRP'),
 ('are', 'VBP'),
 ('at', 'IN'),
 ('the', 'DT'),
 ('play', 'NN'),
 ('?', '.')]

In [10]:
# 단어들을 태깅(위 참조표 확인)
tagged_text

[('Who', 'WP'),
 ('will', 'MD'),
 ('play', 'VB'),
 ('with', 'IN'),
 ('the', 'DT'),
 ('dog', 'NN'),
 ('while', 'IN'),
 ('they', 'PRP'),
 ('are', 'VBP'),
 ('at', 'IN'),
 ('the', 'DT'),
 ('play', 'NN'),
 ('?', '.')]

In [10]:
# brown은 카테고리 별로 코퍼스(언어학)를 나눠놓은 패키지임

from nltk.corpus import brown

In [12]:
# 뉴스 카테고리에서 문장들 태깅
brown_tagged_sents = brown.tagged_sents(categories="news")
brown_tagged_sents

[[('The', 'AT'), ('Fulton', 'NP-TL'), ('County', 'NN-TL'), ('Grand', 'JJ-TL'), ('Jury', 'NN-TL'), ('said', 'VBD'), ('Friday', 'NR'), ('an', 'AT'), ('investigation', 'NN'), ('of', 'IN'), ("Atlanta's", 'NP$'), ('recent', 'JJ'), ('primary', 'NN'), ('election', 'NN'), ('produced', 'VBD'), ('``', '``'), ('no', 'AT'), ('evidence', 'NN'), ("''", "''"), ('that', 'CS'), ('any', 'DTI'), ('irregularities', 'NNS'), ('took', 'VBD'), ('place', 'NN'), ('.', '.')], [('The', 'AT'), ('jury', 'NN'), ('further', 'RBR'), ('said', 'VBD'), ('in', 'IN'), ('term-end', 'NN'), ('presentments', 'NNS'), ('that', 'CS'), ('the', 'AT'), ('City', 'NN-TL'), ('Executive', 'JJ-TL'), ('Committee', 'NN-TL'), (',', ','), ('which', 'WDT'), ('had', 'HVD'), ('over-all', 'JJ'), ('charge', 'NN'), ('of', 'IN'), ('the', 'AT'), ('election', 'NN'), (',', ','), ('``', '``'), ('deserves', 'VBZ'), ('the', 'AT'), ('praise', 'NN'), ('and', 'CC'), ('thanks', 'NNS'), ('of', 'IN'), ('the', 'AT'), ('City', 'NN-TL'), ('of', 'IN-TL'), ('Atlant

In [13]:
# 뉴스 카테고리에서 문장들을 토큰화
# 각 요소의 인덱스 마다 하나의 문장 토큰화되어 들어가 있음
# 아래에서 regex로 분류해보기 위해서 함
brown_sents = brown.sents(categories="news")
brown_sents

[['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', 'Friday', 'an', 'investigation', 'of', "Atlanta's", 'recent', 'primary', 'election', 'produced', '``', 'no', 'evidence', "''", 'that', 'any', 'irregularities', 'took', 'place', '.'], ['The', 'jury', 'further', 'said', 'in', 'term-end', 'presentments', 'that', 'the', 'City', 'Executive', 'Committee', ',', 'which', 'had', 'over-all', 'charge', 'of', 'the', 'election', ',', '``', 'deserves', 'the', 'praise', 'and', 'thanks', 'of', 'the', 'City', 'of', 'Atlanta', "''", 'for', 'the', 'manner', 'in', 'which', 'the', 'election', 'was', 'conducted', '.'], ...]

In [13]:
# 4323개의 문장
type(brown_sents), len(brown_sents)

(nltk.corpus.reader.util.ConcatenatedCorpusView, 4623)

In [15]:
# Regular Expresion Tagger
# 패턴 만들어서 집어 넣기
patterns = [
    (r".*ing$", "VBG"),
    (r".*ed$", "VBD"),
    (r".*es$", "VBZ"),
    (r".*ould$", "MD"),
    (r".*\'s$", "NN$"),
    (r".*s$", "NNS"),
    (r"^-?[0-9]+(\.[0-9]+)?$", "CD"),
    (r".*", "NN")
]

In [16]:
# nltk.RegexpTagger이용해서 패턴 적용하기
# regexp_tagger 라는 객체에 저장
regexp_tagger = nltk.RegexpTagger(patterns)
regexp_tagger

<Regexp Tagger: size=8>

In [16]:
# brwon 뉴스카테고리중 51번째 문장 가져오기
print(brown_sents[50])

['The', 'largest', 'hurdle', 'the', 'Republicans', 'would', 'have', 'to', 'face', 'is', 'a', 'state', 'law', 'which', 'says', 'that', 'before', 'making', 'a', 'first', 'race', ',', 'one', 'of', 'two', 'alternative', 'courses', 'must', 'be', 'taken', ':', '1']


In [17]:
# regexp_tagger 라는 객체에서 51번째 문장에 패턴을 적용해보기
print(regexp_tagger.tag(brown_sents[50]))

[('The', 'NN'), ('largest', 'NN'), ('hurdle', 'NN'), ('the', 'NN'), ('Republicans', 'NNS'), ('would', 'MD'), ('have', 'NN'), ('to', 'NN'), ('face', 'NN'), ('is', 'NNS'), ('a', 'NN'), ('state', 'NN'), ('law', 'NN'), ('which', 'NN'), ('says', 'NNS'), ('that', 'NN'), ('before', 'NN'), ('making', 'VBG'), ('a', 'NN'), ('first', 'NN'), ('race', 'NN'), (',', 'NN'), ('one', 'NN'), ('of', 'NN'), ('two', 'NN'), ('alternative', 'NN'), ('courses', 'VBZ'), ('must', 'NN'), ('be', 'NN'), ('taken', 'NN'), (':', 'NN'), ('1', 'CD')]


In [18]:
# 그냥 pos_tag에 적용해보기
print(nltk.pos_tag(brown_sents[50]))

[('The', 'DT'), ('largest', 'JJS'), ('hurdle', 'NN'), ('the', 'DT'), ('Republicans', 'NNPS'), ('would', 'MD'), ('have', 'VB'), ('to', 'TO'), ('face', 'NN'), ('is', 'VBZ'), ('a', 'DT'), ('state', 'NN'), ('law', 'NN'), ('which', 'WDT'), ('says', 'VBZ'), ('that', 'IN'), ('before', 'IN'), ('making', 'VBG'), ('a', 'DT'), ('first', 'JJ'), ('race', 'NN'), (',', ','), ('one', 'CD'), ('of', 'IN'), ('two', 'CD'), ('alternative', 'JJ'), ('courses', 'NNS'), ('must', 'MD'), ('be', 'VB'), ('taken', 'VBN'), (':', ':'), ('1', 'CD')]


In [18]:
# nltk에서 제공하는 태깅을 라벨로 
# evaluate(gold)	Score the accuracy of the tagger against the gold standard.
# 즉, 목표의 기준과 객체의 패턴을 비교해서 정확도를 알려주는 함수이다.
regexp_tagger.evaluate(brown_tagged_sents)

0.20186168625812995

In [20]:
brown.words(categories = "news")

['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]

In [33]:
# Lookup Tagger
# 또다른 방식의 태거이다.
# 일단 FreqDist 이용하여 뉴스 카테고리 단어들의 빈도수 체크
fd = nltk.FreqDist(brown.words(categories = "news"))
fd

FreqDist({'the': 5580, ',': 5188, '.': 4030, 'of': 2849, 'and': 2146, 'to': 2116, 'a': 1993, 'in': 1893, 'for': 943, 'The': 806, ...})

In [34]:
cfd = nltk.ConditionalFreqDist(brown.tagged_words(categories = "news")) # 특정 단어에 어떤 태그가 몇 번 사용되었는지 계산
cfd

<ConditionalFreqDist with 14394 conditions>

In [31]:
# most_common은 빈도수가 높은 순서대로 내림차순 만들어 주는 것 같음
# 세부적인 알고리즘은 이해 하지 못했음
# nltk.FreqDist.most_common, List the n most common elements and their counts from the most common to the least. If n is None, then list all element counts.
most_freq_words = fd.most_common(100)

In [32]:
most_freq_words

[('the', 5580),
 (',', 5188),
 ('.', 4030),
 ('of', 2849),
 ('and', 2146),
 ('to', 2116),
 ('a', 1993),
 ('in', 1893),
 ('for', 943),
 ('The', 806),
 ('that', 802),
 ('``', 732),
 ('is', 732),
 ('was', 717),
 ("''", 702),
 ('on', 657),
 ('at', 598),
 ('with', 545),
 ('be', 526),
 ('by', 497),
 ('as', 481),
 ('he', 451),
 ('said', 402),
 ('his', 399),
 ('will', 389),
 ('it', 363),
 ('from', 344),
 ('are', 328),
 (';', 314),
 ('an', 300),
 ('has', 300),
 ('--', 300),
 ('had', 279),
 ('who', 268),
 ('have', 265),
 ('not', 254),
 ('Mrs.', 253),
 ('were', 252),
 ('this', 250),
 ('which', 244),
 ('would', 244),
 ('their', 219),
 ('been', 212),
 ('they', 205),
 ('He', 191),
 ('one', 184),
 ('I', 179),
 ('but', 174),
 ('its', 174),
 ('or', 173),
 (')', 171),
 ('more', 171),
 ('Mr.', 170),
 ('(', 168),
 ('up', 168),
 ('all', 163),
 ('out', 161),
 ('last', 161),
 ('two', 157),
 ('other', 149),
 (':', 149),
 ('new', 148),
 ('first', 143),
 ('than', 138),
 ('year', 138),
 ('A', 137),
 ('about', 13

In [24]:
# 이 부분은 이해가 안감
likely_tags = dict( (word, cfd[word].max()) for (word, _) in most_freq_words )

In [25]:
likely_tags

{'the': 'AT',
 ',': ',',
 '.': '.',
 'of': 'IN',
 'and': 'CC',
 'to': 'TO',
 'a': 'AT',
 'in': 'IN',
 'for': 'IN',
 'The': 'AT',
 'that': 'CS',
 '``': '``',
 'is': 'BEZ',
 'was': 'BEDZ',
 "''": "''",
 'on': 'IN',
 'at': 'IN',
 'with': 'IN',
 'be': 'BE',
 'by': 'IN',
 'as': 'CS',
 'he': 'PPS',
 'said': 'VBD',
 'his': 'PP$',
 'will': 'MD',
 'it': 'PPS',
 'from': 'IN',
 'are': 'BER',
 ';': '.',
 'an': 'AT',
 'has': 'HVZ',
 '--': '--',
 'had': 'HVD',
 'who': 'WPS',
 'have': 'HV',
 'not': '*',
 'Mrs.': 'NP',
 'were': 'BED',
 'this': 'DT',
 'which': 'WDT',
 'would': 'MD',
 'their': 'PP$',
 'been': 'BEN',
 'they': 'PPSS',
 'He': 'PPS',
 'one': 'CD',
 'I': 'PPSS',
 'but': 'CC',
 'its': 'PP$',
 'or': 'CC',
 ')': ')',
 'more': 'AP',
 'Mr.': 'NP',
 '(': '(',
 'up': 'RP',
 'all': 'ABN',
 'out': 'RP',
 'last': 'AP',
 'two': 'CD',
 'other': 'AP',
 ':': ':',
 'new': 'JJ',
 'first': 'OD',
 'than': 'IN',
 'year': 'NN',
 'A': 'AT',
 'about': 'IN',
 'there': 'EX',
 'when': 'WRB',
 'home': 'NN',
 'after':

In [26]:
# UnigramTagger이용한 태깅
lookup_tagger = nltk.UnigramTagger(model=likely_tags)

In [27]:
lookup_tagger.evaluate(brown_tagged_sents)

0.45578495136941344

In [28]:
# 뉴스 카테고리의 4번쨰 문장을 받아오기
# 그 다음에 토큰화까지 해줌
sent = brown.sents(categories = "news")[3]
sent

['``',
 'Only',
 'a',
 'relative',
 'handful',
 'of',
 'such',
 'reports',
 'was',
 'received',
 "''",
 ',',
 'the',
 'jury',
 'said',
 ',',
 '``',
 'considering',
 'the',
 'widespread',
 'interest',
 'in',
 'the',
 'election',
 ',',
 'the',
 'number',
 'of',
 'voters',
 'and',
 'the',
 'size',
 'of',
 'this',
 'city',
 "''",
 '.']

In [29]:
# 태깅해주기
lookup_tagger.tag(sent)

[('``', '``'),
 ('Only', None),
 ('a', 'AT'),
 ('relative', None),
 ('handful', None),
 ('of', 'IN'),
 ('such', None),
 ('reports', None),
 ('was', 'BEDZ'),
 ('received', None),
 ("''", "''"),
 (',', ','),
 ('the', 'AT'),
 ('jury', None),
 ('said', 'VBD'),
 (',', ','),
 ('``', '``'),
 ('considering', None),
 ('the', 'AT'),
 ('widespread', None),
 ('interest', None),
 ('in', 'IN'),
 ('the', 'AT'),
 ('election', None),
 (',', ','),
 ('the', 'AT'),
 ('number', None),
 ('of', 'IN'),
 ('voters', None),
 ('and', 'CC'),
 ('the', 'AT'),
 ('size', None),
 ('of', 'IN'),
 ('this', 'DT'),
 ('city', None),
 ("''", "''"),
 ('.', '.')]

# Part-Of-Speech (POS) Tagging

# Rule-Based Tagger:
## Regular Expresion Tagger
## Lookup Tagger

In [30]:
# stochastic Tagger:

# Unigram Tagger
# train과 테스트를 분리
# 그 기준을 잡아주는 과정 
split_size = int(len(brown_tagged_sents) * 0.9)
split_size

4160

In [31]:
train_sents = brown_tagged_sents[:split_size]
test_sents = brown_tagged_sents[split_size:]

In [32]:
unigram_tagger = nltk.UnigramTagger(train_sents)

In [33]:
# train_sents가 잘 학습되었나 평가
unigram_tagger.evaluate(test_sents)

0.8121200039868434

In [34]:
# Bigram Tagger (N-gram Tagger)
bigram_tagger = nltk.BigramTagger(train_sents)

In [35]:
bigram_tagger.tag(brown_sents[1000])

[('800', 'CD'),
 ('in', 'IN'),
 ('Southern', 'JJ-TL'),
 ('New', 'JJ-TL'),
 ('England', 'NP'),
 (',', ','),
 ('we', 'PPSS'),
 ('have', 'HV'),
 ('60', 'CD'),
 (';', '.'),
 (';', '.')]

In [36]:
bigram_tagger.evaluate(test_sents)

0.10206319146815508

In [37]:
# I left my phone on the left side of the room.
# unigram : I, left, my, phone, on, the , left, side, of, the, room
# bigrams : I left, left my, my phone, phone on, on the, the left, left side, side of, of the, the room

In [38]:
unseen_sent = brown_sents[4500]

In [39]:
print(unseen_sent)

['Japan', ',', 'since', '1957', ',', 'has', 'been', '``', 'voluntarily', "''", 'curbing', 'exports', 'of', 'textiles', 'to', 'the', 'U.S.', '.']


In [40]:
print(bigram_tagger.tag(unseen_sent))

[('Japan', None), (',', None), ('since', None), ('1957', None), (',', None), ('has', None), ('been', None), ('``', None), ('voluntarily', None), ("''", None), ('curbing', None), ('exports', None), ('of', None), ('textiles', None), ('to', None), ('the', None), ('U.S.', None), ('.', None)]


In [41]:
print(nltk.pos_tag(unseen_sent))

[('Japan', 'NNP'), (',', ','), ('since', 'IN'), ('1957', 'CD'), (',', ','), ('has', 'VBZ'), ('been', 'VBN'), ('``', '``'), ('voluntarily', 'RB'), ("''", "''"), ('curbing', 'VBG'), ('exports', 'NNS'), ('of', 'IN'), ('textiles', 'NNS'), ('to', 'TO'), ('the', 'DT'), ('U.S.', 'NNP'), ('.', '.')]


In [42]:
print(unigram_tagger.tag(unseen_sent))

[('Japan', 'NP'), (',', ','), ('since', 'IN'), ('1957', 'CD'), (',', ','), ('has', 'HVZ'), ('been', 'BEN'), ('``', '``'), ('voluntarily', 'RB'), ("''", "''"), ('curbing', None), ('exports', None), ('of', 'IN'), ('textiles', None), ('to', 'TO'), ('the', 'AT'), ('U.S.', 'NP'), ('.', '.')]


# 개념은 이해했지만 세부적인 내용은 하나도 이해안된 상태
# 원론적인 공부가 필요해보임
