# NLP Basic

# 0. 준비물
- python 환경
    - 일반 python 환경
    - docker
- nltk : nlp toolkit
    - pip install nltk
    - nltk.download()
- konlpy : nlp toolkit for Korean
    - 사전 자바 설치 필요
    - pip install konlpy
    - pip install Jpype1
---

In [2]:
# import nltk
# nltk.download()

# I. Basic Concept
---

<table class="table"><tbody><tr><th>English</th><th>한국어</th><th>Description</th></tr><tr><td>Document</td><td>문서</td><td>-</td></tr><tr><td>Corpus</td><td>말뭉치</td><td>A set of documents</td></tr><tr><td>Token</td><td>토큰</td><td>Meaningful elements in a text such as words or phrases or symbols</td></tr><tr><td>Morphemes</td><td>형태소</td><td>Smallest meaningful unit in a language</td></tr><tr><td>POS</td><td>품사</td><td>Part-of-speech (ex: Nouns)</td></tr></tbody></table>

- 출처 : https://www.lucypark.kr/courses/2015-dm/text-mining.html

# II. NLP in English

In [3]:
import nltk

In [4]:
texts = "Mr. Kim, How are you? I'm fine. Thank you, and you?"
# 모두 몇개의 문장일까?

### 1. 문장분리; End of Sentence(EOS) Detection

In [5]:
# 나이브하게 접근한다면...
texts.split(".")

['Mr', " Kim, How are you? I'm fine", ' Thank you, and you?']

In [6]:
# nltk에 다 있음!
sentences = nltk.tokenize.sent_tokenize(texts)
print(sentences)

['Mr. Kim, How are you?', "I'm fine.", 'Thank you, and you?']


### 2. 토큰화; Tokenization 
- 문장을 토큰으로 분리

In [7]:
# word Toknize
tokens_list = [nltk.word_tokenize(sent) for sent in sentences]
print(tokens_list)

[['Mr.', 'Kim', ',', 'How', 'are', 'you', '?'], ['I', "'m", 'fine', '.'], ['Thank', 'you', ',', 'and', 'you', '?']]


### 3. 품사 부착; Part-of-speech(POS) Tagging
- 토큰에 품사 정보를 지정.
- [태그 정보]( http://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html)

In [8]:
# Pos tagging
pos_tagged_tokens = [nltk.pos_tag(tokens) for tokens in tokens_list]
print(pos_tagged_tokens)

[[('Mr.', 'NNP'), ('Kim', 'NNP'), (',', ','), ('How', 'NNP'), ('are', 'VBP'), ('you', 'PRP'), ('?', '.')], [('I', 'PRP'), ("'m", 'VBP'), ('fine', 'JJ'), ('.', '.')], [('Thank', 'NNP'), ('you', 'PRP'), (',', ','), ('and', 'CC'), ('you', 'PRP'), ('?', '.')]]


### 4. 구문 분석; Parsing

### 5. 개체명인식(NER) & Chunking

In [9]:
for chunk in nltk.ne_chunk_sents(pos_tagged_tokens):
    print(chunk)
#     chunk.draw()

(S (PERSON Mr./NNP) (PERSON Kim/NNP) ,/, How/NNP are/VBP you/PRP ?/.)
(S I/PRP 'm/VBP fine/JJ ./.)
(S Thank/NNP you/PRP ,/, and/CC you/PRP ?/.)


# III. NLP in Korean
- [Konlpy](http://konlpy-ko.readthedocs.io/ko/v0.4.3/)
- [태그 정보](https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0)

In [115]:
sent_ver1 = "철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자."
sent_ver2 = "님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ"

### 1. 문장분리; End of Sentence(EOS) Detection

In [116]:
import konlpy
from konlpy.tag import Kkma # 꼬꼬마 형태소 분석기

In [117]:
tagger_kkma = Kkma()

In [118]:
tagger_kkma.sentences(sent_ver1) 

['철수야, 밥 먹었니?', '만약 너가 아직 먹지 않았다면 같이 밥 먹으러 가자. 1 시간 뒤에 정문에서 보자.']

In [119]:
tagger_kkma.sentences(sent_ver2) # 노답...

['님들 한글 자연어처리 어려운 각 ㅇ ㅈ?? ㅇ ㅇ ㅈ ㅋㅋㅋㅋ 한글 파 괘 지리구 옄 ㅋㅋㅋ 띄어쓰기 오지구 옄 ㅋㅋ']

### 2. 토큰화 & 품사 부착; Tokenization & Part-of-speech(POS) Tagging

### i) 어절단위

In [126]:
nltk.word_tokenize(sent_ver1)

['철수야', ',', '밥먹었니', '?', '만약', '너가', '아직', '먹지', '않았다면', '같이', '밥먹으러', '가자', '.', '1시간', '뒤에', '정문에서', '보자', '.']

In [129]:
nltk.word_tokenize(sent_ver2)

['님들', '한글', '자연어처리', '어려운각', 'ㅇㅈ', '?', '?', 'ㅇ', 'ㅇㅈㅋㅋㅋㅋ', '한글파괘지리구옄ㅋㅋㅋ', '띄어쓰기오지구옄ㅋㅋ']

In [132]:
# 이렇게 해도됨.
sent_ver1.split(' ')

['철수야,', '밥먹었니?', '만약', '너가', '아직', '먹지', '않았다면', '같이', '밥먹으러', '가자.', '1시간', '뒤에', '정문에서', '보자.']

### ii) 형태소단위

#### 1) Kkma

In [137]:
# 형태소 단위 분리
print(sent_ver1)
print(tagger_kkma.morphs(sent_ver1))
print()
print(sent_ver2)
print(tagger_kkma.morphs(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
['철수', '야', ',', '밥', '먹', '었', '니', '?', '만약', '너', '가', '아직', '먹', '지', '않', '았', '다면', '같이', '밥', '먹', '으러', '가', '자', '.', '1', '시간', '뒤', '에', '정문', '에서', '보', '자', '.']

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
['님', '들', '한글', '자연어', '처리', '어렵', 'ㄴ', '각', 'ㅇ', 'ㅈ', '??', 'ㅇ', 'ㅇ', 'ㅈ', 'ㅋㅋㅋㅋ', '한글', '파', '괘', '지리구', '옄', 'ㅋㅋㅋ', '띄어쓰기', '오', '지구', '옄', 'ㅋㅋ']


In [139]:
# 형태소에 POS tagging
print(sent_ver1)
print(tagger_kkma.pos(sent_ver1))
print()
print(sent_ver2)
print(tagger_kkma.pos(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
[('철수', 'NNG'), ('야', 'JX'), (',', 'SP'), ('밥', 'NNG'), ('먹', 'VV'), ('었', 'EPT'), ('니', 'EFQ'), ('?', 'SF'), ('만약', 'NNG'), ('너', 'NP'), ('가', 'JKS'), ('아직', 'MAG'), ('먹', 'VV'), ('지', 'ECD'), ('않', 'VXV'), ('았', 'EPT'), ('다면', 'ECE'), ('같이', 'MAG'), ('밥', 'NNG'), ('먹', 'VV'), ('으러', 'ECD'), ('가', 'VV'), ('자', 'ECE'), ('.', 'SF'), ('1', 'NR'), ('시간', 'NNG'), ('뒤', 'NNG'), ('에', 'JKM'), ('정문', 'NNG'), ('에서', 'JKM'), ('보', 'VV'), ('자', 'ECE'), ('.', 'SF')]

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
[('님', 'NNG'), ('들', 'XSN'), ('한글', 'NNG'), ('자연어', 'NNG'), ('처리', 'NNG'), ('어렵', 'VA'), ('ㄴ', 'ETD'), ('각', 'NNG'), ('ㅇ', 'NNG'), ('ㅈ', 'NNG'), ('??', 'SW'), ('ㅇ', 'NNG'), ('ㅇ', 'NNG'), ('ㅈ', 'NNG'), ('ㅋㅋㅋㅋ', 'EMO'), ('한글', 'NNG'), ('파', 'NNG'), ('괘', 'NNG'), ('지리구', 'NNG'), ('옄', 'UN'), ('ㅋㅋㅋ', 'EMO'), ('띄어쓰기', 'NNG'), ('오', 'NNG'), ('지구', 'NNG'), ('옄', 'UN'), ('ㅋㅋ', 'EMO')]


In [141]:
# 명사 추출
print(sent_ver1)
print(tagger_kkma.nouns(sent_ver1))
print()
print(sent_ver2)
print(tagger_kkma.nouns(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
['철수', '밥', '만약', '너', '1', '1시간', '시간', '뒤', '정문']

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
['님', '한글', '자연어', '자연어처리', '처리', '각', 'ㅇ', 'ㅇㅈ', 'ㅈ', '한글파괘지리구', '파', '괘', '지리구', '옄', '띄어쓰기', '띄어쓰기오지구옄', '오', '지구']


#### 2) Komoran

In [142]:
from konlpy.tag import Komoran
tagger_kmr = Komoran()

In [143]:
# 형태소 단위 분리
print(sent_ver1)
print(tagger_kmr.morphs(sent_ver1))
print()
print(sent_ver2)
print(tagger_kmr.morphs(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
['철수', '야', ',', '밥', '먹', '었', '니', '?', '만약', '너', '가', '아직', '먹', '지', '않', '았', '다면', '같이', '밥', '먹', '으러', '가', '자', '.', '1시간', '뒤', '에', '정문', '에서', '보', '자', '.']

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
['님', '들', '한글', '자연어', '처리', '어렵', 'ㄴ', '각', 'ㅇㅈ??', 'ㅇ', 'ㅇㅈㅋㅋㅋㅋ', '한글파괘지리구옄ㅋㅋㅋ', '띄어쓰기오지구옄ㅋㅋ']


In [144]:
# 형태소에 POS tagging
print(sent_ver1)
print(tagger_kmr.pos(sent_ver1))
print()
print(sent_ver2)
print(tagger_kmr.pos(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
[('철수', 'NNG'), ('야', 'JKV'), (',', 'SP'), ('밥', 'NNG'), ('먹', 'VV'), ('었', 'EP'), ('니', 'EF'), ('?', 'SF'), ('만약', 'MAG'), ('너', 'NP'), ('가', 'JKS'), ('아직', 'MAG'), ('먹', 'VV'), ('지', 'EC'), ('않', 'VX'), ('았', 'EP'), ('다면', 'EC'), ('같이', 'MAG'), ('밥', 'NNG'), ('먹', 'VV'), ('으러', 'EC'), ('가', 'VV'), ('자', 'EF'), ('.', 'SF'), ('1시간', 'NNP'), ('뒤', 'NNG'), ('에', 'JKB'), ('정문', 'NNG'), ('에서', 'JKB'), ('보', 'VX'), ('자', 'EF'), ('.', 'SF')]

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
[('님', 'NNG'), ('들', 'XSN'), ('한글', 'NNG'), ('자연어', 'NNP'), ('처리', 'NNG'), ('어렵', 'VA'), ('ㄴ', 'ETM'), ('각', 'NNG'), ('ㅇㅈ??', 'NA'), ('ㅇ', 'NA'), ('ㅇㅈㅋㅋㅋㅋ', 'NA'), ('한글파괘지리구옄ㅋㅋㅋ', 'NA'), ('띄어쓰기오지구옄ㅋㅋ', 'NA')]


In [151]:
# 명사 추출
print(sent_ver1)
print(tagger_kmr.nouns(sent_ver1))
print()
print(sent_ver2)
print(tagger_kmr.nouns(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
['철수', '밥', '밥', '1시간', '뒤', '정문']

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
['님', '한글', '자연어', '처리', '각']


#### 3) Mecab

In [152]:
from konlpy.tag import Mecab
tagger_mc = Mecab()

In [153]:
# 형태소 단위 분리
print(sent_ver1)
print(tagger_mc.morphs(sent_ver1))
print()
print(sent_ver2)
print(tagger_mc.morphs(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
['철수', '야', ',', '밥', '먹', '었', '니', '?', '만약', '너', '가', '아직', '먹', '지', '않', '았', '다면', '같이', '밥', '먹', '으러', '가', '자', '.', '1', '시간', '뒤', '에', '정문', '에서', '보', '자', '.']

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
['님', '들', '한글', '자연어', '처리', '어려운', '각', 'ㅇㅈ', '?', '?', 'ㅇ', 'ㅇㅈㅋㅋㅋㅋ', '한글', '파', '괘', '지리', '구', '옄ㅋㅋㅋ', '띄어쓰', '기', '오지', '구', '옄ㅋㅋ']


In [154]:
# 형태소에 POS tagging
print(sent_ver1)
print(tagger_mc.pos(sent_ver1))
print()
print(sent_ver2)
print(tagger_mc.pos(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
[('철수', 'NNP'), ('야', 'JKV'), (',', 'SC'), ('밥', 'NNG'), ('먹', 'VV'), ('었', 'EP'), ('니', 'EF'), ('?', 'SF'), ('만약', 'MAG'), ('너', 'NP'), ('가', 'JKS'), ('아직', 'MAG'), ('먹', 'VV'), ('지', 'EC'), ('않', 'VX'), ('았', 'EP'), ('다면', 'EC'), ('같이', 'MAG'), ('밥', 'NNG'), ('먹', 'VV'), ('으러', 'EC'), ('가', 'VX'), ('자', 'EC'), ('.', 'SY'), ('1', 'SN'), ('시간', 'NNBC'), ('뒤', 'NNG'), ('에', 'JKB'), ('정문', 'NNG'), ('에서', 'JKB'), ('보', 'VV'), ('자', 'EF'), ('.', 'SF')]

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
[('님', 'NNG'), ('들', 'XSN'), ('한글', 'NNG'), ('자연어', 'NNG'), ('처리', 'NNG'), ('어려운', 'VA+ETM'), ('각', 'MM'), ('ㅇㅈ', 'UNKNOWN'), ('?', 'SF'), ('?', 'SY'), ('ㅇ', 'UNKNOWN'), ('ㅇㅈㅋㅋㅋㅋ', 'UNKNOWN'), ('한글', 'NNG'), ('파', 'NNG'), ('괘', 'NNG'), ('지리', 'VV'), ('구', 'EC'), ('옄ㅋㅋㅋ', 'UNKNOWN'), ('띄어쓰', 'VV'), ('기', 'ETN'), ('오지', 'VV'), ('구', 'EC'), ('옄ㅋㅋ', 'UNKNOWN')]


In [155]:
# 명사 추출
print(sent_ver1)
print(tagger_mc.nouns(sent_ver1))
print()
print(sent_ver2)
print(tagger_mc.nouns(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
['철수', '밥', '너', '밥', '시간', '뒤', '정문']

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
['님', '한글', '자연어', '처리', '한글', '파', '괘']


#### 4) Twitter

In [157]:
from konlpy.tag import Twitter
tagger_twi = Twitter()

In [159]:
# 형태소 단위 분리
print(sent_ver1)
print(tagger_twi.morphs(sent_ver1))
print()
print(sent_ver2)
print(tagger_twi.morphs(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
['철수', '야', ',', '밥', '먹었', '니', '?', '만약', '너', '가', '아직', '먹지', '않았', '다면', '같이', '밥', '먹으', '러', '가자', '.', '1', '시간', '뒤', '에', '정문', '에서', '보자', '.']

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
['님들', '한글', '자연어', '처리', '어려운', '각', 'ㅇㅈ', '??', 'ㅇ', 'ㅇㅈㅋㅋㅋㅋ', '한글', '파', '괘지리구옄', 'ㅋㅋㅋ', '띄어쓰기', '오지', '구', '옄', 'ㅋㅋ']


In [162]:
# 형태소에 POS tagging
print(sent_ver1)
print(tagger_twi.pos(sent_ver1))
print()
print(sent_ver2)
print(tagger_twi.pos(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
[('철수', 'Noun'), ('야', 'Josa'), (',', 'Punctuation'), ('밥', 'Noun'), ('먹었', 'Verb'), ('니', 'Eomi'), ('?', 'Punctuation'), ('만약', 'Noun'), ('너', 'Noun'), ('가', 'Josa'), ('아직', 'Noun'), ('먹지', 'Verb'), ('않았', 'Verb'), ('다면', 'Eomi'), ('같이', 'Josa'), ('밥', 'Noun'), ('먹으', 'Verb'), ('러', 'Eomi'), ('가자', 'Verb'), ('.', 'Punctuation'), ('1', 'Number'), ('시간', 'Noun'), ('뒤', 'Noun'), ('에', 'Josa'), ('정문', 'Noun'), ('에서', 'Josa'), ('보자', 'Verb'), ('.', 'Punctuation')]

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
[('님들', 'Noun'), ('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('어려운', 'Adjective'), ('각', 'Noun'), ('ㅇㅈ', 'KoreanParticle'), ('??', 'Punctuation'), ('ㅇ', 'KoreanParticle'), ('ㅇㅈㅋㅋㅋㅋ', 'KoreanParticle'), ('한글', 'Noun'), ('파', 'Noun'), ('괘지리구옄', 'Noun'), ('ㅋㅋㅋ', 'KoreanParticle'), ('띄어쓰기', 'Noun'), ('오지', 'Verb'), ('구', 'Eomi'), ('옄', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]


In [164]:
# 형태소에 POS tagging + Normalize
print(sent_ver2)
print()
print(tagger_twi.pos(sent_ver2, norm=True))
print()
print(tagger_twi.pos(sent_ver2, norm=True, stem=True))

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ

[('님들', 'Noun'), ('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('어려운', 'Adjective'), ('각', 'Noun'), ('ㅇㅈ', 'KoreanParticle'), ('??', 'Punctuation'), ('ㅇ', 'KoreanParticle'), ('ㅇㅈㅋㅋ', 'KoreanParticle'), ('한글', 'Noun'), ('파괘', 'Noun'), ('지리', 'Noun'), ('구', 'Noun'), ('여', 'Josa'), ('ㅋㅋ', 'KoreanParticle'), ('띄어쓰기', 'Noun'), ('오지', 'Verb'), ('구여', 'Eomi'), ('ㅋㅋ', 'KoreanParticle')]

[('님들', 'Noun'), ('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('어렵다', 'Adjective'), ('각', 'Noun'), ('ㅇㅈ', 'KoreanParticle'), ('??', 'Punctuation'), ('ㅇ', 'KoreanParticle'), ('ㅇㅈㅋㅋ', 'KoreanParticle'), ('한글', 'Noun'), ('파괘', 'Noun'), ('지리', 'Noun'), ('구', 'Noun'), ('여', 'Josa'), ('ㅋㅋ', 'KoreanParticle'), ('띄어쓰기', 'Noun'), ('오다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]


In [165]:
# 명사 추출
print(sent_ver1)
print(tagger_twi.nouns(sent_ver1))
print()
print(sent_ver2)
print(tagger_twi.nouns(sent_ver2))

철수야, 밥먹었니? 만약 너가 아직 먹지 않았다면 같이 밥먹으러 가자. 1시간 뒤에 정문에서 보자.
['철수', '밥', '만약', '너', '아직', '밥', '시간', '뒤', '정문']

님들 한글 자연어처리 어려운각 ㅇㅈ?? ㅇ ㅇㅈㅋㅋㅋㅋ 한글파괘지리구옄ㅋㅋㅋ 띄어쓰기오지구옄ㅋㅋ
['님들', '한글', '자연어', '처리', '각', '한글', '파', '괘지리구옄', '띄어쓰기', '옄']


### 3. 구문 분석; Parsing

In [176]:
# Define a chunk grammar, or chunking rules, then chunk
# 명사가 연속적으로 등장한 후 접미사(suffix)가 선택적으로 붙은 경우를 명사구(NP)로 정의, 
# 마찬가지 방식으로 동사구(VP)와 형용사구(AP)를 정의
grammar = """
NP: {<N.*>*<Suffix>?}   # Noun phrase
VP: {<V.*>*}            # Verb phrase
AP: {<A.*>*}            # Adjective phrase
"""

In [185]:
sent = "양념치킨과 후라이드치킨은 둘다 엄청 맛있는 음식이다."

In [186]:
parser = nltk.RegexpParser(grammar)

In [187]:
words_tagged = tagger_kmr.pos(sent)
chunks = parser.parse(words_tagged)

In [188]:
chunks.pprint()

(S
  (NP 양념치킨/NNP)
  과/JC
  (NP 후/NNG 라이드/NNP 치킨/NNG)
  은/JX
  (NP 둘/NR)
  다/JX
  엄청/MAG
  (VP 맛있/VA)
  는/ETM
  (NP 음식/NNG)
  (VP 이/VCP)
  다/EF
  ./SF)


In [None]:
chunks.draw()

In [None]:
word_freq = collections.Counter(text_tokenized)
vocab = word_freq.most_common(vocab_size - 1)

In [None]:
# 전체 단어 갯수
len(vocab)

In [None]:
from bokeh.plotting import figure, output_notebook, show
from bokeh.charts.attributes import CatAttr
from bokeh.charts import Dot
# from bokeh.models import ColumnDataSource, LabelSet
# from bokeh.models import HoverTool
output_notebook() # 주피터 노트북에서 볼때,
#output_file("chart.html") # 주피터노트북이 아닌 html로 출력할때,

In [None]:
data = {
    'token': [ ele[0] for ele in vocab][2:500],
    'freq': [ ele[1] for ele in vocab][2:500]
}
tools = "pan,wheel_zoom,box_zoom,reset,resize"

dots = Dot(data, values='freq', label=CatAttr(columns=['token'], sort=False), legend=False, title="Python Interpreter Sampling", width=600)
