# 단어 토큰화 및 품사 태깅 Code

## 영어 Code

영어의 경우 NLTK를 활용하여 토큰화가 가능합니다. NLTK는 Penn Treebank POS Tags를 기준으로 하여 품사 태깅을 합니다.

In [1]:
from nltk.tokenize import word_tokenize
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
x = word_tokenize(text)
print(x)

['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']


In [2]:
from nltk.tag import pos_tag
pos_tag(x)

[('I', 'PRP'),
 ('am', 'VBP'),
 ('actively', 'RB'),
 ('looking', 'VBG'),
 ('for', 'IN'),
 ('Ph.D.', 'NNP'),
 ('students', 'NNS'),
 ('.', '.'),
 ('and', 'CC'),
 ('you', 'PRP'),
 ('are', 'VBP'),
 ('a', 'DT'),
 ('Ph.D.', 'NNP'),
 ('student', 'NN'),
 ('.', '.')]

**Penn Treebank**

|Number|Tag|Description|
|------|---|-----------|
|1.|CC |Coordinating conjunction|
|2.|CD |Cardinal number|
|3.|DT |Determiner|
|4.|EX |Existential there|
|5.|FW |Foreign word|
|6.|IN |Preposition or subordinating conjunction|
|7.|JJ |Adjective|
|8.|JJR|Adjective, comparative|
|9.|JJS|Adjective, superlative|
|10.|LS|List item marker|
|11.|MD|Modal|
|12.|NN|Noun, singular or mass|
|13.|NNS|Noun, plural|
|14.|NNP|Proper noun, singular|
|15.|NNPS|Proper noun, plural|
|16.|PDT|Predeterminer|
|17.|POS|Possessive ending|
|18.|PRP|Personal pronoun|
|19.|PRP\\$|Possessive pronoun|
|20.|RB |Adverb|
|21.|RBR|Adverb, comparative|
|22.|RBS|Adverb, superlative|
|23.|RP	|Particle|
|24.|SYM|Symbol|
|25.|TO	|to|
|26.|UH	|Interjection|
|27.|VB	|Verb, base form|
|28.|VBD|Verb, past tense|
|29.|VBG|Verb, gerund or present participle|
|30.|VBN|Verb, past participle|
|31.|VBP|Verb, non-3rd person singular present|
|32.|VBZ|Verb, 3rd person singular present|
|33.|WDT|Wh-determiner|
|34.|WP	|Wh-pronoun|
|35.|WP$|Possessive wh-pronoun|
|36.|WRB|Wh-adverb|

## 한국어 Code

한국어의 경우 KoNLPy를 활용하여 토큰화가 가능합니다. KoNLPy에서 제공하는 형태소 분석기는 다음과 같습니다.

- Okt (Open Korea Text)
- 매캡 (Mecab)
- 코모란 (Komoran)
- 꼬꼬마 (Kkma)
- 한나눔 (Hannanum)

**Okt**

- `morphs` : 형태소 분석
- `pos` : 품사 태깅 (Part-of-speech tagging)
- `nouns` : 명사 추출

In [3]:
from konlpy.tag import Okt
text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
okt = Okt()

In [4]:
# 형태소 분석 결과 출력
print(okt.morphs(text))

['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']


In [5]:
# 품사 태깅 결과 출력
print(okt.pos(text))

[('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]


In [6]:
# 명사만 출력
print(okt.nouns(text))

['코딩', '당신', '연휴', '여행']


**꼬꼬마**

- `morphs` : 형태소 분석
- `pos` : 품사 태깅 (Part-of-speech tagging)
- `nouns` : 명사 추출

In [7]:
from konlpy.tag import Kkma
text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
kkma = Kkma()

In [8]:
print(kkma.morphs(text))

['열심히', '코딩', '하', 'ㄴ', '당신', ',', '연휴', '에', '는', '여행', '을', '가보', '아요']


In [9]:
print(kkma.pos(text))

[('열심히', 'MAG'), ('코딩', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('당신', 'NP'), (',', 'SP'), ('연휴', 'NNG'), ('에', 'JKM'), ('는', 'JX'), ('여행', 'NNG'), ('을', 'JKO'), ('가보', 'VV'), ('아요', 'EFN')]


In [10]:
print(kkma.nouns(text))

['코딩', '당신', '연휴', '여행']



**세종 품사 태그**

|대분류|태그|설명|
|----|---|---|
|체언|NNG|일반 명사|
|체언|NNP|고유 명사|
|체언|NNB|의존 명사|
|체언|NR |수사|
|체언|NP |대명사|
|용언|VV |동사|
|용언|VA |형용사|
|용언|VX |보조 용언|
|용언|VCP|긍정 지정사|
|용언|VCN|부정 지정사|
|관형사|MM|관형사|
|부사|MAG|일반 부사|
|부사|MAJ|접속 부사|
|감탄사|IC|감탄사|
|조사|JKS|주격 조사|
|조사|JKC|보격 조사|
|조사|JKG|관형격 조사|
|조사|JKO|목적격 조사|
|조사|JKB|부사격 조사|
|조사|JKV|호격 조사|
|조사|JKQ|인용격 조사|
|조사|JX |보조사|
|조사|JC |접속 조사|
|선어말 어미|EP|선어말 어미|
|어말 어미|EF|종결 어미|
|어말 어미|EC||연결 어미|
|어말 어미|ETN|명사형 전성 어미|
|어말 어미|ETM|관형형 전성 어미|
|접두사|XPN|체언 접두사|
|접미사|XSN|명사 파생 접미사|
|접미사|XSV|동사 파생 접미사|
|접미사|XSA|형용사 파생 접미사|
|어근|XR|어근|
|부호|SF|마침표, 물음표, 느낌표|
|부호|SP|쉼표, 가운뎃점, 콜론, 빗금|
|부호|SS|따옴표, 괄호표, 줄표|
|부호|SE|줄임표|
|부호|SO|붙임표 (물결, 숨김, 빠짐)|
|부호|SW|기타기호 (논리수학기호, 화폐기호)|
|분석 불능|NF|명사추정범주|
|분석 불능|NV|용언추정범주|
|분석 불능|NA|분석불능범주|
|한글 이외|SL|외국어|
|한글 이외|SH|한자|
|한글 이외|SN|숫자|