# 형태소 분석 및 품사 태깅

KoNLPy에서는 여러 형태소 분석기를 제공하며, 각 형태소 분석기별로 결과는 다를 수 있다.
- Hannanum
- Kkama
- Komaran
- Mecab(윈도우에서 사용 불가)
- Okt(Twitter에서 이름이 바뀜)

형태소란?
> 의미를 가지는 가장 작은 단위로서 더 쪼개지면 의미를 상실하는 것들을 의미한다.

In [4]:
import konlpy
from konlpy.tag import Okt

# 분석기를 사용하기 위해서는 객체를 먼저 생성해야 한다.
okt= Okt()

- okt.morphs() : 텏트를 형태로 단위로 나눈다.
    - norm옵션 : 문장을 정규화
    - stem옵션 : 단어의 어간 추출
    
- okt.nouns() : 명사 추출
- okt.phrases() : 어절 추출
- okt.pos() : 품사 태깅
    - morphs함수와 마찬가지로 norm, stem옵션과 추가적으로 join함수(형태소/품사 형태로 리스트화)가 있다.

In [10]:
text = '한글 자연어 처리는 재밌다 이제부터 열심히 해야지ㅎㅎㅎ'

print(okt.morphs(text))
print(okt.morphs(text, stem=True)) # 어간으로 리턴한다.

['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '해야지', 'ㅎㅎㅎ']
['한글', '자연어', '처리', '는', '재밌다', '이제', '부터', '열심히', '하다', 'ㅎㅎㅎ']


In [13]:
print(okt.nouns(text))
print(okt.phrases(text)) # 어절 단위로 나누어 추출

['한글', '자연어', '처리', '이제']
['한글', '한글 자연어', '한글 자연어 처리', '이제', '자연어', '처리']


In [16]:
print(okt.pos(text))
print(okt.pos(text, join=True)) # 형태소와 품사를 붙여서 리스트화

[('한글', 'Noun'), ('자연어', 'Noun'), ('처리', 'Noun'), ('는', 'Josa'), ('재밌다', 'Adjective'), ('이제', 'Noun'), ('부터', 'Josa'), ('열심히', 'Adverb'), ('해야지', 'Verb'), ('ㅎㅎㅎ', 'KoreanParticle')]
['한글/Noun', '자연어/Noun', '처리/Noun', '는/Josa', '재밌다/Adjective', '이제/Noun', '부터/Josa', '열심히/Adverb', '해야지/Verb', 'ㅎㅎㅎ/KoreanParticle']


# KoNLPy 데이터
KoNLPy는 한글 데이터를 포함하고 있다.
- kolaw : 한국 법률 코퍼스. 'constitution.txt'파일로 저장돼 있다.
- kobill : 대한민국 국회 의안 말뭉치. '1809890.txt' 부터 '1809899.txt'까지로 구성돼 있다.

In [18]:
from konlpy.corpus import kolaw
from konlpy.corpus import kobill

In [27]:
kolaw.open('constitution.txt').read()[:100]

'대한민국헌법\n\n유구한 역사와 전통에 빛나는 우리 대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에 항거한 4·19민주이념을 계승하고, 조국의 민주개혁과 평화적 통일의'

In [28]:
kobill.open('1809890.txt').read()[:100]

'지방공무원법 일부개정법률안\n\n(정의화의원 대표발의 )\n\n 의 안\n 번 호\n\n9890\n\n발의연월일 : 2010.  11.  12.  \n\n발  의  자 : 정의화․이명수․김을동 \n\n이'