# KoNLPy (Korean Morph Parser Library)
[KoNLPy : link -> here](https://konlpy.org/en/latest/)

## 2 . Okt로 형태소 분석하기

### 1) KoNLPy 설치하기

In [None]:
pip install konlpy # KoNLPy 인스톨

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.2MB/s 
[?25hCollecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/cd/a5/9781e2ef4ca92d09912c4794642c1653aea7607f473e156cf4d423a881a1/JPype1-1.2.1-cp37-cp37m-manylinux2010_x86_64.whl (457kB)
[K     |████████████████████████████████| 460kB 31.8MB/s 
[?25hCollecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Collecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 7.7MB/s 
Installing collected packages: JPy

KoNLPy의 형태소 분석기 : Mecab, Okt, Kkma, Hannanum, Komoran 
> pos : 품사 부착, 
> nouns : 명사 추출, 
> morphs : 형태소 추출

### 2) 테스트 텍스트 읽기

In [None]:
# "  "안에 다른 내용을 넣어서 테스트해 보세요.
text1="아버지가방에들어가셨다"
text2="차에서잠깐내려서차한잔하려던차에TV에서남북일차정상회담생중계가보였다"
text3="그녀는 너무 예뻤어. 그대 내게 오지 말아요"

### 3) Okt 불러오기

In [None]:
from konlpy.tag import Okt   # Okt import
okt=Okt()                    # Okt()를 변수 okt에 담기

### 4) pos 실행하기(품사 부착)
기본적으로 [('단어','품사'),…]의 형식으로 출력된다.
* norm=True : 정규화, 즉 줄임말이나 구어체 표현의 표준어 기본형을 반환 ➜ 정확도 떨어짐.
* stem=True : 용언 활용형의 경우 기본형을 반환  ➜ 어미가 사라짐.
* join=True : 출력 형식을 ['단어/품사',…]로 변환

norm=True, stem=True

In [None]:
# 품사 부착해서 보여주기
pos1=okt.pos(text1)
pos2=okt.pos(text2)
pos3=okt.pos(text3)
print(pos1)
print(pos2)
print(pos3)

[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가셨다', 'Verb')]
[('차', 'Noun'), ('에서', 'Josa'), ('잠깐', 'Noun'), ('내려서', 'Verb'), ('차', 'Noun'), ('한잔', 'Noun'), ('하려던', 'Verb'), ('차', 'Noun'), ('에', 'Josa'), ('TV', 'Alpha'), ('에서', 'Josa'), ('남북', 'Noun'), ('일차', 'Noun'), ('정상회담', 'Noun'), ('생중계', 'Noun'), ('가', 'Josa'), ('보였다', 'Verb')]
[('그녀', 'Noun'), ('는', 'Josa'), ('너무', 'Adverb'), ('예뻤어', 'Adjective'), ('.', 'Punctuation'), ('그대', 'Noun'), ('내게', 'Verb'), ('오지', 'Noun'), ('말아요', 'Verb')]


In [None]:
# 품사 부착+(norm=True, stem=True)해서 보여주기
pos1=okt.pos(text1,norm=True, stem=True)
pos2=okt.pos(text2,norm=True, stem=True)
pos3=okt.pos(text3,norm=True, stem=True)
print(pos1)
print(pos2)
print(pos3)

[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가다', 'Verb')]
[('차', 'Noun'), ('에서', 'Josa'), ('잠깐', 'Noun'), ('내다', 'Verb'), ('차', 'Noun'), ('한잔', 'Noun'), ('하다', 'Verb'), ('차', 'Noun'), ('에', 'Josa'), ('TV', 'Alpha'), ('에서', 'Josa'), ('남북', 'Noun'), ('일차', 'Noun'), ('정상회담', 'Noun'), ('생중계', 'Noun'), ('가', 'Josa'), ('보이다', 'Verb')]
[('그녀', 'Noun'), ('는', 'Josa'), ('너무', 'Adverb'), ('예쁘다', 'Adjective'), ('.', 'Punctuation'), ('그대', 'Noun'), ('내다', 'Verb'), ('오지', 'Noun'), ('말다', 'Verb')]


In [None]:
# norm=True 의 실례, 어미 처리를 확인하려면 stem=False 또는 지정하지 않아야 함
print(okt.pos("좋아 보이네욬ㅋㅋ",norm=True, stem=True))
print(okt.pos("좋아 보이네욬ㅋㅋ",norm=True, stem=False))
print(okt.pos("좋아 보이네욬ㅋㅋ",norm=True))
print(okt.pos("좋아 보이네욬ㅋㅋ",norm=True, stem=False, join=True))

[('좋다', 'Adjective'), ('보이다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]
[('좋아', 'Adjective'), ('보이네요', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]
[('좋아', 'Adjective'), ('보이네요', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]
['좋아/Adjective', '보이네요/Verb', 'ㅋㅋ/KoreanParticle']


In [None]:
text="남들도 모르게 서성이다 울었지. 지나온 일들이 가슴에 사무쳐. 하얀 눈 하늘 높이 자꾸 올라가네"
# print(okt.pos(text))
# print(okt.morphs(text))

print(okt.pos(text, stem=True))
print(okt.morphs(text, stem=True))

[('남', 'Noun'), ('들', 'Suffix'), ('도', 'Josa'), ('모르다', 'Verb'), ('서성', 'Noun'), ('이다', 'Josa'), ('울다', 'Verb'), ('.', 'Punctuation'), ('지나', 'Noun'), ('온', 'Noun'), ('일', 'Noun'), ('들', 'Suffix'), ('이', 'Josa'), ('가슴', 'Noun'), ('에', 'Josa'), ('사무치다', 'Verb'), ('.', 'Punctuation'), ('하얗다', 'Adjective'), ('눈', 'Noun'), ('하늘', 'Noun'), ('높이', 'Noun'), ('자꾸', 'Noun'), ('올라가다', 'Verb')]
['남', '들', '도', '모르다', '서성', '이다', '울다', '.', '지나', '온', '일', '들', '이', '가슴', '에', '사무치다', '.', '하얗다', '눈', '하늘', '높이', '자꾸', '올라가다']


In [None]:
# 특정 품사만 추출하기
text="남들도 모르게 서성이다 울었지. 지나온 일들이 가슴에 사무쳐. 하얀 눈 하늘 높이 자꾸 올라가네"
pos_result=okt.pos(text,norm=True, stem=True)
filtering_result = [x for x, y in pos_result if y in ['Noun', 'Adjective', 'Verb']] # 명사, 형용사, 동사만 추출
print(filtering_result)              

['남', '모르다', '서성', '울다', '지나', '온', '일', '가슴', '사무치다', '하얗다', '눈', '하늘', '높이', '자꾸', '올라가다']
