# KoNLPy
##Kkma
Kkma는 서울대학교 Intelligent Data Systems 연구실에서 자연어 처리를 위해 개발한 한국어 형태소 분석기이다. Kkma는 "꼬꼬마"로 발음되며, GPL v2 라이선스를 따른다. KoNLPy의 꼬꼬마 형태소 분석기를 사용해보자

In [None]:
!pip install konlpy
from konlpy.tag import Kkma

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.2 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.4.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (453 kB)
[K     |████████████████████████████████| 453 kB 46.9 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.4.0 konlpy-0.6.0


In [None]:
# morphs(phrase) : 인자로 입력한 문장을 형태소 단위로 토크나이징한다. 토크나이징된 형태소들은 리스트 형태로 반환한다.
# nouns(phrase) : 인자로 입혁한 문장에서 명사인 토큰만 추출한다.
# pos(phrase) : POS tagger라 부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅을 한다. 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여서 리스트로 반환된다.
# sentences(phrase) : 인자로 입력한 여러 문장을 분리해주는 역할을 한다. 분리된 문장은 리스트 형태로 반환된다.

In [None]:
# 꼬꼬마 형태소 분석기 객체 생성
kkma = Kkma()

text = "온 몸으로 바람을 모두 모아서 힘을 합치자! 아라시! 아라시! 포드림!"

#형태소 추출
morphs = kkma.morphs(text)
print(morphs)

#형태소와 품사 태그 추출
pos = kkma.pos(text)
print(pos)

# 명사만 추출
nouns = kkma.nouns(text)
print(nouns)

# 문장 분리

sentences = "안녕하세요? 저희는 아라시입니다."
s = kkma.sentences(sentences)
print(s)

['오', 'ㄴ', '몸', '으로', '바람', '을', '모두', '모으', '아서', '힘', '을', '합치', '자', '!', '아', '라', '시', '!', '아', '라', '시', '!', '포', '드림', '!']
[('오', 'VV'), ('ㄴ', 'ETD'), ('몸', 'NNG'), ('으로', 'JKM'), ('바람', 'NNG'), ('을', 'JKO'), ('모두', 'MAG'), ('모으', 'VV'), ('아서', 'ECD'), ('힘', 'NNG'), ('을', 'JKO'), ('합치', 'VV'), ('자', 'ECE'), ('!', 'SF'), ('아', 'VV'), ('라', 'ECD'), ('시', 'NNG'), ('!', 'SF'), ('아', 'VV'), ('라', 'ECD'), ('시', 'NNG'), ('!', 'SF'), ('포', 'NNG'), ('드림', 'NNG'), ('!', 'SF')]
['몸', '바람', '힘', '시', '포', '포드림', '드림']
['안녕하세요?', '저희는 아라 시입니다.']


## Komoran
Komoran(Korean Morphological ANalyzer)은 Shinewate에서 자바로 개발한 한국어 형태소 분석기이다. '코모란'으로 발음하여, Apache 라이선스 2.0을 따르는 오픈소스 소프트웨어이다. 정량화 버전도 존재하며, 다른 형태소 분석기와 다르게 공백이 포함된 형태소 단위로도 분석이 가능해 많이 사용한다.

In [None]:
from konlpy.tag import Komoran

In [None]:
# morphs(phrase) : 인자로 입력한 문장을 형태소 단위로 토크나이징합니다. 토크나이징된 형태소들은 리스트 형태로 반환한다.
# nouns(phrase) : 인자로 입력한 문장에서 품사가 명사인 토큰들만 추출한다.
# pos(phrase, flatten=True) : POS tagger라 부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅을 합니다. 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여서 리스트로 반환된다.

In [None]:
# 코모란 형태소 분석기 객체 생성
komoran = Komoran()

text = "온 몸으로 바람을 모두 모아서 힘을 합치자! 아라시! 아라시! 포드림!"

# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = komoran.pos(text)
print(pos)

# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

['오', 'ㄴ', '몸', '으로', '바람', '을', '모두', '모으', '아서', '힘', '을', '합치', '자', '!', '아라시', '!', '아라시', '!', '포드', '림', '!']
[('오', 'VV'), ('ㄴ', 'ETM'), ('몸', 'NNG'), ('으로', 'JKB'), ('바람', 'NNG'), ('을', 'JKO'), ('모두', 'MAG'), ('모으', 'VV'), ('아서', 'EC'), ('힘', 'NNG'), ('을', 'JKO'), ('합치', 'VV'), ('자', 'EF'), ('!', 'SF'), ('아라시', 'NNP'), ('!', 'SF'), ('아라시', 'NNP'), ('!', 'SF'), ('포드', 'NNP'), ('림', 'NNP'), ('!', 'SF')]
['몸', '바람', '힘', '아라시', '아라시', '포드', '림']


## Okt
Okt(Open-source Korean Text Processor)는 트위터에서 개발한 Twitter 한국어 처리기에서 파생된 오픈소스(아파치 2.0 라이선스) 한국어 처리기이다.

공식 홈페이지에 따르면 Okt는 빅데이터에서 간단한 한국어 처리를 통해 색인어를 추출하는 목표를 갖고 있기 때문에 완전한 수준의 형태소 분석을 지향하지 않는다. Okt는 띄어쓰기가 어느정도 되어 있는 문장ㅇ을 빠르게 분석할 때 많이 사용한다.

In [None]:
from konlpy.tag import Okt

In [None]:
# morphs(phrase) : 인자로 입력한 문장을 형태소 단위로 토크나이징합니다. 토크나이징된 형태소들은 리스트 형태로 반환된다.
# nouns(phrase) : 인자로 입력한 문장에서 품사가 명사인 토큰들만 추출합니다.
# pos(phrase, stem=False, joun=False) : POS tagger라부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅을 합니다. 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여서 리스트로 반환된다.
# normalize(phrase) : 입력한 문장을 정규화한다. ex) 정규화 이전 : 아라싴ㅋㅋㅋ개웃곀ㅋㅋㅋ // 정규화 이후 : 아라시 ㅋㅋㅋㅋ 개웃겨 ㅋㅋㅋㅋ
# phrases(phrase) : 입력한 문장에서 어구를 추출한다. ex) 입력 : "오늘 아라시가 보고싶네요." 출력 : ['오늘', '오늘 아라시', '아라시']

In [None]:
okt=Okt()

text = "온 몸으로 바람을 모두 모아서 힘을 합치자! 아라시! 아라시! 포드림!"

# 형태소 추출
morphs = okt.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = okt.pos(text)
print(pos)

# 명사만 추출
nouns = okt.nouns(text)
print(nouns)

# 정규화, 어구 추출
text = " 아라싴ㅋㅋㅋ 개웃곀ㅋㅋㅋ"
print(okt.normalize(text))
print(okt.phrases(text))

['온', '몸', '으로', '바람', '을', '모두', '모아서', '힘', '을', '합치', '자', '!', '아라시', '!', '아라시', '!', '포', '드림', '!']
[('온', 'Noun'), ('몸', 'Noun'), ('으로', 'Josa'), ('바람', 'Noun'), ('을', 'Josa'), ('모두', 'Noun'), ('모아서', 'Verb'), ('힘', 'Noun'), ('을', 'Josa'), ('합치', 'Noun'), ('자', 'Suffix'), ('!', 'Punctuation'), ('아라시', 'Noun'), ('!', 'Punctuation'), ('아라시', 'Noun'), ('!', 'Punctuation'), ('포', 'Noun'), ('드림', 'Noun'), ('!', 'Punctuation')]
['온', '몸', '바람', '모두', '힘', '합치', '아라시', '아라시', '포', '드림']
 아라시ㅋㅋㅋ 개웃겨ㅋㅋㅋ
['아라싴', '개웃곀']


Okt는 트위터 빅데이터 기반이라 그런지 아라시가 인식이 잘 된다!! 포랑 드림도 잘 구분하는 것으로 보인다.

## Komoran 미등록 단어 형태소 분석

In [None]:
from konlpy.tag import Komoran

komoran = Komoran()
text = "우리 아라시에 관련된 엔엘피 챗봇 만들까?"
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('아라시', 'NNP'), ('에', 'JKB'), ('관련', 'NNG'), ('되', 'XSV'), ('ㄴ', 'ETM'), ('엔', 'NNB'), ('엘', 'NNP'), ('피', 'NNG'), ('챗봇', 'NA'), ('만들', 'VV'), ('ㄹ까', 'EF'), ('?', 'SF')]


# [단어] Tab [품사]
엔엘피  NNG
여름의 사랑은 무지개 색으로 빛난다  NNG

위의 형식대로 TSV 파일로 저장 후, 불러온다.
tsv 저장 방법 : Excel에서 저장 후, 복사해서 Notepad++에 붙여넣고 tsv 파일로 저장한다.


In [None]:
komoran = Komoran(userdic='komoranregister.tsv')
text = "우리 아라시에 관련된 엔엘피 챗봇 만들까?"
pos = komoran.pos(text)
print(pos)

[('우리', 'NP'), ('아라시', 'NNP'), ('에', 'JKB'), ('관련', 'NNG'), ('되', 'XSV'), ('ㄴ', 'ETM'), ('엔엘피', 'NNG'), ('챗봇', 'NA'), ('만들', 'VV'), ('ㄹ까', 'EF'), ('?', 'SF')]


In [None]:
text = "여름의 사랑은 무지개 색으로 빛난다"
pos = komoran.pos(text)
print(pos)

[('여름의 사랑은 무지개 색으로 빛난다', 'NNG')]


# Kkma 
###장점
분석 품질이 좋다.
지원하는 품사 태그가 가장 많다. 

###단점
분석 속도가 느리다. 
사용자 시전으로 추가한 복합 명사에 대해 불완전하게 동작한다.

# Komoran
###장점
자소가 분리된 문장이나 오탈자에 강하다.
사용자의 사전 관리가 용이하다.

###단점
적당한 분석 품질과 분석 속도를 가진다.

# Okt
###장점
매우 빠른 분석 속도를 가진다.
정규화 기능을 지원한다.

###단점
사용자 사전 관리가 어렵다.
용언 분석에 일관성이 부족하다.