# KoNLPy (Korean NLP in Python)

* 한국어 자연어 처리를 위한 파이썬 패키지
* 다양한 한글 형태소 분석기를 통일된 방법으로 쉽게 사용할 수 있다.
* 형태소 분석기 : Python Wrapper
  * Hannanum (한나눔) : Java로 작성, JHannanum의 Wrapper, 1999년 KAIST에서 개발
  * Kkma (꼬꼬마) : Java로 작성, 서울대에서 개발 (http://kkma.snu.ac.kr/)
  * Komoran (코모란) : Java로 작성, 2013년 Shineware에서 개발 (https://github.com/shineware/KOMORAN)
  * MeCab (메캅) : 윈도우 지원 안함, C/C++로 개발, 속도 빠름, 교토대에서 만든 MeCab을 한국어에 적용한 은전한닢 프로젝트에서 개발 (http://eunjeon.blogspot.com/)
  * Okt (Open Korean Text) : Twitter에서 Okt로 바뀜, 스칼라로 작성된 Open Korean Text의 Wrapper (https://github.com/open-korean-text/open-korean-text)
* jvm 확인 : /usr/lib/jvm/java-11-openjdk-amd64
* https://konlpy.org/
* https://github.com/konlpy/konlpy

In [1]:
!apt-get update
!pip3 install JPype1-py3
!pip3 install konlpy
!bash <(curl -s https://raw.githubusercontent.com/konlpy/konlpy/master/scripts/mecab.sh)

0% [Working]            Get:1 https://cloud.r-project.org/bin/linux/ubuntu bionic-cran40/ InRelease [3,626 B]
0% [Connecting to archive.ubuntu.com (185.125.190.36)] [Connecting to security.0% [Connecting to archive.ubuntu.com (185.125.190.36)] [Connecting to security.0% [1 InRelease gpgv 3,626 B] [Connecting to archive.ubuntu.com (185.125.190.36                                                                               Ign:2 https://developer.download.nvidia.com/compute/machine-learning/repos/ubuntu1804/x86_64  InRelease
0% [1 InRelease gpgv 3,626 B] [Connecting to archive.ubuntu.com (185.125.190.36                                                                               Get:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu1804/x86_64  InRelease [1,581 B]
0% [1 InRelease gpgv 3,626 B] [Waiting for headers] [Connecting to security.ubu0% [1 InRelease gpgv 3,626 B] [Waiting for headers] [Connecting to security.ubu                                      

In [2]:
!echo "export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64/" >> ~/.bash_profile

In [3]:
import konlpy

konlpy.__version__

'0.6.0'

In [4]:
from konlpy.tag import Hannanum, Kkma, Komoran, Mecab, Okt

hannanum = Hannanum()
kkma = Kkma()
komoran = Komoran()
mecab = Mecab()
okt = Okt()

In [5]:
text = "아버지가방에들어가신다."

# 형태소 추출
print('Hannanum :', hannanum.morphs(text))
print('Kkma     :', kkma.morphs(text))
print('Komoran  :', komoran.morphs(text))
print('Mecab    :', mecab.morphs(text))
print('Okt      :', okt.morphs(text))

Hannanum : ['아버지가방에들어가', '이', '시ㄴ다', '.']
Kkma     : ['아버지', '가방', '에', '들어가', '시', 'ㄴ다', '.']
Komoran  : ['아버지', '가방', '에', '들어가', '시', 'ㄴ다', '.']
Mecab    : ['아버지', '가', '방', '에', '들어가', '신다', '.']
Okt      : ['아버지', '가방', '에', '들어가신다', '.']


In [6]:
# 품사 태깅
print('Hannanum :', hannanum.pos(text))
print('Kkma     :', kkma.pos(text))
print('Komoran  :', komoran.pos(text))
print('Mecab    :', mecab.pos(text))
print('Okt      :', okt.pos(text))

Hannanum : [('아버지가방에들어가', 'N'), ('이', 'J'), ('시ㄴ다', 'E'), ('.', 'S')]
Kkma     : [('아버지', 'NNG'), ('가방', 'NNG'), ('에', 'JKM'), ('들어가', 'VV'), ('시', 'EPH'), ('ㄴ다', 'EFN'), ('.', 'SF')]
Komoran  : [('아버지', 'NNG'), ('가방', 'NNP'), ('에', 'JKB'), ('들어가', 'VV'), ('시', 'EP'), ('ㄴ다', 'EF'), ('.', 'SF')]
Mecab    : [('아버지', 'NNG'), ('가', 'JKS'), ('방', 'NNG'), ('에', 'JKB'), ('들어가', 'VV'), ('신다', 'EP+EF'), ('.', 'SF')]
Okt      : [('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가신다', 'Verb'), ('.', 'Punctuation')]


In [7]:
# 명사 추출
print('Hannanum :', hannanum.nouns(text))
print('Kkma     :', kkma.nouns(text))
print('Komoran  :', komoran.nouns(text))
print('Mecab    :', mecab.nouns(text))
print('Okt      :', okt.nouns(text))

Hannanum : ['아버지가방에들어가']
Kkma     : ['아버지', '아버지가방', '가방']
Komoran  : ['아버지', '가방']
Mecab    : ['아버지', '방']
Okt      : ['아버지', '가방']


In [8]:
# 한나눔에만 있는 메소드
print(hannanum.analyze(text))

[[[('아버지가방에들어가', 'ncn'), ('이', 'jp'), ('시', 'ep'), ('ㄴ다', 'ef')], [('아버지가방에들어가신다', 'ncn')], [('아버지가방에들어가', 'nqq'), ('이', 'jp'), ('시', 'ep'), ('ㄴ다', 'ef')], [('아버지가방에들어가신다', 'nqq')]], [[('.', 'sf')], [('.', 'sy')]]]


In [9]:
# 꼬꼬마에만 있는 메소드
print(kkma.sentences("공부를 하면 할수록 모르는게 맞네요 그래도 계속 공부합니다 재밌으니까!"))

['공부를 하면 할수록 모르는 게 맞네요', '그래도 계속 공부합니다', '재밌으니까!']


In [10]:
# Okt에만 있는 메소드
print(okt.phrases(text))

['아버지가방', '아버지', '가방']


## 형태소 분석기 간 성능비교

https://konlpy.org/ko/v0.6.0/morph/

# KSS (Korean Sentence Splitter)

https://github.com/likejazz/korean-sentence-splitter

In [11]:
!pip install kss

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting kss
  Downloading kss-3.6.4.tar.gz (42.4 MB)
[K     |████████████████████████████████| 42.4 MB 1.4 MB/s 
[?25hCollecting emoji==1.2.0
  Downloading emoji-1.2.0-py3-none-any.whl (131 kB)
[K     |████████████████████████████████| 131 kB 45.8 MB/s 
Building wheels for collected packages: kss
  Building wheel for kss (setup.py) ... [?25l[?25hdone
  Created wheel for kss: filename=kss-3.6.4-py3-none-any.whl size=42448613 sha256=555b906899cf11ee53889ea2de7ff472efc3f3e7e790f3441dac2124f99a1625
  Stored in directory: /root/.cache/pip/wheels/32/53/7c/76bdf098c2a6c5cd4c4c29648da30ad4793d604314b2aeb26f
Successfully built kss
Installing collected packages: emoji, kss
Successfully installed emoji-1.2.0 kss-3.6.4


In [12]:
import kss

In [14]:
s = "회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습."

#for sent in kss.split_sentences(s):
for sent in kkma.sentences(s):
    print(sent)

회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요
다만, 강남 토끼 정이 강남 쉑쉑 버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다
강남 역 맛 집 토끼정의 외부 모습.


# PyKoSpacing (띄워쓰기 변환 패키지)

https://github.com/haven-jeon/PyKoSpacing

In [15]:
!pip install git+https://github.com/haven-jeon/PyKoSpacing.git

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting git+https://github.com/haven-jeon/PyKoSpacing.git
  Cloning https://github.com/haven-jeon/PyKoSpacing.git to /tmp/pip-req-build-h43t9vjg
  Running command git clone -q https://github.com/haven-jeon/PyKoSpacing.git /tmp/pip-req-build-h43t9vjg
Collecting tensorflow==2.7.2
  Downloading https://us-python.pkg.dev/colab-wheels/public/tensorflow/tensorflow-2.7.2%2Bzzzcolab20220516114640-cp37-cp37m-linux_x86_64.whl (671.4 MB)
[K     |████████████████████████████████| 671.4 MB 1.8 kB/s 
Collecting argparse>=1.4.0
  Downloading argparse-1.4.0-py2.py3-none-any.whl (23 kB)
Collecting tensorflow-estimator<2.8,~=2.7.0rc0
  Downloading tensorflow_estimator-2.7.0-py2.py3-none-any.whl (463 kB)
[K     |████████████████████████████████| 463 kB 7.3 MB/s 
Collecting flatbuffers<3.0,>=1.12
  Downloading flatbuffers-2.0.7-py2.py3-none-any.whl (26 kB)
Collecting keras<2.8,>=2.7.0rc0
  Downloading k

In [16]:
new_sent = s.replace(' ', '')
print(new_sent)

회사동료분들과다녀왔는데분위기도좋고음식도맛있었어요다만,강남토끼정이강남쉑쉑버거골목길로쭉올라가야하는데다들쉑쉑버거의유혹에넘어갈뻔했답니다강남역맛집토끼정의외부모습.


In [17]:
from pykospacing import Spacing
spacing = Spacing()
kospacing_sent = spacing(new_sent)

In [18]:
print(s)
print(kospacing_sent)

회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남 쉑쉑버거 골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔 했답니다 강남역 맛집 토끼정의 외부 모습.
회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남쉑쉑버거골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔했답니 다 강남역 맛집 토끼 정의 외부 모습.


In [19]:
spacing = Spacing(rules=['토끼정'])
kospacing_sent = spacing(new_sent)
print(kospacing_sent)

회사 동료 분들과 다녀왔는데 분위기도 좋고 음식도 맛있었어요 다만, 강남 토끼정이 강남쉑쉑버거골목길로 쭉 올라가야 하는데 다들 쉑쉑버거의 유혹에 넘어갈 뻔했답니 다 강남역 맛집 토끼정의 외부 모습.


# Py-Hanspell (한글 맞춤법 검사 패키지)

https://github.com/ssut/py-hanspell

In [20]:
!pip install git+https://github.com/ssut/py-hanspell.git

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting git+https://github.com/ssut/py-hanspell.git
  Cloning https://github.com/ssut/py-hanspell.git to /tmp/pip-req-build-3rjf2ptd
  Running command git clone -q https://github.com/ssut/py-hanspell.git /tmp/pip-req-build-3rjf2ptd
Building wheels for collected packages: py-hanspell
  Building wheel for py-hanspell (setup.py) ... [?25l[?25hdone
  Created wheel for py-hanspell: filename=py_hanspell-1.1-py3-none-any.whl size=4868 sha256=651bf3cf00a6ec586cc9cabd0aad138c2bca88fd1814dd0ec0558f70c2db7919
  Stored in directory: /tmp/pip-ephem-wheel-cache-oivt778y/wheels/ab/f5/7b/d4124bb329c905301baed80e2ae45aa14e824f62ebc3ec2cc4
Successfully built py-hanspell
Installing collected packages: py-hanspell
Successfully installed py-hanspell-1.1


In [22]:
from hanspell import spell_checker

sent = "맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 "
spelled_sent = spell_checker.check(sent)
print(spelled_sent)

Checked(result=True, original='맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 ', checked='맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지', errors=2, words=OrderedDict([('맞춤법', 0), ('틀리면', 0), ('왜', 1), ('안돼?', 1), ('쓰고', 1), ('싶은', 1), ('대로', 1), ('쓰면', 1), ('되지', 1)]), time=0.21610331535339355)


In [None]:
print(spelled_sent.original)
print(spelled_sent.checked)

맞춤법 틀리면 외 않되? 쓰고싶은대로쓰면돼지 
맞춤법 틀리면 왜 안돼? 쓰고 싶은 대로 쓰면 되지
