## KoNLPy

KoNLPy는 기본적인 한국어 자연어 처리를 위한 파이썬 라이브러리이다. 한국어 문장을 분석하기 위해서는 토크나이징 작업을 먼저 해주어야 한다. 이때 토큰 단위를 어떻게 정의하느냐에 따라 자연어 처리 성능에 영향을 미친다. 

영어의 경우에는 띄어쓰기로 단어를 구분하기에 비교적 간단하게 토크나이징이 가능하지만, 한국어의 경우에는 명사와 조사를 띄어 쓰지 않고, 용언에 따라 여러 의미가 붙기 때문에 띄어쓰기만으로는 토크나이징을 할 수 없다. 이러한 한국어의 특성 때문에 우리는 문장에서 형태소를 분석할 수 있는 도구가 필요하다.

형태소 분석기는 위의 기능을 담당하고 문장에서 어근, 접두사 및 접미사, 품사 등 다양한 언어적 속성의 구조를 파악해 준다. 특히 문장에서 형태소를 추출하면서 형태소의 뜻과 문맥을 고려해 품사 태깅을 해준다.

이 절에서는 약간의 튜닝이 필요하긴 하나 기본적인 성능이 좋아 널리 쓰이는 KoNLPy에서 제공하는 세 가지 종류의 형태소 분석기를 살펴볼 것이다.

### Install KNLPy

In [1]:
!pip install konlpy

Collecting konlpy
[?25l  Downloading https://files.pythonhosted.org/packages/85/0e/f385566fec837c0b83f216b2da65db9997b35dd675e107752005b7d392b1/konlpy-0.5.2-py2.py3-none-any.whl (19.4MB)
[K     |████████████████████████████████| 19.4MB 1.3MB/s 
Collecting colorama
  Downloading https://files.pythonhosted.org/packages/44/98/5b86278fbbf250d239ae0ecb724f8572af1c91f4a11edf4d36a206189440/colorama-0.4.4-py2.py3-none-any.whl
Collecting JPype1>=0.7.0
[?25l  Downloading https://files.pythonhosted.org/packages/de/af/93f92b38ec1ff3091cd38982ed19cea2800fefb609b5801c41fc43c0781e/JPype1-1.2.1-cp36-cp36m-manylinux2010_x86_64.whl (457kB)
[K     |████████████████████████████████| 460kB 53.8MB/s 
[?25hCollecting beautifulsoup4==4.6.0
[?25l  Downloading https://files.pythonhosted.org/packages/9e/d4/10f46e5cfac773e22707237bfcd51bbffeaf0a576b0a847ec7ab15bd7ace/beautifulsoup4-4.6.0-py3-none-any.whl (86kB)
[K     |████████████████████████████████| 92kB 9.2MB/s 
[?25hCollecting tweepy>=3.7.0
  Downloa

### Kkma

morphs(phrase) : 인자로 입력한 문장을 형태소 단위로 토크나이징 한다. 완성된 형태소들은 리스트 형태로 반환된다.

nouns(phrase) : 인자로 입력한 문장에서 품사가 명사인 토큰만 추출한다.

pos(phrase, flatten = True) : Pos tagger라 부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅을 한다. 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여 리스트로 반환된다.

sentences(phrase) : 인자로 입력한 여러 문장을 분리해주는 역할을 한다. 분리된 문장은 리스트 형태로 반환된다.

In [3]:
from konlpy.tag import Kkma

kkma = Kkma()

text = '동생이 공부를 하고 있다.'

morphs = kkma.morphs(text)
print(morphs)

pos = kkma.pos(text)
print(pos)

nouns = kkma.nouns(text)
print(nouns)

sentences = '동생은 놀고있나? 아 공부하고 있었구나.'
s = kkma.sentences(sentences)
print(s)

['동생', '이', '공부', '를', '하', '고', '있', '다', '.']
[('동생', 'NNG'), ('이', 'JKS'), ('공부', 'NNG'), ('를', 'JKO'), ('하', 'VV'), ('고', 'ECE'), ('있', 'VXV'), ('다', 'EFN'), ('.', 'SF')]
['동생', '공부']
['동생은 놀고 있나?', '아 공부하고 있었구나.']


### Komoran



morphs(phrase) : 인자로 입력한 문장을 형태소 단위로 토크나이징 한다. 완성된 형태소들은 리스트 형태로 반환된다.

nouns(phrase) : 인자로 입력한 문장에서 품사가 명사인 토큰만 추출한다.

pos(phrase, flatten = True) : Pos tagger라 부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅을 한다. 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여 리스트로 반환된다.

In [4]:
from konlpy.tag import Komoran

komoran = Komoran()

text = '동생이 공부를 마쳤다.'

morphs = komoran.morphs(text)
print(morphs)

nouns = komoran.nouns(text)
print(nouns)

pos = komoran.pos(text)
print(pos)

['동생', '이', '공부', '를', '마치', '었', '다', '.']
['동생', '공부']
[('동생', 'NNG'), ('이', 'JKS'), ('공부', 'NNG'), ('를', 'JKO'), ('마치', 'VV'), ('었', 'EP'), ('다', 'EF'), ('.', 'SF')]


### Okt

morphs(phrase) : 인자로 입력한 문장을 형태소 단위로 토크나이징 한다. 완성된 형태소들은 리스트 형태로 반환된다.

nouns(phrase) : 인자로 입력한 문장에서 품사가 명사인 토큰만 추출한다.

pos(phrase, stem = False, join = False) : Pos tagger라 부르며, 인자로 입력한 문장에서 형태소를 추출한 뒤 품사 태깅을 한다. 추출된 형태소와 그 형태소의 품사가 튜플 형태로 묶여 리스트로 반환된다.

normalize(phrase) : 입력한 문장을 정규화시킨다. (예) 사랑햌ㅋㅋ → 사랑해ㅋㅋ

phrases(phrase) : 입력한 문장에서 어구를 추출한다. (예) 오늘 날씨가 좋아요 → ['오늘', '오늘 날씨', '날씨']

In [5]:
from konlpy.tag import Okt

okt = Okt()

text = '동생이 공부를 다시 시작했다.'

morphs = okt.morphs(text)
print(morphs)

pos = okt.pos(text)
print(pos)

nouns = okt.nouns(text)
print(nouns)

# 정규화, 어구 추출
text = '오늘 날씨가 좋아욬ㅋㅋ'
print(okt.normalize(text))
print(okt.phrases(text))

['동생', '이', '공부', '를', '다시', '시작', '했다', '.']
[('동생', 'Noun'), ('이', 'Josa'), ('공부', 'Noun'), ('를', 'Josa'), ('다시', 'Noun'), ('시작', 'Noun'), ('했다', 'Verb'), ('.', 'Punctuation')]
['동생', '공부', '다시', '시작']
오늘 날씨가 좋아요ㅋㅋ
['오늘', '오늘 날씨', '좋아욬', '날씨']


### 간단한 사용자 사전 구축

'[단어] Tab [품사]' 의 형태로 tsv 파일을 만들어주면 신조어나 고유명사들을 사용자가 윈하는 태그로 태깅할 수 있다.


**TSV 파일 만들기**

In [7]:
import csv

with open('/content/user_dic.tsv', 'wt') as u:
  tsv = csv.writer(u, delimiter = '\t')
  tsv.writerow(['엔엘피', 'NNG'])

**실습('엔엘피'가 NNG로 태깅된다!)**

In [8]:
# ./user_dic.tsv 파일은 사용자 사전 tsv 파일

from konlpy.tag import Komoran

komoran = Komoran(userdic = './user_dic.tsv')

text = '안녕 나는 엔엘피에 관심이 많은 사람이야.'
pos = komoran.pos(text)

print(pos)

[('안녕', 'NNP'), ('나', 'NP'), ('는', 'JX'), ('엔엘피', 'NNG'), ('에', 'JKB'), ('관심', 'NNG'), ('이', 'JKS'), ('많', 'VA'), ('은', 'ETM'), ('사람', 'NNG'), ('이', 'VCP'), ('야', 'EF'), ('.', 'SF')]
