# CHAPTER 8 자연어 처리 시작하기

## 8-1 한글 자연어 처리 기초 - KoNLPy 및 필요 모듈의 설치

KoNLPy는 Lucy Park이라는 분이 개발하였습니다. 검색해 보면, 다양한 튜토리얼과 많은 배울 것들이 있기에 꼭 블로그를 방문하여 기초를 다지는 것을 추천한다고 합니다. 특히 Github ID를 검색해보면 좋은 코드들을 많이 볼 수 있다고 합니다. 아래는 제 26회 한글 및 한국어 정보처리 학술대회 논문집(2014년)에 Lucy Park 님이 KoNLPy를 개발한 결과를 발표한 논문의 요약입니다.

> 파이썬은 간결한 아름다움을 추구하는 동시에 강력한 스트링 연산이 가능한 언어다. KoNLPy는 그러한 특장점을 살려, 파이썬으로 한국어 정보처리를 할 수 있게 하는 패키지 이다. 꼬꼬마, 한나눔, MeCab-ko 등 국내외에서 개발된 여러 형태소 분석기를 포함하고, 자연어처리에 필요한 각종 사전, 말뭉치, 도구 및 다양한 튜토리얼을 포함하여 손쉽게 한국어 분석을 할 수 있도록 만들었다.

파이썬에서 KoNLPy를 사용하기 위해서는 `pip install konlpy`명령으로 konlpy를 설차합니다. 그리고 Java SDK다운로드 페이지에서 JDK를 다운로드 합니다.

JDK 설치가 끝나면 JAVA_HOME설정도 해 주어야 한다고 합니다.

In [1]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[K     |████████████████████████████████| 19.4 MB 1.2 MB/s 
Collecting JPype1>=0.7.0
  Downloading JPype1-1.3.0-cp37-cp37m-manylinux_2_5_x86_64.manylinux1_x86_64.whl (448 kB)
[K     |████████████████████████████████| 448 kB 40.3 MB/s 
Installing collected packages: JPype1, konlpy
Successfully installed JPype1-1.3.0 konlpy-0.6.0


아래에서 `stopwords`와 `punkt`를 다운로드한다.

In [2]:
import nltk
nltk.download()

NLTK Downloader
---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> stopwords
    Downloading package stopwords to /root/nltk_data...
      Unzipping corpora/stopwords.zip.

---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
---------------------------------------------------------------------------
Downloader> d

Download which package (l=list; x=cancel)?
  Identifier> punkt
    Downloading package punkt to /root/nltk_data...
      Unzipping tokenizers/punkt.zip.

---------------------------------------------------------------------------
    d) Download   l) List    u) Update   c) Config   h) Help   q) Quit
--------------------------------------------

True

In [3]:
pip install wordcloud



In [4]:
pip install gensim



## 8-2 한글 자연어 처리 기초

KoNLPy는 꼬꼬마, 한나눔 등의 엔진을 사용할 수 있게 합니다.

### 먼저 꼬꼬마 모듈을 사용할 수 있게 합니다.

In [5]:
from konlpy.tag import Kkma
kkma = Kkma()

그리고 문장(sentences)분석을 합니다. \~\~시작합니다 재미있어요 \~\~ 에서 마침표(.)가 없어도 두 개의 문장으로 구분합니다.

In [6]:
kkma.sentences('한국어 분석을 시작합니다 재미있어요 ~~')

['한국어 분석을 시작합니다', '재미있어요 ~~']

명사(nouns) 분석도 수행합니다.

In [7]:
kkma.nouns('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석']

형태소(pos) 분석도 수행합니다. 한글은 영어와 달리 형태 변화가 많아서 영어처럼 쉽게 접근하기 어렵습니다. 그래서 최소한의 의미 단위인 형태소로 언어를 분석하는 것이 일반적입니다.

In [8]:
kkma.pos('한국어 분석을 시작합니다 재미있어요~~')

[('한국어', 'NNG'),
 ('분석', 'NNG'),
 ('을', 'JKO'),
 ('시작하', 'VV'),
 ('ㅂ니다', 'EFN'),
 ('재미있', 'VA'),
 ('어요', 'EFN'),
 ('~~', 'SW')]

### 이번에는 한나눔(Hannanum)을 사용해보겠습니다.

In [9]:
from konlpy.tag import Hannanum
hannanum = Hannanum()

한나눔의 명사 분석은 꼬꼬마와는 약간 다른 결과를 가져옵니다.

In [10]:
hannanum.nouns('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '시작']

한나눔의 형태소 분석 입니다.

In [11]:
hannanum.morphs('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '을', '시작', '하', 'ㅂ니다', '재미있', '어요', '~~']

위의 형태소는 단순 형태소 분석, 아래는 형태서 분석과 속성들입니다.

In [12]:
hannanum.pos('한국어 분석을 시작합니다 재미있어요~~')

[('한국어', 'N'),
 ('분석', 'N'),
 ('을', 'J'),
 ('시작', 'N'),
 ('하', 'X'),
 ('ㅂ니다', 'E'),
 ('재미있', 'P'),
 ('어요', 'E'),
 ('~~', 'S')]

### 이번에는 Twitter 분석입니다.

In [13]:
from konlpy.tag import Twitter
t = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [16]:
t.nouns('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '시작']

In [17]:
t.morphs('한국어 분석을 시작합니다 재미있어요~~')

['한국어', '분석', '을', '시작', '합니다', '재미있어요', '~~']

역시 미세한 차이를 가지고 있습니다.

In [18]:
t.pos('한국어 분석을 시작합니다 재미있어요~~')

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('합니다', 'Verb'),
 ('재미있어요', 'Adjective'),
 ('~~', 'Punctuation')]