## 자연어 처리를 위한 라이브러리

### NLTK
NLTK(Natural Language Toolkit)는 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 라이브러리입니다. 다양한 기능 및 예제를 가지고 있으며 실무 및 연구에서도 많이 사용되고 있습니다.

다음은 NLTK 라이브러리가 제공하는 주요 기능입니다.

* 말뭉치
* 토큰 생성
* 형태소 분석
* 품사 태깅

설치한 NLTK 라이브러리를 이용하여 예제를 살펴보겠습니다.

In [3]:
import nltk

nltk.download('punkt') # 문장을 단어로 쪼개기 위한 자원 내려받기
string1 = 'my favorite subject is math'
string2 = 'my favorite subject is math, english, economic and computer science'

token1 = nltk.word_tokenize(string1)
token2 = nltk.word_tokenize(string2)

print(token1)
print(token2)

['my', 'favorite', 'subject', 'is', 'math']
['my', 'favorite', 'subject', 'is', 'math', ',', 'english', ',', 'economic', 'and', 'computer', 'science']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\aqs45\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


### KoNLPy

KoNLPy(코엔엘파이라고 읽음)는 한국어 처리를 위한 파이썬 라이브러리입니다. KoNLPy는 파이썬에서 사용할 수 있는 오픈 소스 형태소 분석기로, 기존에 공개된 꼬꼬마(kkma), 코모란(komoran), 한나눔(Hannanum), 트위터(twitter), 메카브(Mecab) 분석기를 한 번에 설치하고 동일한 방법으로 사용할 수 있도록 해 줍니다.

#### 윈도우 환경에서 KoNLPy 설치 방법
1. KoNLPy를 설치하기 전에 `oracle JDK`를 설치해야 합니다(KoNLPy 공식 사이트에서는 oracle jdk를 설치하는 것을 권고하고 있으며, 해당 파일으 내려받을 수 있는 url을 제시합니다.) 다음 url에 접속합니다.

https://www.oracle.com/java/technologies/javase-downloads.html

2. Oracle JDK 하위의 다운로드를 누릅니다.

3. 버전에 맞는 `installer`를 선택합니다.

4. 다음 url에서 `JPype1`을 내려받아 설치합니다. 이때 64비트 윈도우는 win-amd64, 32비트 윈도우는 win32 라고 표시된 파일을 내려받아야합니다.

https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype

5. 아나콘다 프롬프트에서 tf_2book 가상 환경으로 접속한 후 내려받은 JPype1 파일을 설치합니다. 이때 내려받은 파일의 경로까지 모두 적어야 합니다.

> pip install JPype1-1.4.0-cp39-cp39-win_amd64.whl

6. KoNLPy를 설치합니다.

> pip install konlpy


설치가 완료되었으니, 예제를 살펴보겠습니다.

In [1]:
import os
print('JAVA_HOME' in os.environ)

True


In [6]:
import os
from konlpy import utils


javadir = '%s%sjava' % (utils.installpath, os.sep)
args = [javadir, os.sep]
folder_suffix = ['{0}{1}open-korean-text-2.1.0.jar']
classpath = [f.format(*args) for f in folder_suffix]

print('javadir  : {}'.format(javadir))
print('os.sep   : {}'.format(os.sep))
print('classpath: {}'.format(classpath[0]))


javadir  : C:\Users\aqs45\OneDrive\바탕 화면\repo\Learn_pytorch\venv\Lib\site-packages\konlpy\java
os.sep   : \
classpath: C:\Users\aqs45\OneDrive\바탕 화면\repo\Learn_pytorch\venv\Lib\site-packages\konlpy\java\open-korean-text-2.1.0.jar


In [7]:
from konlpy.tag import Komoran
komoran = Komoran()
print(komoran.morphs('딥러닝이 쉽나요? 어렵나요?')) # 텍스트를 형태소로 반환

# 파이썬 버전 및 자바버전 문제로 실행안됨

AttributeError: Java package 'kr.co.shineware.nlp.komoran.core' is not valid

KoNLPy에서 제공하는 주요 기능은 다음과 같습니다.
* 형태소 분석
* 품사 태깅

형태소는 언어를 쪼갤 때 의미를 가지는 최소 단위입니다. 다음 그림은 형태소 분석을 위한 단계를 도식화한 것입니다.

![](../Static/517.jpg)


### Gensim
Gensim은 파이썬에서 제공하는 워드투벡터(word2vec) 라이브러리입니다. 딥러닝 라이브러리는 아니지만 효율적이고 확장 가능하기 때문에 폭넓게 사용하고 있습니다.

다음은 Gensim에서 제공하는 ㅈ요 기능입니다.

* 임베딩 : 워드투벡터
* 토픽 모델링
* LDA(Latent Dirichlet Allocation)

Gensim을 사용하려면 다음 명령으로 먼저 설치해야 합니다.
> pip install gensim

### 사이킷런
사이킷런(scikit-learn)은 파이썬을 이용하여 문서를 전처리할 수 있는 라이브러리를 제공합니다. 특히 자연어 처리에서 특성 추출 용도로 많이 사용됩니다.

다음은 사이킷런에서 제공하는 주요 기능입니다.

* countVectorizer : 텍스트에서 단어의 등장 횟수를 기준으로 특성을 추출합니다.

* Tfidvectorizer : TF-IDF 값을 사용해서 텍스트에서 특성을 추출합니다.

* HashingVectorizer : countVectorizer와 방법이 동일하지만 텍스트를 처리할 때 해시 함수를 사용하기 때문에 실행 시간이 감소합니다.