https://wikidocs.net/22488

## **01-03 자연어 처리를 위한 NLTK와 KoNLPy 설치하기**
---

다음 챕터인 텍스트 전처리(Text preprocessing) 챕터에서는 전처리를 위한 이론에 대해서 학습하고, 그 이론을 바탕으로 실습을 진행하게 됩니다. 이번 챕터에서는 실습에 필요한 기본적인 자연어 패키지들을 소개합니다.

### **1. NLTK와 NLTK Data 설치**
엔엘티케이(NLTK)는 자연어 처리를 위한 파이썬 패키지입니다. 아나콘다를 설치하였다면 NLTK는 기본적으로 설치가 되어져 있습니다. 아나콘다를 설치하지 않았다면 아래의 커맨드로 NLTK를 별도 설치할 수 있습니다.

In [3]:
!python --version

Python 3.10.18


In [4]:
# !pip install nltk

In [5]:
import nltk
nltk.__version__

'3.9.1'

NLTK의 기능을 제대로 사용하기 위해서는 NLTK Data라는 여러 데이터를 추가적으로 설치해야 합니다. 이를 위해서는 파이썬 코드 내에서 import nltk 이후에 nltk.download()라는 코드를 수행하여 설치합니다.

In [6]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

해당 코드를 실행 후에 NLTK 실습에 필요한 각종 패키지와 코퍼스를 다운로드할 수 있습니다. 이를 통칭하여 NLTK Data라고 하겠습니다. 만약, NLTK 실습을 수행하던 도중에 에러가 발생한다면 아래의 2번과 3번 가이드를 참고하시기 바랍니다.

### **2. NLTK Data가 설치되지 않은 경우**
NLTK는 각 실습마다 필요한 NLTK Data가 있습니다. 만약 해당 실습에 필요한 NLTK Data가 설치되지 않은 경우에는 코드 실행 시에 아래와 같은 경고문이 나타납니다.


```powershell
    LookupError: 
    **********************************************************************
    Resource treebank not found.
    Please use the NLTK Downloader to obtain the resource:
    >>> import nltk
    >>> nltk.download('treebank')
    **********************************************************************

```

위의 경우에는 NLTK Data 중에서 'treebank' 라는 리소스가 설치되지 않았을 경우입니다. 이 경우 위의 안내처럼 주피터 노트북 또는 iPython 쉘 안에서 동일하게 코드를 수행하면 됩니다.

### **3. NLTK Data 설치 시 에러가 발생할 경우**

![image.png](attachment:image.png)  

링크 : https://github.com/nltk/nltk_data

설치 시 에러가 발생한다면, 수동 설치를 진행하여 정해진 경로에 위치시켜야 합니다. 수동 설치를 진행할 수 있는 경로는 nltk_data의 깃허브 주소와 nltk_data 공식 사이트 두 곳이 있습니다. 우선 nltk_data의 깃허브 사이트의 링크는 위와 같습니다. 위 링크의 packages 디렉토리에서 필요한 nltk_data 파일들을 모두 다운로드 할 수 있습니다.

![image.png](attachment:image.png)  

예를 들어서 토큰화 작업을 위해 'punkt' 파일이 필요하다면, nltk_data/packages/tokenizer 경로에서 punkt.zip 파일을 다운로드 하면 됩니다. 이렇게 필요한 파일들을 다운로드 한 후, 각 O/S 별 정해진 경로에 위치시킵니다. 각 O/S 별 정해진 경로는 다음과 같습니다.


**윈도우 : C:/nltk_data또는 D:/nltk_data**  
**UNIX : /usr/local/share/nltk_data/ 또는 /usr/share/nltk_data**

가장 간단한 방법으로는 packages 디렉토리 전체를 다운로드 받아 경로에 위치시키는 방법도 있습니다.

![image.png](attachment:image.png)
  
링크 : http://www.nltk.org/nltk_data/  
  
수동 설치를 진행할 수 있는 사이트로 nltk_data 공식 사이트도 있습니다. 토큰화 작업이 필요한 상황이라고 다시 가정합시다. 그렇다면 위 링크로 이동해 CTRL + F를 눌러 'tokenizer'를 검색하고, 검색에 나오는 106. Punkt Tokenizer Models [ download | source ] 해당 줄을 찾은 뒤, download 버튼을 누르면 됩니다. 그러면 punkt.zip 파일을 다운로드 할 수 있습니다. 다운로드 후 위치시켜야 하는 알맞은 경로는 위에서 언급한 경로와 동일합니다.

### **4. KoNLPy 설치**
코엔엘파이(KoNLPy)는 한국어 자연어 처리를 위한 형태소 분석기 패키지입니다. 프롬프트에서 아래 커맨드로 설치합니다.

In [7]:
# !pip install konlpy

In [8]:
import konlpy
konlpy.__version__

'0.6.0'

### **5. 윈도우에서 KoNLPy 에러가 발생하는 경우**

윈도우에서 KoNLPy를 설치하거나 실행 시 JDK 관련 오류나 JPype 오류에 부딪히는 경우가 있습니다. 이는 KoNLPy가 JAVA로 구성되어 있기 때문인데 오류 해결을 위해서는 JDK 1.7 이상의 버전과 JPype가 설치되어 있어야 합니다.

#### **1) JDK 설치**

우선 JDK를 1.7 버전 이상으로 설치해야 합니다.

설치 주소 : https://www.oracle.com/technetwork/java/javase/downloads/index.html

설치한 후에는 JDK가 설치된 경로를 찾아야 합니다. 예를 들어 저자의 경우에는 jdk가 아래의 경로에 설치되어 있습니다.

경로 : C:\Program Files\Java\jdk-11.0.1

11.0.1과 같이 버전에 대한 숫자는 어떤 버전을 설치했느냐에 따라 다를 수 있습니다.

※ 2025.05 현재 버전
![image.png](attachment:image.png)

#### **2) JDK 환경 변수**

설치 경로를 찾았다면 해당 경로를 복사합니다. 해당 경로를 윈도우 환경 변수에 추가해야하기 때문입니다.

**윈도우 10기준)**  
제어판 > 시스템 및 보안 > 시스템 > 고급 시스템 설정 > 고급 > 환경 변수   
새로 만들기(N)...를 누르고 JAVA_HOME이라는 환경 변수를 만듭니다. 환경 변수의 값은 앞서 찾았던 jdk 설치 경로입니다.

![image-2.png](attachment:image-2.png)
이제 KoNLPy를 사용하기 위한 JDK 설정을 마쳤습니다.

#### **3) JPype 설치**  
  
이제 JAVA와 Python을 연결해주는 역할을 하는 JPype를 설치해야 합니다.

설치 주소 : https://github.com/jpype-project/jpype/releases


해당 링크에서 Assets 라고 기재된 곳에서 적절한 버전을 설치해야 하는데 cp27은 파이썬 2.7, cp36은 파이썬 3.6을 의미합니다. 저자가 책을 집필할 당시에는 파이썬 3.6을 사용하고 있었으므로 cp36이라고 적힌 JPype를 설치했습니다.

또 사용하는 윈도우 O/S가 32비트인지, 64비트인지에 따라서 설치 JPype가 다른데, 윈도우 32비트를 사용하고 있다면 win32를, 윈도우 64비트를 사용하고 있다면 win_amd64를 설치해야 합니다. 예를 들어 파이썬 3.6, 윈도우 64비트를 사용 중이라면 JPype1-0.6.3-cp36-cp36m-win_amd64.whl를 다운로드합니다.

프롬프트에서 해당 파일의 경로로 이동하여 아래 커맨드를 통해 설치합니다.

```powershell
    > pip install JPype1-0.6.3-cp36-cp36m-win_amd64.whl

```
  
2025.05 현재
```powershell
    > pip install JPype1-1.5.2-cp310-cp310-win_amd64.whl

```
>**※ JPype는 가상환경마다 설치해 주어야 합니다!**

이제 JPype의 설치가 완료되었다면, KoNLPy를 사용할 준비가 되었습니다.

참고 : KoNLPy 수행시 자바 오류는, 파이썬 bit와 자바 bit가 다른 경우도 발생 하는 것 같습니다. 가장 확실한 해결 방법은 설치된 자바를 전부 지우고 최신 버전(JRE, JDK)으로 새로 깔면 대부분 해결 됩니다.

마지막 편집일시 : 2023년 5월 25일 4:29 오후

![image.png](attachment:image.png)