# 자연어 처리 실습 환경 구축

1. 아나콘다 설치
2. 가상환경 생성
3. 필요 라이브러리 설치
    - NLTK
    - gensim
    - KoNLPy
    

## NLTK 설치

- Natural Language ToolKit
- 교육용으로 개발된 자연어 처리 및 문서 분석용 파이썬 라이브러리
- 다양한 기능 및 예제를 가지고 있으며
- 실무 및 연구에서도 많이 사용

In [1]:
import nltk

#### 품사 태깅을 위한 NLTK 관련 패키지 다운로드

In [2]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

=> 다운로드 완료되면 [File] > [Exit] 선택하여 종료

#### 품사 태깅을 위한 NLTK 자원 다운로드

nltk.download()로 모든 패키지 다운로드 된 경우 True 출력

In [3]:
text = nltk.word_tokenize('Is it possible distingishing cats and dos?')
text

['Is', 'it', 'possible', 'distingishing', 'cats', 'and', 'dos', '?']

In [4]:
nltk.download('averaged_perceptron_tagger')

[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     C:\Users\gillhk\AppData\Roaming\nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!


True

In [5]:
nltk.pos_tag(text)

[('Is', 'VBZ'),
 ('it', 'PRP'),
 ('possible', 'JJ'),
 ('distingishing', 'VBG'),
 ('cats', 'NNS'),
 ('and', 'CC'),
 ('dos', 'NNS'),
 ('?', '.')]

- VBZ : 동사, 동명사 또는 현재분사
- PRP : 인칭 대명사(PP)
- JJ : 형용사
- VBG : 동사, 동명사 또는 현재 분사
- NNS : 명사, 복수형
- CC : 등위 접속사

## KoNLPy 설치

- 한국어 처리를 위한 파이썬 라이브러리
- 공식사이트 : https://konlpy.org/ko/latest/index.html
- 설치 : https://konlpy.org/ko/latest/install/#id2
- 주요 기능
    - 형태소 분석
    - 품사 태깅

### 윈도우 환경에서 KoNLPy 설치

#### 1단계. Oracle JDK 설치

1. URL : https://www.oracle.com/java/technologies/downloads/

2. x64 MSI Installer 선택하여 다운로드

3. 다운로드 받은 JDK 파일을 더블클릭하여 설치 진행
4. 설치 경로와 기능은 기본값으로 두고 [Next] 클릭
5. 설치 완료되면 [Close] 클릭

6. JAVA_HOME 설정
    - [시스템]-[정보]-[고급시스템설정]-[고급]탭-[환경변수]버튼 클릭
    - [시스템변수]-[새로만들기] 선택
    - 변수이름은 JAVA_HOME, 변수값은 [디렉터리 찾아보기]버튼을 클릭하여 JDK 설치 디렉토리를 선택
    - [확인]버튼들을 클릭

#### 2단계. JPype1 설치

1. URL에서 다운로드
    - URL : https://pypi.org/project/JPype1/#files
    - 파이썬 버전이 3.11인 경우 cp311가 있는 파일을 찾고,
    - 64비트 윈도의 경우 win-amd64로 표시된 파일을 다운로드
      - JPype1-1.5.0-cp311-cp311-win_amd64.whl

2. 아나콘다 프롬프트에서 가상환경으로 접속한 후 내려받은 JPype1 파일을 설치
    - 내려받은 경로까지 모두 적어야 함
    - 설치 시 오류 발생하는 경우 pip 업그레이드
        - pip install --upgrade pip

In [6]:
!pip install C:\Users\gillhk\Downloads\JPype1-1.5.0-cp311-cp311-win_amd64.whl

Defaulting to user installation because normal site-packages is not writeable
Processing c:\users\gillhk\downloads\jpype1-1.5.0-cp311-cp311-win_amd64.whl
JPype1 is already installed with the same version as the provided wheel. Use --force-reinstall to force an installation of the wheel.


#### 3단계. KoNLPy 설치

In [7]:
!pip install konlpy

Defaulting to user installation because normal site-packages is not writeable


#### KoNLPy 설치 확인

- 문장을 형태소로 변환

In [9]:
from konlpy.tag import Komoran

komoran = Komoran()
komoran.morphs('자연어처리 연습중이에요!!')

['자연어', '처리', '연습', '중', '이', '에요', '!', '!']

- 문장을 형태소로 변환 후 품사 태깅

In [11]:
komoran.pos('텍스트전처리 배워봅시다!')

[('텍스트', 'NNP'),
 ('전', 'NNP'),
 ('처리', 'NNP'),
 ('배우', 'VV'),
 ('어', 'EC'),
 ('보', 'VX'),
 ('ㅂ시다', 'EF'),
 ('!', 'SF')]

In [12]:
komoran.pos('딥러닝 책이 출판되었습니다.')

[('딥러닝', 'NA'),
 ('책', 'NNG'),
 ('이', 'JKS'),
 ('출판', 'NNG'),
 ('되', 'XSV'),
 ('었', 'EP'),
 ('습니다', 'EF'),
 ('.', 'SF')]

- 형태소 : 언어를 쪼갤 때 의미를 가지는 최소 단위

## Gensim

- 파이썬에서 제공하는 워드투벡터(Word2Vec) 라이브러리
- 주요기능
    - 임베딩 : 워드투벡터
    - 토픽 모델링
        - 문서 집합의 추상적이 주제를 발견하기 위한 통계적 모델
        - 텍스트 본문의 숨겨진 의미구조를 발견하기 위해 사용하는 텍스트 마이닝 기법
    - LDA(Laten Dirichlet Allocation)
        - 주어진 문서에 대해 각 문서에 어떤 주제들이 존재하는지 서술하는 확률적 토픽 모델 기법
        

- https://radimrehurek.com/gensim/
- https://pypi.org/project/gensim/

### Gensim 설치

In [13]:
!pip install -U gensim

Defaulting to user installation because normal site-packages is not writeable
Collecting gensim
  Downloading gensim-4.3.2-cp311-cp311-win_amd64.whl.metadata (8.5 kB)
Downloading gensim-4.3.2-cp311-cp311-win_amd64.whl (24.0 MB)
   ---------------------------------------- 0.0/24.0 MB ? eta -:--:--
   -- ------------------------------------- 1.2/24.0 MB 39.6 MB/s eta 0:00:01
   ---- ----------------------------------- 2.5/24.0 MB 32.6 MB/s eta 0:00:01
   ------ --------------------------------- 4.1/24.0 MB 37.6 MB/s eta 0:00:01
   ------ --------------------------------- 4.2/24.0 MB 33.4 MB/s eta 0:00:01
   ------ --------------------------------- 4.2/24.0 MB 33.4 MB/s eta 0:00:01
   ------ --------------------------------- 4.2/24.0 MB 33.4 MB/s eta 0:00:01
   ------ --------------------------------- 4.2/24.0 MB 33.4 MB/s eta 0:00:01
   ------- -------------------------------- 4.3/24.0 MB 13.7 MB/s eta 0:00:02
   -------- ------------------------------- 5.2/24.0 MB 14.5 MB/s eta 0:00:02


----------------------