# 자연어 처리 시작하기


##  한글 자연어 처리 기초 - KoNLPy 및 필요 모듈의 설치

* KoNLPy(코엔알파이) : **pip install konlpy**
* JPype1 : **conda install -c conda-forge jpype1** 
    * 이후 Jupyter Notebook 재실행 필요
* JDK 설치 : Java JDK로 검색해서 OS에 맞춰 설치
    * JAVA_HOME 설정 : https://java.com/ko/download/windows-64bit.jsp

In [None]:
# pip install konlpy

In [None]:
# conda install -c conda-forge jpype1

In [None]:
# conda update -n base -c defaults conda

In [None]:
# conda install -c conda-forge jpype1

## Step2. 한글 자연어 처리 기초

### 꼬꼬마말뭉치
    * http://kkma.snu.ac.kr/documents/
    
- Kkma 메소드 
```
    kkma객체.sentences() : 문장 분석 
    kkma객체.pos() : 형태소 분석 
    kkma객체.nouns() : 단어 분석 
```

In [None]:
# konlpy 에서 Kkma 모듈 불러오기 
from konlpy.tag import Kkma

In [None]:
# kkma 객체 만들기 
kkma = Kkma()

In [None]:
# 문장 분석
kkma.sentences('한국어 분석을 시작합니다 재미있어요~~')

In [None]:
# 단어 분석
kkma.nouns('한국어 분석을 시작합니다 재미있어요~~')

### 형태소분석표 
http://kkma.snu.ac.kr/documents/index.jsp?doc=postag

In [None]:
# 형태소 분석
kkma.pos('한국어 분석을 시작합니다 재미있어요~~')

In [None]:
kkma.pos('오늘도 좋은 하루')

### 한나눔
    * https://konlpy-ko.readthedocs.io/ko/v0.4.3/api/konlpy.tag/
    
- hannanum 메소드 
```
    hannanum객체.nouns() : 단어 분석 
    hannanum.morphs : 형태소를 리스트로 반환 
    hannanum.pos : 형태소 분석 
```

In [None]:
# 모듈 임포트
from konlpy.tag import Hannanum


In [None]:
# 객체 생성 
hannanum = Hannanum()

In [None]:
# 단어 분석
hannanum.nouns('한국어 분석을 시작합니다 재미있어요~~')

In [None]:
hannanum.morphs('한국어 분석을 시작합니다 재미있어요~~')

In [None]:
hannanum.pos('한국어 분석을 시작합니다 재미있어요~~')

### 트위터 분석기 
    * https://github.com/twitter/twitter-korean-text
    
- 트위터 분석기 메소드 
```
    트위터객체.nouns() : 단어 분석 
    트위터객체.morphs : 형태소를 리스트로 반환 
    트위터객체.pos : 형태소 분석 
```

In [None]:
# 모듈 임포트
from konlpy.tag import Okt


In [None]:
# 객체 생성
t = Okt()

In [None]:
# 단어 분석
t.nouns('한국어 분석을 시작합니다 재미있어요~~')

In [None]:
t.morphs('한국어 분석을 시작합니다 재미있어요~~')

In [None]:
t.pos('한국어 분석을 시작합니다 재미있어요~~')

##  워드 클라우드

* WordCloud 설치 : **pip install wordcloud**

In [None]:
# pip install wordcloud

In [None]:
from wordcloud import WordCloud, STOPWORDS

import numpy as np
from PIL import Image

### 텍스트파일을 이용한 워드클라우드 생성

In [None]:
text = open('../data/09. alice.txt').read()
# text

In [None]:
# 엘리스그림 마스킹 객체 생성 
alice_mask = np.array(Image.open('../data/09. alice_mask.png'))

stopwords = set(STOPWORDS)
stopwords.add("said")

In [None]:
import matplotlib
import matplotlib.pyplot as plt
%matplotlib inline

import matplotlib.font_manager as fm

#  한글글꼴로 변경
plt.rcParams['font.size'] = 20.0
plt.rcParams['font.family'] = 'batang'
# plt.rcParams['font.family'] = 'Malgun Gothic'

In [None]:
plt.figure(figsize=(8,8))
plt.imshow(alice_mask, cmap=plt.cm.gray, interpolation='bilinear')
plt.axis('off')
plt.show()

In [None]:
wc = WordCloud(background_color='white', max_words=2000, mask=alice_mask,
              stopwords = stopwords)
wc = wc.generate(text)
wc.words_

In [None]:
plt.figure(figsize=(12,12))
plt.imshow(wc, interpolation='bilinear')
plt.axis('off')
plt.show()

## 스타워즈 마스크

In [None]:
text = open('../data/09. a_new_hope.txt').read()

text = text.replace('HAN', 'Han')
text = text.replace("LUKE'S", 'Luke')

mask = np.array(Image.open('../data/09. stormtrooper_mask.png'))

In [None]:
stopwords = set(STOPWORDS)
stopwords.add("int")
stopwords.add("ext")

In [None]:
wc = WordCloud(max_words=1000, mask=mask, stopwords=stopwords, 
               margin=10, random_state=1).generate(text)

default_colors = wc.to_array()

In [None]:
import random
def grey_color_func(word, font_size, position, orientation, 
                    random_state=None, **kwargs):
    return 'hsl(0, 0%%, %d%%)' % random.randint(60,100)

In [None]:
plt.figure(figsize=(12,12))
plt.imshow(wc.recolor(color_func=grey_color_func, random_state=3),
          interpolation='bilinear')
plt.axis('off')
plt.show()