### 자연어 처리, NLP(Natural Language Processing) 
#### 설치 목록

- JDK (Java SE Downloads)
- JAVA_HOME 설정
- NLP Package 설치
- - JPype 설치
- - KoNLPy 설치
- - Word Cloud 설치

#### KoNLPy 패키지

tag Package

- Hannanum Class
- Kkma Class
- Komoran Class
- Mecab Class
- Twitter Class       →    Okt

In [2]:
from IPython.display import Image as Show

In [3]:
import platform

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# sns.set()

from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
    rc('font', family=font_name)
else:
    print("It's unknown system. Hangul fonts are not supported!")
    
# plt.rcParams['axes.unicode_minus'] = False
plt.rcParams["figure.figsize"] = [12,6]

%matplotlib inline

### 한글 자연어 처리 기초

In [4]:
! pip install konlpy



In [5]:
text_0 = '한국어 분석을 시작합니다. 재미있어요'
text_1 = '나는 이제 너 없이도 너를 좋아할 수 있다.'
text_2 = '순간이 시간이 되고, 시간이 세월이 되고, 세월은 추억이 된다.'
text_3 = '''
    자신의 능력을 감추지 마라. 
    재능은 쓰라고 주어진 것이다. 
    그늘속의 해시계가 무슨 소용이랴.'
'''
text_4 = '''
    If I only had an hour to chop down a tree, 
    I would spend the first 45 minutes sharpening my axe.
    만일 내게 나무를 베기 위해 한 시간만 주어진다면, 
    우선 나는 도끼를 가는데 45분을 쓸 것이다.'
    - 에이브러햄 링컨
'''
text_5 = '''
아름답지만 다소 복잡하기도한 한국어는 전세계에서 13번째로 많이 사용되는 언어입니다.
KoNLPy는 파이썬 프로그래밍 언어로 사용할 수 있도록 만들어졌는데, 
그것은 파이썬이 간결하고 우아한 문법구조, 강력한 스트링 연산 기능을 가지고 있을 뿐 아니라 
크롤링, 웹프로그래밍, 그리고 데이터 분석을 수행할 수 있는 다양한 패키지를 사용할 수 있는 언어이기 때문입니다.
'''

cool_sentences = [ text_0, text_1, text_2, text_3, text_4, text_5 ]

In [6]:
selected_text = cool_sentences[1]

In [7]:
selected_text

'나는 이제 너 없이도 너를 좋아할 수 있다.'

### KoNLPy - Kkma

In [8]:
from konlpy.tag import Kkma

In [9]:
kkma = Kkma()

# selected_text = cool_sentences[0]
print(selected_text)

-------------------------------------------------------------------------------
Deprecated: convertStrings was not specified when starting the JVM. The default
behavior in JPype will be False starting in JPype 0.8. The recommended setting
for new code is convertStrings=False.  The legacy value of True was assumed for
please file a ticket with the developer.
-------------------------------------------------------------------------------

  """)


나는 이제 너 없이도 너를 좋아할 수 있다.


In [10]:
kkma.sentences(selected_text)

['나는 이제 너 없이도 너를 좋아할 수 있다.']

In [11]:
kkma.nouns(selected_text)

['나', '너', '수']

In [12]:
kkma.pos(selected_text)

[('나', 'NP'),
 ('는', 'JX'),
 ('이제', 'MAG'),
 ('너', 'NP'),
 ('없이', 'MAG'),
 ('도', 'JX'),
 ('너', 'NP'),
 ('를', 'JKO'),
 ('좋아하', 'VV'),
 ('ㄹ', 'ETD'),
 ('수', 'NNB'),
 ('있', 'VV'),
 ('다', 'EFN'),
 ('.', 'SF')]

### KoNLPy - Hnananum

In [13]:
from konlpy.tag import Hannanum

In [14]:
hannanum = Hannanum()

# selected_text = cool_sentences[0]
print(selected_text)

나는 이제 너 없이도 너를 좋아할 수 있다.


In [15]:
hannanum.nouns(selected_text)

['나', '너', '너', '수']

In [16]:
hannanum.morphs(selected_text)

['나',
 '는',
 '이제',
 '너',
 '없이',
 '도',
 '너',
 '를',
 '좋',
 '아',
 '하',
 'ㄹ',
 '수',
 '있',
 '다',
 '.']

In [17]:
hannanum.pos(selected_text)

[('나', 'N'),
 ('는', 'J'),
 ('이제', 'M'),
 ('너', 'N'),
 ('없이', 'M'),
 ('도', 'J'),
 ('너', 'N'),
 ('를', 'J'),
 ('좋', 'P'),
 ('아', 'E'),
 ('하', 'P'),
 ('ㄹ', 'E'),
 ('수', 'N'),
 ('있', 'P'),
 ('다', 'E'),
 ('.', 'S')]

### KoNLPy - Twitter (x) → Okt (o)</font>
#### "Twitter" has changed to "Okt" since KoNLPy v0.4.5

In [18]:
from konlpy.tag import Twitter

In [19]:
t = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [20]:
# selected_text = cool_sentences[0]
print(selected_text)

나는 이제 너 없이도 너를 좋아할 수 있다.


In [21]:
t.nouns(selected_text)

['나', '이제', '너', '너', '수']

In [22]:
t.morphs(selected_text)

['나', '는', '이제', '너', '없이도', '너', '를', '좋아할', '수', '있다', '.']

In [23]:
t.pos(selected_text)

[('나', 'Noun'),
 ('는', 'Josa'),
 ('이제', 'Noun'),
 ('너', 'Noun'),
 ('없이도', 'Adjective'),
 ('너', 'Noun'),
 ('를', 'Josa'),
 ('좋아할', 'Adjective'),
 ('수', 'Noun'),
 ('있다', 'Adjective'),
 ('.', 'Punctuation')]

### KoNLPy - Okt

In [24]:
from konlpy.tag import Okt

In [25]:
okt = Okt()

# selected_text = cool_sentences[0]
print(selected_text)

나는 이제 너 없이도 너를 좋아할 수 있다.


In [26]:
okt.nouns(selected_text)

['나', '이제', '너', '너', '수']

In [27]:
okt.morphs(selected_text)

['나', '는', '이제', '너', '없이도', '너', '를', '좋아할', '수', '있다', '.']

In [28]:
okt.pos(selected_text)

[('나', 'Noun'),
 ('는', 'Josa'),
 ('이제', 'Noun'),
 ('너', 'Noun'),
 ('없이도', 'Adjective'),
 ('너', 'Noun'),
 ('를', 'Josa'),
 ('좋아할', 'Adjective'),
 ('수', 'Noun'),
 ('있다', 'Adjective'),
 ('.', 'Punctuation')]