# Industry 4.0 의 중심, BigData

<div align='right'><font size=2 color='gray'>Data Processing Based Python @ <font color='blue'><a href='https://www.facebook.com/jskim.kr'>FB / jskim.kr</a></font>, [김진수](bigpycraft@gmail.com)</font></div>
<hr>

## <font color='brown'>자연어 처리, NLP(Natural Language Processing) </font>
> 설치 목록
> * JDK (Java SE Downloads)
> * JAVA_HOME 설정
> * NLP Package 설치
> <br/> 1) JPype 설치
> <br/> 2) KoNLPy 설치
> <br/> 3) Word Cloud 설치

### <font color='blue'>  KoNLPy 및 필요 모듈의 설치 </font>

- **JAVA 환경** : JDK (>=1.8) Install & JAVA Environmnmet Variable Setting
- **MS Visual C++ 설치** : Build Tools for Visual Studio 2017 (>=14.0) Install
- **JPype 설치** : JPype1 (>=0.5.7) Install
<br/> (Anaconda Prompt) C:\Users\user> pip install --upgrade pip
<br/> (Anaconda Prompt) C:\Users\user> pip install JPype1-1.2.0-cp38-cp38-win_amd64.whl
- **KoNLPy 설치** :
<br/> (Anaconda Prompt) C:\Users\user> pip install konlpy

### <font color='blue'>  KoNLPy 패키지 </font>
> tag Package
> * Hannanum Class
> * Kkma Class
> * Komoran Class
> * Mecab Class
> * Twitter Class  &nbsp;&nbsp;&nbsp;&nbsp;&nbsp; → &nbsp;&nbsp; Okt

In [1]:
from IPython.display import Image as Show

In [2]:
import platform

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# sns.set()

from matplotlib import font_manager, rc
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname="C:/Windows/Fonts/malgun.ttf").get_name()
    rc('font', family=font_name)
else:
    print("It's unknown system. Hangul fonts are not supported!")
    
# plt.rcParams['axes.unicode_minus'] = False
plt.rcParams["figure.figsize"] = [12,6]

%matplotlib inline

### <font color='blue'> 한글 자연어 처리 기초 </font>

##### 유니코드 문자열
> 파이썬에서는 일반 문자열과는 별도로 유니코드 문자열 형태가 있습니다.
> - 일반 문자열은 8비트 문자열로, 하나의 문자를 여러 개의 바이트에 분해해서 저장합니다. 
> - 파이썬으로 문자를 처리할 때 바이트 단위로 처리를 해야 하는 경우가 있습니다.
> - 유니코드(Unicode) 문자열은 문자를 Unicode로 취급하기 때문에 영어나 한국어등의 ASCII 문자로 되어있어도 한 개 문자를 하나씩 다룹니다.
> - 즉, 일반 문자열은 바이트 단위로 처리 하지만, 유니코드 문자열에서는 문자 단위로 처리하게 됩니다.
> - 한글을 글자 깨짐 없이 사용하고 싶은 경우에는 유니코드 문자열을 사용하면 됩니다.

In [3]:
text_0 = u'한국어 분석을 시작합니다. 재미있어요'
text_1 = u'나는 이제 너 없이도 너를 좋아할 수 있다.'
text_2 = u'순간이 시간이 되고, 시간이 세월이 되고, 세월은 추억이 된다.'
text_3 = u'''
    자신의 능력을 감추지 마라. 
    재능은 쓰라고 주어진 것이다. 
    그늘속의 해시계가 무슨 소용이랴.'
'''
text_4 = u'''
    If I only had an hour to chop down a tree, 
    I would spend the first 45 minutes sharpening my axe.
    만일 내게 나무를 베기 위해 한 시간만 주어진다면, 
    우선 나는 도끼를 가는데 45분을 쓸 것이다.'
    - 에이브러햄 링컨
'''
text_5 = u'''
아름답지만 다소 복잡하기도한 한국어는 전세계에서 13번째로 많이 사용되는 언어입니다.
KoNLPy는 파이썬 프로그래밍 언어로 사용할 수 있도록 만들어졌는데, 
그것은 파이썬이 간결하고 우아한 문법구조, 강력한 스트링 연산 기능을 가지고 있을 뿐 아니라 
크롤링, 웹프로그래밍, 그리고 데이터 분석을 수행할 수 있는 다양한 패키지를 사용할 수 있는 언어이기 때문입니다.
'''

cool_sentences = [ text_0, text_1, text_2, text_3, text_4, text_5 ]

In [4]:
selected_text = cool_sentences[4]
print(selected_text)


    If I only had an hour to chop down a tree, 
    I would spend the first 45 minutes sharpening my axe.
    만일 내게 나무를 베기 위해 한 시간만 주어진다면, 
    우선 나는 도끼를 가는데 45분을 쓸 것이다.'
    - 에이브러햄 링컨



In [5]:
selected_text = cool_sentences[-1]
print(selected_text)


아름답지만 다소 복잡하기도한 한국어는 전세계에서 13번째로 많이 사용되는 언어입니다.
KoNLPy는 파이썬 프로그래밍 언어로 사용할 수 있도록 만들어졌는데, 
그것은 파이썬이 간결하고 우아한 문법구조, 강력한 스트링 연산 기능을 가지고 있을 뿐 아니라 
크롤링, 웹프로그래밍, 그리고 데이터 분석을 수행할 수 있는 다양한 패키지를 사용할 수 있는 언어이기 때문입니다.



### <font color='#CC0000'> KoNLPy - Kkma </font>

In [6]:
from konlpy.tag import Kkma

In [7]:
kkma = Kkma()

In [8]:
selected_text = cool_sentences[0]
print(selected_text)

한국어 분석을 시작합니다. 재미있어요


In [9]:
kkma.sentences(selected_text)

['한국어 분석을 시작합니다.', '재미있어요']

In [10]:
kkma.nouns(selected_text)

['한국어', '분석']

In [11]:
kkma.morphs(selected_text)

['한국어', '분석', '을', '시작하', 'ㅂ니다', '.', '재미있', '어요']

In [12]:
kkma.pos(selected_text)

[('한국어', 'NNG'),
 ('분석', 'NNG'),
 ('을', 'JKO'),
 ('시작하', 'VV'),
 ('ㅂ니다', 'EFN'),
 ('.', 'SF'),
 ('재미있', 'VA'),
 ('어요', 'EFN')]

In [13]:
kkma.tagset

{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN': "부정 지정사, 형용사 '아니다'",
 'VC

### <font color='#CC0000'> KoNLPy - Hnananum </font>

In [14]:
from konlpy.tag import Hannanum

In [15]:
hannanum = Hannanum()

In [16]:
selected_text = cool_sentences[0]
print(selected_text)

한국어 분석을 시작합니다. 재미있어요


In [17]:
hannanum.nouns(selected_text)

['한국어', '분석', '시작']

In [18]:
hannanum.morphs(selected_text)

['한국어', '분석', '을', '시작', '하', 'ㅂ니다', '.', '재미있', '어요']

In [19]:
help(hannanum.analyze)

Help on method analyze in module konlpy.tag._hannanum:

analyze(phrase) method of konlpy.tag._hannanum.Hannanum instance
    Phrase analyzer.
    
    This analyzer returns various morphological candidates for each token.
    It consists of two parts: 1) Dictionary search (chart),
    2) Unclassified term segmentation.



In [20]:
hannanum.analyze(selected_text)

[[[('한국어', 'ncn')]],
 [[('분석', 'ncpa'), ('을', 'jco')]],
 [[('시작', 'ncpa'), ('하', 'xsva'), ('ㅂ니다', 'ef')]],
 [[('.', 'sf')], [('.', 'sy')]],
 [],
 [[('재미있', 'pvg'), ('어요', 'ef')],
  [('재미있', 'pvg'), ('어', 'ef'), ('요', 'jxf')],
  [('재미', 'ncn'), ('있', 'xsmn'), ('어요', 'ef')],
  [('재미', 'ncn'), ('있', 'xsmn'), ('어', 'ef'), ('요', 'jxf')]]]

In [21]:
hannanum.pos(selected_text)

[('한국어', 'N'),
 ('분석', 'N'),
 ('을', 'J'),
 ('시작', 'N'),
 ('하', 'X'),
 ('ㅂ니다', 'E'),
 ('.', 'S'),
 ('재미있', 'P'),
 ('어요', 'E')]

In [22]:
hannanum.tagset

{'E': '어미',
 'EC': '연결 어미',
 'EF': '종결 어미',
 'EP': '선어말어미',
 'ET': '전성 어미',
 'F': '외국어',
 'I': '독립언',
 'II': '감탄사',
 'J': '관계언',
 'JC': '격조사',
 'JP': '서술격 조사',
 'JX': '보조사',
 'M': '수식언',
 'MA': '부사',
 'MM': '관형사',
 'N': '체언',
 'NB': '의존명사',
 'NC': '보통명사',
 'NN': '수사',
 'NP': '대명사',
 'NQ': '고유명사',
 'P': '용언',
 'PA': '형용사',
 'PV': '동사',
 'PX': '보조 용언',
 'S': '기호',
 'X': '접사',
 'XP': '접두사',
 'XS': '접미사'}

### <font color='#CC0000'> KoNLPy - <font color='#AA7777'>Twitter (x) </font> → Okt (o)</font>
> "Twitter" has changed to "Okt" since KoNLPy v0.4.5.

In [23]:
from konlpy.tag import Twitter

In [24]:
t = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [25]:
selected_text = cool_sentences[0]
print(selected_text)

한국어 분석을 시작합니다. 재미있어요


In [26]:
t.nouns(selected_text)

['한국어', '분석', '시작']

In [27]:
t.phrases(selected_text)

['한국어', '한국어 분석', '시작', '분석']

In [28]:
t.morphs(selected_text)

['한국어', '분석', '을', '시작', '합니다', '.', '재미있어요']

In [29]:
t.pos(selected_text)

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('합니다', 'Verb'),
 ('.', 'Punctuation'),
 ('재미있어요', 'Adjective')]

In [30]:
t.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

### <font color='#CC0000'> KoNLPy - Okt </font>

In [31]:
from konlpy.tag import Okt

In [32]:
okt = Okt()

In [33]:
selected_text = cool_sentences[0]
print(selected_text)

한국어 분석을 시작합니다. 재미있어요


In [34]:
okt.nouns(selected_text)

['한국어', '분석', '시작']

In [35]:
okt.phrases(selected_text)

['한국어', '한국어 분석', '시작', '분석']

In [36]:
okt.morphs(selected_text)

['한국어', '분석', '을', '시작', '합니다', '.', '재미있어요']

In [37]:
okt.pos(selected_text)

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('합니다', 'Verb'),
 ('.', 'Punctuation'),
 ('재미있어요', 'Adjective')]

In [38]:
okt.tagset

{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}

### <font color='#CC0000'> Performance Test </font>

In [39]:
from datetime import datetime

In [40]:
start = datetime.now()
kkma.pos(selected_text)
end = datetime.now()

elapsed = end - start
print('총 계산 시간: ', end='');   print(elapsed)
elapsed_ms = int(elapsed.total_seconds()*1000)
print('총 계산 시간: %dms' %elapsed_ms)

총 계산 시간: 0:00:00.014001
총 계산 시간: 14ms


In [41]:
start = datetime.now()
hannanum.pos(selected_text)
end = datetime.now()

elapsed = end - start
print('총 계산 시간: ', end='');   print(elapsed)
elapsed_ms = int(elapsed.total_seconds()*1000)
print('총 계산 시간: %dms' %elapsed_ms)

총 계산 시간: 0:00:00.001996
총 계산 시간: 1ms


In [42]:
start = datetime.now()
t.pos(selected_text)
end = datetime.now()

elapsed = end - start
print('총 계산 시간: ', end='');   print(elapsed)
elapsed_ms = int(elapsed.total_seconds()*1000)
print('총 계산 시간: %dms' %elapsed_ms)

총 계산 시간: 0:00:00.004002
총 계산 시간: 4ms


In [43]:
start = datetime.now()
okt.pos(selected_text)
end = datetime.now()

elapsed = end - start
print('총 계산 시간: ', end='');   print(elapsed)
elapsed_ms = int(elapsed.total_seconds()*1000)
print('총 계산 시간: %dms' %elapsed_ms)

총 계산 시간: 0:00:00.004004
총 계산 시간: 4ms


<hr>
<marquee><font size=3 color='brown'>The BigpyCraft find the information to design valuable society with Technology & Craft.</font></marquee>
<div align='right'><font size=2 color='gray'> &lt; The End &gt; </font></div>