# Industry 4.0 의 중심, BigData

<div align='right'><font size=2 color='gray'>Data Processing Based Python @ <font color='blue'><a href='https://www.facebook.com/jskim.kr'>FB / jskim.kr</a></font>, [김진수](bigpycraft@gmail.com)</font></div>
<hr>

## <font color='brown'>KoNLPy : 파이썬 한국어 NLP </font>
> 코엔엘파이, 한국어 처리를 위한 파이썬 패키지 
> - Hannanum Class
> - Kkma Class
> - Komoran Class
> - Mecab Class
> - Twitter Class


In [1]:
from konlpy.tag import Hannanum
from konlpy.tag import Kkma
from konlpy.tag import Komoran
from konlpy.tag import Mecab
from konlpy.tag import Twitter

### <font color='blue'> Hannanum </font>

In [2]:
text = '자연어처리는 재미있습니다. 그러나 한국어 분석은 쉽지않습니다.'

In [3]:
hannanum = Hannanum()

In [4]:
hannanum.analyze(text)

[[[('자연어처리', 'ncpa'), ('는', 'jxc')],
  [('자연어', 'ncn'), ('처리', 'ncpa'), ('는', 'jxc')]],
 [[('재미있', 'pvg'), ('습니다', 'ef')],
  [('재미', 'ncn'), ('있', 'xsmn'), ('습니다', 'ef')]],
 [[('.', 'sf')], [('.', 'sy')]],
 [],
 [[('그러나', 'maj')]],
 [[('한국어', 'ncn')]],
 [[('분석', 'ncpa'), ('은', 'jxc')], [('분석', 'ncpa'), ('은', 'ncn')]],
 [[('쉽', 'paa'), ('지', 'ecx'), ('않', 'px'), ('습니다', 'ef')]],
 [[('.', 'sf')], [('.', 'sy')]]]

In [5]:
hannanum.morphs(text)

['자연어처리',
 '는',
 '재미있',
 '습니다',
 '.',
 '그러나',
 '한국어',
 '분석',
 '은',
 '쉽',
 '지',
 '않',
 '습니다',
 '.']

In [6]:
hannanum.nouns(text)

['자연어처리', '한국어', '분석']

In [7]:
hannanum.pos(text)

[('자연어처리', 'N'),
 ('는', 'J'),
 ('재미있', 'P'),
 ('습니다', 'E'),
 ('.', 'S'),
 ('그러나', 'M'),
 ('한국어', 'N'),
 ('분석', 'N'),
 ('은', 'J'),
 ('쉽', 'P'),
 ('지', 'E'),
 ('않', 'P'),
 ('습니다', 'E'),
 ('.', 'S')]

### <font color='blue'> Kkma </font> 

In [8]:
text = '''
꼬꼬마 한글 형태소 분석기는 Java 라이브러리로써 jar 파일 형태로 배포한다.
사전을 메모리에 적재하기 위한 충분한 힙메모리를 지정해주어야 한다. 
따라서 512''B이상의 메모리를 지정할 것을 권장한다.
'''

In [9]:
kkma = Kkma()

In [10]:
kkma.morphs(text)

['꼬꼬마',
 '한글',
 '형태소',
 '분석기',
 '는',
 'Java',
 '라이브러리',
 '로써',
 'jar',
 '파일',
 '형태',
 '로',
 '배포',
 '하',
 'ㄴ다',
 '.',
 '사전',
 '을',
 '메모리',
 '에',
 '적재',
 '하',
 '기',
 '위하',
 'ㄴ',
 '충분',
 '하',
 'ㄴ',
 '힙',
 '메모리',
 '를',
 '지정',
 '하',
 '어',
 '주',
 '어야',
 '하',
 'ㄴ다',
 '.',
 '따르',
 '아서',
 '512',
 "''",
 'B',
 '이상',
 '의',
 '메모리',
 '를',
 '지정',
 '하',
 'ㄹ',
 '것',
 '을',
 '권장',
 '하',
 'ㄴ다',
 '.']

In [11]:
kkma.nouns(text)

['꼬꼬마',
 '한글',
 '형태소',
 '분석기',
 '라이브러리',
 '파일',
 '형태',
 '배포',
 '사전',
 '메모리',
 '적재',
 '힙',
 '힙메모리',
 '지정',
 '512',
 '이상',
 '권장']

In [12]:
kkma.pos(text)

[('꼬꼬마', 'NNG'),
 ('한글', 'NNG'),
 ('형태소', 'NNG'),
 ('분석기', 'NNG'),
 ('는', 'JX'),
 ('Java', 'OL'),
 ('라이브러리', 'NNG'),
 ('로써', 'JKM'),
 ('jar', 'OL'),
 ('파일', 'NNG'),
 ('형태', 'NNG'),
 ('로', 'JKM'),
 ('배포', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ다', 'EFN'),
 ('.', 'SF'),
 ('사전', 'NNG'),
 ('을', 'JKO'),
 ('메모리', 'NNG'),
 ('에', 'JKM'),
 ('적재', 'NNG'),
 ('하', 'XSV'),
 ('기', 'ETN'),
 ('위하', 'VV'),
 ('ㄴ', 'ETD'),
 ('충분', 'XR'),
 ('하', 'XSA'),
 ('ㄴ', 'ETD'),
 ('힙', 'NNG'),
 ('메모리', 'NNG'),
 ('를', 'JKO'),
 ('지정', 'NNG'),
 ('하', 'XSV'),
 ('어', 'ECS'),
 ('주', 'VXV'),
 ('어야', 'ECD'),
 ('하', 'VV'),
 ('ㄴ다', 'EFN'),
 ('.', 'SF'),
 ('따르', 'VV'),
 ('아서', 'ECD'),
 ('512', 'NR'),
 ("''", 'SW'),
 ('B', 'OL'),
 ('이상', 'NNG'),
 ('의', 'JKG'),
 ('메모리', 'NNG'),
 ('를', 'JKO'),
 ('지정', 'NNG'),
 ('하', 'XSV'),
 ('ㄹ', 'ETD'),
 ('것', 'NNB'),
 ('을', 'JKO'),
 ('권장', 'NNG'),
 ('하', 'XSV'),
 ('ㄴ다', 'EFN'),
 ('.', 'SF')]

In [13]:
kkma.sentences(text)

['꼬꼬마 한글 형태소 분석기는 Java 라이브러리로써 jar 파일 형태로 배포한다.',
 '사전을 메모리에 적재하기 위한 충분한 힙 메모리를 지정해 주어야 한다.',
 "따라서 512''B 이상의 메모리를 지정할 것을 권장한다."]

### <font color='blue'> Komoran </font>  

In [14]:
text = '코모란도 오픈소스가 되었어요. 근데 메모리를 너무 먹네요ㅠㅠ'

In [15]:
komoran = Komoran()

In [16]:
komoran.morphs(text)

['코',
 '모란',
 '도',
 '오픈',
 '소스',
 '가',
 '되',
 '었',
 '어요',
 '.',
 '근데',
 '메모리',
 '를',
 '너무',
 '먹네요ㅠㅠ']

In [17]:
komoran.nouns(text)

['코', '모란', '오픈', '소스', '메모리']

In [18]:
komoran.pos(text)

[('코', 'NNG'),
 ('모란', 'NNP'),
 ('도', 'JX'),
 ('오픈', 'NNP'),
 ('소스', 'NNP'),
 ('가', 'JKS'),
 ('되', 'VV'),
 ('었', 'EP'),
 ('어요', 'EF'),
 ('.', 'SF'),
 ('근데', 'MAJ'),
 ('메모리', 'NNP'),
 ('를', 'JKO'),
 ('너무', 'MAG'),
 ('먹네요ㅠㅠ', 'NA')]

### <font color='blue'> Twitter → Okt </font>   

In [19]:
message_to_sons = '''
꿈을 날짜와 함께 적어 놓으면 그것은 목표가 되고, 
목표를 잘게 나누면 그것은 계획이 되며, 
그 계획을 실행에 옮기면 꿈은 실현되는 것이다.
'''

In [20]:
twitter = Twitter()

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


In [21]:
twitter.morphs(message_to_sons)

['\n',
 '꿈',
 '을',
 '날짜',
 '와',
 '함께',
 '적어',
 '놓으면',
 '그것',
 '은',
 '목표',
 '가',
 '되고',
 ',',
 '목표',
 '를',
 '잘게',
 '나누면',
 '그것',
 '은',
 '계획',
 '이',
 '되며',
 ',',
 '그',
 '계획',
 '을',
 '실행',
 '에',
 '옮기면',
 '꿈',
 '은',
 '실현',
 '되는',
 '것',
 '이다',
 '.',
 '\n']

In [22]:
twitter.nouns(message_to_sons)

['꿈', '날짜', '그것', '목표', '목표', '그것', '계획', '그', '계획', '실행', '꿈', '실현', '것']

In [23]:
twitter.phrases(message_to_sons)

['날짜', '그것', '목표', '계획', '그 계획', '실행', '실현', '실현되는 것']

In [24]:
twitter.pos(message_to_sons)

[('\n', 'Foreign'),
 ('꿈', 'Noun'),
 ('을', 'Josa'),
 ('날짜', 'Noun'),
 ('와', 'Josa'),
 ('함께', 'Adverb'),
 ('적어', 'Verb'),
 ('놓으면', 'Verb'),
 ('그것', 'Noun'),
 ('은', 'Josa'),
 ('목표', 'Noun'),
 ('가', 'Josa'),
 ('되고', 'Verb'),
 (',', 'Punctuation'),
 ('목표', 'Noun'),
 ('를', 'Josa'),
 ('잘게', 'Verb'),
 ('나누면', 'Verb'),
 ('그것', 'Noun'),
 ('은', 'Josa'),
 ('계획', 'Noun'),
 ('이', 'Josa'),
 ('되며', 'Verb'),
 (',', 'Punctuation'),
 ('그', 'Noun'),
 ('계획', 'Noun'),
 ('을', 'Josa'),
 ('실행', 'Noun'),
 ('에', 'Josa'),
 ('옮기면', 'Verb'),
 ('꿈', 'Noun'),
 ('은', 'Josa'),
 ('실현', 'Noun'),
 ('되는', 'Verb'),
 ('것', 'Noun'),
 ('이다', 'Josa'),
 ('.', 'Punctuation'),
 ('\n', 'Foreign')]

In [25]:
# stem – If True, stem tokens.
twitter.pos(message_to_sons, stem=True)

[('\n', 'Foreign'),
 ('꿈', 'Noun'),
 ('을', 'Josa'),
 ('날짜', 'Noun'),
 ('와', 'Josa'),
 ('함께', 'Adverb'),
 ('적다', 'Verb'),
 ('놓다', 'Verb'),
 ('그것', 'Noun'),
 ('은', 'Josa'),
 ('목표', 'Noun'),
 ('가', 'Josa'),
 ('되다', 'Verb'),
 (',', 'Punctuation'),
 ('목표', 'Noun'),
 ('를', 'Josa'),
 ('자다', 'Verb'),
 ('나누다', 'Verb'),
 ('그것', 'Noun'),
 ('은', 'Josa'),
 ('계획', 'Noun'),
 ('이', 'Josa'),
 ('되다', 'Verb'),
 (',', 'Punctuation'),
 ('그', 'Noun'),
 ('계획', 'Noun'),
 ('을', 'Josa'),
 ('실행', 'Noun'),
 ('에', 'Josa'),
 ('옮기다', 'Verb'),
 ('꿈', 'Noun'),
 ('은', 'Josa'),
 ('실현', 'Noun'),
 ('되다', 'Verb'),
 ('것', 'Noun'),
 ('이다', 'Josa'),
 ('.', 'Punctuation'),
 ('\n', 'Foreign')]

In [26]:
for case_f, case_t in zip(twitter.pos(message_to_sons, stem=False), twitter.pos(message_to_sons, stem=True)):
    is_compare = case_f[0] == case_t[0]
    if not is_compare:
        print(" stem=False : {} \n stem=True  : {}    \t=> {} \n {}".format(case_f, case_t, is_compare, "-"*30))

 stem=False : ('적어', 'Verb') 
 stem=True  : ('적다', 'Verb')    	=> False 
 ------------------------------
 stem=False : ('놓으면', 'Verb') 
 stem=True  : ('놓다', 'Verb')    	=> False 
 ------------------------------
 stem=False : ('되고', 'Verb') 
 stem=True  : ('되다', 'Verb')    	=> False 
 ------------------------------
 stem=False : ('잘게', 'Verb') 
 stem=True  : ('자다', 'Verb')    	=> False 
 ------------------------------
 stem=False : ('나누면', 'Verb') 
 stem=True  : ('나누다', 'Verb')    	=> False 
 ------------------------------
 stem=False : ('되며', 'Verb') 
 stem=True  : ('되다', 'Verb')    	=> False 
 ------------------------------
 stem=False : ('옮기면', 'Verb') 
 stem=True  : ('옮기다', 'Verb')    	=> False 
 ------------------------------
 stem=False : ('되는', 'Verb') 
 stem=True  : ('되다', 'Verb')    	=> False 
 ------------------------------


In [27]:
# returns joined sets of morph and tag
twitter.pos(message_to_sons, join=True)

['\n/Foreign',
 '꿈/Noun',
 '을/Josa',
 '날짜/Noun',
 '와/Josa',
 '함께/Adverb',
 '적어/Verb',
 '놓으면/Verb',
 '그것/Noun',
 '은/Josa',
 '목표/Noun',
 '가/Josa',
 '되고/Verb',
 ',/Punctuation',
 '목표/Noun',
 '를/Josa',
 '잘게/Verb',
 '나누면/Verb',
 '그것/Noun',
 '은/Josa',
 '계획/Noun',
 '이/Josa',
 '되며/Verb',
 ',/Punctuation',
 '그/Noun',
 '계획/Noun',
 '을/Josa',
 '실행/Noun',
 '에/Josa',
 '옮기면/Verb',
 '꿈/Noun',
 '은/Josa',
 '실현/Noun',
 '되는/Verb',
 '것/Noun',
 '이다/Josa',
 './Punctuation',
 '\n/Foreign']

<hr>
<marquee><font size=3 color='brown'>The BigpyCraft find the information to design valuable society with Technology & Craft.</font></marquee>
<div align='right'><font size=2 color='gray'> &lt; The End &gt; </font></div>