# 형태소 분석 (Morphological Analysis)

* 자연 언어의 문장을 '형태소'라는 의미를 갖는 최소 단위로 분할하고 품사를 판별하는 작업
    * 영어는 쉽다!!!! 단어를 공백으로 구분이 가능하니깐! 아시아 계열~ 특히 한국어 문장에는 단어와 조사가 붙어 있어 공백으로 구분이 안됩니다.

* NLP (Natural Language Processing, 자연어처리)
    * 텍스트에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술집합입니다.
    * 다양한 NLP 응용사례
        * 텍스트 요약 (ex: Summly)
        * 자동 질의응답 시스템 (ex: Wolfram Alpha)
        * 대화 시스템 (ex: Apple Siri)
        * 기계 번역 (ex: Google Translate)

* 필요한 라이브러리들!!!

    * Java 설치 (환경변수 설정 꼭 해주세요!)

    * 한국어 정보처리를 위한 파이썬 패키지 KoNLPy
        * 코엔엘파이 / KoNLPy(http://konlpy.org/ko/latest/)
        * GPL licence
        * 설치 : http://konlpy.org/ko/latest/install/
        * tag packages : http://konlpy.org/ko/latest/api/konlpy.tag/

    * 한글 형태소 분석기 바인더 Mecab (필수 아님)
        * Window mecab를 지원 안함
        * Mac은 homebrew로 설치하세요 (brew install mecab)
        * https://docs.google.com/spreadsheets/d/1-9blXKjtjeKZqsf4NzHeYJCrr49-nXeRF6D80udfcwY/edit#gid=589544265
      
    * JPype 설치
        * 파이썬 프로그램이 Java class 라이브러리에 접근할 수 있도록 해준다.
        * JPype1 0.6.2 : Python Package Index
        * github : originell/jpype: Friendly jpype fork with focus on easy installation.
        * 공식 문서 : JPype documentation — JPype 0.6.2 documentation 
        * http://jpype.readthedocs.io/en/latest/install.html#install
        * Mac OSX는 여기를 참조하세요 -> http://corazzon.github.io/Konlpy_JPype_install_struggle
            * pip install JPype1-py3 실행하심 됩니다

In [4]:
# mecab example
from konlpy.tag import Mecab
mecab = Mecab()
p1 = mecab.morphs(u'상수역 근처에 있는 머신러닝 스터디 장소 좀 알려주세요.')
p11 = mecab.morphs(u'아버지 가방에 들어가신다.')

p2 = mecab.nouns(u'평창 올림픽에서 가장 인기 있는 종목은 컬링입니다.')
p3 = mecab.pos(u'홍대역에서 상수역 까지 걸어서 얼마나 걸리나요?')

print(p1)
print(p11)
print(p2)
print(p3)


['상수역', '근처', '에', '있', '는', '머신', '러닝', '스터디', '장소', '좀', '알려', '주', '세요', '.']
['아버지', '가방', '에', '들어가', '신다', '.']
['평창', '올림픽', '인기', '종목', '컬링']
[('홍대', 'NNG'), ('역', 'NNG'), ('에서', 'JKB'), ('상수역', 'NNP'), ('까지', 'JX'), ('걸어서', 'VV+EC'), ('얼마나', 'MAG'), ('걸리', 'VV'), ('나요', 'EF'), ('?', 'SF')]


In [30]:
# Twitter example 
# http://konlpy.org/ko/latest/api/konlpy.tag/#module-konlpy.tag._twitter

from konlpy.tag import Twitter
twitter = Twitter()
p1 = twitter.morphs("아버지 가방에 들어가신다")
p2 = twitter.nouns("아버지 가방에 들어가신다")
p3 = twitter.pos("아버지 가방에 들어가신다", norm=True, stem=True)
p4 = twitter.pos("아버지 가방에 들어가신닼ㅋ", norm=True, stem=True)


print(p1)
print(p2)
print(p3)
print(p4)

['아버지', '가방', '에', '들어가신', '다']
['아버지', '가방']
[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가다', 'Verb')]
[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가다', 'Verb'), ('ㅋ', 'KoreanParticle')]


# 출현 빈도 분석

In [7]:
import codecs
from bs4 import BeautifulSoup
from konlpy.tag import Twitter

In [28]:
# utf-16 인코딩으로 파일을 열고 글자를 출력하기
fp = codecs.open("BEXX0003.txt", "r", encoding="utf-16")
soup = BeautifulSoup(fp, "html.parser")
body = soup.select_one("body > text")
# print(body)
text = body.getText()

In [27]:
# 텍스트 한 줄씩 처리하기
twitter = Twitter()
word_dic = {}
lines = test.split("\n")
for line in lines:
    malist = twitter.pos(line)
    for word in malist:
        if word[1] == "Noun": #명사확인
            if not (word[0] in word_dic):
                word_dic[word[0]] = 0
            word_dic[word[0]] += 1  # count

In [23]:
# 많이 사용된 명사 출력하기
keys = sorted(word_dic.items(), key=lambda x:x[1], reverse=True)
for word, count in keys[:50]:
    print("{0}({1})".format(word, count), end="")
print()

것(628)그(519)말(377)안(304)소리(198)길(194)용이(193)눈(187)내(178)놈(176)사람(167)치수(160)평산(160)얼굴(156)와(150)못(149)일(145)거(145)댁(141)때(139)수(138)이(138)강청댁(137)서방(125)나(124)서희(119)일이(117)더(116)어디(112)봉순(112)마을(111)최(110)머(110)년(107)만(107)집(105)제(104)김(99)칠성(97)니(97)구천이(96)날(94)생각(93)뒤(91)두(90)아이(88)믄(88)하나(84)월(83)참판(82)
