##  형태소 분석 (Morphological Analysis)

 + 자연 언어의 문장을 "형태소"라는 의미의 최소 단위로 분할하고, 품사를 판별하는 작업
 + 기계번역, 텍스트 마이닝에서 활용되는 중요한 작업

 + 영어의 형태소 분석은 쉽다
	"I want to eat a apple"
	조사역할의 to, a를 거르면 I, eat, apple 단어 추출

 + 한국어의 형태소 분석은 어렵다
	"나는 사과를 먹고 싶다"
	단어에 조사가 붙어 있어서 모든 품사와 문법 사전을 기반으로 대조하면서 단어를 추출해야 한다
	단순하게 '는' '을'을 제거한다고 되는 것이 아니다.
	"소은 노을 이쁘다고 한다"
	여기서 '은'과 '을'을 제거하면 안되고 '이쁜다고 한다'에서 '이쁘다' 어원도 추출해야 한다.

 + 한국어 형태소 분석 라이브러리 중 KoNLPy 사용
	http://konlpy.org/ko/latest

 + 형태소 분석 라이브러리 : KoNLPy ( http://konlpy.org/ko/latest/ )

 + 형태소 분석기 :Okt / 한나눔 / 꼬꼬마 / Kormoran / MeCab 등



### *** KoNLPy 설치

    - http://konlpy.org/ko/latest/install/
    
        - 왼쪽 메뉴에서 윈도우 선택하고 확인하면서 실행하는 방식 확인
    
    - https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype

      (1) JPype 확인 - 컴퓨터 bit / 파이썬 버전 ( python --version ) 에 맞는 실행 파일 다운로드
       
        [주의]  JPype1 설치할 때 ( 최신 버전 확인 )
            JPype1‑0.7.1‑cp37‑cp37m‑win_amd64.whl
            ( 컴퓨터 64bit / cp37 : python 3.7 버전  )
      
      (2) Anaconda Prompt 창이나 cmd 창  
         > pip install --upgrade pip
         > cd 다운받은폴더
         > pip install JPype1-0.7.5-cp37-cp37m-win_amd64.whl         
        
      (3) pip install konlpy        

      (4) jupyter notebook을 다시 재실행해야 한다
    
        ` Anaconda Prompt 에서도 실행가능
   

[참고] 데이타 사이언스 스쿨 :

+ https://datascienceschool.net/view-notebook/70ce46db4ced4a999c6ec349df0f4eb0/

+ https://datascienceschool.net/view-notebook/118731eec74b4ad3bdd2f89bab077e1b/

## 꼬꼬마

In [12]:
# KoNLPy의 kkma 형태소 분석기 확인
from konlpy.tag import Kkma
from konlpy.utils import pprint

kkma = Kkma()
pprint(kkma.sentences('네, 안녕하세요. 반갑습니다.'))#마침표를 기준으로 문장으로 봄




['네, 안녕하세요.', '반갑습니다.']


In [18]:
# 문장분석
kkma.sentences('네, 안녕하세요. 반갑습니다.')


['네, 안녕하세요.', '반갑습니다.']

In [17]:
# 명사분석
kkma.nouns('네, 안녕하세요. 반갑습니다.')


['안녕']

In [16]:
# 품사분석 : 한국어는 형태변화가 많아 영어처럼 쉽게 안됨

kkma.pos('네, 안녕하세요. 반갑습니다.')

[('네', 'MDN'),
 (',', 'SP'),
 ('안녕', 'NNG'),
 ('하', 'XSV'),
 ('세요', 'EFN'),
 ('.', 'SF'),
 ('반갑', 'VV'),
 ('습니다', 'EFN'),
 ('.', 'SF')]

## 한나눔 엔진

In [2]:
from konlpy.tag import Hannanum

hannanum=Hannanum()


In [3]:
# 명사분석 : 꼬꼬마 엔진과 다른 결과
hannanum.nouns('한국어 분석을 시작합니다 그러나 어렵습니다 그러나 재미있어요~')


['한국어', '분석', '시작']

In [4]:
# 형태소분석
hannanum.morphs('한국어 분석을 시작합니다 그러나 어렵습니다 그러나 재미있어요~')


['한국어',
 '분석',
 '을',
 '시작',
 '하',
 'ㅂ니다',
 '그러나',
 '어렵',
 '습니다',
 '그러나',
 '재미있',
 '어요',
 '~']

In [5]:
# 품사분석
hannanum.pos('한국어 분석을 시작합니다 그러나 어렵습니다 그러나 재미있어요~')


[('한국어', 'N'),
 ('분석', 'N'),
 ('을', 'J'),
 ('시작', 'N'),
 ('하', 'X'),
 ('ㅂ니다', 'E'),
 ('그러나', 'M'),
 ('어렵', 'P'),
 ('습니다', 'E'),
 ('그러나', 'M'),
 ('재미있', 'P'),
 ('어요', 'E'),
 ('~', 'S')]

## Okt 엔진 ( 예전의 Twitter 엔진)

In [7]:
from konlpy.tag import Okt
okt = Okt()

In [9]:
# 명사분석
okt.nouns('한국어 분석을 시작합니다 그러나 어렵습니다 그러나 재미있어요~')


['한국어', '분석', '시작']

In [10]:
# 형태소분석
okt.morphs('한국어 분석을 시작합니다 그러나 어렵습니다 그러나 재미있어요~')


['한국어', '분석', '을', '시작', '합니다', '그러나', '어렵습니다', '그러나', '재미있어요', '~']

In [19]:
# 품사분석

okt.pos('한국어 분석을 시작합니다 그러나 어렵습니당 그러나 재미있어용~',stem=True)

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('하다', 'Verb'),
 ('그러나', 'Conjunction'),
 ('어렵다', 'Adjective'),
 ('습', 'Noun'),
 ('니당다', 'Verb'),
 ('그러나', 'Conjunction'),
 ('재미있다', 'Adjective'),
 ('~', 'Punctuation')]