##  형태소 분석 (Morphological Analysis)

 + 자연 언어의 문장을 "형태소"라는 의미의 최소 단위로 분할하고, 품사를 판별하는 작업
 + 기계번역, 텍스트 마이닝에서 활용되는 중요한 작업

 + 영어의 형태소 분석은 쉽다
	"I want to eat a apple"
	조사역할의 to, a를 거르면 I, eat, apple 단어 추출

 + 한국어의 형태소 분석은 어렵다
	"나는 사과를 먹고 싶다"
	단어에 조사가 붙어 있어서 모든 품사와 문법 사전을 기반으로 대조하면서 단어를 추출해야 한다
	단순하게 '는' '을'을 제거한다고 되는 것이 아니다.
	"소은 노을 이쁘다고 한다"
	여기서 '은'과 '을'을 제거하면 안되고 '이쁜다고 한다'에서 '이쁘다' 어원도 추출해야 한다.

 + 한국어 형태소 분석 라이브러리 중 KoNLPy 사용
	http://konlpy.org/ko/latest

 + 형태소 분석 라이브러리 : KoNLPy ( http://konlpy.org/ko/latest/ )

 + 형태소 분석기 :Okt / 한나눔 / 꼬꼬마 / Kormoran / MeCab 등



### *** KoNLPy 설치

   - http://konlpy.org/ko/latest/install/
    
        > 왼쪽 메뉴에서 윈도우 선택하고 확인하면서 실행하는 방식 확인
    
   - https://www.lfd.uci.edu/~gohlke/pythonlibs/#jpype

      (1) JPype 확인 - 컴퓨터 bit / 파이썬 버전 ( python --version ) 에 맞는 실행 파일 다운로드
       
        [주의]  JPype1 설치할 때 ( 최신 버전 확인 )
            JPype1‑0.7.1‑cp37‑cp37m‑win_amd64.whl
            ( 컴퓨터 64bit / cp37 : python 3.7 버전  )
      
      (2) Anaconda Prompt 창이나 cmd 창  
         > pip install --upgrade pip
         > cd 다운받은폴더
         > pip install JPype1-1.1.2-cp38-cp38-win_amd64.whl         
        
      (3) pip install konlpy        

      (4) jupyter notebook을 다시 재실행해야 한다
    
        ` Anaconda Prompt 에서도 실행가능
   

[참고] 데이타 사이언스 스쿨 :

+ https://datascienceschool.net/03%20machine%20learning/03.01.02%20KoNLPy%20한국어%20처리%20패키지.html?highlight=konlpy

+ 

In [29]:
#nlpy가 형태소를 분석해주는 라이브러리
#!pip install konlpy

## 꼬꼬마

In [30]:
# KoNLPy의 kkma 형태소 분석기 확인
from konlpy.tag import Kkma
from konlpy.utils import pprint

kkma = Kkma()




In [31]:
# 문장분석
kkma.sentences("한국어 분석을 시작합니다. 재미있어요~")


['한국어 분석을 시작합니다.', '재미있어요~']

In [32]:
# 명사분석
kkma.nouns("한국어 분석을 시작합니다. 재미있어요~")


['한국어', '분석']

In [33]:
kkma.nouns("우리팀 숙제는 다 하셨습니까? 지각하시마시고요")

['우리팀', '숙제', '지각', '시고']

In [34]:
# 품사분석 : 한국어는 형태변화가 많아 영어처럼 쉽게 안됨
kkma.pos("한국어 분석을 시작합니다. 재미있어요~")


[('한국어', 'NNG'),
 ('분석', 'NNG'),
 ('을', 'JKO'),
 ('시작하', 'VV'),
 ('ㅂ니다', 'EFN'),
 ('.', 'SF'),
 ('재미있', 'VA'),
 ('어요', 'EFN'),
 ('~', 'SO')]

## 한나눔 엔진

In [35]:
from konlpy.tag import Hannanum
han = Hannanum()



In [36]:
# 명사분석 : 꼬꼬마 엔진과 다른 결과
han.nouns("한국어 분석을 시작합니다. 재미있어요~")


['한국어', '분석', '시작']

In [37]:
# 형태소분석
han.morphs("한국어 분석을 시작합니다. 재미있어요~")


['한국어', '분석', '을', '시작', '하', 'ㅂ니다', '.', '재미있', '어요', '~']

In [38]:
# 품사분석
han.pos("한국어 분석을 시작합니다. 재미있어요~")


[('한국어', 'N'),
 ('분석', 'N'),
 ('을', 'J'),
 ('시작', 'N'),
 ('하', 'X'),
 ('ㅂ니다', 'E'),
 ('.', 'S'),
 ('재미있', 'P'),
 ('어요', 'E'),
 ('~', 'S')]

이렇게 같은 한국어 분석 라이브러리여도 나누는 기준이 조금씩 다르다

## Okt 엔진 ( 예전의 Twitter 엔진)

In [39]:
from konlpy.tag import Okt
okt = Okt()

In [40]:
# 명사분석
okt.nouns('한국어 분석을 시작합니다. 재미있어요')


['한국어', '분석', '시작']

In [41]:
# 형태소분석

okt.morphs("한국어 분석을 시작합니다. 재미있어요~")

['한국어', '분석', '을', '시작', '합니다', '.', '재미있어요', '~']

In [42]:
# 품사분석

okt.pos("한국어 분석을 시작합니다. 재미있어요~")

[('한국어', 'Noun'),
 ('분석', 'Noun'),
 ('을', 'Josa'),
 ('시작', 'Noun'),
 ('합니다', 'Verb'),
 ('.', 'Punctuation'),
 ('재미있어요', 'Adjective'),
 ('~', 'Punctuation')]

In [43]:
morphs=okt.morphs("독도는 대한민국의 아름다운 섬이다.")
print(morphs)

['독도', '는', '대한민국', '의', '아름다운', '섬', '이다', '.']


In [44]:
pos=okt.pos("독도는 대한민국의 아름다운 섬이다.",norm=True,stem=True)
print(pos)

[('독도', 'Noun'), ('는', 'Josa'), ('대한민국', 'Noun'), ('의', 'Josa'), ('아름답다', 'Adjective'), ('섬', 'Noun'), ('이다', 'Josa'), ('.', 'Punctuation')]


In [45]:
nouns =okt.nouns("독도는 대한민국의 아름다운 섬이다.")
print(nouns)

['독도', '대한민국', '섬']


In [46]:
words=okt.pos("독도는대한민국의아름다운 섬이다.",norm=True,stem=True)
words

[('독도', 'Noun'),
 ('는', 'Josa'),
 ('대한민국', 'Noun'),
 ('의', 'Josa'),
 ('아름답다', 'Adjective'),
 ('섬', 'Noun'),
 ('이다', 'Josa'),
 ('.', 'Punctuation')]

KoNLPy 형태소 분석기 중에서 '나는사과를좋아한다' 문장을 분석할 수 있는 분석기는 많지 않지만 계속 발전하고 있는 중이다
관련 사항 확인 http://konlpy.org/ko/latest/api/konlpy.tag

 [ 연습 ] 독도는 대한민국의 아름다운 섬이다