#### 한국어 형태소 분석
- Konlpy package 활용
    * 내부에 5가지 형태소 분석 package 포함
    * 5가지 형태소 분석기 사용법 동일 => Easy

- [1] Module Loading <hr> 

In [1]:
from konlpy.tag import *            # * : package 안에 모든 것들 다 가져오기

- [2] 다양한 형태소 분석기 활용 <hr>

#### [2-1] Hannanum, 한나눔 형태소 분석기 사용

In [2]:
han = Hannanum()

text = "조혜리 미국에서 비지니스타고 언제 돌아와. 얼른 쏘자!"

In [4]:
## 형태소 분리  -> 조사를 뗴어냄
result = han.morphs(text)

print(f" 형태소 분리 : {result}")

# -> 동사를 처리하는 부분에서 가장 많이 문제 발생

 형태소 분리 : ['조혜리', '미국', '에서', '비지니스타', '이', '고', '언제', '돌', '아', '오', '아', '.', '얼른', '쏘', '자', '!']


In [5]:
## 명사만 추출 분리
result = han.nouns(text)

print(f" 명사 추출 분리 : {result}")

 명사 추출 분리 : ['조혜리', '미국', '비지니스타']


In [6]:
# 품사태깅 추출 분리 => 형태소랑 품사로 나눠주는 형태 
# -> 형태소 분리 후 품사 태깅 처리
result = han.pos(text)

print(f" 품사 태깅 : {result}")

 품사 태깅 : [('조혜리', 'N'), ('미국', 'N'), ('에서', 'J'), ('비지니스타', 'N'), ('이', 'J'), ('고', 'E'), ('언제', 'M'), ('돌', 'P'), ('아', 'E'), ('오', 'P'), ('아', 'E'), ('.', 'S'), ('얼른', 'M'), ('쏘', 'P'), ('자', 'E'), ('!', 'S')]


#### [2-2] Kkma, 꼬꼬마 형태소 분석기 사용

In [8]:
# 꼬꼬마 형태소 분리
kkma = Kkma()

In [11]:
# 형태소 분석
print(f"형태소 분석 : {kkma.morphs(text)}")

# 명사만 추출
print(f"명사 추출 : {kkma.nouns(text)}")

# 품사 태깅 후 분리
print(f"품사 태깅 후 분리 : {kkma.pos(text)}")


형태소 분석 : ['조', '혜', '리', '미국', '에서', '비지니스', '타', '고', '언제', '돌아오', '아', '.', '얼르', 'ㄴ', '쏘', '자', '!']
명사 추출 : ['조', '조혜리', '혜', '리', '미국', '비지니스']
품사 태깅 후 분리 : [('조', 'NNG'), ('혜', 'UN'), ('리', 'NNG'), ('미국', 'NNP'), ('에서', 'JKM'), ('비지니스', 'NNG'), ('타', 'VV'), ('고', 'ECE'), ('언제', 'MAG'), ('돌아오', 'VV'), ('아', 'ECS'), ('.', 'SF'), ('얼르', 'VV'), ('ㄴ', 'ETD'), ('쏘', 'VV'), ('자', 'ECE'), ('!', 'SF')]


#### [2-3] Komoran, 코모란 형태소 분석기 사용

In [12]:
## 코모란 형태소 분석기
komo = Komoran()

In [14]:
# 형태소 분석
print(f"형태소 분석 : {komo.morphs(text)}")

# 명사만 추출
print(f"명사 추출 : {komo.nouns(text)}")

# 품사 태깅 후 분리
print(f"품사 태깅 후 분리 : {komo.pos(text)}")

형태소 분석 : ['조', '혜리', '미국', '에서', '비지니스', '타', '고', '언제', '돌아오', '아', '.', '얼른', '쏘', '자', '!']
명사 추출 : ['혜리', '미국', '비지니스']
품사 태깅 후 분리 : [('조', 'NR'), ('혜리', 'NNP'), ('미국', 'NNP'), ('에서', 'JKB'), ('비지니스', 'NNG'), ('타', 'VV'), ('고', 'EC'), ('언제', 'MAG'), ('돌아오', 'VV'), ('아', 'EF'), ('.', 'SF'), ('얼른', 'MAG'), ('쏘', 'VV'), ('자', 'EF'), ('!', 'SF')]


#### [2-4] Okt 형태소 분석기 사용

In [16]:
# Okt 형태소 분석
okt = Okt()

In [17]:
# 형태소 분석
print(f"형태소 분석 : {okt.morphs(text)}")

# 명사만 추출
print(f"명사 추출 : {okt.nouns(text)}")

# 품사 태깅 후 분리
print(f"품사 태깅 후 분리 : {okt.pos(text)}")

형태소 분석 : ['조', '혜리', '미국', '에서', '비지니스', '타고', '언제', '돌아와', '.', '얼른', '쏘자', '!']
명사 추출 : ['혜리', '미국', '비지니스', '타고', '언제', '얼른']
품사 태깅 후 분리 : [('조', 'Modifier'), ('혜리', 'Noun'), ('미국', 'Noun'), ('에서', 'Josa'), ('비지니스', 'Noun'), ('타고', 'Noun'), ('언제', 'Noun'), ('돌아와', 'Verb'), ('.', 'Punctuation'), ('얼른', 'Noun'), ('쏘자', 'Verb'), ('!', 'Punctuation')]


#### [2-5] Mecab, 메캅 형태소 분석기 사용

In [19]:
# Mecab 형태소 분석기 사용
# mecab = Macab() # --> window는 Macab 지원 X, ERROR 발생

<hr>

In [23]:
## 한나눔, 꼬꼬마, 코모란, okt 비교
# 형태소 분석
print(f"형태소 분리 : {han.morphs(text)}")
print(f"형태소 분석 : {kkma.morphs(text)}")
print(f"형태소 분석 : {komo.morphs(text)}")
print(f"형태소 분석 : {okt.morphs(text)}")
print()

# 명사만 추출
print(f"명사 추출 분리 : {han.nouns(text)}")
print(f"명사 추출 : {kkma.nouns(text)}")
print(f"명사 추출 : {komo.nouns(text)}")
print(f"명사 추출 : {okt.nouns(text)}")
print()

# 품사 태깅 후 분리
print(f"품사 태깅 : {han.pos(text)}")
print(f"품사 태깅 후 분리 : {kkma.pos(text)}")
print(f"품사 태깅 후 분리 : {komo.pos(text)}")
print(f"품사 태깅 후 분리 : {okt.pos(text)}")
print()

## 형태소 분석기별 차이가 존재 -> 나에게 최적의 형태소 분석법을 찾는 것이 중요

형태소 분리 : ['조혜리', '미국', '에서', '비지니스타', '이', '고', '언제', '돌', '아', '오', '아', '.', '얼른', '쏘', '자', '!']
형태소 분석 : ['조', '혜', '리', '미국', '에서', '비지니스', '타', '고', '언제', '돌아오', '아', '.', '얼르', 'ㄴ', '쏘', '자', '!']
형태소 분석 : ['조', '혜리', '미국', '에서', '비지니스', '타', '고', '언제', '돌아오', '아', '.', '얼른', '쏘', '자', '!']
형태소 분석 : ['조', '혜리', '미국', '에서', '비지니스', '타고', '언제', '돌아와', '.', '얼른', '쏘자', '!']

명사 추출 분리 : ['조혜리', '미국', '비지니스타']
명사 추출 : ['조', '조혜리', '혜', '리', '미국', '비지니스']
명사 추출 : ['혜리', '미국', '비지니스']
명사 추출 : ['혜리', '미국', '비지니스', '타고', '언제', '얼른']

품사 태깅 : [('조혜리', 'N'), ('미국', 'N'), ('에서', 'J'), ('비지니스타', 'N'), ('이', 'J'), ('고', 'E'), ('언제', 'M'), ('돌', 'P'), ('아', 'E'), ('오', 'P'), ('아', 'E'), ('.', 'S'), ('얼른', 'M'), ('쏘', 'P'), ('자', 'E'), ('!', 'S')]
품사 태깅 후 분리 : [('조', 'NNG'), ('혜', 'UN'), ('리', 'NNG'), ('미국', 'NNP'), ('에서', 'JKM'), ('비지니스', 'NNG'), ('타', 'VV'), ('고', 'ECE'), ('언제', 'MAG'), ('돌아오', 'VV'), ('아', 'ECS'), ('.', 'SF'), ('얼르', 'VV'), ('ㄴ', 'ETD'), ('쏘', 'VV'), ('자', 'ECE'), ('!', 'SF'