<a href="https://colab.research.google.com/github/BOSOEK/Machine_Learning_with_Book/blob/main/Deep_Learning_Chatbot_for_First_Time/Tokenizing/KoNLPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# KoNLPy
한국어 문장 분석시 토크나이징 작업이 필수다. 이때 한국어는 형태소로 분류가 힘든데.. __KoNLPy__ 내에는 형태소 분석 모듈이 많아 개발시 자주 사용한다.

## Kkma
서울 대학교 IDS 연구실에서 NLP를 위해 개발한 한국어 형태소 분석기
> Kkma 모듈의 함수
 * morphs(phrase) : 인자로 입력한 문장을 형태소 단위로 토크나이징 한다. 결과는 리스트로 반환
 * nouns(phrase) : 인자로 입력한 문장에서 품사가 명사인 토큰만 추출
 * pos(phrase, flatten=True) : 인자로 입력한 문장에서 형태소 추출 후 품사 태깅을 한다. 추출된 형태소 : 품사로 튜플 형태로 묶여 리스트로 반환
    * NNG : 일반 명사
    * JKS : 주격 조사
    * JKM : 부사격 조사
    * VV : 동사
    * EFN : 평서형 종결 어미
    * SF : 마침표, 물음표, 느낌표
 * sentences(phrase) : 인자로 입력한 여러 문장을 분리, 결과는 리스트로 반환

In [None]:
# KoNLPy 설치
!pip install konlpy

In [None]:
# 문장 토크나이징 예제
from konlpy.tag import Kkma

# 꼬꼬마 형태소 분석기 객체 생성
kkma = Kkma()
text = '아버지가 방에 들어갑니다.'

# 형태소 추출
morphs = kkma.morphs(text)
print(morphs)

# 형태소와 품사 추출
pos = kkma.pos(text)
print(pos)

# 명사 추출
nouns = kkma.nouns(text)
print(nouns)

# 문장 분리
senteces = '오늘 날씨는 어때요? 너무 덥다던데'
s = kkma.sentences(senteces)
print(s)

## Komoran
자바로 개발한 한국어 형태소 분석기로 아파치 라이선스 2.0을 따르는 오픈소프트웨어이다.   
다른 형태소 분석기랑 달리 __공백 포함된 형태소 단위 분석__ 이 가능하여 자주 사용도니다.
> Komoran 모듈의 함수      
  * morphs(phrase) : 인자로 입력한 문장을 형태소 단위로 토크나이징 한다. 결과는 리스트로 반환   
  * nouns(phrase) : 인자로 입력한 문장에서 품사가 명사인 토큰만 추출   
  * pos(phrase, flatten=True) : 인자로 입력한 문장에서 형태소 추출 후 품사 태깅을 한다. 추출된 형태소 : 품사로 튜플 형태로 묶여 리스트로 반환 
    * NNG : 일반 명사
    * JKS : 주격 조사
    * JKM : 부사격 조사
    * VV : 동사
    * EFN : 평서형 종결 어미
    * SF : 마침표, 물음표, 느낌표  

In [None]:
from konlpy.tag import Komoran

# 코모란 형태소 분석기 객체 생성
komoran = Komoran()
text = '아버지가 방에 들어갑니다.'

# 형태소 추출
morphs = komoran.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = komoran.pos(text)
print(pos)

# 명사만 추출
nouns = komoran.nouns(text)
print(nouns)

## Okt
트위터에서 개발한 한국어 처리기이다. 
> Okt 모듈의 함수
 * morphs(phrase) : 인자로 입력한 문장을 형태소 단위로 토크나이징 한다. 결과는 리스트로 반환
 * nouns(phrase) : 인자로 입력한 문장에서 품사가 명사인 토큰만 추출
 * pos(phrase, stem=False, join=False) : 인자로 입력한 문장에서 형태소 추출 후 품사 태깅을 한다. 추출된 형태소 : 품사로 튜플 형태로 묶여 리스트로 반환
    * Noun : 명사
    * Verb : 동사
    * Adjective : 형용사
    * Josa : 조사
    * Punctuation : 구두점
 * normalize(phrase) : 입력한 문장을 정규화 시킨다
 * phrases(phrase) : 입력한 문장에서 어구를 추출한다

In [None]:
from konlpy.tag import Okt

# Okt 형태소 분석기 객체 생성
okt = Okt()
text = '나는 방으로 들어가지 않는다.'

# 형태소 추출
morphs = okt.morphs(text)
print(morphs)

# 형태소와 품사 태그 추출
pos = okt.pos(text)
print(pos)

# 명사만 추출
nouns = okt.nouns(text)
print(nouns)

# 정규화, 어구 추출
text = '아 오늘 먹은 치킨은 너무 짰어.'
print(okt.normalize(text))
print(okt.phrases(text))