# 한국어 데이터 처리하기

# Install KoNLPy
pip install konlpy

# http://konlpy.org/ko/latest/install/ 참조

#### 데이터 전처리: konlpy를 이용한 형태소 분석

** 형태소 분석이 필요한 이유
- 영어처럼 어절 경계로 기본 단위를 설정하면 '철수가, 철수를, 철수는, 철수도, ...'와 같은 형태가 각각 다른 단어가 됨
- 하나의 의미 단위로서의 '철수'를 다루기 위해 형태소 경계를 사용하고자 하는 것
- 형태소를 비롯하여, 어근, 접두사/접미사, 품사(POS, part-of-speech) 등 다양한 언어적 속성의 구조를 파악
- 품사 정보를 이용하여 각 형태소의 문장 내 역할과 중요도 등을 생각해볼 수 있음

In [9]:
import konlpy

from konlpy.tag import Komoran
from konlpy.tag import Twitter
from konlpy.tag import Hannanum

komo = Komoran()
twit = Twitter()
hann = Hannanum()

In [12]:
sent = '이것은 샘플 문장입니다.'

# Komoran parsing
print('Komoran:'+str(komo.pos(sent)))
# Twitter parsing
print('Twitter:'+str(twit.pos(sent)))
# Hannanum parsing
print('Hannanum:'+str(hann.pos(sent)))

Komoran:[('이것', 'NP'), ('은', 'JX'), ('샘플', 'NNG'), ('문장', 'NNG'), ('이', 'VCP'), ('ㅂ니다', 'EF'), ('.', 'SF')]
Twitter:[('이', 'Determiner'), ('것', 'Noun'), ('은', 'Josa'), ('샘플', 'Noun'), ('문장', 'Noun'), ('입니', 'Adjective'), ('다', 'Eomi'), ('.', 'Punctuation')]
Hannanum:[('이것', 'N'), ('은', 'J'), ('샘플', 'N'), ('문장', 'N'), ('이', 'J'), ('ㅂ니다', 'E'), ('.', 'S')]


In [13]:
sent2 = '이것은 샘플 문장임ㅋㅋㅋ'

# Komoran parsing
print('Komoran:'+str(komo.pos(sent2)))
# Twitter parsing
print('Twitter:'+str(twit.pos(sent2)))
# Hannanum parsing
print('Hannanum:'+str(hann.pos(sent2)))

Komoran:[('이것', 'NP'), ('은', 'JX'), ('샘플', 'NNG'), ('문장임ㅋㅋㅋ', 'NA')]
Twitter:[('이', 'Determiner'), ('것', 'Noun'), ('은', 'Josa'), ('샘플', 'Noun'), ('문장', 'Noun'), ('임', 'Noun'), ('ㅋㅋㅋ', 'KoreanParticle')]
Hannanum:[('이것', 'N'), ('은', 'J'), ('샘플', 'N'), ('문장임ㅋㅋㅋ', 'N')]


#### 한국어 품사 태그 비교표
https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0

#### Word2Vec 모델 학습시키기

In [None]:
path = r'C:/Projects/keras_talk/AI-Academy-by-SNU/NLP/''