# 6-1. 한국어 분석(형태소 분석)

### 형태소 분석

형태소 분석은 자연 언어의 문장을 "형태소"라는 의미를 갖는 최소 단위로 분할하고 품사를 판별하는 작업.

영어 형태소 분석은 대부분 형태소마다 띄어쓰기를 해서 문장을 구성하는 것이 기본이기 때문에, 크게 문제되지 않지만, 한국어에는 조사가 붙어있으므로 단순히 공백으로 잘라서는 단어를 구분할 수 없다

## 형태소 분석 라이브러리

* KoNLPy를 이용하면 한나눔, 꼬꼬마, Komoran, MeCab, 트위터 등의 형태소 분석기르 쉽게 사용할 수 있다(진행될 분석에서는 트위터 형태소 분석기 사용)
*  Twitter가 KoNLPy의 5가지 형태소 분석기 중에 상대적으로 품사를 쉽게 읽을 수 있다
* http://www.konlpy.org/ko/latest/  <- api참조

In [1]:
from konlpy.tag import Twitter #트위터 형태소분석기를 가져온다
twitter = Twitter() #Twitter 메서드로 twitter 객체를 생성 - 다양한 메서드로 활용

print(twitter.morphs('단독입찰보다 복수입찰의 경우')) # 형태소분석
print(twitter.nouns('유일하게 항공기 체계 종합개발 경험을 갖고 있는 KAI는'))  #명사추출
print(twitter.phrases('날카로운 분석과 신뢰감 있는 진행으로')) #구문
print(twitter.pos('이것도 되나욬ㅋㅋ'))  #품사태깅
print(twitter.pos('이것도 되나욬ㅋㅋ', norm=True)) #norm: 정규화
print(twitter.pos('이것도 되나욬ㅋㅋ', norm=True, stem=True)) #stem : 어근추출

['단독', '입찰', '보다', '복수', '입찰', '의', '경우']
['유일하', '항공기', '체계', '종합', '개발', '경험']
['분석', '분석과 신뢰감', '신뢰감', '분석과 신뢰감 있는 진행', '신뢰감 있는 진행', '진행', '신뢰']
[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되나욬', 'Noun'), ('ㅋㅋ', 'KoreanParticle')]
[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되', 'Verb'), ('나요', 'Eomi'), ('ㅋㅋ', 'KoreanParticle')]
[('이', 'Determiner'), ('것', 'Noun'), ('도', 'Josa'), ('되다', 'Verb'), ('ㅋㅋ', 'KoreanParticle')]


In [2]:
from konlpy.tag import Twitter #트위터 형태소분석기를 가져온다
twitter = Twitter()  
malist = twitter.pos("아버지 가방에 들어가신다", norm=True, stem=True) #pos()메서드에 형태소 분석을 수행할 문장을 지정
print(malist)

[('아버지', 'Noun'), ('가방', 'Noun'), ('에', 'Josa'), ('들어가다', 'Verb')]


## 출현 빈도 분석
* 박경리의 "토지" 활용
* 국립 국어원 언어 정보 나눔터 말뭉치 데이터베이스
* https://ithub.korean.go.kr/user/main.do

In [3]:
import codecs
from bs4 import BeautifulSoup
from konlpy.tag import Twitter

# utf-16 인코딩으로 파일을 열고 글자를 출력하기 --- (※1)
# tei.2 > text > body > text 안에 글이 들어있음
#BeautifulSoup를 활용해 text안에 글자들을 추출
fp = codecs.open("/Users/song-yeongsug/AnacondaProjects/spoken_end", "r", encoding="utf-16")
soup = BeautifulSoup(fp, "html.parser") #html 파싱(탐색)
body = soup.select_one("text > body") #select_one 엘리먼트 가져옴   책 오탈자!
text = body.getText() #내부텍스트 get

print(text)

FileNotFoundError: [Errno 2] No such file or directory: 'BEXX0003.txt'

In [2]:
# 텍스트를 한 줄씩 처리하기 --- (※2)
# 줄바꿈 등을 처리해서 한줄한줄 분석
twitter = Twitter()
word_dic = {}
lines = text.split("\r\n")   #국립국어원파일은 캐리지리턴을 사용한 개행이 들어가기때문, 보통 \n -> \r\n으로 인식
for line in lines:
    malist = twitter.pos(line)  #품사 태깅
    print(malist)
    break     
# 행타소분석, 품사 형태로 변환      

[('제', 'Noun'), ('1', 'Number'), ('편', 'Noun'), ('어둠', 'Noun'), ('의', 'Josa'), ('발', 'Noun'), ('소리', 'Noun'), ('서', 'Verb'), ('(', 'Punctuation'), ('序', 'Foreign'), (')', 'Punctuation'), ('1897', 'Number'), ('년', 'Noun'), ('의', 'Josa'), ('한가위', 'Noun'), ('.', 'Punctuation'), ('까치', 'Noun'), ('들', 'Suffix'), ('이', 'Josa'), ('울타리', 'Noun'), ('안', 'Noun'), ('감나무', 'Noun'), ('에', 'Josa'), ('와', 'Noun'), ('서', 'Josa'), ('아침', 'Noun'), ('인사', 'Noun'), ('를', 'Josa'), ('하기', 'Verb'), ('도', 'Eomi'), ('전', 'Noun'), ('에', 'Josa'), (',', 'Punctuation'), ('무색', 'Noun'), ('옷', 'Noun'), ('에', 'Josa'), ('댕기', 'Noun'), ('꼬리', 'Noun'), ('를', 'Josa'), ('늘', 'Noun'), ('인', 'Josa'), ('아이', 'Noun'), ('들', 'Suffix'), ('은', 'Josa'), ('송편', 'Noun'), ('을', 'Josa'), ('입', 'Noun'), ('에', 'Josa'), ('물', 'Noun'), ('고', 'Josa'), ('마을', 'Noun'), ('길', 'Noun'), ('을', 'Josa'), ('쏘다', 'Verb'), ('니', 'PreEomi'), ('며', 'Eomi'), ('기뻐', 'Adjective'), ('서', 'Eomi'), ('날뛴', 'Adjective'), ('다', 'Eomi'), ('.', 'Punctuation'), (

In [3]:
# 텍스트를 한 줄씩 처리하기 --- (※2)
# 줄바꿈 등을 처리해서 한줄한줄 분석
twitter = Twitter()
word_dic = {}
lines = text.split("\r\n")   #국립국어원파일은 캐리지리턴을 사용한 개행이 들어가기때문, 보통 \n -> \r\n으로 인식
for line in lines:
    malist = twitter.pos(line)  #품사 태깅
    for taeso, pumsa in malist:
        if pumsa == "Noun": #  품사 태깅한 것 중 명사 확인하기 --- (※3)
            if not (taeso in word_dic):
                word_dic[taeso] = 0
            word_dic[taeso] += 1 # 카운트하기
#print(word_dic)            
# 형태소 분석된것들중 명사인것들을 셀 수 있다

In [4]:
# 많이 사용된 명사 출력하기 --- (※4)
keys = sorted(word_dic.items(), key=lambda x:x[1], reverse=True) #큰것부터
for word, count in keys[:50]:
    print("{0}({1}) ".format(word, count), end="") #줄바꿈제거
print()

것(1015) 그(826) 말(663) 안(449) 용이(352) 평산(323) 눈(321) 사람(319) 내(300) 놈(282) 길(277) 소리(272) 얼굴(266) 일(252) 못(244) 거(238) 수(232) 치수(232) 와(231) 댁(225) 때(218) 이(218) 나(212) 강청댁(209) 일이(208) 서방(186) 제(183) 년(183) 머(183) 만(179) 최(176) 집(174) 어디(171) 생각(169) 더(167) 강(158) 마을(154) 믄(146) 날(143) 양반(142) 칠성(139) 포수(138) 김(136) 니(136) 귀녀(135) 임(134) 서희(132) 아이(130) 봉순(130) 뒤(130) 


# 6-2. Word2Vec으로 문장을 벡터로 변환하기

단어의 의미를 벡터로 표현하는 "Word2Vec"을 이용하면 연관된 단어를 추출하거나 단어와 단어의 유사도를 확인할 수 있다. 또한 의미를 선형 계산할 수 있어서 "왕자-남성+여성=공주" 등의 계산도 할 수 있다

## Word2Vec

Word2Vec은 문장 내부의 단어를 벡터로 변호나하는 도구. 단어의 연결을 기반으로 단어의 연관성을 벡터로 만들어준다.
이를 활용하면 단어의 의미를 파악할 수 있다

단어를 벡터로 만들면 단어와 단어의 유사도를 쉽게 확인할 수 있다.

<img src = "C:\Users\dlwlg\study\babel_deep\ch6\bb.PNG">

## 단어 임베딩

* 단어 임베딩(Word Embedding)이란 텍스트를 구성하는 하나의 단어를 수치화하는 방법의 일종이다. 단어를 벡터화 하는 방법!

컴퓨터가 인간이 사용하는 언어를 이해하고, 분석할 수 있게. -> 수치적인 방식으로 단어를 표현해야한다
-> 단어의 의미 자체를 벡터화하면, 일단 단어들이 실수 공간에 흩어져있다고 생각할 수 있기 때문에 각 단어들 사이의 유사도를 측정할 수가 있고, 여러 개의 단어에 대해 다룰 때도 평균을 내는 등 수치적으로 쉽게 다룰 수가 있으며 벡터 연산을 통해서 추론이 가능할 것!

ex> ‘한국’에 대한 벡터에서 ‘서울’에 대한 벡터를 빼고, ‘도쿄’ 에 대한 벡터를 넣는다면? 이 벡터 연산 결과를 통해 나온 새로운 벡터와 가장 가까운 단어를 찾으면, 놀랍게도 이 방식으로 ‘일본’

실험사이트 : http://w.elnn.kr/search/?query=%ED%95%9C%EA%B5%AD-%EC%84%9C%EC%9A%B8%2B%EB%8F%84%EC%BF%84



어떻게 각 단어를 벡터화 할까?

* 기본적으로 언어학의 'Distributional Hypothesis' 라는 가정에 입각하여 이루어진다.
‘비슷한 분포를 가진 단어들은 비슷한 의미를 가진다’ 라는 의미. 여기서 비슷한 분포를 가졌다는 것은 기본적으로 단어들이 같은 문맥에서 등장한다는 것을 의미

-> 단어들이 같이 등장하는 일이 빈번하게 일어난다면, 이 단어들이 유사한 의미를 가진다는 것을 유추할 수 있다. 학습데이터 수가 작으면 이러한 관계 파악이 힘들지만, 수많은 글들을 보면서 학습하다보면 이러한 단어들의 관계에 대해 파악할 수가 있을 것이다.

*참고 : https://shuuki4.wordpress.com/2016/01/27/word2vec-%EA%B4%80%EB%A0%A8-%EC%9D%B4%EB%A1%A0-%EC%A0%95%EB%A6%AC/

## Word2Vec(Word Embedding to Vector)

word2vec은 2013년 구글에서 발표된 연구로, Tomas Mikolov라는 사람을 필두로 여러 연구자들이 모여서 만든 Continuous Word Embedding 학습 모형
 모델이 기존 Neural Net 기반 학습방법에 비해 크게 달라진 것은 아니지만, 계산량을 엄청나게 줄여서 기존의 방법에 비해 몇 배 이상 빠른 학습을 가능케 하여 현재 가장 많은 이들이 사용하는 Word Embedding 모델이 되었다.
 
* 주위 단어가 비슷하면 해당 단어의 의미는 유사하다 라는 아이디어
* 단어를 트레이닝 시킬 때 주위 단어를 label로 매치하여 최적화
* 단어를 의미를 내포한 dense vector로 매칭 시키는 것
* Word2Vec은 분산 된 텍스트 표현을 사용하여 개념 간 유사성을 본다. 예를 들어, 파리와 프랑스가 베를린과 독일이 (수도와 나라) 같은 방식으로 관련되어 있음을 이해한다.
    

* 단어의 임베딩 과정을 실시간 시각화

https://ronxin.github.io/wevi/
    - 단어를 벡터화할 때 단어의 문맥적 의미를 보존하기 때문이죠. 위의 그림처럼 MAN과 WOMAN 사이의 거리는 KING과 QUEEN 거리와 유사합니다. 벡터로 바뀐 단어들은 ‘유클리디안 거리’니, ‘코사인 유사도’니 하는 방식들로 그 거리를 잴 수 있고 그 거리가 가까울(작을) 경우 의미가 비슷한 단어라고 해석할 수 있게 됩니다

CBOW와 Skip-Gram기법이 있다.

*CBOW(continuous bag-of-words)는 전체 텍스트로 하나의 단어를 예측하기 때문에 작은 데이터셋일 수록 유리하다.
*아래 예제에서 __ 에 들어갈 단어를 예측한다.

 1) oo 가 맛있다. 
 <br>2) oo 를 타는 것이 재미있다.</br> 
 <br>3) 평소보다 두 oo 로 많이 먹어서 oo가 아프다.</br>




*Skip-Gram은 타겟 단어들로부터 원본 단어를 역으로 예측하는 것이다. CBOW와는 반대로 컨텍스트-타겟 쌍을 새로운 발견으로 처리하고 큰 규모의 데이터셋을 가질 때 유리하다.

  배라는 단어 주변에 올 수 있는 단어를 예측한다.

  1) *배*가 맛있다. 
 <br>2) *배*를 타는 것이 재미있다.</br> 
 <br>3) 평소보다 두 *배*로 많이 먹어서 *배*가 아프다.</br>

### Word2Vec 참고자료
- Word2Vec으로 문장 분류하기 · ratsgo's blog  : https://ratsgo.github.io/natural%20language%20processing/2017/03/08/word2vec/

## gensim 설치

In [3]:
!pip install gensim

Collecting gensim
  Downloading gensim-3.4.0-cp36-cp36m-win_amd64.whl (22.5MB)
Collecting smart-open>=1.2.1 (from gensim)
  Downloading smart_open-1.5.7.tar.gz
Collecting bz2file (from smart-open>=1.2.1->gensim)
  Downloading bz2file-0.98.tar.gz
Collecting boto3 (from smart-open>=1.2.1->gensim)
  Downloading boto3-1.6.20-py2.py3-none-any.whl (128kB)
Collecting jmespath<1.0.0,>=0.7.1 (from boto3->smart-open>=1.2.1->gensim)
  Downloading jmespath-0.9.3-py2.py3-none-any.whl
Collecting botocore<1.10.0,>=1.9.20 (from boto3->smart-open>=1.2.1->gensim)
  Downloading botocore-1.9.20-py2.py3-none-any.whl (4.1MB)
Collecting s3transfer<0.2.0,>=0.1.10 (from boto3->smart-open>=1.2.1->gensim)
  Downloading s3transfer-0.1.13-py2.py3-none-any.whl (59kB)
Building wheels for collected packages: smart-open, bz2file
  Running setup.py bdist_wheel for smart-open: started
  Running setup.py bdist_wheel for smart-open: finished with status 'done'
  Stored in directory: C:\Users\acorn\AppData\Local\pip\Cache\

In [None]:
## Gensim의 Word2Vec으로 "토지" 읽어보기

In [9]:
#from gensim.models import word2vec
import codecs                                         
from bs4 import BeautifulSoup
from konlpy.tag import Twitter

# utf-16 인코딩으로 파일을 열고 글자를 출력하기 --- (※1)
fp = codecs.open("BEXX0003.txt", "r", encoding="utf-16")             
soup = BeautifulSoup(fp, "html.parser") 
body = soup.select_one("text > body")
text = body.getText()  #body아래 텍스트만 뽑아내기

# 텍스트를 한 줄씩 처리하기 --- (※2)
twitter = Twitter()
lines = text.split("\r\n")
for line in lines:
    r=[]
    
    # 형태소 분석하기 --- (※3)
    # 단어의 기본형 사용
    malist = twitter.pos(line, norm=True, stem=True)
    for word, pumsa in malist:
        for word in malist:
        # 어미/조사/구두점 등은 대상에서 제외 
            if not pumsa in ["Josa", "Eomi", "Punctuation"]:
                r.append(word)
    print(r)
    break
# 너무 오래걸림... toji_be

KeyboardInterrupt: 

In [11]:
from gensim.models import word2vec
import codecs                                         
from bs4 import BeautifulSoup
from konlpy.tag import Twitter
# utf-16 인코딩으로 파일을 열고 글자를 출력하기 --- (※1)
fp = codecs.open("BEXX0003.txt", "r", encoding="utf-16")             
soup = BeautifulSoup(fp, "html.parser") 
body = soup.select_one("text > body")
text = body.getText()  #body아래 텍스트만 뽑아내기
# 텍스트를 한 줄씩 처리하기 --- (※2)
twitter = Twitter()
results = []
lines = text.split("\r\n")
for line in lines:
    # 형태소 분석하기 --- (※3)
    # 단어의 기본형 사용
    malist = twitter.pos(line, norm=True, stem=True)
    r = []
    for word in malist:
        # 어미/조사/구두점 등은 대상에서 제외 
        if not word[1] in ["Josa", "Eomi", "Punctuation"]:
            r.append(word[0])
    rl = (" ".join(r)).strip() #공백제거하고 띄어쓰기로 구분->wakati
    results.append(rl)
    print(rl)

    # 파일로 출력하기  --- (※4)
wakati_file = 'toji.wakati'   #이 파일을 word2vec에 넣어서
with open(wakati_file, 'w', encoding='utf-8') as fp:
    fp.write("\n".join(results))

    # Word2Vec 모델 만들기 --- (※5)
data = word2vec.LineSentence(wakati_file) #텍스트 읽어들이기
model = word2vec.Word2Vec(data, 
    size=200, window=10, hs=1, min_count=2, sg=1) #data를 200차원의 벡터로 바꾸고/주변단어는 앞뒤로 10개까지/분석방법론은 skip-gram선택
model.save("toji.model")
print("ok")

#toji.model

제 1 편 어둠 발 소리 서다 序 1897 년 한가위 까치 들 울타리 안 감나무 와 아침 인사 하다 전 무색 옷 댕기 꼬리 늘 아이 들 송편 입 물 마을 길 쏘다 기쁘다 날뛰다 어른 들 해 중천 좀 기울다 무렵 이 래야 차례 치르다 하다 성묘 하다 하다 이웃 끼리 음식 나누다 보다 한나절 넘다 이 때 타작 마당 사람 들 모이다 시작 하다 들다 뜨다 시작 하다 남정 노인 들 아낙 들 채비 아무래도 더 디어 데 그렇다 수 없다 것 식구 들 시중 음식 간수 끝내다 제 자신 치장 남아 있다 이 바람 고개 무겁다 벼 이삭 황금 빛 물결 이루다 들판 마음 놓다 새떼 들 모여들다 풍 성 향연 벌이다 후우 이이 이 놈 새떼 들 극성 새 쫓다 할망구 와삭 와삭 풀발 선 출입 옷 갈아입다 타작 마당 굿 보고 있다 것 추석 마을 남녀 노유 사람 들 뿐 아니다 강아지 돼지 소나 말 새 들 시궁창 드나드 쥐 새끼 포식 날인 보다 빠르다 장단 꽹과리 소리 느리다 장단 두다 중 여음 울리다 징 소리 타작 마당 거리 멀다 최 참판 댁 사랑 흐느낌 슬프다 들려오다 농부 들 지금 꽃 달리다 고깔 흔들다 신명 내다 괴롭다 하다 일상 日常 잊다 굿 놀이 열중 하다 있다 것 최 참판 댁 섭섭찮 전곡 錢穀 이 나가다 풍년 미치다 못 하다 실 평작 임 틀림 없다 것 모처럼 허리 끈 풀다 쌀밥 식구 들 배 두드리다 테 하루 근심 잊다 만 하다 것 이 날 수수 개비 꺾다 아이 들 매 맞다 않다 여러 달 솟다 증 素症 풀다 느 긋다 하다 늙은이 들 뒷간 출입 잦다 힘 좋다 젊은이 들 벌써 읍내 가다 없다 황소 하다 마리 끌 돌아오다 꿈 꾸미다 읍내 씨름판 몰다 간 것 최 참판 댁 사랑 무인 지경 적막 하다 햇빛 맑다 뜰 비치다 사람 들 모두 어디 가다 버리다 새롭다 바르다 방문 장지 낯설다 한동안 타작 마당 굿 놀이 멎다 것 같다 별안간 경 풍 들리다 것 꽹과리 악 쓸다 빠르다 드높 꽹과리 따르다 징 소리 빨르다 깨깽 깨애깽 덥다 응응 음 깨깽 깨애깽 덥다 응응 음 장구 북 사이사이 끼 들려오다 신다 타악

ok


## "토지" 모델 살펴보기

In [12]:
from gensim.models import word2vec
model = word2vec.Word2Vec.load("toji.model")

In [19]:
model.most_similar(positive=["땅"])  #most_similar : 가장 유사한 단어를 출력

  """Entry point for launching an IPython kernel.


[('거구', 0.7290597558021545),
 ('손주', 0.7229162454605103),
 ('파고', 0.7206007838249207),
 ('도마', 0.7196921110153198),
 ('사시', 0.7168880701065063),
 ('구월', 0.7090924978256226),
 ('장철', 0.7076677680015564),
 ('조상', 0.7049148678779602),
 ('주신', 0.7039110660552979),
 ('부치다', 0.7029998898506165)]

## 위키피디아 데이터로 놀아보기

In [36]:
#책코드로 모델 생성시 1~2일 정도 소요
#책 예제코드 활용 가능