### **Word2Vec**

원 핫 인코딩을 사용하면서도 단어 간 유사도를 반영할 수 있도록 단어의 의미를 벡터화하는 방법이다.

*비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다*는 분포 가설을 따르는 분산 표현 방법을 사용한다.

예) '강아지'는 주로 '귀엽다','예쁘다' 등의 단어와 함께 등장하는데, 이러한 내용을 가지는 텍스트를 벡터화하면 이 단어들은 의미적으로 가까운 단어가 된다.

<br>
Word2Vec에는 다음 두 가지 방식이 있다.  

- CBOW(Continous Bag of Words)
- Skip-Gram


#### **CBOW(Continous Bag of Words)**

주변에 있는 단어들을 통해 중간에 있는 단어를 예측하는 방법이다.  
윈도우를 두고, 윈도우 내의 주변 단어의 벡터로 중심 단어의 벡터를 예측한다.    
Skip-Gram에 비해 몇 배 빠른 훈련이 가능하며, 빈번한 단어를 예측하는 데 더 나은 정확도를 가진다.

In [None]:
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [None]:
import os
import re

In [4]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [5]:
BASE_DIR = "/content/gdrive/My Drive/Colab Notebooks/ETRI_Article_Summarizer/Text-preprocessing-Data/articles"
ORIGIN_PATH = os.path.join(BASE_DIR,"Origin-Data")
PREPROCESSED_PATH = os.path.join(BASE_DIR,"Preprocessed-Data")
PRETTY_PATH = os.path.join(BASE_DIR,"Pretty-Data")
SWORDS_PATH = os.path.join(BASE_DIR, "StopWordList.txt")

In [6]:
class RawTextReader:
    def __init__(self, filepath):
        self.filepath = filepath
        self.rgxSplitter = re.compile("/n")

    def __iter__(self):
        for line in open(self.filepath, encoding='utf-8'):
            ch = self.rgxSplitter.split(line)
            for s in ch:
                yield s

경향신문 언론사 첫번째 기사를 예시로 전처리된 텍스트를 토큰화 한다.

In [7]:
media_list = os.listdir(ORIGIN_PATH)

media = media_list[2]
media_path = os.path.join(PREPROCESSED_PATH, media)
article_list= os.listdir(media_path)

article = article_list[0]
reader = RawTextReader(os.path.join(media_path, article))
    
content = list(filter(None, reader))
content

['김창룡 경찰청장 오늘 생후 여아 부모 학대 숨지 정인 사건 과 관련 국민 사과문 발표',
 '김 청장 경찰 청사 브리핑 열 숨지 정인 양의 명복 비 학대 피해 보 어린아이 생명 보호 깊 사죄 말씀 드리 말',
 '김 청장 초동 대응 수사 과정 부분 대하 경찰 최고 책임자 깊 책임감 느끼 진상 조사 바탕 재발 방지 대책 마련 경찰 아동 학대 대응 체계 전면 쇄신 계기 삼 말',
 '김 청장 이번 사건 대하 지휘 책임 묻 양천 경찰서장 대기발령 조치 후임 여성 청소년 분야 정통 서울 경찰청 총경 발령 밝히',
 '지난해 10월 발생 입양아 학대 사망 사건 지나 그것이 알고 싶다 통하 조명 사회 분노 확산',
 '청와대 국민 청원 게시판 올라오 아동 학대 방조 양천 경찰서장 담당 경찰관 파면 요구 제목 글 게시 하루 정부 공식 답변 요건 이상 동의 얻']

In [8]:
tokenList = [sent.split() for sent in content]
tokenList

[['김창룡',
  '경찰청장',
  '오늘',
  '생후',
  '여아',
  '부모',
  '학대',
  '숨지',
  '정인',
  '사건',
  '과',
  '관련',
  '국민',
  '사과문',
  '발표'],
 ['김',
  '청장',
  '경찰',
  '청사',
  '브리핑',
  '열',
  '숨지',
  '정인',
  '양의',
  '명복',
  '비',
  '학대',
  '피해',
  '보',
  '어린아이',
  '생명',
  '보호',
  '깊',
  '사죄',
  '말씀',
  '드리',
  '말'],
 ['김',
  '청장',
  '초동',
  '대응',
  '수사',
  '과정',
  '부분',
  '대하',
  '경찰',
  '최고',
  '책임자',
  '깊',
  '책임감',
  '느끼',
  '진상',
  '조사',
  '바탕',
  '재발',
  '방지',
  '대책',
  '마련',
  '경찰',
  '아동',
  '학대',
  '대응',
  '체계',
  '전면',
  '쇄신',
  '계기',
  '삼',
  '말'],
 ['김',
  '청장',
  '이번',
  '사건',
  '대하',
  '지휘',
  '책임',
  '묻',
  '양천',
  '경찰서장',
  '대기발령',
  '조치',
  '후임',
  '여성',
  '청소년',
  '분야',
  '정통',
  '서울',
  '경찰청',
  '총경',
  '발령',
  '밝히'],
 ['지난해',
  '10월',
  '발생',
  '입양아',
  '학대',
  '사망',
  '사건',
  '지나',
  '그것이',
  '알고',
  '싶다',
  '통하',
  '조명',
  '사회',
  '분노',
  '확산'],
 ['청와대',
  '국민',
  '청원',
  '게시판',
  '올라오',
  '아동',
  '학대',
  '방조',
  '양천',
  '경찰서장',
  '담당',
  '경찰관',
  '파면',
  '요구',
  '제목',
  '글',
  '게시',


#### **Word2Vec 학습**

gensim에서는 다음과 같이 Word2Vec을 지원한다.  

> `sentences` : 단어 토큰화된 문장
> `size` : Projection Layer의 크기, 임베딩 벡터의 차원  
> `window` : 윈도우 크기  
> `min_count` : 단어의 최소 빈도 수, 이 이하의 빈도를 가지는 단어는 학습하지 않음  
> `workers` : 학습을 위한 프로세스 수  
> `sg` : 0일 경우 CBOW, 1일 경우 Skip-Gram  



In [13]:
from gensim.models import Word2Vec
model = Word2Vec(sentences=tokenList, size=100, window=5, min_count=1, workers=4, sg=0)

'어린아이'를 입력했을 때 의미가 유사한 단어들을 출력합니다.

In [18]:
model_result = model.wv.most_similar("어린아이")
model_result

[('통하', 0.23341265320777893),
 ('생명', 0.19156435132026672),
 ('보', 0.1762913167476654),
 ('정부', 0.16928637027740479),
 ('체계', 0.1687452793121338),
 ('담당', 0.15607227385044098),
 ('지난해', 0.14923827350139618),
 ('진상', 0.14879366755485535),
 ('사건', 0.1381472647190094),
 ('오늘', 0.1326114386320114)]

#### **Skip-Gram**

중심 단어를 통해 주변에 있는 단어들을 예측하는 방법이다.  
소량의 학습 데이터에서도 잘 동작하며, 자주 사용하지 않는 희귀한 단어를 예측할 수 있다. 하지만 계산 비용이 크다는 문제점이 있다.   
마찬가지로 중심 단어에 윈도우를 두고, 윈도우 내의 주변 단어의 임베딩 벡터를 예측한다.

In [19]:
model = Word2Vec(sentences=tokenList, size=100, window=5, min_count=1, workers=4, sg=1)

In [20]:
model_result = model.wv.most_similar("어린아이")
model_result

[('통하', 0.23564516007900238),
 ('생명', 0.19320984184741974),
 ('보', 0.17897485196590424),
 ('정부', 0.17392389476299286),
 ('체계', 0.17053207755088806),
 ('담당', 0.15819336473941803),
 ('진상', 0.15100786089897156),
 ('지난해', 0.15062189102172852),
 ('사건', 0.1415776014328003),
 ('오늘', 0.13254183530807495)]

기사 본문 내용이 짧기 때문에, 모델을 학습하기에 corpus의 크기가 작다.  
유사도 또한 상당히 낮다.   
아래는 수집한 기사 87건들을 통해 corpus를 구성하고, Word2Vec 모델을 구축하는 내용이다.

In [76]:
media_list = os.listdir(ORIGIN_PATH)

result = []
forCount = []
for media in media_list:
    media_path = os.path.join(PREPROCESSED_PATH, media)
    article_list= os.listdir(media_path)

    for article in article_list:
        reader = RawTextReader(os.path.join(media_path, article)) 
        content = list(filter(None, reader))
        forCount += [token for sent in content for token in sent.split()]
        result += [sent.split() for sent in content]

In [77]:
print("전체 token의 개수 : {len}".format(len=len(forCount)))
print("중복되지 않은 token의 개수 : {len}".format(len=len(list(set(forCount)))))

전체 token의 개수 : 15668
중복되지 않은 token의 개수 : 2877


In [78]:
model = Word2Vec(sentences=result, size=200, window=5, min_count=1, workers=4, sg=1)

In [80]:
model_result = model.wv.most_similar("어린아이")
model_result

[('생명', 0.9995765089988708),
 ('당하', 0.9995399713516235),
 ('아이', 0.9995397329330444),
 ('대하', 0.9995381832122803),
 ('피해', 0.9995024800300598),
 ('사죄', 0.9994626641273499),
 ('어리', 0.999458909034729),
 ('관리', 0.9994567632675171),
 ('보', 0.9994520545005798),
 ('말씀', 0.9994302988052368)]