### **GloVe**  
임베딩 벡터의 내적이 말뭉치 전체에서의 동시출현(co-occurrence) 확률 값이 되는 목적 함수를 갖는다.  
이를 통해 임베딩 벡터간 유사도 측정을 수월하게 하면서도 말뭉치 전체의 통계 정보를 반영할 수 있다. 

> **동시 출현 (Co-occurence)** *이란, 한 문장, 문단 또는 텍스트 단위에서 같이 출현한 단어를 가리다. 언어학적 의미에서 의미적 근접성을 가리킨다.*  




In [1]:
import os
import re
import csv
from glob import iglob
from pathlib import Path

In [2]:
BASE_DIR = "/data/ksb/TestSampleDir"
DATA_BASE_DIR = os.path.join(BASE_DIR, "articles")

ORIGIN_PATH = os.path.join(DATA_BASE_DIR,"Origin-Data")
PREPROCESSED_PATH = os.path.join(DATA_BASE_DIR,"Preprocessed-Data")
PRETTY_PATH = os.path.join(DATA_BASE_DIR,"Pretty-Data")
SWORDS_PATH = os.path.join(DATA_BASE_DIR, "StopWordList.txt")
MODEL_PATH = os.path.join(os.path.join(Path(os.getcwd()).parent, "Word-Embedding-Model"))

In [3]:
MIN_COUNT = 10

In [4]:
def mkdir_p(path):
    import errno
    try:
        os.makedirs(path)
    except OSError as exc:
        if exc.errno == errno.EEXIST and os.path.isdir(path):
            pass
        else:
            raise


In [5]:
def append_to_dict(word):
    
    if word in wordDict:
        wordDict[word] += 1
    else :
        wordDict[word] = 1
        
    return wordDict

In [6]:
media_list = os.listdir(PREPROCESSED_PATH)

result = []
forCount = []
wordDict = {}

for idx, proc_article_path in enumerate(iglob(os.path.join(PREPROCESSED_PATH, '**.csv'), recursive=False)):
    
    f_proc= open(proc_article_path, 'r', newline="\n", encoding="utf-8")
    for [idx, title, contents] in csv.reader(f_proc):
        if contents is '': continue

        cont_list = contents.split("\t")
        forCount += [token for sent in cont_list for token in sent.split()]
        result += [sent.split() for sent in cont_list]
        list(map(append_to_dict, [token for sent in cont_list for token in sent.split()]))
        
    f_proc.close()

In [7]:
print("전체 token의 개수 : {len}".format(len=len(forCount)))
print("중복되지 않은 token의 개수 : {len}".format(len=len(list(set(forCount)))))

전체 token의 개수 : 6909545
중복되지 않은 token의 개수 : 559891


In [8]:
wordDict

{'이태원': 764,
 '클럽': 815,
 '발': 240,
 '감염의': 109,
 '영향으로': 271,
 '코로나19': 12465,
 '확진자가': 4434,
 '계속': 2650,
 '늘고': 474,
 '있습니다': 6936,
 '지자체는': 153,
 '감염': 2359,
 '확산을': 1129,
 '막기': 1328,
 '위해': 15411,
 '유흥시설': 281,
 '집합금지': 858,
 '행정': 452,
 '명령을': 870,
 '추가로': 1758,
 '내렸습니다': 176,
 '연결합니다': 88,
 '감염자': 226,
 '증가세가': 48,
 '좀처럼': 86,
 '꺾이지': 42,
 '않는': 2385,
 '군요': 2,
 '어제': 1531,
 '하루': 2016,
 '29명': 50,
 '늘어': 251,
 '누적': 1131,
 '확진자는': 2291,
 '10': 883,
 '991명이': 2,
 '됐습니다': 333,
 '가운데': 6312,
 '20명이': 77,
 '관련': 10986,
 '신규': 1476,
 '확진자입니다': 13,
 '감염이': 718,
 '확산세를': 84,
 '보이는': 880,
 '3차': 548,
 '의심': 938,
 '사례도': 299,
 '나왔습니다': 314,
 '서울': 8911,
 '도봉구에서': 3,
 '지난': 24954,
 '12일': 1928,
 '확진': 3243,
 '판정을': 3626,
 '받은': 5280,
 '10대': 637,
 '남성이': 2763,
 '7일': 2161,
 '코인노래방을': 15,
 '방문한': 924,
 '뒤': 10981,
 '증상이': 1113,
 '나타났는데': 9,
 '확진자와': 732,
 '접촉한': 757,
 '감염자가': 301,
 '같은': 7689,
 '시간대에': 90,
 '이곳을': 130,
 '방문했던': 85,
 '것으로': 35929,
 '확인됐습니다': 383,
 '서대문구와': 2,
 '마포구': 230,

In [9]:
rmMinCount ={}
for key, val in wordDict.items():
    if val < MIN_COUNT : continue
    rmMinCount[key]=val
    
rmMinCount

{'이태원': 764,
 '클럽': 815,
 '발': 240,
 '감염의': 109,
 '영향으로': 271,
 '코로나19': 12465,
 '확진자가': 4434,
 '계속': 2650,
 '늘고': 474,
 '있습니다': 6936,
 '지자체는': 153,
 '감염': 2359,
 '확산을': 1129,
 '막기': 1328,
 '위해': 15411,
 '유흥시설': 281,
 '집합금지': 858,
 '행정': 452,
 '명령을': 870,
 '추가로': 1758,
 '내렸습니다': 176,
 '연결합니다': 88,
 '감염자': 226,
 '증가세가': 48,
 '좀처럼': 86,
 '꺾이지': 42,
 '않는': 2385,
 '어제': 1531,
 '하루': 2016,
 '29명': 50,
 '늘어': 251,
 '누적': 1131,
 '확진자는': 2291,
 '10': 883,
 '됐습니다': 333,
 '가운데': 6312,
 '20명이': 77,
 '관련': 10986,
 '신규': 1476,
 '확진자입니다': 13,
 '감염이': 718,
 '확산세를': 84,
 '보이는': 880,
 '3차': 548,
 '의심': 938,
 '사례도': 299,
 '나왔습니다': 314,
 '서울': 8911,
 '지난': 24954,
 '12일': 1928,
 '확진': 3243,
 '판정을': 3626,
 '받은': 5280,
 '10대': 637,
 '남성이': 2763,
 '7일': 2161,
 '코인노래방을': 15,
 '방문한': 924,
 '뒤': 10981,
 '증상이': 1113,
 '확진자와': 732,
 '접촉한': 757,
 '감염자가': 301,
 '같은': 7689,
 '시간대에': 90,
 '이곳을': 130,
 '방문했던': 85,
 '것으로': 35929,
 '확인됐습니다': 383,
 '마포구': 230,
 '클럽을': 151,
 '방문했다가': 86,
 '서대문구': 312,
 '주점을': 33,
 '찾은': 5

In [10]:
len(rmMinCount)

63675

In [11]:
START_TOKEN = ['<SOS>']
END_TOKEN = ['<EOS>']

In [12]:
rmMinCount[START_TOKEN[0]] = rmMinCount[END_TOKEN[0]] = len(result)

In [13]:
result = list(map(lambda content : START_TOKEN + content + END_TOKEN, result))

In [14]:
rmMinCountList = list(map(lambda content : [token for token in content if token in rmMinCount], result))

In [15]:
rmMinCountList

[['<SOS>',
  '이태원',
  '클럽',
  '발',
  '감염의',
  '영향으로',
  '코로나19',
  '확진자가',
  '계속',
  '늘고',
  '있습니다',
  '<EOS>'],
 ['<SOS>',
  '지자체는',
  '감염',
  '확산을',
  '막기',
  '위해',
  '유흥시설',
  '집합금지',
  '행정',
  '명령을',
  '추가로',
  '내렸습니다',
  '<EOS>'],
 ['<SOS>', '연결합니다', '<EOS>'],
 ['<SOS>', '이태원', '클럽', '발', '감염자', '증가세가', '좀처럼', '꺾이지', '않는', '<EOS>'],
 ['<SOS>',
  '어제',
  '하루',
  '코로나19',
  '확진자가',
  '29명',
  '늘어',
  '누적',
  '확진자는',
  '10',
  '됐습니다',
  '<EOS>'],
 ['<SOS>', '29명', '가운데', '20명이', '이태원', '클럽', '관련', '신규', '확진자입니다', '<EOS>'],
 ['<SOS>',
  '이태원',
  '클럽',
  '발',
  '감염이',
  '확산세를',
  '보이는',
  '가운데',
  '3차',
  '감염',
  '의심',
  '사례도',
  '나왔습니다',
  '<EOS>'],
 ['<SOS>',
  '서울',
  '지난',
  '12일',
  '확진',
  '판정을',
  '받은',
  '10대',
  '남성이',
  '지난',
  '7일',
  '코인노래방을',
  '방문한',
  '뒤',
  '증상이',
  '이태원',
  '클럽',
  '확진자와',
  '접촉한',
  '감염자가',
  '같은',
  '시간대에',
  '이곳을',
  '방문했던',
  '것으로',
  '확인됐습니다',
  '<EOS>'],
 ['<SOS>', '서울', '마포구', '확진자가', '나왔습니다', '<EOS>'],
 ['<SOS>',
  '이태원',
  '클럽을',
  '방문했다가',
  

In [16]:
from glove import Corpus, Glove

corpus = Corpus() 
corpus.fit(rmMinCountList, window=5)

In [17]:
glove = Glove(no_components=256, learning_rate=0.05)
glove.fit(corpus.matrix, epochs=20, no_threads=4, verbose=True)
glove.add_dictionary(corpus.dictionary)

Performing 20 training epochs with 4 threads
Epoch 0
Epoch 1
Epoch 2
Epoch 3
Epoch 4
Epoch 5
Epoch 6
Epoch 7
Epoch 8
Epoch 9
Epoch 10
Epoch 11
Epoch 12
Epoch 13
Epoch 14
Epoch 15
Epoch 16
Epoch 17
Epoch 18
Epoch 19


In [18]:
lambda x : glove.word_vectors[corpus.dictionary[x]]

<function __main__.<lambda>(x)>

In [19]:
mkdir_p(MODEL_PATH)

corpus_path = os.path.join(MODEL_PATH, "corpus-256.model")
model_path = os.path.join(MODEL_PATH, 'glove-256.model')


glove.save(model_path)
corpus.save(corpus_path)