### **GloVe**  
임베딩 벡터의 내적이 말뭉치 전체에서의 동시출현(co-occurrence) 확률 값이 되는 목적 함수를 갖는다.  
이를 통해 임베딩 벡터간 유사도 측정을 수월하게 하면서도 말뭉치 전체의 통계 정보를 반영할 수 있다. 

> **동시 출현 (Co-occurence)** *이란, 한 문장, 문단 또는 텍스트 단위에서 같이 출현한 단어를 가리다. 언어학적 의미에서 의미적 근접성을 가리킨다.*  




In [1]:
import os
import re
import csv
from glob import iglob
from pathlib import Path

In [2]:
BASE_DIR = "/data/ksb/TestSampleDir"
DATA_BASE_DIR = os.path.join(BASE_DIR, "articles")

ORIGIN_PATH = os.path.join(DATA_BASE_DIR,"Origin-Data")
PREPROCESSED_PATH = os.path.join(DATA_BASE_DIR,"Preprocessed-Data")
PRETTY_PATH = os.path.join(DATA_BASE_DIR,"Pretty-Data")
SUMMARY_PREPROCESSED_PATH = os.path.join(DATA_BASE_DIR,"Summary-Preprocessed-Data")
SWORDS_PATH = os.path.join(DATA_BASE_DIR, "StopWordList.txt")
MODEL_PATH = os.path.join(os.path.join(Path(os.getcwd()).parent, "Word-Embedding-Model"))

In [3]:
MIN_COUNT = 10
D_MODEL = 128

In [4]:
def mkdir_p(path):
    import errno
    try:
        os.makedirs(path)
    except OSError as exc:
        if exc.errno == errno.EEXIST and os.path.isdir(path):
            pass
        else:
            raise


In [5]:
def append_to_dict(word):
    
    if word in wordDict:
        wordDict[word] += 1
    else :
        wordDict[word] = 1
        
    return wordDict

In [6]:
media_list = os.listdir(PREPROCESSED_PATH)

result = []
forCount = []
wordDict = {}

for idx, proc_article_path in enumerate(iglob(os.path.join(PREPROCESSED_PATH, '**.csv'), recursive=False)):
    
    f_proc= open(proc_article_path, 'r', newline="\n", encoding="utf-8")
    for [idx, title, contents] in csv.reader(f_proc):
        if contents is '': continue

        cont_list = contents.split("\t")
        forCount += [token for sent in cont_list for token in sent.split()]
        result += [sent.split() for sent in cont_list]
        list(map(append_to_dict, [token for sent in cont_list for token in sent.split()]))
        
    f_proc.close()

In [7]:
print("전체 token의 개수 : {len}".format(len=len(forCount)))
print("중복되지 않은 token의 개수 : {len}".format(len=len(list(set(forCount)))))

전체 token의 개수 : 6178520
중복되지 않은 token의 개수 : 521843


In [8]:
wordDict

{'이태원': 745,
 '클럽': 761,
 '발': 231,
 '감염의': 165,
 '영향으로': 228,
 '코로나19': 10951,
 '확진자가': 4319,
 '계속': 3146,
 '늘고': 459,
 '있습니다': 12304,
 '지자체는': 141,
 '감염': 2357,
 '확산을': 1027,
 '막기': 1171,
 '위해': 12307,
 '유흥시설': 246,
 '집합금지': 691,
 '행정': 351,
 '명령을': 746,
 '추가로': 1615,
 '내렸습니다': 276,
 '연결합니다': 222,
 '감염자': 211,
 '증가세가': 60,
 '좀처럼': 97,
 '꺾이지': 41,
 '않는': 2131,
 '군요': 1,
 '어제': 2684,
 '하루': 1888,
 '29명': 38,
 '늘어': 252,
 '누적': 1022,
 '확진자는': 2044,
 '10': 748,
 '991명이': 2,
 '됐습니다': 656,
 '가운데': 6057,
 '20명이': 73,
 '관련': 9263,
 '신규': 1480,
 '확진자입니다': 12,
 '감염이': 1079,
 '확산세를': 102,
 '보이는': 830,
 '3차': 615,
 '의심': 809,
 '사례도': 272,
 '나왔습니다': 569,
 '서울': 7860,
 '도봉구에서': 3,
 '지난': 20225,
 '12일': 1487,
 '확진': 3049,
 '판정을': 3164,
 '받은': 4432,
 '10대': 552,
 '남성이': 2474,
 '7일': 1719,
 '코인노래방을': 16,
 '방문한': 791,
 '뒤': 8972,
 '증상이': 1222,
 '나타났는데': 8,
 '확진자와': 602,
 '접촉한': 658,
 '감염자가': 307,
 '같은': 8115,
 '시간대에': 83,
 '이곳을': 117,
 '방문했던': 87,
 '것으로': 30808,
 '확인됐습니다': 602,
 '서대문구와': 2,
 '마포구': 18

In [9]:
rmMinCount ={}
for key, val in wordDict.items():
    if val < MIN_COUNT : continue
    rmMinCount[key]=val
    
rmMinCount

{'이태원': 745,
 '클럽': 761,
 '발': 231,
 '감염의': 165,
 '영향으로': 228,
 '코로나19': 10951,
 '확진자가': 4319,
 '계속': 3146,
 '늘고': 459,
 '있습니다': 12304,
 '지자체는': 141,
 '감염': 2357,
 '확산을': 1027,
 '막기': 1171,
 '위해': 12307,
 '유흥시설': 246,
 '집합금지': 691,
 '행정': 351,
 '명령을': 746,
 '추가로': 1615,
 '내렸습니다': 276,
 '연결합니다': 222,
 '감염자': 211,
 '증가세가': 60,
 '좀처럼': 97,
 '꺾이지': 41,
 '않는': 2131,
 '어제': 2684,
 '하루': 1888,
 '29명': 38,
 '늘어': 252,
 '누적': 1022,
 '확진자는': 2044,
 '10': 748,
 '됐습니다': 656,
 '가운데': 6057,
 '20명이': 73,
 '관련': 9263,
 '신규': 1480,
 '확진자입니다': 12,
 '감염이': 1079,
 '확산세를': 102,
 '보이는': 830,
 '3차': 615,
 '의심': 809,
 '사례도': 272,
 '나왔습니다': 569,
 '서울': 7860,
 '지난': 20225,
 '12일': 1487,
 '확진': 3049,
 '판정을': 3164,
 '받은': 4432,
 '10대': 552,
 '남성이': 2474,
 '7일': 1719,
 '코인노래방을': 16,
 '방문한': 791,
 '뒤': 8972,
 '증상이': 1222,
 '확진자와': 602,
 '접촉한': 658,
 '감염자가': 307,
 '같은': 8115,
 '시간대에': 83,
 '이곳을': 117,
 '방문했던': 87,
 '것으로': 30808,
 '확인됐습니다': 602,
 '마포구': 187,
 '클럽을': 139,
 '방문했다가': 84,
 '서대문구': 261,
 '주점을': 24,
 '찾은':

In [10]:
len(rmMinCount)

58110

In [15]:
START_TOKEN = ['<SOS>']
END_TOKEN = ['<EOS>']

In [16]:
rmMinCount[START_TOKEN[0]] = rmMinCount[END_TOKEN[0]] = len(result)
rmMinCount_summary[START_TOKEN[0]] = rmMinCount_summary[END_TOKEN[0]] = len(result)

In [17]:
result = list(map(lambda content : START_TOKEN + content + END_TOKEN, result))
summary_result = list(map(lambda content : START_TOKEN + content + END_TOKEN, summary_result))

In [19]:
rmMinCountList

[['<SOS>',
  '이태원',
  '클럽',
  '발',
  '감염의',
  '영향으로',
  '코로나19',
  '확진자가',
  '계속',
  '늘고',
  '있습니다',
  '<EOS>'],
 ['<SOS>',
  '지자체는',
  '감염',
  '확산을',
  '막기',
  '위해',
  '유흥시설',
  '집합금지',
  '행정',
  '명령을',
  '추가로',
  '내렸습니다',
  '<EOS>'],
 ['<SOS>', '연결합니다', '<EOS>'],
 ['<SOS>', '이태원', '클럽', '발', '감염자', '증가세가', '좀처럼', '꺾이지', '않는', '<EOS>'],
 ['<SOS>',
  '어제',
  '하루',
  '코로나19',
  '확진자가',
  '29명',
  '늘어',
  '누적',
  '확진자는',
  '10',
  '됐습니다',
  '<EOS>'],
 ['<SOS>', '29명', '가운데', '20명이', '이태원', '클럽', '관련', '신규', '확진자입니다', '<EOS>'],
 ['<SOS>',
  '이태원',
  '클럽',
  '발',
  '감염이',
  '확산세를',
  '보이는',
  '가운데',
  '3차',
  '감염',
  '의심',
  '사례도',
  '나왔습니다',
  '<EOS>'],
 ['<SOS>',
  '서울',
  '지난',
  '12일',
  '확진',
  '판정을',
  '받은',
  '10대',
  '남성이',
  '지난',
  '7일',
  '코인노래방을',
  '방문한',
  '뒤',
  '증상이',
  '이태원',
  '클럽',
  '확진자와',
  '접촉한',
  '감염자가',
  '같은',
  '시간대에',
  '이곳을',
  '방문했던',
  '것으로',
  '확인됐습니다',
  '<EOS>'],
 ['<SOS>', '서울', '마포구', '확진자가', '나왔습니다', '<EOS>'],
 ['<SOS>',
  '이태원',
  '클럽을',
  '방문했다가',
  

In [21]:
from glove import Corpus, Glove

corpus = Corpus() 
corpus.fit(rmMinCountList, window=5)

In [22]:
glove = Glove(no_components=D_MODEL, learning_rate=0.05)
glove.fit(corpus.matrix, epochs=10, no_threads=4, verbose=True)
glove.add_dictionary(corpus.dictionary)

Performing 10 training epochs with 4 threads
Epoch 0
Epoch 1
Epoch 2
Epoch 3
Epoch 4
Epoch 5
Epoch 6
Epoch 7
Epoch 8
Epoch 9


In [23]:
mkdir_p(MODEL_PATH)

corpus_path = os.path.join(MODEL_PATH, "input-corpus-{d_model}-{mincount}.model".format(d_model=D_MODEL, mincount=MIN_COUNT))
model_path = os.path.join(MODEL_PATH, 'glove-{d_model}-{mincount}.model'.format(d_model=D_MODEL, mincount=MIN_COUNT))


In [24]:
glove.save(model_path)
corpus.save(corpus_path)
