In [2]:
import pandas as pd
from tqdm import tqdm
import numpy as np
#from konlpy.tag import mecab
from gensim.models import Word2Vec
from scipy.spatial import distance
from gluonnlp.data import SentencepieceTokenizer
from kobert.utils import get_tokenizer

## 전처리

In [3]:
raw_df = pd.read_csv('../Data/data_for_use/theme_contents.csv', encoding = 'utf-8', index_col=0)
raw_df.dropna(inplace=True)

In [57]:
raw_df

Unnamed: 0,theme,contents
0,2차전지,한국무역보험공사(K-SURE)는 27일 이인호 무역보험공사 사장이 신종 코로나바이러...
1,2차전지,코스피 상장사 이엔플러스가 2차전지 효율을 극대화할 수 있는 '액상 그래핀' 개발...
2,2차전지,이엔플러스(074610)가 2차전지 효율을 극대화할 수 있는 액상 그래핀을 개발해...
3,2차전지,[[특징주]]이엔플러스가 세계 최초로 2차전지 효율을 극대화할 수 있는 액상 그래...
4,2차전지,2차전지 성장세로 관련 기업들이 함박웃음을 짓고 있다. 국내 배터리 3사의 연이은...
...,...,...
26695,희토류,(지디넷코리아=양태훈 기자)한국과 중국의 전문가들이 희토류 소재 분야에서 기술 협...
26696,희토류,테마가 강세다. 전일 대비 2.45% 상승세이다. 유니온머티리얼(047400)+7...
26697,희토류,"미중 무역분쟁 갈등이 고조되고 희토류 관련주들이 강세를 보이고 있는 가운데 상보,..."
26698,희토류,테마가 강세다. 전일 대비 2.31% 상승세이다. 티플랙스(081150)+7.39...


In [58]:
raw_df = raw_df[['theme', 'contents']]
raw_df['contents'] = raw_df['contents'].str.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
raw_df.head()

Unnamed: 0,theme,contents
0,2차전지,한국무역보험공사는 일 이인호 무역보험공사 사장이 신종 코로나바이러스 감염증코로나 사...
1,2차전지,코스피 상장사 이엔플러스가 차전지 효율을 극대화할 수 있는 액상 그래핀 개발에 성...
2,2차전지,이엔플러스가 차전지 효율을 극대화할 수 있는 액상 그래핀을 개발해 오는 월부터 본...
3,2차전지,특징주이엔플러스가 세계 최초로 차전지 효율을 극대화할 수 있는 액상 그래핀을 개발...
4,2차전지,차전지 성장세로 관련 기업들이 함박웃음을 짓고 있다 국내 배터리 사의 연이은 증설...


In [4]:
tok_path = get_tokenizer()
sp  = SentencepieceTokenizer(tok_path)

using cached model


In [6]:
# tokenize data

raw_tokenized_data = []
for content in tqdm(raw_df['contents']):
    token = sp(content)
    stop_words = ['으로', '로도', '지만', '에서', '려는', '하다', '은', '는', '이', '가', '을', '를', '수', '할']
    #for word in token:
        #if len(word) == 1:
            #stop_words.append(word)
    final_tokens = [word for word in token if word not in stop_words]
    raw_tokenized_data.append(final_tokens)

100%|██████████| 26700/26700 [00:28<00:00, 947.70it/s]


In [7]:
# make train_data

train_data = raw_df.copy()
train_data['tokens'] = pd.Series(raw_tokenized_data)

In [8]:
train_data.head()

Unnamed: 0,theme,contents,tokens
0,2차전지,한국무역보험공사(K-SURE)는 27일 이인호 무역보험공사 사장이 신종 코로나바이러...,"[▁한국, 무역, 보험, 공사, (, K, -, S, U, R, E, ), ▁27,..."
1,2차전지,코스피 상장사 이엔플러스가 2차전지 효율을 극대화할 수 있는 '액상 그래핀' 개발...,"[▁코스피, ▁상장, 사, ▁이, 엔, 플러스, ▁2, 차전, 지, ▁, 효율, ▁..."
2,2차전지,이엔플러스(074610)가 2차전지 효율을 극대화할 수 있는 액상 그래핀을 개발해...,"[▁이, 엔, 플러스, (, 07, 46, 10, ), ▁2, 차전, 지, ▁, 효..."
3,2차전지,[[특징주]]이엔플러스가 세계 최초로 2차전지 효율을 극대화할 수 있는 액상 그래...,"[▁[, [, 특징주, ], ], 엔, 플러스, ▁세계, ▁최초로, ▁2, 차전, ..."
4,2차전지,2차전지 성장세로 관련 기업들이 함박웃음을 짓고 있다. 국내 배터리 3사의 연이은...,"[▁2, 차전, 지, ▁성장세, 로, ▁관련, ▁기업들, ▁함, 박, 웃음, ▁짓,..."


## Model Train

In [9]:
news_tokens = train_data['tokens'].tolist()  # data input as list

# params
v_dimension = 300
v_window = 8

model = Word2Vec(sentences = news_tokens, size = v_dimension, window = v_window, min_count = 5, workers = 4, sg = 0)

In [126]:
model.save('word2vec.model')

In [10]:
model.wv.vectors.shape

(8100, 300)

In [11]:
# sentence vectors without normalization

def without_normal(tokens):
    vectors = []
    for token in tokens:
        init_v = np.array([0.0]*v_dimension)
        for word in token:
            word_vectors = model.wv
            if word in word_vectors.vocab:
                v = model.wv[word]
                init_v = init_v + v
        vectors.append(init_v)
    
    frame = { 'themes': train_data['theme'].tolist(), 'vectors': vectors }
    result = pd.DataFrame(frame) 
    
    return result

In [12]:
# theme vectors without normalization

def theme_without_normal(news_df):
    theme_list = []
    vector_list = []
    for theme in news_df['themes'].unique():
        temp_df = news_df.loc[news_df['themes'] == theme]
        add_v = np.array([0.0]*v_dimension)
        for vec in temp_df['vectors']:
            add_v  = add_v + vec
        theme_list.append(theme)
        vector_list.append(add_v)
        
    frame = { 'themes': theme_list, 'vectors': vector_list }
    result = pd.DataFrame(frame)
    
    return result

In [13]:
news_vectors_df = without_normal(train_data['tokens'])

In [14]:
news_vectors_df.head()

Unnamed: 0,themes,vectors
0,2차전지,"[-60.42585640726611, 16.3670588247478, -69.437..."
1,2차전지,"[108.5730783296749, -209.72164679225534, 186.9..."
2,2차전지,"[30.686704059131444, -188.84893352887593, 81.8..."
3,2차전지,"[16.43577601760626, -10.787383377552032, 30.51..."
4,2차전지,"[52.82787275314331, 86.24520858307369, -6.5240..."


In [15]:
theme_vectors_df = theme_without_normal(news_vectors_df)

In [16]:
theme_vectors_df.head()

Unnamed: 0,themes,vectors
0,2차전지,"[-3849.2118703763263, 1519.2352589808288, -472..."
1,3D프린터,"[-378.53407391058863, -13446.019465957215, -33..."
2,4대강,"[-15826.836899236823, -11405.246407740182, 131..."
3,5G,"[4027.904295134518, -16347.142576766812, -1146..."
4,AR,"[-469.8684854743842, -22535.93259330695, -3418..."


In [17]:
theme_vectors_df.to_csv('theme_vectors_xnorm')

## Test

In [34]:
# news vectors without normalization

def vectorize_without_normal(news):
    news_words = news.replace("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]","")
    token = sp(news)
    #stop_words = ['으로', '로도', '지만', '에서', '려는', '하다']
    #for word in token:
        #if len(word) == 1:
            #stop_words.append(word)
    final_tokens = [word for word in token if word not in stop_words]
    init_v = np.array([0.0]*v_dimension)
    for word in final_tokens:
        word_vectors = model.wv
        if word in word_vectors.vocab:
            v = model.wv[word]
            init_v = init_v + v
    return init_v

In [35]:
# test

def test(news):
    news_vec = vectorize_without_normal(news)
    result = []
    for theme in theme_vectors_df['vectors']:
        cosine = 1 - distance.cosine(theme, news_vec)
        result.append(cosine)
    new_df = pd.DataFrame(data=np.zeros([267,2]), columns=['Theme', 'Result'])
    new_df['Theme'] = theme_vectors_df['themes']
    new_df['Result'] = result

    new_df.sort_values('Result', ascending=False, inplace=True)
    return new_df
    

In [106]:
real_test = pd.read_csv("theme_contents_200_length_same.csv",index_col=0)

In [107]:
lst = []
lst2 = []
for i in tqdm(range(len(real_test))):
    a = real_test['contents'][i]
    result = test(a)
    result = result.sort_values(by='Result', ascending=False).reset_index(drop=True)
    theme = result['Theme'][0]
    cosine = result['Result'][0]
    lst.append(theme)
    lst2.append(cosine)
    

  dist = 1.0 - uv / np.sqrt(uu * vv)
100%|██████████| 50600/50600 [13:29<00:00, 62.54it/s]


In [114]:
final_data = pd.DataFrame(list(zip(lst, lst2)), columns =['Theme', 'Similarity']) 
final_data

Unnamed: 0,Theme,Similarity
0,음식료품,0.864748
1,시스템반도체,0.819362
2,2차전지,0.835181
3,재생에너지,0.891191
4,2차전지,0.901250
...,...,...
50595,희토류,0.692710
50596,희토류,0.685137
50597,희토류,0.720064
50598,희토류,0.680904


In [115]:
our_result = pd.concat([real_test,final_data],axis=1)
our_result

Unnamed: 0,theme,contents,Theme,Similarity
0,2차전지,신종 코로나바이러스 감염증(코로나19) 사태로 인한 급락장에서 10대 그룹 시가총...,음식료품,0.864748
1,2차전지,2차전지·디스플레이 공정 장비 전문기업 나인테크가 기업인수목적회사(SPAC·스팩) ...,시스템반도체,0.819362
2,2차전지,2차전지·디스플레이 공정 장비 전문기업 나인테크가 교보7호스팩과 합병을 통한 코스...,2차전지,0.835181
3,2차전지,'울산형 뉴딜사업' 추진 등 코로나19 이후 지역경제 살리기에 나선 울산에 반가운...,재생에너지,0.891191
4,2차전지,코스닥 2차 전지 소재 기업 에코프로비엠이 압도적 기술력을 바탕으로 가파른 성장 ...,2차전지,0.901250
...,...,...,...,...
50595,희토류,희귀금속(희토류 등) 테마 주요 종목 등락률씽크풀 로보알고리즘 RASSI의 분석에...,희토류,0.692710
50596,희토류,희귀금속(희토류 등) 테마 주요 종목 등락률씽크풀 로보알고리즘 RASSI의 분석에...,희토류,0.685137
50597,희토류,희귀금속(희토류 등) 테마 주요 종목 등락률씽크풀 로보알고리즘 RASSI의 분석에...,희토류,0.720064
50598,희토류,희귀금속(희토류 등) 테마 주요 종목 등락률씽크풀 로보알고리즘 RASSI의 분석에...,희토류,0.680904


In [116]:
cleansed = our_result[our_result['Similarity']>=0.95].reset_index(drop=True)
cleansed = cleansed[['Theme','contents']]
cleansed

Unnamed: 0,Theme,contents
0,FinTech,웹사이트: www.materialise.com 출처: MaterialiseM...
1,낸드,Unlicensed frequency band to boost Wi-Fi speed...
2,낸드,A prototype wearable display that connects to ...
3,낸드,S. Korea temporarily halts war remains recover...
4,낸드,(LEAD) S. Korea temporarily halts war remains ...
...,...,...
1234,희토류,테마가 강세다. 전일 대비 2.45% 상승세이다. 유니온머티리얼(047400)+7...
1235,희토류,테마가 강세다. 전일 대비 4.79% 상승세이다. 상보(027580)+22.54%...
1236,희토류,테마가 강세다. 전일 대비 3.09% 상승세이다. 노바텍(285490)+13.32...
1237,희토류,테마가 강세다. 전일 대비 4.21% 상승세이다. 쎄노텍(222420)+20.00...


In [125]:
a = cleansed.groupby('Theme').count().sort_values(by='contents',ascending=False)
a[(a['contents']>3) & (a['contents']<10)]

Unnamed: 0_level_0,contents
Theme,Unnamed: 1_level_1
재생에너지,9
보톡스,9
나파모스타트,8
양돈,8
돼지열병,6
비메모리,5
국가보안법,5
폴더블폰,5
가스터빈,4
블록체인,4


In [119]:
cleansed.groupby('Theme').count().sort_values(by='contents',ascending=False)

Unnamed: 0_level_0,contents
Theme,Unnamed: 1_level_1
음식료업종,274
FPCB,199
가상화폐,159
낸드,119
FinTech,83
덱사메타손,33
메트포르민,30
클로로퀸,25
언팩,25
방사광가속기,25
