In [1]:
import numpy as np

# 밀집 벡터 (Dense Vector)

In [2]:
word_embedding_dic = {
    '사과' : [1.0, 0.5],
    '바나나' : [0.9, 1.2],
    '원숭이' : [0.5, 1.5]
}

## 코사인 유사도 계산 함수

In [4]:
def cal_cosine_similarity(x, y):
    # x와 y, 두 벡터의 코사인 유사도를 계산하는 함수
    nominator = np.dot(x, y)    # 분자
    denominator = np.linalg.norm(x)*np.linalg.norm(y)  # 분모
    return nominator/denominator

In [5]:
# 사과와 바나나의 코사인 유사도
cal_cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['바나나'])

0.8944271909999159

In [6]:
# 사과와 원숭이의 코사인 유사도
cal_cosine_similarity(word_embedding_dic['사과'], word_embedding_dic['원숭이'])

0.7071067811865475

In [7]:
# 바나나와 원숭이의 코사인 유사도
cal_cosine_similarity(word_embedding_dic['바나나'], word_embedding_dic['원숭이'])

0.9486832980505138

# Gensim을 활용한 단어 임베딩

In [None]:
import pandas as pd

In [28]:
it_df = pd.read_csv('preprocessing_it.csv').dropna()
culture_df = pd.read_csv('preprocessing_culture.csv').dropna()

In [29]:
it_token_ls = list(it_df.loc[:,'1'])
culture_token_ls = list(culture_df.loc[:,'1'])
total_token_ls = it_token_ls + culture_token_ls

In [30]:
total_token_ls[0]

'배,정회,신임,과학기술,일자리,진흥,원장,아시아,경제,이민,우,배,정회,전,국립,중앙,과학,관,전시,연구,단장,과학기술,일자리,진흥,제,원장,취임,과학기술,정보,통신,같은,인사,발표,임기,날,동안,배,신임,원장,행정,고등고시,공직,입문,교육,과학기술,부,융합,기술,과장,중앙대,경영,경제,초빙교수,과기,정통부,연구,성과,활용,정책,과장,연구,성과,혁신,기획,과장,과학기술,정책,수립,정부,연구개발,연구,기술,이전,사업,두루,경험,보유,평가,배,신임,원장,날,환담,회,새로운,임무,조직,신속히,성하고,직원,역량,강화하겠다,며,실험실,유망,기술,전,문,기업,연결하며,기술,이전,효과,지원,신,기술,창업,통한,미래,일자리,많이,창,고,이민,우,네이버,홈,아시아,경제,뉴스,확인,재미,신기,과학,꿀,잼,인,기,만화,경제,눈,세계,창,아시아,경제,전,재'

In [33]:
total_token_ls = [tokens.split(',') for tokens in total_token_ls]

In [39]:
total_token_ls[0][:10]

['배', '정회', '신임', '과학기술', '일자리', '진흥', '원장', '아시아', '경제', '이민']

In [40]:
from gensim.models import Word2Vec

In [69]:
word2vec = Word2Vec(
    sentences = total_token_ls,  # 학습시킬 문장
    size = 30,                  # 임베딩된 단어 벡터의 차원 크기
    alpha = 0.025,               # 학습률(Learning rate)
    min_count=2,                 # 1번 미만 등장한 단어는 제외
    window = 8,                  # 문맥의 크기 (window_size)
    sample = 0.001,              # sub-sampling
    sg = 1,                      # 0: CBOW, 1: Skip-gram
    iter = 10,                    # 전체 문장 반복학습 횟수(epoch)
    )

## '인공'의 단어 벡터

In [73]:
word2vec.wv.__getitem__('문화')

array([-1.2206378 ,  0.07620955,  0.07001638, -0.72419167, -0.5216852 ,
       -0.48720172, -0.3041965 , -0.2845429 , -1.0571133 , -0.2855877 ,
        0.30911303, -0.45744786, -0.26195517, -0.48649192, -0.5625713 ,
        0.82938844,  0.51715   ,  0.7662697 , -0.32098448,  0.7680349 ,
        0.8028033 , -0.4935449 , -0.6997421 , -0.13737328,  0.1229961 ,
        0.07807327,  0.27413908,  0.17961322,  0.5513304 , -0.15355322],
      dtype=float32)

## 가장 유사한 단어 색인 

In [71]:
word2vec.wv.most_similar('인공')

  if np.issubdtype(vec.dtype, np.int):


[('지능', 0.9526273012161255),
 ('결합', 0.8638865947723389),
 ('의료', 0.8618160486221313),
 ('학습', 0.8617567420005798),
 ('유전자', 0.847950279712677),
 ('높아', 0.8437708020210266),
 ('핀란드', 0.8139016032218933),
 ('에너지', 0.8094922304153442),
 ('프로젝트', 0.8086764812469482),
 ('정확성', 0.8023911714553833)]

In [72]:
word2vec.wv.most_similar('공연')

  if np.issubdtype(vec.dtype, np.int):


[('예술', 0.913486659526825),
 ('관현악단', 0.8932435512542725),
 ('국악', 0.8920226693153381),
 ('회관', 0.8797398805618286),
 ('평양', 0.875529408454895),
 ('단', 0.8732481598854065),
 ('기원', 0.8717259168624878),
 ('클래식', 0.8637460470199585),
 ('그림', 0.8587639927864075),
 ('남', 0.8533409237861633)]

In [58]:
culture_df

Unnamed: 0.1,Unnamed: 0,0,1
0,0,"""[안성완 인턴기자 asw0727@imaeil.com] 사진=위메프 홈페이지 캡쳐위...","안성,완,인턴,사진,위,메,프,홈페이지,캡쳐,위메프,반값,특,밤,네티즌,관심,위,메..."
1,1,"""울산과 경남, 경북, 강원, 제주 등 5개 시도에서 공공 부문 중심 미세먼지 비상...","울산,경남,경북,강원,제주,개,시도,공공,부문,중심,미세,먼지,비상,감,조치,환경부..."
2,2,"""한국방송통신대학교(총장 류수노/이하 방송대)가 1월19일 ‘제 1회 KNOU 글로...","한국,방송통신,대학교,총장,류,노,이하,방송,제,글로벌,봉사,단,고엽제,피해자,수용..."
3,3,"""배우 박환희. [사진 박환희 인스타그램] 배우 박환희(29)가 섬유근육통...","배우,박,환희,사진,박,환희,인스타,그램,배우,박,환희,섬유,근육통,있다고,박,환희..."
4,4,"""ㆍ두 얼굴의 문명, 그 너머를 위해이탈리아 로마 근교 아피아 가도에는 아직도 수레...","두,얼굴,문명,너머,위해,이탈리아,로마,근교,아피아,가도,아직도,수레바퀴,자국,선명..."
5,5,"""(서울=연합뉴스) 서울 종로구 부암동 서울미술관이 22일 기자간담회를 열고 신관을...","서울,연합,서울,종로구,부암동,서울,미술관,간담,회,신관,공개,신관,지하,층,지상,..."
6,6,"""(서울=연합뉴스) 국립중앙박물관은 22일 손혜원 의원 관련 의혹을 해명하면서 작년...","서울,연합,국립,중앙,박물관,손,혜,원,의원,관련,의혹,해명,작년,구매,현대,금속,..."
7,7,"""동영상 뉴스","동,영상"
8,8,\t지난 20일 <SBS스페셜>을 통해 소개된 단식모방식단 FMD(Fasting-M...,"지난,스페셜,통해,소개,단식,모방,식단,대한,대중,관심,뜨겁습니다,달,제한,식단,섭..."
9,9,"""자료로 짚어본 한글과 여성“국문(한글)이 생긴 후 제일가는 명필”이란 극찬을 받은...","자료,한글,여성,국문,한글,후,제,일가,명필,이란,극찬,서기,씨,여성,조선말,최고,..."
