# Word2Vec model

In [1]:
import os
import re
import pandas as pd

import matplotlib.pyplot as plt
import urllib.request
from konlpy.tag import Okt, Mecab

from tqdm import tqdm

## data

In [2]:
saturi_path = os.getenv("HOME") + '/aiffel/'
saturi_data = pd.read_csv(saturi_path + 'saturi_crawling_thesaurus_0227.csv')

In [3]:
saturi_data.head()

Unnamed: 0,dial,original,meaning,reg
0,분쉬,분수,"분수의 방언, 사물을 분별하는 지혜.",jj
1,분시,분수,"분수의 방언, 사물을 분별하는 지혜.",jj
2,분절,분결,"분결의 방언, 분한 마음이 왈칵 일어난 바람.",jj
3,분채,부채,"부채의 방언, 손으로 흔들어 바람을 일으키는 물건. 대오리로 살을 하고 종이나 헝...",jj
4,분채질,부채질,"부채질의 방언, 부채를 흔들어 바람을 일으키는 일.",jj


In [4]:
print(len(saturi_data))

78042


### 결측치 확인

In [5]:
print(saturi_data.isnull().sum())

dial        0
original    0
meaning     0
reg         0
dtype: int64


### JJ_data

In [6]:
jj = saturi_data[saturi_data['reg'] == 'jj']

In [7]:
jj.reset_index(drop=True, inplace=True)

In [8]:
jj.head()

Unnamed: 0,dial,original,meaning,reg
0,분쉬,분수,"분수의 방언, 사물을 분별하는 지혜.",jj
1,분시,분수,"분수의 방언, 사물을 분별하는 지혜.",jj
2,분절,분결,"분결의 방언, 분한 마음이 왈칵 일어난 바람.",jj
3,분채,부채,"부채의 방언, 손으로 흔들어 바람을 일으키는 물건. 대오리로 살을 하고 종이나 헝...",jj
4,분채질,부채질,"부채질의 방언, 부채를 흔들어 바람을 일으키는 일.",jj


In [9]:
print(len(jj))

14622


In [10]:
jj['word2vec'] = jj['dial'] + jj['original']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  jj['word2vec'] = jj['dial'] + jj['original']


In [11]:
jj.head()

Unnamed: 0,dial,original,meaning,reg,word2vec
0,분쉬,분수,"분수의 방언, 사물을 분별하는 지혜.",jj,분쉬 분수
1,분시,분수,"분수의 방언, 사물을 분별하는 지혜.",jj,분시 분수
2,분절,분결,"분결의 방언, 분한 마음이 왈칵 일어난 바람.",jj,분절 분결
3,분채,부채,"부채의 방언, 손으로 흔들어 바람을 일으키는 물건. 대오리로 살을 하고 종이나 헝...",jj,분채 부채
4,분채질,부채질,"부채질의 방언, 부채를 흔들어 바람을 일으키는 일.",jj,분채질 부채질


In [12]:
jj['word2vec'] = jj['word2vec'].str.strip()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  jj['word2vec'] = jj['word2vec'].str.strip()


In [13]:
jj

Unnamed: 0,dial,original,meaning,reg,word2vec
0,분쉬,분수,"분수의 방언, 사물을 분별하는 지혜.",jj,분쉬 분수
1,분시,분수,"분수의 방언, 사물을 분별하는 지혜.",jj,분시 분수
2,분절,분결,"분결의 방언, 분한 마음이 왈칵 일어난 바람.",jj,분절 분결
3,분채,부채,"부채의 방언, 손으로 흔들어 바람을 일으키는 물건. 대오리로 살을 하고 종이나 헝...",jj,분채 부채
4,분채질,부채질,"부채질의 방언, 부채를 흔들어 바람을 일으키는 일.",jj,분채질 부채질
...,...,...,...,...,...
14617,야답,여덟,"여덟의 방언, 일곱에 하나를 더한 수. 또는 그런 수의.",jj,야답 여덟
14618,마은,마흔,"마흔의 방언, 열의 네 배가 되는 수. 또는 그런 수의.",jj,마은 마흔
14619,설룬,서른,"서른의 방언, 열의 세 배가 되는 수. 또는 그런 수의.",jj,설룬 서른
14620,설흔,서른,"서른의 방언, 열의 세 배가 되는 수. 또는 그런 수의.",jj,설흔 서른


### KW_data

In [14]:
kw = saturi_data[saturi_data['reg'] == 'kw']

In [15]:
kw.reset_index(drop=True, inplace=True)

In [16]:
kw.head()

Unnamed: 0,dial,original,meaning,reg
0,분멩,분명,"분명의 방언, 틀림없이 확실하게.",kw
1,분벨,분별,"분별의 방언, 서로 다른 일이나 사물을 구별하여 가름.",kw
2,분사,분수,"분수의 방언, 사물을 분별하는 지혜.",kw
3,분사머리,분수,"분수의 방언, 사물을 분별하는 지혜.",kw
4,분초,부추,"부추의 방언, 백합과의 여러해살이풀. 봄에 땅속의 작은 비늘줄기로부터 길이 30c...",kw


In [17]:
print(len(kw))

14805


### GS_data

In [18]:
gs = saturi_data[saturi_data['reg'] == 'gs']

In [19]:
gs.reset_index(drop=True, inplace=True)

In [20]:
gs.head()

Unnamed: 0,dial,original,meaning,reg
0,분래하다,분란하다,"분란하다의 방언, 어수선하고 소란스럽다.",gs
1,분산하다,부산하다,"부산하다의 방언, 급하게 서두르거나 시끄럽게 떠들어 어수선하다.",gs
2,불구룸하다,불그름하다,"불그름하다의 방언, 조금 붉다.",gs
3,불구리하다,불그레하다,"불그레하다의 방언, 엷게 불그스름하다.",gs
4,불구무리하다,볼그무레하다,"볼그무레하다의 방언, 아주 엷게 볼그스름하다.",gs


In [21]:
print(len(gs))

25106


### CC_data

In [22]:
cc = saturi_data[saturi_data['reg'] == 'cc']

In [23]:
cc.reset_index(drop=True, inplace=True)

In [24]:
cc.head()

Unnamed: 0,dial,original,meaning,reg
0,분우기,분위기,"분위기의 방언, 지구를 둘러싸고 있는 기체.",cc
1,불막대,부지깽이,"부지깽이의 방언, 아궁이 따위에 불을 땔 때에, 불을 헤치거나 끌어내거나 거두어 ...",cc
2,불막대기,부지깽이,"부지깽이의 방언, 아궁이 따위에 불을 땔 때에, 불을 헤치거나 끌어내거나 거두어 ...",cc
3,불쇠바닥,불혀,"불혀의 방언, 날름거리며 타오르는 불길을 비유적으로 이르는 말.",cc
4,불여수,불여우,"불여우의 방언, 몹시 변덕스럽고 못된, 꾀가 많은 여자를 비유적으로 이르는 말.",cc


In [25]:
print(len(cc))

5856


### JD_data

In [26]:
jd = saturi_data[saturi_data['reg'] == 'jd']

In [27]:
jd.reset_index(drop=True, inplace=True)

In [28]:
jd.head()

Unnamed: 0,dial,original,meaning,reg
0,분대질,분탕질,"분탕질의 방언, 집안의 재물을 다 없애 버리는 짓.",jd
1,분투,부티,"부티의 방언, 베를 짤 때, 베틀의 말코 두 끝에 끈을 매어 허리에 두르는 넓은 ...",jd
2,분튀,부티,"부티의 방언, 베를 짤 때, 베틀의 말코 두 끝에 끈을 매어 허리에 두르는 넓은 ...",jd
3,붇두둥,불두덩,"불두덩의 방언, 남녀의 생식기 언저리에 있는 불룩한 부분.",jd
4,불강생이,불강아지,"불강아지의 방언, 몸이 바싹 여윈 강아지.",jd


In [29]:
print(len(jd))

17653


## Word2Vec_jj

In [30]:
test = list(jj['word2vec'].values)

In [31]:
tset = []
for i in test:
    i = i.split()
    tset.append(i)

In [32]:
tset

[['분쉬', '분수'],
 ['분시', '분수'],
 ['분절', '분결'],
 ['분채', '부채'],
 ['분채질', '부채질'],
 ['사둔칩', '사돈집'],
 ['분짐', '분김'],
 ['분짓', '분깃'],
 ['하르버지', '할아버지'],
 ['불', '벌'],
 ['불갈래', '부삽'],
 ['불갑', '성냥'],
 ['불게미', '불똥'],
 ['불게예미', '불똥'],
 ['불곽', '성냥갑'],
 ['불궤수웨', '불쏘시개'],
 ['불그네', '고무래'],
 ['불근네', '불고무래'],
 ['불근데', '불고무래'],
 ['불글레기', '거품'],
 ['불깍', '성냥'],
 ['불깍지', '등잔'],
 ['불껑', '재'],
 ['불끌럭지', '불꾸러미'],
 ['불끌레기', '불꾸러미'],
 ['불닥새기', '불알'],
 ['불닥세기', '불알'],
 ['불도', '산신'],
 ['불땡이', '부지깽이'],
 ['불란지', '개똥벌레'],
 ['불미질', '대장일'],
 ['불망골', '불똥'],
 ['불망구리', '불똥'],
 ['불망텡이', '불알망태'],
 ['불매대장', '대장장이'],
 ['불매질', '대장일'],
 ['불미', '풀무'],
 ['불미간', '대장간'],
 ['하르비', '할아버지'],
 ['불미대장', '대장장이'],
 ['불미와찌', '대장장이'],
 ['불미왕', '대장간'],
 ['불미쟁이', '대장장이'],
 ['불미칩', '대장간'],
 ['불밋간', '대장간'],
 ['불방둥이', '불장난'],
 ['불벳', '불볕'],
 ['불벹', '불볕'],
 ['불삽', '부삽'],
 ['불소슬게', '불쏘시개'],
 ['불소시개', '불쏘시개'],
 ['불수세', '불쏘시개'],
 ['불순', '부손'],
 ['불숟가락', '부순'],
 ['불숟구락', '부손'],
 ['불쏘스개', '불쏘시개'],
 ['불쏘슬개', '불쏘시개'],
 ['불아대', '불알망태'],
 ['불어귀', '아궁이'],
 ['

In [127]:
from gensim.models import Word2Vec

model = Word2Vec(sentences = tset, vector_size = 250, window = 1, min_count = 0, workers = 4, sg = 1, epochs = 1000)
# sg값 1일 경우 skip-gram, 0일 경우 CBOW
# skip-gram : 해당 단어를 통해 주변단어를 예측
# CBOW : 주변 단어를 통해 해당 단어를 예측

In [128]:
model.wv.similarity('붉낭', '붉가시나무')

0.36209348

In [129]:
print(model.wv.most_similar("대장장이"))

[('일허불다', 0.48052075505256653), ('청갈개비', 0.47955322265625), ('청개개비', 0.4790090024471283), ('청가게비', 0.47884026169776917), ('청게게비', 0.47869089245796204), ('풀갈개비', 0.478473961353302), ('청가개비', 0.4783560335636139), ('풀가게비', 0.4779335856437683), ('일러불다', 0.47780296206474304), ('마카레비', 0.47757765650749207)]


In [36]:
jj[:50]

Unnamed: 0,dial,original,meaning,reg,word2vec
0,분쉬,분수,"분수의 방언, 사물을 분별하는 지혜.",jj,분쉬 분수
1,분시,분수,"분수의 방언, 사물을 분별하는 지혜.",jj,분시 분수
2,분절,분결,"분결의 방언, 분한 마음이 왈칵 일어난 바람.",jj,분절 분결
3,분채,부채,"부채의 방언, 손으로 흔들어 바람을 일으키는 물건. 대오리로 살을 하고 종이나 헝...",jj,분채 부채
4,분채질,부채질,"부채질의 방언, 부채를 흔들어 바람을 일으키는 일.",jj,분채질 부채질
5,사둔칩,사돈집,"사돈집의 방언, 서로 사돈이 되는 집.",jj,사둔칩 사돈집
6,분짐,분김,"분김의 방언, 분한 마음이 왈칵 일어난 바람.",jj,분짐 분김
7,분짓,분깃,"분깃의 방언, 유산을 한 몫 나누어 줌. 또는 그 몫.",jj,분짓 분깃
8,하르버지,할아버지,"할아버지의 방언, 부모의 아버지를 이르거나 부르는 말.",jj,하르버지 할아버지
9,불,벌,"벌의 방언, 넓고 평평하게 생긴 땅.",jj,불 벌


In [37]:
jj[jj['dial'] == '분채']

Unnamed: 0,dial,original,meaning,reg,word2vec
3,분채,부채,"부채의 방언, 손으로 흔들어 바람을 일으키는 물건. 대오리로 살을 하고 종이나 헝...",jj,분채 부채


In [86]:
model.wv.vectors.shape

(21152, 200)