# Word2Vec model

In [1]:
import os
import re
import pandas as pd
import random

import matplotlib.pyplot as plt
import urllib.request
from konlpy.tag import Okt, Mecab

from tqdm import tqdm

## data

In [2]:
directory = os.getenv("HOME") +'/aiffel/aiffelthon'

In [3]:
os.listdir(directory)

['MODELtf_ckpts_gd12_r1',
 'reg_2',
 'past_files',
 '.ipynb_checkpoints',
 '[라벨]제주도_학습용데이터_1.zip',
 'corpus_ko.txt',
 '[라벨]전라도_학습데이터_1.zip',
 'added',
 'final',
 '[라벨]경상도_학습데이터_1.zip',
 'reg_1',
 'reg_4',
 'datset_full_raw_needs_translation_0221_v2.csv',
 '[라벨]충청도_학습데이터_1.zip',
 'reg_5',
 'saturi_crawling_thesaurus_0223.csv',
 'final_dataset.zip',
 '[라벨]강원도_학습데이터_1.zip',
 'reg_3',
 'DATA',
 'corpus_en.txt']

In [5]:
# saturi_path = os.getenv("HOME") + '/aiffel/'
# saturi_data = pd.read_csv(saturi_path + 'saturi_crawling_thesaurus_0227.csv')
saturi_data = pd.read_csv(directory + '/saturi_crawling_thesaurus_0223.csv')

In [6]:
saturi_data.head()

Unnamed: 0,dial,original,meaning,reg
0,분쉬,분수,"분수의 방언, 사물을 분별하는 지혜.",jj
1,분시,분수,"분수의 방언, 사물을 분별하는 지혜.",jj
2,분절,분결,"분결의 방언, 분한 마음이 왈칵 일어난 바람.",jj
3,분채,부채,"부채의 방언, 손으로 흔들어 바람을 일으키는 물건. 대오리로 살을 하고 종이나 헝...",jj
4,분채질,부채질,"부채질의 방언, 부채를 흔들어 바람을 일으키는 일.",jj


In [7]:
print(len(saturi_data))

82401


### 결측치 확인

In [8]:
print(saturi_data.isnull().sum())

dial        0
original    0
meaning     0
reg         0
dtype: int64


### JJ_data

In [123]:
jj = saturi_data[saturi_data['reg'] == 'jj'].copy()

In [124]:
jj.reset_index(drop=True, inplace=True)

In [125]:
jj.head()

Unnamed: 0,dial,original,meaning,reg
0,분쉬,분수,"분수의 방언, 사물을 분별하는 지혜.",jj
1,분시,분수,"분수의 방언, 사물을 분별하는 지혜.",jj
2,분절,분결,"분결의 방언, 분한 마음이 왈칵 일어난 바람.",jj
3,분채,부채,"부채의 방언, 손으로 흔들어 바람을 일으키는 물건. 대오리로 살을 하고 종이나 헝...",jj
4,분채질,부채질,"부채질의 방언, 부채를 흔들어 바람을 일으키는 일.",jj


In [126]:
print(len(jj))

16794


In [127]:
import gensim 

In [144]:
import numpy as np
jj['original'] = jj['meaning'].apply(lambda x : x.split('의 방언')[0] if '의 방언' in x else np.nan)
jj.dropna(subset=['original'], inplace=True)

In [145]:
jj.loc[(jj['original'].isna())]

Unnamed: 0,dial,original,meaning,reg,word2vec


In [146]:
jj['word2vec'] = jj['dial'] + '' + jj['original']
jj_sample = jj['word2vec'].apply(gensim.utils.simple_preprocess) *3# series 이용

In [147]:
jj_sample

0              [분쉬, 분수, 분쉬, 분수, 분쉬, 분수]
1              [분시, 분수, 분시, 분수, 분시, 분수]
2              [분절, 분결, 분절, 분결, 분절, 분결]
3              [분채, 부채, 분채, 부채, 분채, 부채]
4        [분채질, 부채질, 분채질, 부채질, 분채질, 부채질]
                      ...              
16788          [야답, 여덟, 야답, 여덟, 야답, 여덟]
16789          [마은, 마흔, 마은, 마흔, 마은, 마흔]
16791          [설룬, 서른, 설룬, 서른, 설룬, 서른]
16792          [설흔, 서른, 설흔, 서른, 설흔, 서른]
16793    [대요슷, 대여섯, 대요슷, 대여섯, 대요슷, 대여섯]
Name: word2vec, Length: 14616, dtype: object

In [161]:
jj.loc[jj['dial'] == '동전']

Unnamed: 0,dial,original,meaning,reg,word2vec
4270,동전,동정,"동정의 방언, 한복의 저고리 깃 위에 조금 좁은 듯하게 덧대는 하얗고 긴 헝겊 조각.",jj,동전 동정


In [149]:
from gensim.models import Word2Vec

def w2v_train(data, name) :
    model = Word2Vec(window = 4, min_count = 3, workers = 4, sg = 1, epochs = 50)
    model.build_vocab(data)
    model.train(data, total_examples=model.corpus_count, epochs = model.epochs)
    model.save(directory +f'/w2v_meaning_{name}.model')  
    
    return model

In [150]:
model_jj = w2v_train(jj_sample,'jj')
model_jj.wv.most_similar('분수')

[('분쉬', 0.9948179125785828),
 ('분시', 0.9944882392883301),
 ('조쟁이', 0.6292686462402344),
 ('어월', 0.6213375329971313),
 ('수어', 0.6196014881134033),
 ('구둘창', 0.6134085059165955),
 ('여울', 0.609855055809021),
 ('활개', 0.6095420718193054),
 ('걸찍걸찍', 0.609419584274292),
 ('무시나물', 0.6090089082717896)]

In [157]:
from konlpy.tag import Mecab
mecab = Mecab()
def eda_sr(sentence, word2vec) :
    words = mecab.morphs(sentence)
    for i in words :
        try :
            new = word2vec.wv.most_similar(i)[0][0]
            words[words.index(i)] = new
        except :
            continue
    return words

In [158]:
original = '나는 동전을 분쉬 에 던젔어!'
eda_sr(original, model_jj)

['나', '는', '동정', '을', '분수', '에', '던', '젔', '어', '!']

In [159]:
model_jj.wv.most_similar('동정')

[('동전', 0.9930635094642639),
 ('떼거지', 0.6864559054374695),
 ('방올', 0.6859450936317444),
 ('메서란', 0.6766088604927063),
 ('걸렝이', 0.6735606789588928),
 ('저끗디', 0.6720098257064819),
 ('걸렛배', 0.6718530058860779),
 ('복통', 0.6682782769203186),
 ('가드락하다', 0.6660047769546509),
 ('시동', 0.6647745370864868)]

In [171]:
df = pd.read_csv(directory +'/final/Test_set_data_sampling(0223).csv')

In [172]:
df.head()

Unnamed: 0,text,dial,reg,eng
0,그니까 거기 그 사진 찍는아니야 주상절리 마냥,그니까 거기 그 사진 찍는아니 주상절리 마냥,jj,So youre not taking that picture there are you...
1,집에 있으면,집에 이시믄,jj,If you are at home
2,먹고 취하잖아 그러면 취하면 한이 있잖아 사람이 왜 이게,먹어지믄 취하잖아 겅하*믄이 취하면 한이 있네 사람이 왜 이게,jj,"You're eating and getting drunk, and if you're..."
3,그렇지 그렇게하겠지,그렇지 겅하겠주게,jj,Thats right Ill do that
4,나 아는사람이라고 해서 십만 원 더 지원해서 이십만 원 지원해 줬어,나 아는사람이라고 해서 십만 원 더 지원해서 이십만 원 지원해 줜,jj,I ot it as I know so I applied for another 100...


In [178]:
import tqdm

def change_expression(data,text_file, name) :
    data['original'] = data['meaning'].apply(lambda x : x.split('의 방언')[0] if '의 방언' in x else np.nan)
    data.dropna(subset=['original'], inplace=True)
    data['word2vec'] = data['dial'] + '' + data['original']
    data_sample = data['word2vec'].apply(gensim.utils.simple_preprocess) *3# series 이용
    model = w2v_train(data_sample, name)
    data = text_file.values # substitute data
    new_sentence = []
    for i in tqdm.tqdm(range(len(data))) :
        new = eda_sr(data[i], model)
        new_sentence.append(' '.join(new))
    return new_sentence

In [179]:
change_expression(jj,df['text'], 'jj')

100%|██████████| 500/500 [00:01<00:00, 359.93it/s]


['그니까 그듸 그 사진 찍 는 으어 야 주상 무꿍 마냥',
 '집 에 있 으면',
 '먹 고 취하 잖아 그러 면 취하 면 한 이 있 잖아 사롬 이 왜 이게',
 '그렇 지 그추룸 하 겠 지',
 '나 아 는 사롬 이 니향 해서 십 만 원 더 지원 해서 이 십 만 원 지원 해 줬 어',
 '어 그추룸 해서 대릉원 입구 에서 대판 싸웠 지 .',
 '엄마 는 멀미 가 나 고 머력 가 어지러워서 죽 을 맛 인데',
 '영국 에서 도 차 있 는 애 들 은 그런 거 안 타',
 '그리고 난리 났었 어 한번 지대 .',
 '나 가지깽이고장 알 바 면접 보 러 가 는데 굴흔데 충주 는 이게 몬지 인 게',
 '아유 이게 곧작 학게 인칙 가 려고 버스 타 고 갔 지 우린 어차피 꽉 차서 만 원 버스 되 냇내 니까',
 '게민 아덜 만 절흔 한 거 딸 도 절흔 했 어 ?',
 '막 피곤 해서 원',
 '나 는 약간 내 가 좋 으면 # 이',
 '베스트 였 는데 # 이 커 ~ 여괴 에 광주',
 '이제 십이월 이 니까 일월 이월 쯤 되 면 나올 건가 ?',
 '어 차 입수 시켰 어',
 '이 단계 로 간 마당 에 굴흔데 # 이 제주도 도 보 면 # 이 뭐 해야 돼',
 '이제 호끔 씩 없 어 져 가 고 할꺼 아닌가',
 '살짝이',
 '어 더 해봐요',
 '그 실력 도 있 지 만 은 성격 이 너미 좋 은 거 야 요번 에',
 '가 고 싶 은 게 많 을 쑤무 살 으어 야 ?',
 '게나네 이건 가 봐서 알 아',
 '에이아이 녹음 한다고 하 니까 나 도 신기 해 가재이 고 그듸 다가 또 사토리',
 '굴흔데 저 는 요 그거 해줘도 제 가 돈 을 요구 안 하 면 기냥 벌금형 드레 끝 난대요 . 기여 가재이 고',
 '어 야 너 진짜 집 안 살 거 야 ?',
 '그러 니 건 뭐 뭐 지',
 '그래서 오픽 도 하 고 싶 은데',
 '국내 를 하양 하양 돌아다녀 봐야 되 는데 # 이',
 '으어 나 도 # 이 여제 직감 이 있 어 남제 도 그렇 게 내 가 막 그추룸 보이 지 는 않 아

In [177]:
model_jj.wv.most_similar('마누라')

[('큰한집', 0.9982072710990906),
 ('호명정구', 0.9980982542037964),
 ('호명', 0.9979606866836548),
 ('항긋', 0.99786776304245),
 ('항것', 0.9973326921463013),
 ('한굿', 0.9973018765449524),
 ('마마', 0.9951244592666626),
 ('큰마누라', 0.9920323491096497),
 ('큰각시', 0.9857249855995178),
 ('멍코젱이', 0.6812736988067627)]

### KW_data

In [12]:
kw = saturi_data[saturi_data['reg'] == 'kw']

In [13]:
kw.reset_index(drop=True, inplace=True)

In [14]:
kw.head()

Unnamed: 0,dial,original,meaning,reg
0,분멩,분명,"분명의 방언, 틀림없이 확실하게.",kw
1,분벨,분별,"분별의 방언, 서로 다른 일이나 사물을 구별하여 가름.",kw
2,분사,분수,"분수의 방언, 사물을 분별하는 지혜.",kw
3,분사머리,분수,"분수의 방언, 사물을 분별하는 지혜.",kw
4,분초,부추,"부추의 방언, 백합과의 여러해살이풀. 봄에 땅속의 작은 비늘줄기로부터 길이 30c...",kw


In [15]:
print(len(kw))

14805


### GS_data

In [16]:
gs = saturi_data[saturi_data['reg'] == 'gs']

In [17]:
gs.reset_index(drop=True, inplace=True)

In [18]:
gs.head()

Unnamed: 0,dial,original,meaning,reg
0,분래하다,분란하다,"분란하다의 방언, 어수선하고 소란스럽다.",gs
1,분산하다,부산하다,"부산하다의 방언, 급하게 서두르거나 시끄럽게 떠들어 어수선하다.",gs
2,불구룸하다,불그름하다,"불그름하다의 방언, 조금 붉다.",gs
3,불구리하다,불그레하다,"불그레하다의 방언, 엷게 불그스름하다.",gs
4,불구무리하다,볼그무레하다,"볼그무레하다의 방언, 아주 엷게 볼그스름하다.",gs


In [19]:
print(len(gs))

25106


### CC_data

In [20]:
cc = saturi_data[saturi_data['reg'] == 'cc']

In [21]:
cc.reset_index(drop=True, inplace=True)

In [22]:
cc.head()

Unnamed: 0,dial,original,meaning,reg
0,분우기,분위기,"분위기의 방언, 지구를 둘러싸고 있는 기체.",cc
1,불막대,부지깽이,"부지깽이의 방언, 아궁이 따위에 불을 땔 때에, 불을 헤치거나 끌어내거나 거두어 ...",cc
2,불막대기,부지깽이,"부지깽이의 방언, 아궁이 따위에 불을 땔 때에, 불을 헤치거나 끌어내거나 거두어 ...",cc
3,불쇠바닥,불혀,"불혀의 방언, 날름거리며 타오르는 불길을 비유적으로 이르는 말.",cc
4,불여수,불여우,"불여우의 방언, 몹시 변덕스럽고 못된, 꾀가 많은 여자를 비유적으로 이르는 말.",cc


In [23]:
print(len(cc))

5856


### JD_data

In [24]:
jd = saturi_data[saturi_data['reg'] == 'jd']

In [25]:
jd.reset_index(drop=True, inplace=True)

In [26]:
jd.head()

Unnamed: 0,dial,original,meaning,reg
0,분대질,분탕질,"분탕질의 방언, 집안의 재물을 다 없애 버리는 짓.",jd
1,분투,부티,"부티의 방언, 베를 짤 때, 베틀의 말코 두 끝에 끈을 매어 허리에 두르는 넓은 ...",jd
2,분튀,부티,"부티의 방언, 베를 짤 때, 베틀의 말코 두 끝에 끈을 매어 허리에 두르는 넓은 ...",jd
3,붇두둥,불두덩,"불두덩의 방언, 남녀의 생식기 언저리에 있는 불룩한 부분.",jd
4,불강생이,불강아지,"불강아지의 방언, 몸이 바싹 여윈 강아지.",jd


In [27]:
print(len(jd))

17653


## Word2Vec_jj

In [28]:
test = list(jj['word2vec'].values)

In [29]:
tset = []
for i in test:
    i = i.split()
    tset.append(i)

In [30]:
tset

[['분쉬', '분수', '분쉬', '분수', '분쉬', '분수'],
 ['분시', '분수', '분시', '분수', '분시', '분수'],
 ['분절', '분결', '분절', '분결', '분절', '분결'],
 ['분채', '부채', '분채', '부채', '분채', '부채'],
 ['분채질', '부채질', '분채질', '부채질', '분채질', '부채질'],
 ['사둔칩', '사돈집', '사둔칩', '사돈집', '사둔칩', '사돈집'],
 ['분짐', '분김', '분짐', '분김', '분짐', '분김'],
 ['분짓', '분깃', '분짓', '분깃', '분짓', '분깃'],
 ['하르버지', '할아버지', '하르버지', '할아버지', '하르버지', '할아버지'],
 ['불', '벌', '불', '벌', '불', '벌'],
 ['불갈래', '부삽', '불갈래', '부삽', '불갈래', '부삽'],
 ['불갑', '성냥', '불갑', '성냥', '불갑', '성냥'],
 ['불게미', '불똥', '불게미', '불똥', '불게미', '불똥'],
 ['불게예미', '불똥', '불게예미', '불똥', '불게예미', '불똥'],
 ['불곽', '성냥갑', '불곽', '성냥갑', '불곽', '성냥갑'],
 ['불궤수웨', '불쏘시개', '불궤수웨', '불쏘시개', '불궤수웨', '불쏘시개'],
 ['불그네', '고무래', '불그네', '고무래', '불그네', '고무래'],
 ['불근네', '불고무래', '불근네', '불고무래', '불근네', '불고무래'],
 ['불근데', '불고무래', '불근데', '불고무래', '불근데', '불고무래'],
 ['불글레기', '거품', '불글레기', '거품', '불글레기', '거품'],
 ['불깍', '성냥', '불깍', '성냥', '불깍', '성냥'],
 ['불깍지', '등잔', '불깍지', '등잔', '불깍지', '등잔'],
 ['불껑', '재', '불껑', '재', '불껑', '재'],
 ['불끌럭지', '불꾸러미', '불끌럭지', '불

In [31]:
from gensim.models import Word2Vec

model_jj = Word2Vec(sentences = tset, vector_size = 100,dd window = 3, min_count = 3, workers = 4, sg = 1, epochs = 100)
# sg값 1일 경우 skip-gram, 0일 경우 CBOW
# skip-gram : 해당 단어를 통해 주변단어를 dd
# CBOW : 주변 단어를 통해 해당 단어를 dd

In [32]:
model_jj.wv.similarity('부채', '분채')

0.99645764

In [33]:
print(model_jj.wv.most_similar("시름없다"))

[('시름엇다', 0.9964210987091064), ('시름읏다', 0.996354877948761), ('시름읎다', 0.9959554076194763), ('행실머리', 0.6141220927238464), ('물퀴신', 0.5997700691223145), ('헨실머리', 0.5978392362594604), ('물쿠신', 0.5977985262870789), ('물귀신', 0.5854921340942383), ('어느제', 0.5790910720825195), ('어는제', 0.5770575404167175)]


In [34]:
jj[:50]

Unnamed: 0,dial,original,meaning,reg,word2vec
0,분쉬,분수,"분수의 방언, 사물을 분별하는 지혜.",jj,분쉬 분수 분쉬 분수 분쉬 분수
1,분시,분수,"분수의 방언, 사물을 분별하는 지혜.",jj,분시 분수 분시 분수 분시 분수
2,분절,분결,"분결의 방언, 분한 마음이 왈칵 일어난 바람.",jj,분절 분결 분절 분결 분절 분결
3,분채,부채,"부채의 방언, 손으로 흔들어 바람을 일으키는 물건. 대오리로 살을 하고 종이나 헝...",jj,분채 부채 분채 부채 분채 부채
4,분채질,부채질,"부채질의 방언, 부채를 흔들어 바람을 일으키는 일.",jj,분채질 부채질 분채질 부채질 분채질 부채질
5,사둔칩,사돈집,"사돈집의 방언, 서로 사돈이 되는 집.",jj,사둔칩 사돈집 사둔칩 사돈집 사둔칩 사돈집
6,분짐,분김,"분김의 방언, 분한 마음이 왈칵 일어난 바람.",jj,분짐 분김 분짐 분김 분짐 분김
7,분짓,분깃,"분깃의 방언, 유산을 한 몫 나누어 줌. 또는 그 몫.",jj,분짓 분깃 분짓 분깃 분짓 분깃
8,하르버지,할아버지,"할아버지의 방언, 부모의 아버지를 이르거나 부르는 말.",jj,하르버지 할아버지 하르버지 할아버지 하르버지 할아버지
9,불,벌,"벌의 방언, 넓고 평평하게 생긴 땅.",jj,불 벌 불 벌 불 벌


In [35]:
model_jj.wv.vectors.shape

(21152, 100)

## Data Augmentation

### Lexical Substitution 구현하기(표준어 -> 사투리)

In [39]:
def lexical_sub(sentence, word2vec):
    res = ""
    sentence = sentence.values
    tt = []
    for i in sentence:
        i = i.split()
        tt.append(i)

    try:
        _from = random.choice(tt)
        _to = word2vec.wv.most_similar(_from)[0][0]
        
    except:   # 단어장에 없는 단어
        return None

    for tok in tt:
        if tok is _from:
            res += _to + " "
        else:
            res += str(tok) + " "

    return res