In [1]:
import fasttext
import fasttext.util

In [2]:
fasttext.util.download_model('vi', if_exists='ignore')
ft = fasttext.load_model('cc.vi.300.bin')



In [3]:
from base64 import encode
import os
import pandas as pd
import numpy as np
from typing import Callable, List
from tqdm import tqdm
import scipy
from scipy import stats
from sklearn.preprocessing import OneHotEncoder
enc = OneHotEncoder(handle_unknown='ignore',sparse=False)

In [4]:
word2vecpath = '../word2vec/W2V_150.txt'
antsynpath = '../antonym-synonym set'
visimpath = '../datasets/ViSim-400'
viconpath = '../datasets/ViCon-400'

In [6]:
words = []
vecs = []

dim = None
n_vocab = None

with open(word2vecpath, encoding='utf8') as f:
    for line in tqdm(f, f"loading {word2vecpath} to variables"):
        if not n_vocab:
            n_vocab = int(line)
        elif not dim:
            dim = int(line)
        else:
            line = line.replace('\n', '')
            word = line.split('  ')[0]
            words.append(word)
            vecs.append(ft.get_word_vector(word))
vecs = np.array(vecs)

loading ../word2vec/W2V_150.txt to variables: 77023it [00:01, 47764.42it/s]


In [8]:
np.save('words', words)
np.save('vectors', vecs)

In [7]:
vecs.shape

(77021, 300)

In [12]:
def word2vec(a: str) -> np.array:
    try:
        i = words.index(a)
        return vecs[i]
    except:
        return np.zeros(300)


def cosine(a: np.array, b: np.array) -> float:
    a = a / np.linalg.norm(a) if np.linalg.norm(a) != 0 else a
    b = b / np.linalg.norm(b) if np.linalg.norm(b) != 0 else b
    return a.dot(b)

def sim(row, sim_f=cosine):
    vec1 = word2vec(row.iloc[0])
    vec2 = word2vec(row.iloc[1])

    return sim_f(vec1, vec2)

In [13]:
sim_pairs = pd.read_csv(visimpath + '/Visim-400.txt', sep="\t")

In [None]:
sim_pairs['cosine'] = sim_pairs.apply(sim, axis=1, sim_f=cosine)
print(sim_pairs.to_string())

In [40]:
ant_pairs = pd.read_csv('../antonym-synonym set/Antonym_vietnamese.txt', 
                        delim_whitespace=True, header = None, 
                        names=['Word1', 'Word2'])
ant_pairs['Relation'] = 'ANT'


syn_pairs = pd.read_csv('../antonym-synonym set/Synonym_vietnamese.txt',
                        delim_whitespace=True, header = None, 
                        names=['Word1', 'Word2'])
syn_pairs['Relation'] = 'SYN'

train_dataset = pd.concat([ant_pairs, syn_pairs])

train_dataset = train_dataset.dropna()
train_dataset = train_dataset.sample(frac=1)
train_dataset = train_dataset.reset_index(drop=True)

In [None]:
noun_pairs = pd.read_csv(viconpath + '/400_verb_pairs.txt', sep="\t")
verb_pairs = pd.read_csv(viconpath + '/400_verb_pairs.txt', sep="\t")
adj_pairs = pd.read_csv(viconpath + '/600_adj_pairs.txt', sep="\t")

test_dataset =  pd.concat([noun_pairs, verb_pairs, adj_pairs])

test_dataset = test_dataset.dropna()
test_dataset = test_dataset.sample(frac=1)
test_dataset = test_dataset.reset_index(drop=True)

In [42]:
train_vec2 = train_dataset['Word2'].tolist()

In [None]:
print(train_vec2)

In [43]:
x_train_vec2 = np.array([ft.get_word_vector(train_vec2[i]) for i in range(len(train_vec2))])

In [44]:
train_vec1 = train_dataset['Word1'].tolist()
# train_vec2 = train_dataset['Word2'].tolist()

x_train_vec1 = np.array([ft.get_word_vector(train_vec1[i]) for i in range(len(train_vec1))])
# x_train_vec2 = np.array([ft.get_word_vector(train_vec2[i]) for i in range(len(train_vec2))])

# x_train_vec = np.array([[a, b] for a, b in zip(x_train_vec1, x_train_vec2)])
# np.save('x_train_vec', x_train_vec)

In [37]:
train_vec2 = train_dataset['Word2'].tolist() 

for i in train_vec2:
    print(i)
    ft.get_word_vector(i)

điện_tín
giao_thông
ni_sư
mệ
thịch
hay
tỷ_trọng
cuộc_thế
tý
hoạ
mỹ_tục
cú
cuối_cùng
đẩn
thanh
bảo_nhỏ
lẩn_lút
đỉnh_điểm
móc_ngoặc
vơi
bè_phái
tân_binh
thầm_thì
hẹp_hòi
dũng_cảm
quạnh_vắng
trước
tuyệt_mỹ
rỗi
sượng_mặt
đắn_đo
lội_bộ
khắt_khe
kềm_chế
lộ_thiên
phó_thác
nhọc_lòng
dính_dấp
khi_dể
nháo_nhào
hữu_lí
tột_đỉnh
gan_liền
vô_lễ
chĩnh_chện
che_đậy
y_lý
lủn_mủn
đền_bù
mẽ
xúc_tiến
dài_ngoẵng
thảo_luận
chứng_cứ
ních
khuyến_khích
lãnh_hải
rối_tinh
ạ_ơi
bài_xuất
hữu_ích
dấu_chấm_lửng
ẫm_ờ
vị_tha
thanh_vắng
trần_truồng
sạch_sẽ
đái_láu
vị_lai
túng_quẫn
kỹ_tính
thanh_hao
chấp_nhận
xịch
khâm_phục
bãi_thị
tù_đầy
tiếc_nuối
mé
sa_sả
xờ_xạc
e-mail
vô_vọng
nỏ_miệng
phê_chuẩn
ác_một_cái_là
hẹp_hòi
móc_câu
vật_chứng
chuyên_dụng
nguồn_cơn
nồng_hậu
loạng_choạng
xỉ
mừng
tráng_lệ
y_chang
đồng_tính
kỹ_năng
vô_trùng
thần_sắc
bóp_miệng
sô
đặc_sệt
chùi
áp_điệu
sáng
danh_tính
nhọn
thông_suốt
sầu
lam_chướng
tự_ý
kiên_nghị
thăng_thiên
u
trương_mục
chán_phèo
loăng_quăng
kết_thúc
khập_khễnh
vắng_mặt
thổ_thần
tom

TypeError: getWordVector(): incompatible function arguments. The following argument types are supported:
    1. (self: fasttext_pybind.fasttext, arg0: fasttext_pybind.Vector, arg1: str) -> None

Invoked with: <fasttext_pybind.fasttext object at 0x0000021C7DC03630>, <fasttext_pybind.Vector object at 0x0000021E51B7EAF0>, nan

In [None]:
y_train = enc.fit_transform(train_dataset['Relation'].values.reshape(-1,1))

x_test = np.array([i for i in train_dataset.apply(flatten, axis=1)])
y_test = enc.fit_transform(train_dataset['Relation'].values.reshape(-1,1))

In [None]:
ft.get_word_vector(['cõi_âm', 'cõi_tục'])