GitHub - tttthomasssss/repeval2016: A critique of word similarity as a method for evaluating distributional semantic models

Description

This repository contains the code to reproduce the results of the 2016 paper "A critique of word similarity as a method for evaluating distributional semantic models" by Batchkarov, Kober, Reffin, Weeds and Weir.

Usage

Get some text data. Decompressing it is not necessary. Change the bit that says open(join(self.dirname, fname)) to gzip.open(join(self.dirname, fname)).

wget http://mattmahoney.net/dc/text8.zip -O text8.gz
unzip text8.gz

Install required Python dependencies (Py3, pandas, numpy).
Train a word2vec model

python train_word2vec --input-dir raw_text --output-file vectors/wtv.gs

Generate random vectors as a baseline

python generate_random_vectors.py

Run evaluation

python intrinsic_eval.py

Inspect results using Jupyter Notebooks

Name		Name	Last commit message	Last commit date
Latest commit History 8 Commits
similarity-data		similarity-data
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
common_imports.py		common_imports.py
generate_random_vectors.py		generate_random_vectors.py
intrinsic_eval.py		intrinsic_eval.py
men_simlex_disagreement.ipynb		men_simlex_disagreement.ipynb
requirements.txt		requirements.txt
train_word2vec.py		train_word2vec.py
vector_norm.ipynb		vector_norm.ipynb
vector_utils.py		vector_utils.py
visualise_noise.ipynb		visualise_noise.ipynb
visualise_ws353_variance.ipynb		visualise_ws353_variance.ipynb
ws353-agreement.ipynb		ws353-agreement.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

similarity-data

similarity-data

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

common_imports.py

common_imports.py

generate_random_vectors.py

generate_random_vectors.py

intrinsic_eval.py

intrinsic_eval.py

men_simlex_disagreement.ipynb

men_simlex_disagreement.ipynb

requirements.txt

requirements.txt

train_word2vec.py

train_word2vec.py

vector_norm.ipynb

vector_norm.ipynb

vector_utils.py

vector_utils.py

visualise_noise.ipynb

visualise_noise.ipynb

visualise_ws353_variance.ipynb

visualise_ws353_variance.ipynb

ws353-agreement.ipynb

ws353-agreement.ipynb

Repository files navigation

Description

Usage

About

Releases

Packages

Languages

License

tttthomasssss/repeval2016

Folders and files

Latest commit

History

Repository files navigation

Description

Usage

About

Resources

License

Stars

Watchers

Forks

Languages