Sense Embeddings

The goal of this project is to train a Continuous Bag of Words (CBOW) model using Gensim Word2Vec to create a sense embedding.

The dataset used for the training was the EuroSense dataset, which is a multilingual sense-annotated resource in 21 languages, however only the English language was used for this task.

For the correlation evaluation, the dataset WordSimilarity-353 is used.

The training was done using a Google Compute Engine instance running a Tesla K80 GPU.

Dimensionality reduction of the 40 words of the BabelNet synset with the highest number of samples

Instructions

Generate dictionary

python preprocess.py [dictionary_name] [path] [mapping_name]

Train

python train.py [dictionary_name]

Score

python train.py [resource_folder] [gold_file] [model_name] [debug]

Filter vec file to keep only BabelNet words

python convert.py [resource_folder] [vec_name] [filtered_vec_name]

Plot PCA

python pca.py [resource_folder] [filtered_vec_name] [topnumber]

Name		Name	Last commit message	Last commit date
Latest commit History 30 Commits
code		code
report		report
resources		resources
.gitignore		.gitignore
P15-1010.pdf		P15-1010.pdf
Project Description.pdf		Project Description.pdf
README.md		README.md
environment.yml		environment.yml
report.pdf		report.pdf

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Sense Embeddings

Instructions

About

Releases

Packages

Languages

ibiscp/Sense-Embeddings

Folders and files

Latest commit

History

Repository files navigation

Sense Embeddings

Instructions

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages