GitHub - pkounoudis/Word2Vec-Training-on-TED2020-v1-dataset: Custom Word2vec trained on the TED 2020 dataset.

The TED2020 v1 dataset, from https://opus.nlpl.eu/TED2020.php, was selected for the Word2Vec training. This dataset contains transcribed talks from the popular science communication TED events.

It was chosen because of its simple, everyday and not pretentious use of language, and its continuous and flowing/provisional discourse (absence of technical terms, pluralism in vocabulary and expressions). It is a parallel corpus with sentence pairs in two languages.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
README.md		README.md
Word2Vec_TED2020v1Dataset.ipynb		Word2Vec_TED2020v1Dataset.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

Word2Vec_TED2020v1Dataset.ipynb

Word2Vec_TED2020v1Dataset.ipynb

Repository files navigation

About

Releases

Packages

Languages

pkounoudis/Word2Vec-Training-on-TED2020-v1-dataset

Folders and files

Latest commit

History

README.md

README.md

Word2Vec_TED2020v1Dataset.ipynb

Word2Vec_TED2020v1Dataset.ipynb

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages