You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Efficient Estimation of Word Representations in Vector Space.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1301.3781.
word2vecを提唱した論文
1つのモデルではなく、複数のモデルの総称
単語をベクトルで表す・単語の分散表現手法の一つ
自然言語処理におけるブレイクスルーの1つであり、単語の分散表現手法のデファクトスタンダードとなった
3部作の2作目。本論文で初めて "word2vec" という名前が与えられた。
Mikolov, Tomas, Wen-Tau Yih, and Geoffrey Zweig. 2013. “Linguistic Regularities in Continuous Space Word Representations,” June, 746–51.
Mikolov Tomas, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Distributed Representations of Words and Phrases and Their Compositionality.” In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2, 3111–19. NIPS’13. Red Hook, NY, USA: Curran Associates Inc.
実用的には3作目が一番大切か。
とても高精度な分散表現が獲得できたため、単語の演算ができるようになった!
例: King - man + woman = Queen
Abstract
We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best performing techniques based on different types of neural networks. We observe large improvements in accuracy at much lower computational cost, i.e. it takes less than a day to learn high quality word vectors from a 1.6 billion words data set. Furthermore, we show that these vectors provide state-of-the-art performance on our test set for measuring syntactic and semantic word similarities.
Mikolov, Tomas, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Distributed Representations of Words and Phrases and Their Compositionality.” In Proceedings of the 26th International Conference on Neural Information Processing Systems - Volume 2, 3111–19. NIPS’13. Red Hook, NY, USA: Curran Associates Inc.
Morin, Frederic, and Yoshua Bengio. 06--08 Jan 2005. “Hierarchical Probabilistic Neural Network Language Model.” In Proceedings of the Tenth International Workshop on Artificial Intelligence and Statistics, edited by Robert G. Cowell and Zoubin Ghahramani, R5:246–52. Proceedings of Machine Learning Research. PMLR.
Hierarchical softmaxの由来
関連論文
Le, Quoc V., and Tomas Mikolov. 2014. “Distributed Representations of Sentences and Documents.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1405.4053.
Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean. 2013. “Efficient Estimation of Word Representations in Vector Space.” arXiv [cs.CL]. arXiv. http://arxiv.org/abs/1301.3781.
word2vecを提唱した論文
3部作の2作目。本論文で初めて "word2vec" という名前が与えられた。
とても高精度な分散表現が獲得できたため、単語の演算ができるようになった!
Abstract
(DeepL翻訳)
我々は、非常に大規模なデータセットから単語の連続ベクトル表現を計算するための2つの新しいモデルアーキテクチャを提案する。これらの表現の品質は単語の類似性タスクで測定され、その結果は異なるタイプのニューラルネットワークに基づく、これまでで最も性能の良い技術と比較される。その結果、16億語のデータセットから高品質の単語ベクトルを学習するのに1日もかからず、より低い計算コストで精度が大幅に向上することが確認された。さらに、これらのベクトルは、我々のテストセットにおいて、構文的および意味的な単語の類似性を測定するための最先端の性能を提供することを示す。
コード
https://code.google.com/archive/p/word2vec/
解決した課題/先行研究との比較
技術・手法のポイント
評価指標
残された課題・議論
重要な引用
関連論文
参考情報
The text was updated successfully, but these errors were encountered: