Недавно увлекся темой эмбеддингов, и решил подробно изучить каждый из методов обучения эмбеддингов слов с их модификациями.
- CBOW
- Skip-Gram
- FastText
- GloVe
У первой тройки реализовал такие методы, как:
- Negative Sampling
- Hierarhical Softmax: реализовано на сбалансированном бинарном дереве, может быть сделаю еще релиз на дереве хаффмана (адаптивном)
- Реализация всех методов в одном проекте для полного покружения в мир эмбеддингов
- Тест и изучение каждого из методов с программной, математической, философской точки зрения
- Использование torch, а значит и cuda
- Более читаемый код с точки зрения ООП
- Большее кол-во методов для изучения модели