Skip to content

parus-proj/mwe2vec

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

8 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

mwe2vec

mwe2vec — это инструмент для создания векторных представлений слов и словосочетаний, опирающийся на их дистрибутивные свойства. При построении векторной модели утилита использует информацию о словосочетаниях. Одни словосочетания включаются в словарь векторной модели наравне с отдельными словами, другие — служат цели повышения качества модели.

Утилита mwe2vec основана на кодах conll2vec и унаследовала оттуда общую схему построения векторной модели. Подробнее с вопросами сборки программных кодов, принципами построения модели и параметрами утилиты можно ознакомиться в документации на conll2vec. Здесь мы рассмотрим лишь особенности mwe2vec.

ДСМные и диагностические словосочетания

Как уже отмечалось, mwe2vec использует информацию о словосочетаниях различным образом.

Одна группа словосочетаний, которые мы будем называть ДСМными, расширяет словарь векторной модели (ДСМ — сокращение от «дистрибутивная семантическая модель). Поводом для включения целой фразы в словарь модели наряду с синтаксической вершиной этой фразы может быть существенное различие категориального значения фразы и вершины. Примерами таких словосочетаний могут послужить глазное яблоко (категориально «зрительный орган или его часть») или подзорная труба (категориально «оптический прибор»). Такого рода фразы воспринимаются скорее как единое целое (как слово), что позволяет рассматривать их как лексические единицы.

Другая группа словосочетаний — диагностические словосочетания — позволяет выявлять значения многозначных слов. mwe2vec может временно строить векторные представления для отдельных значений многозначных слов, при условии, что значения можно различить за счёт вхождения слова в диагностические словосочетания. Например, фразы летательный аппарат, бюрократический аппарат, опорно-двигательный аппарат и др. позволяют распознавать различные значения слова аппарат («аппарат технический», «аппарат административный» и «аппарат организма» соответственно). В ходе обучения векторной модели каждое из значений получает собственное векторное представление, независимое от векторного представления слова аппарат (предусмотренного для случаев, когда оно не входит в диагностическое словосочетание). Такой приём даёт больше свободы при организации векторного пространства и, теоретически, должен приводить к порождению более качественной векторной модели. По завершении обучения выполняется слияние векторов значений (с учётом частоты их встречаемости). В результате, слово аппарат будет представлено в модели одним вектором (традиционный для word2vec подход при построении модели нормальных форм), но вектора однозначных слов теперь размещены в пространстве более удачно.

Список словосочетаний

Словосочетания обоих групп описываются в файле mwe.list (для русского языка см. пример в репозитории в файле data/mwe.list). Чтобы mwe2vec могла распознать словосочетание в текстовом корпусе, необходимо описать его синтаксическую структуру и лексический состав на специальном языке. В начале файла mwe.list приводится необходимая информация об этом языке.

Благодарности

Утилита mwe2vec создана при финансовой поддержке РФФИ в рамках научного проекта № 19-07-00779.

About

multi-word expressions version of word2vec++

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages