similar-articles-poc

Данный сервис состоит из нескольких частей:

static. templates

Данные папки содержат данные, которые нжны для работы сервиса, CSS файлы, favicon.ico, Jinja2-шаблоны HTML страниц.

trainers

Данный пакет содержит скрипты, которые обучают модели над данных которые находятся в папке data.

settings.json

Я использую такие настройки приложения.

{
    "test-data-path": "data/test.json", // Путь к данным.
    "chunk-size": 1000, // размер единицы, о обработке которой система будет уведомлять логами.
    "vectors-path": "data/glove.w2v.6B.300d.txt" // Путь к модели эмбеддингов.
}

Стоит заметить, чтоя я использовал уже обученную модель GloVe для обработки своих данных. Могла использоваться любая другая модель, просто данная модельбыла выбрана как золотая середина между более сложными: FastText, ELMo --- и более простыми: Word2vec.

Характеристики этой модели:

Вектор размерности 300.
400.000 слов в словаре.
Обучено на 6 миллиардах слов.

Для зупуска приложения сначала трубется обучить данные:

$ train-everything.sh

После запустить сервис:

$ pip install -r requirements.txt && python app.py

Как выглядит приложение:

Основной экран:

Рекоменадация:

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

similar-articles-poc

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
static		static
templates		templates
trainers		trainers
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
app.py		app.py
requirements.txt		requirements.txt
settings.json		settings.json
train-everything.sh		train-everything.sh

License

IlyasYOY/similar-articles-poc

Folders and files

Latest commit

History

Repository files navigation

similar-articles-poc

About

Resources

License

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages