Семестровый проект

Репозиторий семестрового проекта дисциплины "Инфопоиск" на курсах Техносфера для конкурса "Relevance prediction by user behaviour".

Задание выполнил Кононов Сергей, группа BD-31 весной 2020 года.

Код расположен в директории /src. В файле /presentation.pdf находится презентация проекта. В файле /guideline.pdf находится рекомендованный план решения. В директории /data/images находится схема взаимодействия компонентов системы, диаграмма важности признаков и график обучения модели. Все необходимые данные находянтся в на Google Drive.

Для тестирования кода предлагаются следующие сценарии:

Запуск LightGBM на готовом датасете
Предобработка текстов запросов и заголовков документов
Подсчёт синтаксических признаков
Посчёт семантических признаков
Соединение кликовых, синтаксических и семантических данных
Генерация похожих запросов

Краткое описание кода задач на Hadoop Map-Reduce находится в файле src/java/README.md

Запуск LightGBM на готовом датасете.

Для выполнения этого необходимо запустить файл /script_1.sh:

bash ./script_1.sh

Данный скрипты выполняет следующую последовательность действий:

Загрузка данных из облака в /data
Обучение ранажирующей модели
Подсчёт результатов для тестовой выборки
Сохранение результата в /resutl.csv

Необходимые требования:

python3.6
lightgbm
matplotib
scipy
numpy
pandas

Предобработка текстов.

Для выполнения этого необходимо запустить файл /script_2.sh. Для токенизацации типа 3_char и 4_char необходимо минимум 12GB RAM.

bash ./script_2.sh

Данный скрипты выполняет следующую последовательность действий:

Загрузка данных из облака в /data
Применение
1. Понижение регистра
2. Исправеление опечаток
3. Лемматизация
4. Токенизация
Сохранение результата в /data

Необходимые требования:

request
sklearn
progress
pymystem3
pandas

Подсчёта синтаксических признаков.

Для выполнения этого необходимо запустить файл /script_3.sh.

bash ./script_3.sh

Для корректной работы необходимо 15GB RAM. Данный скрипты выполняет следующую последовательность действий:

Загрузка данных из облака в /data
Создание словаря
Преобразование корпуса в корпус из предложений типа bag-of-words
Подсчёт статистик для моделей TF-IDF и BM-25 (по словам, парам слов, 3-граммам и 4-граммам)
Подсчёт занчение TF-IDF и BM-25
Сохранение результата в /data

Необходимые требования:

sklearn
numpy
pandas
gensim
msgpack

Подсчёт семантических признаков.

В виду высокой ресурсоёмкости вычислений, рекомендуется запускать код в Google Colab.

BERT в Googel Colab и в формате Jupyter Nootbook в /src/python/bert.ipynb
FastText в Google Colab и в формате Jupyter Nootbook в /src/python/fasttext.ipynb
USE в Google Colab и в формате Jupyter Nootbook в /src/python/use.ipynb
ELMo в Google Colab и в формате Jupyter Nootbook в /src/python/elmo.ipynb

Cоединения кликовых, синтаксические и семантические данных

Для выполнения этого необходимо запустить файл /script_4.sh

bash ./script_4.sh

Данный скрипты выполняет следующую последовательность действий:

Загрузка данных из облака в /data
Конкатенация признаков:
1. Синтаксические признаки - TF-IDF и BM-25 (по словам, парам слов, 3-граммам и 4-граммам)
2. Семантические признаки - BERT, FastText, ELMo, USE
3. Кликовые статистики
Сохранение результата в /data

Необходимые требования:

numpy
pandas
scipy

Генерация похожих запросов

Код расположен в Google Colab и в формате Jupyter Notebook файле /src/python/similar_query_generator.ipynb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

data/images

data/images

src

src

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

guideline.pdf

guideline.pdf

presentatoin.pdf

presentatoin.pdf

script_1.sh

script_1.sh

script_2.sh

script_2.sh

script_3.sh

script_3.sh

script_4.sh

script_4.sh

Repository files navigation

Семестровый проект

Запуск LightGBM на готовом датасете.

Предобработка текстов.

Подсчёта синтаксических признаков.

Подсчёт семантических признаков.

Cоединения кликовых, синтаксические и семантические данных

Генерация похожих запросов

About

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 23 Commits
data/images		data/images
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
guideline.pdf		guideline.pdf
presentatoin.pdf		presentatoin.pdf
script_1.sh		script_1.sh
script_2.sh		script_2.sh
script_3.sh		script_3.sh
script_4.sh		script_4.sh

License

lalkakonus/ir-hw4

Folders and files

Latest commit

History

Repository files navigation

Семестровый проект

Запуск LightGBM на готовом датасете.

Предобработка текстов.

Подсчёта синтаксических признаков.

Подсчёт семантических признаков.

Cоединения кликовых, синтаксические и семантические данных

Генерация похожих запросов

About

Topics

Resources

License

Stars

Watchers

Forks

Languages