GitHub

ДИСКЛЕЙМЕР. Данный проект сделан примерно на половину от того, что я хочу увидеть в конце, но вцелом первоочередную задачу (поработать с Бертом) он выполняет.

Использованные библиотеки указаны в файле requirements.txt.

В данной работе была проведена оценка тональности комментариев, а также получены статистические результаты до и поcле генерации эмбеддингов при помощи Берта, помимо этого в работе проведена классическая для NLP разбивка TF-IDF, лемматизация английского, очистка текста от мусорных символов, удаление стоп слов и приведение текста к нижнему регистру, дабы не создавать лишних фич в мешке слов.

Дорабатывать проект планирую следующим образом: для более наглядной визуализации результатов планирую добавить ROC-AUC кривую, разобраться с проблемой инициализации метода опорных векторов с тем же названием во второй раз (после Берта). Также гиперпараметры моделей на даннный момент подобраны чисто эмпирически, их оптимальность не подкреплена приблизительно ничем, поэтому в будущем вполне вероятно придется инициализировать либо поиск параметров на кросс-валидации либо рандомный подбор параметров,с чем я также не работал и что также хотел бы попробовать.

В плане развития проекта есть желание попробовать в негативных комментариях попытаться заменить слова либо на синонимы, либо если брать матерные, то на символы типа звездочек и тд, однако для русского языка я еще не нашел аналога nlpaug, поэтому если кто-то будет читать это и будет в курсе, как можно провести аугментацию, буду рад. Также планирую побаловаться с Элмо.

Промежуточные выводы по работе следующие: 1) Вцелом на таком объеме фичей метод опорных векторов даже до генерации эмбеддингов показывает себя неплохо, однако если брать все модели машинного обучения и инициализированный перцептрон, то Берт дает огромный прирост к риколу (полноте), что позволяет говорить о том, что для конкретно данной задачи он мне необходим 2)В колабе инициализировать Берта на относительно большом датасете не имеет особо смысла, тк объем оперативки ограничен.

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
NLP.ipynb		NLP.ipynb
README.md		README.md
raw_yelp_review_data.csv		raw_yelp_review_data.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

About

Releases

Packages

Languages

PTyneu/nlp

Folders and files

Latest commit

History

Repository files navigation

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages