В этом прокте я анализирую сексистские комментарии на женских YouTube каналах. Моей целью является выявление гендерных стереотипов по отношению к женщинам с помощью методов обработки естественного языка. Для этого я собираю корпусы на русскоязычных и англоязычных, женских и мужских каналах. Последние нужны в качестве группы для сравнения.
В папке "final_code" находятся скрипты для воспроизведения классификации с помощью нейросети BERT и метода TF-IDF (в html файле можно посмотреть готовые результаты), также там есть скрипты для тематического моделирования. Датасеты находятся в папке data.