Репозиторий курса "Нейросетевые методы в обработке текстов" 2021-2022. Бакалавры 4-го курса программы "Фундаментальная и компьютерная лингвистика" ФГН ВШЭ
Формула итоговой оценки:
0.7 * Домашние задания + 0.1 * Тесты + 0.2 * Экзамен (Модуль 3)
Правила дедлайнов: После выдачи домашней работы у вас есть 2 недели на ее выполнение и сдачу, по окончании этого срока вы можете сдать работу еще в течение 2 недель со штрафом в 1 балл за каждую неделю просрочки. Через месяц после выдачи домашнего задания, работы не принимаются.
# | дата | пара | запись | ДЗ | Мягкий дедлайн | Жесткий дедлайн | Ссылка на форму для сдачи |
---|---|---|---|---|---|---|---|
1 | 6,10/09/2021 | классический ML, sklearn | - | ДЗ 1 про классический МЛ | 26.09.21 23:59 | 10.10.21 23:59 | google forms |
2 | 13,17/09/2021 | MLP intro | youtube | - | - | - | - |
3 | 23,24/09/2021 | word2vec FastText | youtube | - | - | - | - |
27/09/2021 | консультация | youtube | |||||
4 | 27,01/09,10/2021 | Torch tensors | youtube | - | - | - | - |
5 | 4,8/10/2021 | Scikit-learn how to | youtube | - | - | - | - |
6 | 11,15/10/2021 | Torch Dataset, Dataloader | youtube | - | - | - | - |
7 | 28,29/10/2021 | Torch training linear model | youtube | - | - | - | - |
8 | 2/11/2021 | CNN theory | youtube | - | - | - | |
9 | 10,12/11/2021 | CNN, CharCNN torch | youtube | ДЗ 2 построение своей сети в torch, CNN + FFN | 26.11.21 23:59 | 10.12.21 23:59 | google forms |
10 | 15,17/11/2021 | RNN theory (part 1) | тест 1 (FFN и CNN) | 1.12.21 23:59 | 15.12.21 23:59 | google forms | |
11 | 17,19/11/2021 | RNN theory (part 2) | youtube | ДЗ 3 работа со статьями + построение сети с RNN слоями | 15.12.21 | 29.12.21 | google forms |
12 | 22,26/11/2021 | RNN theory (part 3) | youtube | - | - | - | - |
13 | 1,3/12/2021 | LM using RNN | youtube | - | - | - | - |
14 | 14,16/12/2021 | seq2seq + attention theory | youtube | - | - | - | - |
15 | 14,16/12/2021 | seq2seq + attention torch | youtube | - | - | - | - |
16,17 | 10,11/1/2022 | подготовка финальных проектов | - | первая презентация проекта | 29.01.2022 | - | google forms |
18 | 17/1/2022 | приглашенная лекция. Project management | youtube | - | - | - | - |
19 | 31/1/2022 1/2/2022 | Transformer | youtube | - | - | - | - |
20 | 8,9/2/2022 | Bert theory | youtube | тест 2 (трансформер, GPT, BERT) | 23.02.22 23:59 | 09.03.22 23:59 | google forms |
21 | 10/2/2022 | Bert part 2. How to preprocess | youtube | - | - | - | - |
22 | 14,15/2/2022 | промежуточная защита финальных проектов | - | - | - | - | - |
23 | 24/2/2022 | Bert part 3. How to apply | youtube | - | - | - | - |
24 | 3/3/2022 | Bert part 4. How to train | youtube | ДЗ 4. Применение бертоподобных моделей к задаче классификации | 20.03.22 | - | google forms |
25 | 3/3/2022 | приглашенная лекция. NLP for Mental health | youtube | - | - | - | - |
Преподаватели:
- Мария Пономарева ponomarevamawa@gmail.com, @MashPo
- Дарья Самсонова daria1208@yandex.ru, @SamsonovaDaria
Ассистенты:
- Александр Баранов alexanderbaranof@gmail.com, @Fr1lance
- Татьяна Юдина yudina.tatiana22@gmail.com, @tayudina
тему можно выбрать любую, подробнее о выборе тем, можно посмотреть в видео с пары. Референс можно взять с тем для соревнований dialog и semeval.
29.01.22 - дедлайн сдачи начальной презентации презентации. В презентации должно быть:
- название темы
- мотивация/актуальность работы (почему вы выбрали именно эту тему и чем она может быть полезна научному сообществу/людям/бизнесу)
- команда, роли и задачи каждого участника
- Данные (откуда планируете брать и сколько их будет)
- бейзлайн (что вы будете использовать в качестве бейзлайна и почему)
- метрики оценки (почему именно такие)
- план действий (что именно планируете попробовать и почему)
- список использованной литературы с кратким (1-2 предложения) описанием, что вы оттуда вынесли/взяли
Также должна быть готова доска в трелло
14-15 февраля встречаемся, чтобы вы рассказали о текущих успехах (у вас должна быть также презентация о том, что вы уже попробовали, какие у вас трудности, и что еще планируете сделать)
21-22 марта очная защита проектов с презентацией:
- Тема
- Постановка задачи
- Команда, роли, кто что делал
- Данные (анализ ваших данных)
- Бейзлайн (описание алгоритма и результаты на бейзлане на ваших данных)
- Метрики (какие используете и почему)
- Описание экспериментов
- Результаты
- Анализ результатов и предложения об улучшениях
- Литература
Рекомендуемая основная литература
- Daniel Jurafsky & James H. Martin. Speech and Language Processing: An introduction to natural language processing, computational linguistics, and speech recognition. Third Edition. https://web.stanford.edu/~jurafsky/slp3/
- Николаев И.С., Митренина О.В., Ландо Т.М. (ред.) Прикладная и компьютерная лингвистика. Изд 2. URSS. 2017. 320 с.
- Steven Bird, Ewan Klein, Edward Loper. Natural Language Processing with Python. – Analyzing Text with the Natural Language Toolkit. https://www.nltk.org/book/
- Christopher D. Manning & Hinrich Schütze. Foundations of Statistical Natural Language Processing. MIT Press, 1999.
- Yoav Goldberg. Neural Network Methods for Natural Language Processing (Synthesis Lectures on Human Language Technologies). Edited by Graeme Hirst. Morgan & Claypool 2017
Рекомендуемая дополнительная литература
- Cборники конференций COLING, ACL, EACL, LREC, EMNLP, NAACL, "Диалог" (http://www.dialog-21.ru/) последних лет