[code2seq] repeat "perfect storm" #14

natalymr · 2019-10-03T09:41:11Z

Это таска будет посвещена проверке ряда гипотез, целью которых будет повторить результаты обучения сети на маленьком варианте camel репозитория с получившимся bleu score 18.6

natalymr · 2019-10-03T09:47:34Z

На маленьком репозитории 18.6, на большом репозитории - 9.0
Почему при увеличении данных могла упасть точность?

Мои гипотезы:

распределение данных в маленьком датасете было проще, чем распределение данных в большом => проверить
- рандомно взять из большого датасета то же количество данных, что и в маленьком
- 3 эпохи - 5.4 (batch size = 16, на большом val, взяв первые 219 коммитов)
- 15 эпох - 8.76 (batch size = 16, на большом val, взяв первые 219 коммитов)
- 15 эпох - 4.52 (batch size = 16, на большом val)
- 5 эпох - 4.94 (batch size = 1, на большом val, взяв первые 219 коммитов)
- 14 эпох - 10.09 (batch size = 1, на большом val, взяв первые 219 коммитов)
- 14 эпох - 4.88 (batch size = 1, на большом val)
- на модели, обученной на маленьком датасете, прогнать val большого
- 12 эпоха
  - маленький val = 15.61
  - большой val = 6.05
  - большой val (взяли первые 300 коммитов) = 13.80
- на модели, обученной на большом датасете, прогнать val маленького
- 7 эпоха
  - маленький val = 13.69
  - большой val = 7.01
  - большой val (взяли первые 300 коммитов) = 12.58
сваливаемся в локальным экстремум, нужно подобрать скорость обучения
нужен больший batch size (кажется, одно и то же с предыдущим)

natalymr · 2019-10-03T09:49:14Z

Гипотезы Поварова:

давайте разрежем данные по количеству измененных функций и будем обучаться для каждого из такого случаев отдельно (подробности здесь [code2seq] commits with 1, 2, 3 etc changed functions #13)

natalymr · 2019-10-03T15:00:46Z

Гипотезы Брыксина:

нужна глобальная проверка на некотором рандомном множестве репозиториев
- apache/hadoop
  точность - 3.8
  там надо убрать "contributed by" в каждом коммите и проверить еще раз
- apache/dubbo
- еще репозитории
внимательно смотреть на данные, потому что может быть мусор

немного перекликается с гипотезой Поварова (если большие коммиты плохие, то будем считать их мусором и не работать с ними)

придумать способ оценки качества коммитов и брать коммиты только с высоким качеством (:woman-shrugging: как)

natalymr created this issue from a note in gcm_summer2019 (In Progress) Oct 3, 2019

natalymr moved this from In Progress to Done in gcm_summer2019 Apr 27, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[code2seq] repeat "perfect storm" #14

[code2seq] repeat "perfect storm" #14

natalymr commented Oct 3, 2019 •

edited

Loading

natalymr commented Oct 3, 2019 •

edited

Loading

natalymr commented Oct 3, 2019

natalymr commented Oct 3, 2019 •

edited

Loading

[code2seq] repeat "perfect storm" #14

[code2seq] repeat "perfect storm" #14

Comments

natalymr commented Oct 3, 2019 • edited Loading

natalymr commented Oct 3, 2019 • edited Loading

natalymr commented Oct 3, 2019

natalymr commented Oct 3, 2019 • edited Loading

natalymr commented Oct 3, 2019 •

edited

Loading

natalymr commented Oct 3, 2019 •

edited

Loading

natalymr commented Oct 3, 2019 •

edited

Loading