Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[code2seq] repeat "perfect storm" #14

Open
natalymr opened this issue Oct 3, 2019 · 3 comments
Open

[code2seq] repeat "perfect storm" #14

natalymr opened this issue Oct 3, 2019 · 3 comments

Comments

@natalymr
Copy link
Owner

natalymr commented Oct 3, 2019

Это таска будет посвещена проверке ряда гипотез, целью которых будет повторить результаты обучения сети на маленьком варианте camel репозитория с получившимся bleu score 18.6

@natalymr natalymr created this issue from a note in gcm_summer2019 (In Progress) Oct 3, 2019
@natalymr
Copy link
Owner Author

natalymr commented Oct 3, 2019

На маленьком репозитории 18.6, на большом репозитории - 9.0
Почему при увеличении данных могла упасть точность?

Мои гипотезы:

  • распределение данных в маленьком датасете было проще, чем распределение данных в большом => проверить
    • рандомно взять из большого датасета то же количество данных, что и в маленьком
    • 3 эпохи - 5.4 (batch size = 16, на большом val, взяв первые 219 коммитов)
    • 15 эпох - 8.76 (batch size = 16, на большом val, взяв первые 219 коммитов)
    • 15 эпох - 4.52 (batch size = 16, на большом val)
    • 5 эпох - 4.94 (batch size = 1, на большом val, взяв первые 219 коммитов)
    • 14 эпох - 10.09 (batch size = 1, на большом val, взяв первые 219 коммитов)
    • 14 эпох - 4.88 (batch size = 1, на большом val)
    • на модели, обученной на маленьком датасете, прогнать val большого
    • 12 эпоха
      • маленький val = 15.61
      • большой val = 6.05
      • большой val (взяли первые 300 коммитов) = 13.80
    • на модели, обученной на большом датасете, прогнать val маленького
    • 7 эпоха
      • маленький val = 13.69
      • большой val = 7.01
      • большой val (взяли первые 300 коммитов) = 12.58
  • сваливаемся в локальным экстремум, нужно подобрать скорость обучения
  • нужен больший batch size (кажется, одно и то же с предыдущим)

@natalymr
Copy link
Owner Author

natalymr commented Oct 3, 2019

Гипотезы Поварова:

  • давайте разрежем данные по количеству измененных функций и будем обучаться для каждого из такого случаев отдельно (подробности здесь [code2seq] commits with 1, 2, 3 etc changed functions #13)

@natalymr
Copy link
Owner Author

natalymr commented Oct 3, 2019

Гипотезы Брыксина:

  • нужна глобальная проверка на некотором рандомном множестве репозиториев
    • apache/hadoop
      точность - 3.8
      там надо убрать "contributed by" в каждом коммите и проверить еще раз
    • apache/dubbo
    • еще репозитории
  • внимательно смотреть на данные, потому что может быть мусор

немного перекликается с гипотезой Поварова (если большие коммиты плохие, то будем считать их мусором и не работать с ними)

  • придумать способ оценки качества коммитов и брать коммиты только с высоким качеством (:woman-shrugging: как)

@natalymr natalymr moved this from In Progress to Done in gcm_summer2019 Apr 27, 2020
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Development

No branches or pull requests

1 participant