-
Notifications
You must be signed in to change notification settings - Fork 88
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Analyze the pipeline-building capabilities of FEDOT #922
Comments
@IIaKyJIuH может, прикрепить сюда результаты ресерча, чтобы под рукой были? |
В экспериментах по второму пункту получил по результатам прикреплённого питоновского файла, что FEDOT'овский медленнее значительно (см. прикреплённую картинку). Использовалась только задача классификации. Файлы с результатами и исходник, лежат в приложенном архиве. Вот ссылка на датасеты, их нужно положить в папку
Судя по json с результатами, разница по времени есть на порядок даже в маленьких датасетах. Кажется, что зависимость от объёма датасета никакая |
Прикрепляю здесь архив с файлом То есть, препроцессинг и в некоторых местах глубокое копирование тратят много времени. |
Для сравнения, вот относительные показатели отношения |
Т.е. можно сказать, что без препроцессинга всё ок? А кэширование препроцессора как-то позитивно влияет на это соотношение? |
Да, без препроцессинга всё ок, он действительно забирал на себя всё основное время. Как ускорить его ещё не придумал. Кеширование тут даже не участвует, потому что используется сравнение готовых пайплайнов бок о бок. |
Ситуация странная получается, вот вроде бы на этом датасете ситуация явно в пользу ускоренной версии: Однако, на некоторых получилось даже хуже: APSFailure намекает, что проблема в preprocessing.py::_clean_extra_spaces, однако, на тестах в колабе это не являлось узким местом... и вообще сейчас почему-то в среднем по отношению времени выполнения |
В среднем - это по всем датасетам? А на каком датасете тогда хуже всего? |
Да, в среднем по всем датасетам почему-то получается так. Собрал максимальные показатели всё того же отношения: Получается, на далеко не самом большом датасете 'higgs' самый большой отрыв по фиттингу. Примечательно, что у 'robert' одни только числовые типы данных, поэтому странно, что он вообще нуждается в препроцессингах для object'ов. 'higgs' тоже состоит из чисел, но у него хотя бы треть колонок с типом object. |
Comparison with sklearn-pipelines
The text was updated successfully, but these errors were encountered: