Remove parallel import code #692

craigds · 2022-08-10T00:33:59Z

Description

This code adds complexity and doesn't help since the repo layout
optimisations were introduced in Datasets V3, although
it probably does speed up datasets with string primary keys.

With sequential integer primary keys, it just results in idle processes
since features from a sequence are consistently fed into the same
process, resulting in no efficiency gain.

Since this code is quite complex, it doesn't make sense to keep it

On my laptop, I got these results:

--num-processes=10:

Added 2,328,809 Features to index in 87.5s
Overall rate: 26607 features/s)
Closed in 0s
Joining 10 parallel-imported trees...
Joined trees in 0s

--num-processes=1:

Added 2,328,809 Features to index in 88.4s
Overall rate: 26344 features/s)
Closed in 0s

The idle processes can be seen in Activity Monitor:

Checklist:

Have you reviewed your own change?
Have you included test(s)?
Have you updated the changelog?

This code adds complexity and doesn't help since the repo layout optimisations were introduced in Datasets V3, although it probably does speed up datasets with string primary keys. With sequential integer primary keys, it just results in idle processes since features from a sequence are consistently fed into the same process, resulting in no efficiency gain. Since this code is quite complex, it doesn't make sense to keep it

craigds requested a review from olsen232 August 10, 2022 00:34

craigds force-pushed the rm-parallel-import branch from de7bd6d to 90dfb58 Compare August 10, 2022 00:34

olsen232 approved these changes Aug 10, 2022

View reviewed changes

craigds merged commit 46147de into master Aug 10, 2022

craigds deleted the rm-parallel-import branch August 10, 2022 01:04

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Remove parallel import code #692

Remove parallel import code #692

craigds commented Aug 10, 2022 •

edited

Loading

Remove parallel import code #692

Remove parallel import code #692

Conversation

craigds commented Aug 10, 2022 • edited Loading

Description

Related links:

Checklist:

craigds commented Aug 10, 2022 •

edited

Loading