Approximate selection #107

ttt-77 · 2023-11-21T17:52:25Z

https://github.com/ddkang/aidb/wiki/Apporx-selection-%E2%80%90-Design-Document

ttt-77 · 2023-11-21T17:53:28Z

@ddkang Could you please review this PR?

aidb/query/query.py

aidb/utils/constants.py

aidb/engine/approx_select_engine.py

ttt-77 · 2023-11-22T05:15:06Z

Sorry, I didn't state clearly. For example, we have a query 'select blob_id, entity_id from entities00 where type LIKE 'EVENT' '. Because one derived row is 'EVENT', another is 'ORG'. Suppose blob 0 is the cluster representative, should we set true score of blob 0 as 0.5 or 1?

# Conflicts: # aidb/utils/constants.py

ttt-77 · 2023-11-28T01:01:03Z

@ddkang Could you please review this PR?

aidb/query/query.py

tests/test_approx_select.py

ttt-77 · 2023-11-28T05:34:49Z

Please check the new commit and issue #116 , #117

aidb/query/query.py

aidb/engine/approx_select_engine.py

ddkang · 2023-11-28T15:34:20Z

aidb/engine/approx_select_engine.py

+    dataset = self.get_sampled_proxy_blob(proxy_score_for_all_blobs)
+
+    # This is used for parallel test
+    seed = (mp.current_process().pid * np.random.randint(100000, size=1)[0]) % (2**32 - 1)


Can you pass in the seed as an argument to the base engine? I don't think it's good to set here

aidb/engine/approx_select_engine.py

ddkang · 2023-11-28T15:36:32Z

aidb/engine/approx_select_engine.py

+
+      logger.info(f'num_samples: {len(additional_samples)}')
+
+      additional_satisfied_sampled_results,  additional_all_sampled_results = await self.get_inference_results(


Don't we also want to take the positive records from the pilot sample?

Yes, we have taken the positive records from the pilot sample. The variable names are ambiguous, I will change them.

aidb/aidb/engine/approx_select_engine.py

Lines 212 to 215 in 4c67799

R1 = sorted_satisfied_sampled_results.index

R2 = dataset[dataset[PROXY_SCORE] >= tau_modified].index

additional_samples = list(set(R1).union(set(R2)))

ttt-77 · 2023-11-28T23:41:14Z

@ddkang Could you please review the new commit?

ttt-77 added 4 commits November 17, 2023 01:02

add approx select engine

436f540

fix problem

9091255

fix problem

07f5cb8

add validity check

0634148

ddkang reviewed Nov 22, 2023

View reviewed changes

aidb/query/query.py Show resolved Hide resolved

ddkang reviewed Nov 22, 2023

View reviewed changes

aidb/utils/constants.py Outdated Show resolved Hide resolved

ddkang reviewed Nov 22, 2023

View reviewed changes

aidb/engine/approx_select_engine.py Show resolved Hide resolved

ddkang reviewed Nov 22, 2023

View reviewed changes

aidb/engine/approx_select_engine.py Outdated Show resolved Hide resolved

ddkang reviewed Nov 22, 2023

View reviewed changes

aidb/engine/approx_select_engine.py Show resolved Hide resolved

remove print and fix one issue in query

a17f86a

ttt-77 added 5 commits November 24, 2023 14:13

Merge remote-tracking branch 'origin/main' into approximate_selection

b76661f

# Conflicts: # aidb/utils/constants.py

add one TODO

aa045d2

remove budget

9f5a14c

Merge remote-tracking branch 'origin/main' into approximate_selection

a9f81ca

refactor inference and add parallel test

fe02e75