[UTILs] Adding top-level function for distributed merging of profiles #552

taylorfturner · 2022-07-21T22:54:28Z

Adding functions in utils to merge together multiple profile objects provided in a list --> into a single Profile that is the merging of all the profiles
Updates to low-level code for StructuredProfiler merge operation
Unit Testing w/mocked data labeler to avoid TF operations that are expensive

…m/taylorfturner/DataProfiler into feature/distributed_profile_merge

taylorfturner · 2022-07-22T15:04:15Z

dataprofiler/profilers/data_labeler_column_profile.py

-        self.reverse_label_mapping = self.data_labeler.reverse_label_mapping
-        num_labels = self.data_labeler.model.num_labels
-
-        # remove PAD from output (reserved zero index)
-        if self.data_labeler.model.requires_zero_mapping:
-            self.reverse_label_mapping.pop(0, None)
-            num_labels -= 1
-
-        self._possible_data_labels = list(self.reverse_label_mapping.values())
-        self._possible_data_labels = [  # sort the data_labels based on index
-            x
-            for _, x in sorted(
-                zip(self.reverse_label_mapping.keys(), self._possible_data_labels)
-            )
-        ]
-        self.rank_distribution = dict([(key, 0) for key in self._possible_data_labels])
-        self._sum_predictions = np.zeros(num_labels)


Moving these to _update_predictions so they are not created on __init__

taylorfturner · 2022-07-22T15:04:55Z

dataprofiler/profilers/profile_builder.py

@@ -865,7 +866,7 @@ def update_profile(self, data, sample_size=None, min_true_samples=None):
        if file_type is not None:
            self.file_type = file_type

-    def _remove_data_labelers(self):
+    def _remove_data_labelers(self, replacement_type=BaseDataLabeler()):


moving this instantiation to the actual function definitions BaseDataLabeler

taylorfturner · 2022-07-22T15:06:09Z

dataprofiler/profilers/profile_builder.py

@@ -21,6 +21,7 @@

 from .. import data_readers, dp_logging
 from ..labelers.data_labelers import DataLabeler
+from ..labelers.base_data_labeler import BaseDataLabeler


adding this import so the code can set the replacement_type for when _restore_data_labelers is called on a profile object

…om/taylorfturner/DataProfiler into feature/distributed_profile_merge

taylorfturner added 11 commits July 21, 2022 11:38

test

2a1cc16

test

be70609

test

4a735d9

initial dev work

83ebbb7

new functions

dd1c378

comments

7073436

tinker a bit

c8acbed

test subclass type

52d089f

Merge branch 'feature/distributed_profile_merge' of https://github.co…

8fbd02c

…m/taylorfturner/DataProfiler into feature/distributed_profile_merge

reformat

856a2d7

test

682f3b6

taylorfturner added Bug Something isn't working Work In Progress Solution is being developed High Priority Dramatic improvement, inaccurate calculation(s) or bug / feature making the library unusable labels Jul 21, 2022

taylorfturner self-assigned this Jul 21, 2022

taylorfturner requested review from JGSweets, ksneab7, micdavis and tyfarnan as code owners July 21, 2022 22:54

taylorfturner added 11 commits July 22, 2022 10:35

add unit test for

5cf4b29

test

af9f339

test

a655f0e

test

225fc80

initial dev work

008fc51

new functions

2c6c507

comments

3f95d88

tinker a bit

e37556a

test subclass type

58794f2

test

d9db76f

reformat

da2e51e

taylorfturner added 4 commits July 22, 2022 10:37

test

7c1d9cd

add unit test for

92a0988

Merge branch 'feature/distributed_profile_merge' of https://github.co…

84d4b51

…m/taylorfturner/DataProfiler into feature/distributed_profile_merge

clean up

b731191

taylorfturner commented Jul 22, 2022

View reviewed changes

taylorfturner added 2 commits July 22, 2022 11:43

clean up

124b6d1

mocking

5a0aa2e

taylorfturner removed the Work In Progress Solution is being developed label Jul 22, 2022

taylorfturner added 3 commits July 22, 2022 12:15

Merge branch 'main' into feature/distributed_profile_merge

3643608

empty to re-run checks

daeb35e

"Merge branch 'feature/distributed_profile_merge' of https://github.c…

baff211

…om/taylorfturner/DataProfiler into feature/distributed_profile_merge

JGSweets enabled auto-merge (squash) July 22, 2022 16:48

JGSweets approved these changes Jul 22, 2022

View reviewed changes

ksneab7 approved these changes Jul 22, 2022

View reviewed changes

JGSweets merged commit e1bf2d2 into capitalone:main Jul 22, 2022

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[UTILs] Adding top-level function for distributed merging of profiles #552

[UTILs] Adding top-level function for distributed merging of profiles #552

taylorfturner commented Jul 21, 2022 •

edited

taylorfturner Jul 22, 2022

taylorfturner Jul 22, 2022

taylorfturner Jul 22, 2022

[UTILs] Adding top-level function for distributed merging of profiles #552

[UTILs] Adding top-level function for distributed merging of profiles #552

Conversation

taylorfturner commented Jul 21, 2022 • edited

taylorfturner Jul 22, 2022

Choose a reason for hiding this comment

taylorfturner Jul 22, 2022

Choose a reason for hiding this comment

taylorfturner Jul 22, 2022

Choose a reason for hiding this comment

taylorfturner commented Jul 21, 2022 •

edited