fix(KDP): add transdormer() method to ProcessingModel

Gandalfdore · Gandalfdore · commit 0c6c65cbe1d2 · 2025-01-28T18:48:24.000+02:00
diff --git a/.gitignore b/.gitignore
@@ -167,3 +167,4 @@ my_tests/*
 
 # derivative files
 data.csv
+sample_data.csv
diff --git a/kdp/processor.py b/kdp/processor.py
@@ -8,6 +8,7 @@
 from functools import wraps
 from typing import Any
 
+import pandas as pd
 import tensorflow as tf
 from loguru import logger
 
@@ -1435,3 +1436,43 @@ def get_feature_statistics(self) -> dict:
             "feature_crosses": self.feature_crosses,
             "output_mode": self.output_mode,
         }
+
+    def transform(self, data: tf.data.Dataset | pd.DataFrame | dict) -> dict[str, Any]:
+        """Transform input data using the built preprocessor model.
+
+        Args:
+            data: Input data to transform. Can be a DataFrame, Dataset, or dict.
+
+        Returns:
+            dict[str, Any]: Dictionary containing:
+                - transformed_data: The transformed data output
+                - {feature_name}_weights: Weight for each feature from feature selection
+
+        Raises:
+            ValueError: If preprocessor hasn't been built yet.
+        """
+        # Convert input data to TensorFlow dataset if needed
+        if isinstance(data, pd.DataFrame):
+            dataset = tf.data.Dataset.from_tensor_slices(dict(data)).batch(32)
+        elif isinstance(data, dict):
+            dataset = tf.data.Dataset.from_tensor_slices(data).batch(32)
+        elif isinstance(data, tf.data.Dataset):
+            dataset = data
+        else:
+            raise ValueError("Input data must be a DataFrame, dict, or TensorFlow Dataset")
+
+        # Transform the data using the model
+        transformed = self.model.predict(dataset)
+
+        # Initialize return dictionary with transformed data
+        result = {"transformed_data": transformed}
+
+        # Get feature importance from the feature selection layer if it exists
+        for layer in self.model.layers:
+            if "feature_selection" in layer.name:
+                weights = layer.get_weights()
+                for i, feature_name in enumerate(self.features_specs.keys()):
+                    # Add weights for each feature with the expected key format
+                    result[f"{feature_name}_weights"] = weights[0][:, i]
+
+        return result

Original file line number	Diff line number	Diff line change
`@@ -167,3 +167,4 @@ my_tests/*`
`167`	`167`
`168`	`168`	`# derivative files`
`169`	`169`	`data.csv`
	`170`	`+sample_data.csv`