spark: use hashset in column level lineage instead of iterating throu…

…gh linkedlist (#2584) Signed-off-by: Maciej Obuchowski <obuchowski.maciej@gmail.com>
OpenLineage · Apr 5, 2024 · ccf2286 · ccf2286
1 parent bc31c80
commit ccf2286
Showing 1 changed file with 3 additions and 8 deletions.
diff --git a/...main/java/io/openlineage/spark/agent/lifecycle/plan/column/ColumnLevelLineageBuilder.java b/...main/java/io/openlineage/spark/agent/lifecycle/plan/column/ColumnLevelLineageBuilder.java
@@ -40,7 +40,7 @@
 public class ColumnLevelLineageBuilder {
 
   private Map<ExprId, Set<ExprId>> exprDependencies = new HashMap<>();
-  @Getter private Map<ExprId, List<Pair<DatasetIdentifier, String>>> inputs = new HashMap<>();
+  @Getter private Map<ExprId, Set<Pair<DatasetIdentifier, String>>> inputs = new HashMap<>();
   private Map<OpenLineage.SchemaDatasetFacetFields, ExprId> outputs = new HashMap<>();
   private Map<ColumnMeta, ExprId> externalExpressionMappings = new HashMap<>();
   private final OpenLineage.SchemaDatasetFacet schema;
@@ -61,13 +61,8 @@ public ColumnLevelLineageBuilder(
    * @param attributeName
    */
   public void addInput(ExprId exprId, DatasetIdentifier datasetIdentifier, String attributeName) {
-    inputs.computeIfAbsent(exprId, k -> new LinkedList<>());
-
-    Pair<DatasetIdentifier, String> input = Pair.of(datasetIdentifier, attributeName);
-
-    if (!inputs.get(exprId).contains(input)) {
-      inputs.get(exprId).add(input);
-    }
+    inputs.computeIfAbsent(exprId, k -> new HashSet<>());
+    inputs.get(exprId).add(Pair.of(datasetIdentifier, attributeName));
   }
 
   /**