delta-io · ldacey · Oct 13, 2023 · Oct 13, 2023 · Oct 14, 2023 · Oct 14, 2023
@@ -606,16 +606,48 @@ def to_pyarrow_dataset(
             default_fragment_scan_options=ParquetFragmentScanOptions(pre_buffer=True),
         )
 
-        fragments = [
-            format.make_fragment(
-                file,
-                filesystem=filesystem,
-                partition_expression=part_expression,
-            )
-            for file, part_expression in self._table.dataset_partitions(
-                self.schema().to_pyarrow(), partitions
-            )
-        ]
+        fragments = []
+        if partitions is None:
+            partition_filters = None
+        else:
+            if partitions and isinstance(partitions, list):
+                partition_count = len(partitions)
+                partition_type = type(partitions[0])
+
+                if partition_count == 1 and partition_type is list:
+                    partition_filters = partitions
+                elif partition_count == 1 and partition_type is tuple:
+                    partition_filters = [partitions]
+                elif all(isinstance(x, tuple) for x in partitions):
+                    partition_filters = [partitions]
+                elif all(isinstance(x, list) for x in partitions):
+                    partition_filters = partitions
+                else:
+                    partition_filters = None
+            else:
+                raise ValueError(
+                    "Partitions must be a list of tuples, or a lists of lists of tuples"
+                )
+
+        if partition_filters is not None:
+            for partition in partition_filters:
+                for file, partition_expression in self._table.dataset_partitions(
+                    schema=self.schema().to_pyarrow(), partition_filters=partition
+                ):
+                    fragments.append(
+                        format.make_fragment(file, filesystem, partition_expression)
+                    )
+        else:
+            fragments = [
+                format.make_fragment(
+                    file,
+                    filesystem=filesystem,
+                    partition_expression=part_expression,
+                )
+                for file, part_expression in self._table.dataset_partitions(
+                    self.schema().to_pyarrow(), partitions
+                )
+            ]
 
         schema = self.schema().to_pyarrow()
 

@@ -66,6 +66,43 @@ class AddAction:
     stats: str
 
 
+def _match_filter(
+    filter_: List[Tuple[str, str, Any]], partition_values: Mapping[str, Optional[str]]
+):
+    """Matches a filter against a partition value from AddAction instance.
+
+    This ensures that create_write_transaction is called with a valid partition filter.
+
+    :param filter_: A list of tuple(s) in DNF format (column, operator, value)
+    :param partition_values: A mapping of partition values
+
+    Examples:
+        >>> _match_filter([("a", "=", 1)], {"a": 1})
+        >>> _match_filter([("a", "=", 1), ("b", "=", 2)], {"a": 1, "b": 2})
+    """
+    column, op, value = filter_
+    actual_value = partition_values.get(column)
+
+    if op == "=" or op == "==":
+        return actual_value == value
+    elif op == "!=":
+        return actual_value != value
+    elif op == "<":
+        return actual_value < value
+    elif op == ">":
+        return actual_value > value
+    elif op == "<=":
+        return actual_value <= value
+    elif op == ">=":
+        return actual_value >= value
+    elif op == "in":
+        return actual_value in value
+    elif op == "not in":
+        return actual_value not in value
+    else:
+        raise ValueError(f'"{filter_}" is not a valid operator in predicates.')
+
+
 def write_deltalake(
     table_or_uri: Union[str, Path, DeltaTable],
     data: Union[
@@ -268,12 +305,47 @@ def check_data_is_aligned_with_partition_filtering(
         ) -> None:
             if table is None:
                 return
+
+            if partition_filters is None:
+                filters = None
+            else:
+                if isinstance(partition_filters, list):
+                    partition_count = len(partition_filters)
+
+                    partition_type = type(partition_filters[0])
+
+                    if partition_count == 1 and partition_type is list:
+                        filters = partition_filters
+                    elif partition_count == 1 and partition_type is tuple:
+                        filters = [partition_filters]
+                    elif all(isinstance(x, tuple) for x in partition_filters):
+                        filters = [partition_filters]
+                    elif all(isinstance(x, list) for x in partition_filters):
+                        filters = partition_filters
+                    else:
+                        filters = None
+                else:
+                    raise ValueError(
+                        "Partitions must be a list of tuples, or a lists of lists of tuples"
+                    )
+
+            allowed_partitions = set()
+            if filters is not None:
+                for filter_ in filters:
+                    if isinstance(filter_, list):
+                        allowed_partitions.update(
+                            table._table.get_active_partitions(filter_)
+                        )
+                    else:
+                        allowed_partitions.update(
+                            table._table.get_active_partitions(filter_)
+                        )
+            else:
+                allowed_partitions = table._table.get_active_partitions()
+
             existed_partitions: FrozenSet[
                 FrozenSet[Tuple[str, Optional[str]]]
             ] = table._table.get_active_partitions()
-            allowed_partitions: FrozenSet[
-                FrozenSet[Tuple[str, Optional[str]]]
-            ] = table._table.get_active_partitions(partition_filters)
             partition_values = pa.RecordBatch.from_arrays(
                 [
                     batch.column(column_name)
@@ -356,14 +428,48 @@ def validate_batch(batch: pa.RecordBatch) -> pa.RecordBatch:
             storage_options,
         )
     else:
-        table._table.create_write_transaction(
-            add_actions,
-            mode,
-            partition_by or [],
-            schema,
-            partition_filters,
-        )
-        table.update_incremental()
+        if table is not None:
+            if partition_filters is None:
+                table._table.create_write_transaction(
+                    add_actions,
+                    mode,
+                    partition_by or [],
+                    schema,
+                    partition_filters,
+                )
+                table.update_incremental()
+            elif isinstance(partition_filters, list):
+                if all(isinstance(x, list) for x in partition_filters):
+                    original_add_actions = add_actions.copy()
+
+                    for partition_filter in partition_filters:
+                        filtered_add_actions = [
+                            action
+                            for action in original_add_actions
+                            if all(
+                                _match_filter(filter_, action.partition_values)
+                                for filter_ in partition_filter
+                            )
+                        ]
+                        table._table.create_write_transaction(
+                            filtered_add_actions,
+                            mode,
+                            partition_by or [],
+                            schema,
+                            partition_filter,
+                        )
+                        table.update_incremental()
+                elif all(isinstance(x, tuple) for x in partition_filters):
+                    table._table.create_write_transaction(
+                        add_actions,
+                        mode,
+                        partition_by or [],
+                        schema,
+                        partition_filters,
+                    )
+                    table.update_incremental()
+                else:
+                    raise ValueError("Invalid format for partition_filters")
 
 
 def __enforce_append_only(

@@ -481,6 +481,79 @@ def test_delta_table_with_filters():
     )
 
 
+def test_pyarrow_dataset_partitions():
+    table_path = "../rust/tests/data/delta-0.8.0-partitioned"
+    dt = DeltaTable(table_path)
+
+    single_partition = [("day", "=", "1")]
+    dataset_filtered = dt.to_pyarrow_dataset(partitions=single_partition)
+    data_filtered = dataset_filtered.to_table()
+    dataset = dt.to_pyarrow_dataset()
+    filter_expr = ds.field("day") == "1"
+    data = dataset.to_table(filter=filter_expr)
+    assert data_filtered.num_rows == data.num_rows
+
+    single_partition_multiple_columns = [("month", "=", "2"), ("day", "=", "5")]
+    dataset_filtered = dt.to_pyarrow_dataset(
+        partitions=single_partition_multiple_columns
+    )
+    data_filtered = dataset_filtered.to_table()
+    dataset = dt.to_pyarrow_dataset()
+    filter_expr = (ds.field("month") == "2") & (ds.field("day") == "5")
+    data = dataset.to_table(filter=filter_expr)
+    assert data_filtered.num_rows == data.num_rows
+
+    multiple_partitions_single_column = [[("month", "=", "2")], [("month", "=", "4")]]
+    dataset_filtered = dt.to_pyarrow_dataset(
+        partitions=multiple_partitions_single_column
+    )
+    data_filtered = dataset_filtered.to_table()
+    dataset = dt.to_pyarrow_dataset()
+    filter_expr = (ds.field("month") == "2") | (ds.field("month") == "4")
+    data = dataset.to_table(filter=filter_expr)
+    assert data_filtered.num_rows == data.num_rows
+
+    multiple_partitions_multiple_columns = [
+        [("year", "=", "2020"), ("month", "=", "2"), ("day", "=", "5")],
+        [("year", "=", "2021"), ("month", "=", "4"), ("day", "=", "5")],
+        [("year", "=", "2021"), ("month", "=", "3"), ("day", "=", "1")],
+    ]
+    dataset_filtered = dt.to_pyarrow_dataset(
+        partitions=multiple_partitions_multiple_columns
+    )
+    data_filtered = dataset_filtered.to_table()
+    dataset = dt.to_pyarrow_dataset()
+    filter_expr = (
+        (
+            (ds.field("year") == "2020")
+            & (ds.field("month") == "2")
+            & (ds.field("day") == "5")
+        )
+        | (
+            (ds.field("year") == "2021")
+            & (ds.field("month") == "4")
+            & (ds.field("day") == "5")
+        )
+        | (
+            (ds.field("year") == "2021")
+            & (ds.field("month") == "3")
+            & (ds.field("day") == "1")
+        )
+    )
+    data = dataset.to_table(filter=filter_expr)
+    assert data_filtered.num_rows == data.num_rows
+
+    single_partition_single_column_list = [[("year", "=", "2020")]]
+    dataset_filtered = dt.to_pyarrow_dataset(
+        partitions=single_partition_single_column_list
+    )
+    data_filtered = dataset_filtered.to_table()
+    dataset = dt.to_pyarrow_dataset()
+    filter_expr = ds.field("year") == "2020"
+    data = dataset.to_table(filter=filter_expr)
+    assert data_filtered.num_rows == data.num_rows
+
+
 def test_writer_fails_on_protocol():
     table_path = "../rust/tests/data/simple_table"
     dt = DeltaTable(table_path)