Support Spark dynamic partition pruning #881

davidrabinowitz · 2023-01-21T05:40:48Z

Based on PR #687

Co-Authored-By: Zhou Fang coufon@users.noreply.github.com

davidrabinowitz · 2023-01-21T05:45:22Z

/gcbrun

codecov · 2023-01-21T06:06:41Z

Codecov Report

Base: 47.04% // Head: 46.69% // Decreases project coverage by -0.35% ⚠️

Coverage data is based on head (523ebd7) compared to base (f207ada).
Patch coverage: 24.39% of modified lines in pull request are covered.

Additional details and impacted files

@@            Coverage Diff             @@
##           master     #881      +/-   ##
==========================================
- Coverage   47.04%   46.69%   -0.35%     
==========================================
  Files         161      161              
  Lines        6101     6151      +50     
  Branches      728      725       -3     
==========================================
+ Hits         2870     2872       +2     
- Misses       3013     3061      +48     
  Partials      218      218

Flag	Coverage Δ
integrationtest	`46.99% <24.39%> (-0.22%)`	⬇️
nightly	`?`
unittest	`46.69% <24.39%> (-0.21%)`	⬇️

Flags with carried forward coverage won't be shown. Click here to find out more.

Impacted Files	Coverage Δ
...loud/bigquery/connector/common/ReadRowsHelper.java	`15.00% <0.00%> (-0.79%)`	⬇️
.../spark/bigquery/v2/Spark31BigQueryScanBuilder.java	`0.00% <0.00%> (ø)`
.../spark/bigquery/v2/Spark32BigQueryScanBuilder.java	`0.00% <0.00%> (ø)`
...igquery/v2/context/ArrowInputPartitionContext.java	`37.03% <0.00%> (-6.45%)`	⬇️
...ry/v2/context/BigQueryDataSourceReaderContext.java	`0.00% <0.00%> (ø)`
.../cloud/bigquery/connector/common/BigQueryUtil.java	`82.20% <100.00%> (+1.67%)`	⬆️
...google/cloud/spark/bigquery/SparkBigQueryUtil.java	`52.74% <100.00%> (+3.33%)`	⬆️
...com/google/cloud/spark/bigquery/BigQueryUtil.scala	`50.00% <0.00%> (-3.34%)`	⬇️
...ud/spark/bigquery/pushdowns/BigQueryStrategy.scala	`43.68% <0.00%> (-2.54%)`	⬇️
...le/cloud/spark/bigquery/pushdowns/UnionQuery.scala	`85.71% <0.00%> (-1.39%)`	⬇️
... and 7 more

Help us with your feedback. Take ten seconds to tell us how you rate us. Have a feature suggestion? Share it here.

☔ View full report at Codecov.
📢 Do you have feedback about the report comment? Let us know in this issue.

davidrabinowitz · 2023-01-22T02:49:50Z

/gcbrun

davidrabinowitz · 2023-01-23T07:08:52Z

/gcbrun

davidrabinowitz · 2023-01-23T23:34:27Z

/gcbrun

davidrabinowitz · 2023-01-24T16:47:34Z

/gcbrun

davidrabinowitz · 2023-01-26T01:15:16Z

/gcbrun

davidrabinowitz · 2023-01-31T05:09:23Z

/gcbrun

...gquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/SparkBigQueryUtil.java

...-connector-common/src/main/java/com/google/cloud/bigquery/connector/common/BigQueryUtil.java

davidrabinowitz · 2023-01-31T05:49:27Z

/gcbrun

davidrabinowitz · 2023-01-31T22:20:39Z

/gcbrun

davidrabinowitz · 2023-02-01T17:06:09Z

/gcbrun

...gquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/SparkBigQueryUtil.java

davidrabinowitz · 2023-02-01T17:29:14Z

/gcbrun

abmodi · 2023-02-02T03:27:28Z

...igquery-lib/src/main/java/com/google/cloud/spark/bigquery/v2/Spark31BigQueryScanBuilder.java

@@ -46,8 +48,10 @@
        SupportsReportStatistics,
        SupportsQueryPushdown {

-  private BigQueryDataSourceReaderContext ctx;
-  private InputPartition[] partitions;
+  protected final Logger logger = LoggerFactory.getLogger(getClass());


Where is logger being used?

It is used in the Spark 3.2 subclass. I took a a page from the Spark framework book where the superclass defines the logger for the hierarchy, but for each class the logger name is of that class (because it is not a static variable)

abmodi · 2023-02-02T03:28:21Z

spark-bigquery-dsv2/spark-3.2-bigquery-lib/pom.xml

@@ -31,7 +31,7 @@
    </dependency>
    <dependency>
      <groupId>org.apache.spark</groupId>
-      <artifactId>spark-avro_2.13</artifactId>
+      <artifactId>spark-avro_2.12</artifactId>


Why do we need to downgrade the dependency version?

Because we need all the dependencies to have the same scala version

davidrabinowitz · 2023-02-02T15:56:56Z

/gcbrun

Support Spark dynamic partition pruning

23ecfcc

davidrabinowitz self-assigned this Jan 21, 2023

davidrabinowitz requested a review from abmodi January 21, 2023 05:41

added missing call

92a29d7

moved AlwaysTrue addition to Spark32BigQueryScanBuilder

3a15c43

temprarily disabling spark 3.2+ pushFilters

4e57f67

davidrabinowitz added 2 commits January 23, 2023 15:33

Added AlwaysTrue to unhandled filters

77bcf08

Remove redundant tests

cd59e3a

spotless applied

a10c18c

davidrabinowitz added 4 commits January 24, 2023 16:11

tpcds test

2037ace

Fixing cached ReadSessionResponse when using DPP

78e7a35

Fixed empty partition error

2ee862d

Reporting filters as unhandled for DPP

676e377

Applying the filter() only on partition field

83f5e97

sonatype-lift bot reviewed Jan 31, 2023

View reviewed changes

...gquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/SparkBigQueryUtil.java Outdated Show resolved Hide resolved

sonatype-lift bot reviewed Jan 31, 2023

View reviewed changes

...gquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/SparkBigQueryUtil.java Outdated Show resolved Hide resolved

sonatype-lift bot reviewed Jan 31, 2023

View reviewed changes

...-connector-common/src/main/java/com/google/cloud/bigquery/connector/common/BigQueryUtil.java Show resolved Hide resolved

spotless applied

9cb94e1

pushing all filters

f4eaff1

GoogleCloudDataproc deleted a comment from sonatype-lift bot Jan 31, 2023

addressing lift issues

4b5c7ab

sonatype-lift bot reviewed Feb 1, 2023

View reviewed changes

...gquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/SparkBigQueryUtil.java Outdated Show resolved Hide resolved

addressing lift issues

eb57840

abmodi approved these changes Feb 2, 2023

View reviewed changes

compilation issue and spotless

523ebd7

davidrabinowitz merged commit 53661cd into GoogleCloudDataproc:master Feb 2, 2023

davidrabinowitz deleted the dpp branch February 2, 2023 18:49

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Support Spark dynamic partition pruning #881

Support Spark dynamic partition pruning #881

davidrabinowitz commented Jan 21, 2023

davidrabinowitz commented Jan 21, 2023

codecov bot commented Jan 21, 2023 •

edited

Loading

davidrabinowitz commented Jan 22, 2023

davidrabinowitz commented Jan 23, 2023

davidrabinowitz commented Jan 23, 2023

davidrabinowitz commented Jan 24, 2023

davidrabinowitz commented Jan 26, 2023

davidrabinowitz commented Jan 31, 2023

davidrabinowitz commented Jan 31, 2023

davidrabinowitz commented Jan 31, 2023

davidrabinowitz commented Feb 1, 2023

davidrabinowitz commented Feb 1, 2023

abmodi Feb 2, 2023

davidrabinowitz Feb 2, 2023

abmodi Feb 2, 2023

davidrabinowitz Feb 2, 2023

davidrabinowitz commented Feb 2, 2023

Support Spark dynamic partition pruning #881

Support Spark dynamic partition pruning #881

Conversation

davidrabinowitz commented Jan 21, 2023

davidrabinowitz commented Jan 21, 2023

codecov bot commented Jan 21, 2023 • edited Loading

Codecov Report

davidrabinowitz commented Jan 22, 2023

davidrabinowitz commented Jan 23, 2023

davidrabinowitz commented Jan 23, 2023

davidrabinowitz commented Jan 24, 2023

davidrabinowitz commented Jan 26, 2023

davidrabinowitz commented Jan 31, 2023

davidrabinowitz commented Jan 31, 2023

davidrabinowitz commented Jan 31, 2023

davidrabinowitz commented Feb 1, 2023

davidrabinowitz commented Feb 1, 2023

abmodi Feb 2, 2023

Choose a reason for hiding this comment

davidrabinowitz Feb 2, 2023

Choose a reason for hiding this comment

abmodi Feb 2, 2023

Choose a reason for hiding this comment

davidrabinowitz Feb 2, 2023

Choose a reason for hiding this comment

davidrabinowitz commented Feb 2, 2023

codecov bot commented Jan 21, 2023 •

edited

Loading