[SPARK-35096][SQL][3.0] SchemaPruning should adhere spark.sql.caseSensitive config #32284

sandeep-katta · 2021-04-22T04:21:02Z

What changes were proposed in this pull request?

As a part of the SPARK-26837 pruning of nested fields from object serializers are supported. But it is missed to handle case insensitivity nature of spark

In this PR I have resolved the column names to be pruned based on spark.sql.caseSensitive config
Exception Before Fix

Caused by: java.lang.ArrayIndexOutOfBoundsException: 0
  at org.apache.spark.sql.types.StructType.apply(StructType.scala:414)
  at org.apache.spark.sql.catalyst.optimizer.ObjectSerializerPruning$$anonfun$apply$4.$anonfun$applyOrElse$3(objects.scala:216)
  at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:238)
  at scala.collection.immutable.List.foreach(List.scala:392)
  at scala.collection.TraversableLike.map(TraversableLike.scala:238)
  at scala.collection.TraversableLike.map$(TraversableLike.scala:231)
  at scala.collection.immutable.List.map(List.scala:298)
  at org.apache.spark.sql.catalyst.optimizer.ObjectSerializerPruning$$anonfun$apply$4.applyOrElse(objects.scala:215)
  at org.apache.spark.sql.catalyst.optimizer.ObjectSerializerPruning$$anonfun$apply$4.applyOrElse(objects.scala:203)
  at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDown$1(TreeNode.scala:309)
  at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:72)
  at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:309)
  at

Why are the changes needed?

After Upgrade to Spark 3 foreachBatch API throws java.lang.ArrayIndexOutOfBoundsException. This issue will be fixed using this PR

Does this PR introduce any user-facing change?

No, Infact fixes the regression

How was this patch tested?

Added tests and also tested verified manually

…e config ### What changes were proposed in this pull request? As a part of the SPARK-26837 pruning of nested fields from object serializers are supported. But it is missed to handle case insensitivity nature of spark In this PR I have resolved the column names to be pruned based on `spark.sql.caseSensitive ` config **Exception Before Fix** ``` Caused by: java.lang.ArrayIndexOutOfBoundsException: 0 at org.apache.spark.sql.types.StructType.apply(StructType.scala:414) at org.apache.spark.sql.catalyst.optimizer.ObjectSerializerPruning$$anonfun$apply$4.$anonfun$applyOrElse$3(objects.scala:216) at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:238) at scala.collection.immutable.List.foreach(List.scala:392) at scala.collection.TraversableLike.map(TraversableLike.scala:238) at scala.collection.TraversableLike.map$(TraversableLike.scala:231) at scala.collection.immutable.List.map(List.scala:298) at org.apache.spark.sql.catalyst.optimizer.ObjectSerializerPruning$$anonfun$apply$4.applyOrElse(objects.scala:215) at org.apache.spark.sql.catalyst.optimizer.ObjectSerializerPruning$$anonfun$apply$4.applyOrElse(objects.scala:203) at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDown$1(TreeNode.scala:309) at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:72) at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:309) at ``` ### Why are the changes needed? After Upgrade to Spark 3 `foreachBatch` API throws` java.lang.ArrayIndexOutOfBoundsException`. This issue will be fixed using this PR ### Does this PR introduce _any_ user-facing change? No, Infact fixes the regression ### How was this patch tested? Added tests and also tested verified manually Closes apache#32194 from sandeep-katta/SPARK-35096. Authored-by: sandeep.katta <sandeep.katta2007@gmail.com> Signed-off-by: Wenchen Fan <wenchen@databricks.com>

SparkQA · 2021-04-22T04:22:06Z

Test build #137770 has started for PR 32284 at commit 8ecfb95.

sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/SchemaPruning.scala

viirya

lgtm, with one minor comment.

cloud-fan · 2021-04-22T04:32:06Z

LGTM

dongjoon-hyun

+1, LGTM (Pending CIs).

SparkQA · 2021-04-22T05:23:22Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/42298/

SparkQA · 2021-04-22T05:23:23Z

Kubernetes integration test status failure
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/42298/

dongjoon-hyun · 2021-04-22T05:58:12Z

Merged to branch-3.0. Thank you, @sandeep-katta and all!

…sitive config ### What changes were proposed in this pull request? As a part of the SPARK-26837 pruning of nested fields from object serializers are supported. But it is missed to handle case insensitivity nature of spark In this PR I have resolved the column names to be pruned based on `spark.sql.caseSensitive ` config **Exception Before Fix** ``` Caused by: java.lang.ArrayIndexOutOfBoundsException: 0 at org.apache.spark.sql.types.StructType.apply(StructType.scala:414) at org.apache.spark.sql.catalyst.optimizer.ObjectSerializerPruning$$anonfun$apply$4.$anonfun$applyOrElse$3(objects.scala:216) at scala.collection.TraversableLike.$anonfun$map$1(TraversableLike.scala:238) at scala.collection.immutable.List.foreach(List.scala:392) at scala.collection.TraversableLike.map(TraversableLike.scala:238) at scala.collection.TraversableLike.map$(TraversableLike.scala:231) at scala.collection.immutable.List.map(List.scala:298) at org.apache.spark.sql.catalyst.optimizer.ObjectSerializerPruning$$anonfun$apply$4.applyOrElse(objects.scala:215) at org.apache.spark.sql.catalyst.optimizer.ObjectSerializerPruning$$anonfun$apply$4.applyOrElse(objects.scala:203) at org.apache.spark.sql.catalyst.trees.TreeNode.$anonfun$transformDown$1(TreeNode.scala:309) at org.apache.spark.sql.catalyst.trees.CurrentOrigin$.withOrigin(TreeNode.scala:72) at org.apache.spark.sql.catalyst.trees.TreeNode.transformDown(TreeNode.scala:309) at ``` ### Why are the changes needed? After Upgrade to Spark 3 `foreachBatch` API throws` java.lang.ArrayIndexOutOfBoundsException`. This issue will be fixed using this PR ### Does this PR introduce _any_ user-facing change? No, Infact fixes the regression ### How was this patch tested? Added tests and also tested verified manually Closes #32284 from sandeep-katta/SPARK-35096_backport. Authored-by: sandeep.katta <sandeep.katta2007@gmail.com> Signed-off-by: Dongjoon Hyun <dhyun@apple.com>

SparkQA · 2021-04-22T06:13:33Z

Kubernetes integration test starting
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/42300/

SparkQA · 2021-04-22T06:13:34Z

Kubernetes integration test status failure
URL: https://amplab.cs.berkeley.edu/jenkins/job/SparkPullRequestBuilder-K8s/42300/

SparkQA · 2021-04-22T10:05:56Z

Test build #137772 has finished for PR 32284 at commit 0165bd6.

This patch passes all tests.
This patch merges cleanly.
This patch adds no public classes.

sandeep-katta mentioned this pull request Apr 22, 2021

[SPARK-35096][SQL] SchemaPruning should adhere spark.sql.caseSensitive config #32194

Closed

viirya changed the title ~~[SPARK-35096][SQL][BackPort] SchemaPruning should adhere spark.sql.caseSensitive config~~ [SPARK-35096][SQL][3.0] SchemaPruning should adhere spark.sql.caseSensitive config Apr 22, 2021

viirya reviewed Apr 22, 2021

View reviewed changes

sql/catalyst/src/main/scala/org/apache/spark/sql/catalyst/expressions/SchemaPruning.scala Outdated Show resolved Hide resolved

viirya approved these changes Apr 22, 2021

View reviewed changes

inline SQLConf.get.resolver

0165bd6

dongjoon-hyun approved these changes Apr 22, 2021

View reviewed changes

dongjoon-hyun closed this Apr 22, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[SPARK-35096][SQL][3.0] SchemaPruning should adhere spark.sql.caseSensitive config #32284

[SPARK-35096][SQL][3.0] SchemaPruning should adhere spark.sql.caseSensitive config #32284

sandeep-katta commented Apr 22, 2021

SparkQA commented Apr 22, 2021

viirya left a comment •

edited

Loading

cloud-fan commented Apr 22, 2021

dongjoon-hyun left a comment

SparkQA commented Apr 22, 2021

SparkQA commented Apr 22, 2021

dongjoon-hyun commented Apr 22, 2021

SparkQA commented Apr 22, 2021

SparkQA commented Apr 22, 2021

SparkQA commented Apr 22, 2021

[SPARK-35096][SQL][3.0] SchemaPruning should adhere spark.sql.caseSensitive config #32284

[SPARK-35096][SQL][3.0] SchemaPruning should adhere spark.sql.caseSensitive config #32284

Conversation

sandeep-katta commented Apr 22, 2021

What changes were proposed in this pull request?

Why are the changes needed?

Does this PR introduce any user-facing change?

How was this patch tested?

SparkQA commented Apr 22, 2021

viirya left a comment • edited Loading

Choose a reason for hiding this comment

cloud-fan commented Apr 22, 2021

dongjoon-hyun left a comment

Choose a reason for hiding this comment

SparkQA commented Apr 22, 2021

SparkQA commented Apr 22, 2021

dongjoon-hyun commented Apr 22, 2021

SparkQA commented Apr 22, 2021

SparkQA commented Apr 22, 2021

SparkQA commented Apr 22, 2021

viirya left a comment •

edited

Loading