[SPARK-47336][SQL][CONNECT] Provide to PySpark a functionality to get estimated size of DataFrame in bytes #46368

SemyonSinchenko · 2024-05-03T17:42:18Z

What changes were proposed in this pull request?

In PySpark connect there is no access to JVM to call queryExecution().optimizedPlan.stats. So, there is no way to get information about size in bytes from plan except parsing by regexps an output of explain. This PR is trying to fill that gap by providing sizeInBytesApproximation method to JVM, PySpark Classic and PySpark Connect APIs. Under the hood it is just a call to queryExecution().optimizedPlan.stats.sizeInBytes. JVM and PySpark Classic APIs were updated just to have a parity.

Update of Dataset.scala in JVM connect by adding a new API
Update of Dataset.scala in JVM classic by adding a new API
Update dataframe.py in sql by adding signature and doc of a new API
Update dataframe.py in connect by adding an implementation of a new API
Update dataframe.py in classic by adding an implementation of a new API
Update base.proto in part AnalyzeRequest / AnalyzeResponse by adding new message
Generate new py-files from proto
Update SparkConnectAnalyzeHandler by extending match and adding call to queryExecution
Update SparkConnectClient by adding a new method that build a new request
Update SparkSession by adding a call to client and parsing a response
Add/update corresponding tests

Why are the changes needed?

To provide to PySpark Connect users an ability to get in runtime the DataFrame size estimation without forcing them to parse string-output of df.explain. Other changes are needed to have a parity across Connect / Classic and PySpark / JVM Spark.

Does this PR introduce any user-facing change?

Only a new API. The new API is mostly for PySpark Connect users.

How was this patch tested?

Because the actual logic is in queryExecution I added tests only for syntax / calls. In tests we are testing that for a dataframe the returned size is greater than zero.

Was this patch authored or co-authored using generative AI tooling?

No.

@grundprinzip We discussed that ticket with you, may you please make a look? Thanks!

On branch size_in_bytes_api Changes to be committed: modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/Dataset.scala modified: connector/connect/client/jvm/src/test/scala/org/apache/spark/sql/ClientE2ETestSuite.scala modified: connector/connect/common/src/main/protobuf/spark/connect/base.proto modified: connector/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SparkConnectAnalyzeHandler.scala modified: sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala

Changes to be committed: modified: .gitignore modified: connector/connect/common/src/main/protobuf/spark/connect/base.proto modified: connector/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SparkConnectAnalyzeHandler.scala modified: sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala

+ Relation instead of Plan in base.proto + Fix broken ids in base.proto + Fix corresponding parts in AnalyzeHandler On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/Dataset.scala modified: connector/connect/common/src/main/protobuf/spark/connect/base.proto modified: connector/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SparkConnectAnalyzeHandler.scala

+ update naming following the discussion in JIRA On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/Dataset.scala modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/SparkSession.scala modified: connector/connect/client/jvm/src/test/scala/org/apache/spark/sql/ClientE2ETestSuite.scala modified: connector/connect/common/src/main/protobuf/spark/connect/base.proto modified: connector/connect/common/src/main/scala/org/apache/spark/sql/connect/client/SparkConnectClient.scala modified: connector/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SparkConnectAnalyzeHandler.scala

+ small fixes + tests On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: python/pyspark/sql/classic/dataframe.py modified: python/pyspark/sql/connect/client/core.py modified: python/pyspark/sql/connect/dataframe.py modified: python/pyspark/sql/connect/proto/base_pb2.py modified: python/pyspark/sql/connect/proto/base_pb2.pyi modified: python/pyspark/sql/dataframe.py modified: python/pyspark/sql/tests/connect/test_connect_basic.py modified: python/pyspark/sql/tests/test_dataframe.py modified: sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala

On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: python/pyspark/sql/dataframe.py modified: sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala

+ delete an example because it requires a data On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: python/pyspark/sql/connect/dataframe.py modified: python/pyspark/sql/dataframe.py

On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: python/pyspark/sql/connect/dataframe.py

.gitignore

python/pyspark/sql/connect/client/core.py

python/pyspark/sql/dataframe.py

connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/Dataset.scala

- change from Long to bytes[] in proto - JVM methods return BigInteger from now - in Python conversion from BigInteger to int is via bytes[] - drop .dir-locals.el from .gitignore - rename _sizeInBytes -> _size_in_bytes on Python side On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: .gitignore modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/Dataset.scala modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/SparkSession.scala modified: connector/connect/client/jvm/src/test/scala/org/apache/spark/sql/ClientE2ETestSuite.scala modified: connector/connect/common/src/main/protobuf/spark/connect/base.proto modified: connector/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SparkConnectAnalyzeHandler.scala modified: python/pyspark/sql/classic/dataframe.py modified: python/pyspark/sql/connect/client/core.py modified: python/pyspark/sql/connect/dataframe.py modified: python/pyspark/sql/connect/proto/base_pb2.py modified: python/pyspark/sql/connect/proto/base_pb2.pyi modified: python/pyspark/sql/dataframe.py modified: sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala

On branch size_in_bytes_api Your branch is ahead of 'origin/size_in_bytes_api' by 1 commit. (use "git push" to publish your local commits) Changes to be committed: modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/Dataset.scala modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/SparkSession.scala modified: connector/connect/server/src/main/scala/org/apache/spark/sql/connect/service/SparkConnectAnalyzeHandler.scala

On branch size_in_bytes_api Your branch is ahead of 'origin/size_in_bytes_api' by 2 commits. (use "git push" to publish your local commits) Changes to be committed: modified: sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala

On branch size_in_bytes_api Your branch is ahead of 'origin/size_in_bytes_api' by 3 commits. (use "git push" to publish your local commits) Changes to be committed: modified: connector/connect/client/jvm/src/test/scala/org/apache/spark/sql/ClientE2ETestSuite.scala

On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: python/pyspark/sql/classic/dataframe.py

SemyonSinchenko · 2024-05-07T18:59:12Z

New changes:

fixes from comments
changing the type from Long to BigInteger (bytes in proto)

+ resolving conflicts + regenerate python proto-classes

SemyonSinchenko · 2024-05-20T11:53:35Z

@HyukjinKwon sorry for tagging, but may you please make a look again? Thanks in advance!

I updated docstring for sizeInBytes method of dataframe. Changes to be committed: modified: python/pyspark/sql/connect/proto/base_pb2.py modified: python/pyspark/sql/dataframe.py

SemyonSinchenko · 2024-05-28T16:04:44Z

Changes from the last two commits (actual changes marked by bold):

resolve merge conflicts
re-generate proto files for PySpark
update docstring in dataframe.py: fix a typo and extend it by describing how it works and corner-cases

Changes to be committed: modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/Dataset.scala modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/SparkSession.scala

SemyonSinchenko · 2024-06-05T17:40:23Z

@HyukjinKwon I'm sorry for tagging you again, but maybe you can make a look? Thanks in advance!

SemyonSinchenko added 6 commits April 30, 2024 09:01

Docstring example and sync connect/classic jvm

b45cbce

On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: python/pyspark/sql/dataframe.py modified: sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala

github-actions bot added SQL INFRA PYTHON CONNECT labels May 3, 2024

SemyonSinchenko added 2 commits May 3, 2024 20:57

Fix linter

4577093

+ delete an example because it requires a data On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: python/pyspark/sql/connect/dataframe.py modified: python/pyspark/sql/dataframe.py

Fix MyPy

8e1328f

On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: python/pyspark/sql/connect/dataframe.py

HyukjinKwon reviewed May 7, 2024

View reviewed changes

.gitignore Outdated Show resolved Hide resolved

HyukjinKwon reviewed May 7, 2024

View reviewed changes

python/pyspark/sql/connect/client/core.py Outdated Show resolved Hide resolved

HyukjinKwon reviewed May 7, 2024

View reviewed changes

python/pyspark/sql/dataframe.py Show resolved Hide resolved

zhengruifeng reviewed May 7, 2024

View reviewed changes

connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/Dataset.scala Outdated Show resolved Hide resolved

SemyonSinchenko added 4 commits May 7, 2024 12:54

Fix scalastyle part2

4dd0673

On branch size_in_bytes_api Your branch is ahead of 'origin/size_in_bytes_api' by 2 commits. (use "git push" to publish your local commits) Changes to be committed: modified: sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala

Scalastyle part-3

e266e17

On branch size_in_bytes_api Your branch is ahead of 'origin/size_in_bytes_api' by 3 commits. (use "git push" to publish your local commits) Changes to be committed: modified: connector/connect/client/jvm/src/test/scala/org/apache/spark/sql/ClientE2ETestSuite.scala

github-actions bot removed the INFRA label May 7, 2024

Fix py-linter

d7675ba

On branch size_in_bytes_api Your branch is up to date with 'origin/size_in_bytes_api'. Changes to be committed: modified: python/pyspark/sql/classic/dataframe.py

SemyonSinchenko requested review from HyukjinKwon and zhengruifeng May 7, 2024 18:59

Merge branch 'master' into size_in_bytes_api

b41b86b

+ resolving conflicts + regenerate python proto-classes

SemyonSinchenko added 2 commits May 28, 2024 17:47

Merge branch 'master' into size_in_bytes_api

cc37bd9

Re-generate proto files and update docstring

cb5cee0

I updated docstring for sizeInBytes method of dataframe. Changes to be committed: modified: python/pyspark/sql/connect/proto/base_pb2.py modified: python/pyspark/sql/dataframe.py

SemyonSinchenko added 2 commits May 28, 2024 19:16

Fix scalafmt

e0d6f2a

Changes to be committed: modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/Dataset.scala modified: connector/connect/client/jvm/src/main/scala/org/apache/spark/sql/SparkSession.scala

Fix pylint

199f3be

Merge branch 'master' into size_in_bytes_api

ef39011

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[SPARK-47336][SQL][CONNECT] Provide to PySpark a functionality to get estimated size of DataFrame in bytes #46368

[SPARK-47336][SQL][CONNECT] Provide to PySpark a functionality to get estimated size of DataFrame in bytes #46368

SemyonSinchenko commented May 3, 2024

SemyonSinchenko commented May 7, 2024

SemyonSinchenko commented May 20, 2024

SemyonSinchenko commented May 28, 2024

SemyonSinchenko commented Jun 5, 2024

[SPARK-47336][SQL][CONNECT] Provide to PySpark a functionality to get estimated size of DataFrame in bytes #46368

Are you sure you want to change the base?

[SPARK-47336][SQL][CONNECT] Provide to PySpark a functionality to get estimated size of DataFrame in bytes #46368

Conversation

SemyonSinchenko commented May 3, 2024

What changes were proposed in this pull request?

Why are the changes needed?

Does this PR introduce any user-facing change?

How was this patch tested?

Was this patch authored or co-authored using generative AI tooling?

SemyonSinchenko commented May 7, 2024

SemyonSinchenko commented May 20, 2024

SemyonSinchenko commented May 28, 2024

SemyonSinchenko commented Jun 5, 2024