Adding map type read support #914

davidrabinowitz · 2023-03-02T22:19:40Z

Currently reading ARRAY<STRUCT<key,value>> fields into Spark Map is supported. Write and documentation will be added in additional PR, in order to keep them (relatively) small

davidrabinowitz · 2023-03-02T22:19:51Z

/gcbrun

...d_party/apache-spark/src/main/java/com/google/cloud/spark/bigquery/ArrowSchemaConverter.java

...igquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/SchemaConverters.java

...d_party/apache-spark/src/main/java/com/google/cloud/spark/bigquery/ArrowSchemaConverter.java

sonatype-lift · 2023-03-02T22:24:03Z

🛠 Lift Auto-fix

Some of the Lift findings in this PR can be automatically fixed. You can download and apply these changes in your local project directory of your branch to review the suggestions before committing.¹

# Download the patch
curl https://lift.sonatype.com/api/patch/github.com/GoogleCloudDataproc/spark-bigquery-connector/914.diff -o lift-autofixes.diff

# Apply the patch with git
git apply lift-autofixes.diff

# Review the changes
git diff

Want it all in a single command? Open a terminal in your project's directory and copy and paste the following command:

curl https://lift.sonatype.com/api/patch/github.com/GoogleCloudDataproc/spark-bigquery-connector/914.diff | git apply

Once you're satisfied, commit and push your changes in your project.

You can preview the patch by opening the patch URL in the browser. ↩

davidrabinowitz · 2023-03-02T23:06:09Z

/gcbrun

davidrabinowitz · 2023-03-02T23:55:12Z

/gcbrun

davidrabinowitz · 2023-03-03T00:03:16Z

/gcbrun

davidrabinowitz · 2023-03-03T23:15:03Z

/gcbrun

davidrabinowitz · 2023-03-04T00:22:07Z

/gcbrun

davidrabinowitz · 2023-03-04T01:22:29Z

/gcbrun

vishalkarve15 · 2023-03-06T05:53:54Z

...igquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/SchemaConverters.java

+      Field key = subFields.get("key");
+      Field value = subFields.get("value");
+      MapType mapType = DataTypes.createMapType(convert(key).dataType(), convert(value).dataType());
+      return Optional.of(new StructField(field.getName(), mapType, /* nullable */ false, metadata));


Why is nullable always false?

Because it is a REPEATED field, not NULLABLE. There are some compromises we need to do as BigQuery has no native MAP type

vishalkarve15 · 2023-03-06T05:58:19Z

...igquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/SchemaConverters.java

+      MapType mapType = DataTypes.createMapType(convert(key).dataType(), convert(value).dataType());
+      return Optional.of(new StructField(field.getName(), mapType, /* nullable */ false, metadata));
+    } catch (IllegalArgumentException e) {
+      // no "key" or "value" fields


Can we check if subfields contains "key" and "value" instead of try..catch?

Good point, fixed that

davidrabinowitz · 2023-03-06T16:23:22Z

/gcbrun

davidrabinowitz · 2023-03-06T19:01:29Z

/gcbrun

This reverts commit fb1586e.

Adding map type support

499c3ed

sonatype-lift bot reviewed Mar 2, 2023

View reviewed changes

...d_party/apache-spark/src/main/java/com/google/cloud/spark/bigquery/ArrowSchemaConverter.java Outdated Show resolved Hide resolved

sonatype-lift bot reviewed Mar 2, 2023

View reviewed changes

...igquery-connector-common/src/main/java/com/google/cloud/spark/bigquery/SchemaConverters.java Show resolved Hide resolved

sonatype-lift bot reviewed Mar 2, 2023

View reviewed changes

...d_party/apache-spark/src/main/java/com/google/cloud/spark/bigquery/ArrowSchemaConverter.java Outdated Show resolved Hide resolved

integration test passed

a68c60c

spotless applied

ef4fc97

Added Map read support for DSv2

525d01d

clean up

6c29fd8

davidrabinowitz self-assigned this Mar 4, 2023

davidrabinowitz requested review from suryasoma and vishalkarve15 March 4, 2023 02:05

davidrabinowitz changed the title ~~Adding map type support~~ Adding map type read support Mar 6, 2023

vishalkarve15 reviewed Mar 6, 2023

View reviewed changes

addressed comments

b214d49

suryasoma approved these changes Mar 6, 2023

View reviewed changes

davidrabinowitz merged commit fb1586e into GoogleCloudDataproc:master Mar 6, 2023

davidrabinowitz deleted the map branch March 6, 2023 19:46

davidrabinowitz mentioned this pull request Mar 13, 2023

Supporting Spark MapType in SchemaConverters #522

Closed

GrzegorzSmardzewskiAllegro mentioned this pull request Aug 23, 2023

Add a way to disable map type support. #1046

Closed

e18cheng added a commit to ascend-io/spark-bigquery-connector that referenced this pull request Oct 3, 2023

Revert "Adding map type read support (GoogleCloudDataproc#914)"

6dffc2d

This reverts commit fb1586e.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Adding map type read support #914

Adding map type read support #914

davidrabinowitz commented Mar 2, 2023 •

edited

Loading

davidrabinowitz commented Mar 2, 2023

sonatype-lift bot commented Mar 2, 2023

davidrabinowitz commented Mar 2, 2023

davidrabinowitz commented Mar 2, 2023

davidrabinowitz commented Mar 3, 2023

davidrabinowitz commented Mar 3, 2023

davidrabinowitz commented Mar 4, 2023

davidrabinowitz commented Mar 4, 2023

vishalkarve15 Mar 6, 2023

davidrabinowitz Mar 6, 2023

vishalkarve15 Mar 6, 2023

davidrabinowitz Mar 6, 2023

davidrabinowitz commented Mar 6, 2023

davidrabinowitz commented Mar 6, 2023

Adding map type read support #914

Adding map type read support #914

Conversation

davidrabinowitz commented Mar 2, 2023 • edited Loading

davidrabinowitz commented Mar 2, 2023

sonatype-lift bot commented Mar 2, 2023

🛠 Lift Auto-fix

Footnotes

davidrabinowitz commented Mar 2, 2023

davidrabinowitz commented Mar 2, 2023

davidrabinowitz commented Mar 3, 2023

davidrabinowitz commented Mar 3, 2023

davidrabinowitz commented Mar 4, 2023

davidrabinowitz commented Mar 4, 2023

vishalkarve15 Mar 6, 2023

Choose a reason for hiding this comment

davidrabinowitz Mar 6, 2023

Choose a reason for hiding this comment

vishalkarve15 Mar 6, 2023

Choose a reason for hiding this comment

davidrabinowitz Mar 6, 2023

Choose a reason for hiding this comment

davidrabinowitz commented Mar 6, 2023

davidrabinowitz commented Mar 6, 2023

davidrabinowitz commented Mar 2, 2023 •

edited

Loading