[MINOR] Fix npe for get internal schema #9984

watermelon12138 · 2023-11-04T03:58:50Z

Change Logs

related issue: #9902
get internal schema maybe meet npe when parse avroSchema. So, we need to return InternalSchema.getEmptyInternalSchema() when avroSchema is null or empty.

Impact

none

Risk level (write none, low medium or high below)

none

Contributor's checklist

Read through contributor's guide
Change Logs and Impact were stated clearly
Adequate tests were added if applicable
CI passed

watermelon12138 · 2023-11-04T04:19:13Z

@xiarixiaoyao

watermelon12138 · 2023-11-04T10:20:12Z

@hudi-bot run azure

xiarixiaoyao · 2023-11-05T09:57:47Z

hudi-common/src/main/java/org/apache/hudi/common/util/InternalSchemaCache.java

+           ? (StringUtils.isNullOrEmpty(avroSchema)
+             ? InternalSchema.getEmptyInternalSchema()
+             : AvroInternalSchemaConverter.convert(HoodieAvroUtils.addMetadataFields(new Schema.Parser().parse(avroSchema))))
+           : fileSchema;


thanks for your fix.
why avro schema is null here ?

you can read the exception stack of this problem:

Caused by: org.apache.avro.SchemaParseException: Cannot parse schema
at org.apache.avro.Schema.parse(Schema.java:1633)
at org.apache.avro.Schema$Parser.parse(Schema.java:1430)
at org.apache.avro.Schema$Parser.parse(Schema.java:1418)
at org.apache.hudi.common.util.InternalSchemaCache.getInternalSchemaByVersionId(InternalSchemaCache.java:220)
at org.apache.hudi.common.util.InternalSchemaCache.getInternalSchemaByVersionId(InternalSchemaCache.java:226)
at org.apache.hudi.table.action.commit.HoodieMergeHelper.composeSchemaEvolutionTransformer(HoodieMergeHelper.java:177)
at org.apache.hudi.table.action.commit.HoodieMergeHelper.runMerge(HoodieMergeHelper.java:94)
at org.apache.hudi.table.HoodieSparkCopyOnWriteTable.handleUpdateInternal(HoodieSparkCopyOnWriteTable.java:252)
at org.apache.hudi.table.HoodieSparkCopyOnWriteTable.handleUpdate(HoodieSparkCopyOnWriteTable.java:235)
at org.apache.hudi.table.action.compact.CompactionExecutionHelper.writeFileAndGetWriteStats(CompactionExecutionHelper.java:64)
at org.apache.hudi.table.action.compact.HoodieCompactor.compact(HoodieCompactor.java:237)
at org.apache.hudi.table.action.compact.HoodieCompactor.lambda$compact$988df80a$1(HoodieCompactor.java:132)
at org.apache.spark.api.java.JavaPairRDD$.$anonfun$toScalaFunction$1(JavaPairRDD.scala:1070)
at scala.collection.Iterator$$anon$10.next(Iterator.scala:461)
at scala.collection.Iterator$$anon$11.nextCur(Iterator.scala:486)
at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:492)
at org.apache.spark.storage.memory.MemoryStore.putIterator(MemoryStore.scala:223)
at org.apache.spark.storage.memory.MemoryStore.putIteratorAsBytes(MemoryStore.scala:352)
at org.apache.spark.storage.BlockManager.$anonfun$doPutIterator$1(BlockManager.scala:1498)
at org.apache.spark.storage.BlockManager.org$apache$spark$storage$BlockManager$$doPut(BlockManager.scala:1408)
at org.apache.spark.storage.BlockManager.doPutIterator(BlockManager.scala:1472)
at org.apache.spark.storage.BlockManager.getOrElseUpdate(BlockManager.scala:1295)
at org.apache.spark.rdd.RDD.getOrCompute(RDD.scala:384)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:335)
at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:373)
at org.apache.spark.rdd.RDD.iterator(RDD.scala:337)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:90)
at org.apache.spark.scheduler.Task.run(Task.scala:133)
at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$3(Executor.scala:506)
at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1474)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:509)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:750)

@xiarixiaoyao Hi, This problem is difficult to reproduce. I think that we can try to prevent it from the code perspective.

danny0405 · 2023-11-08T01:47:12Z

hudi-common/src/main/java/org/apache/hudi/common/util/InternalSchemaCache.java

-    return fileSchema.isEmptySchema() ? AvroInternalSchemaConverter.convert(HoodieAvroUtils.addMetadataFields(new Schema.Parser().parse(avroSchema))) : fileSchema;
+    return fileSchema.isEmptySchema()
+            ? StringUtils.isNullOrEmpty(avroSchema)
+              ? InternalSchema.getEmptyInternalSchema()


Is it because the version upgrade or something? Is the null avro schema coming from an old version Hudi table?

@danny0405 Yes, Some users find this problem in the upgrade scenario(0.12.3 -> 0.14).

watermelon12138 · 2023-11-08T03:53:29Z

@hudi-bot run azure

watermelon12138 · 2023-11-08T13:38:00Z

@hudi-bot run azure

hudi-bot · 2023-11-08T14:26:16Z

CI report:

23eb3d5 UNKNOWN
2fb3eb5 Azure: FAILURE

Bot commands

@hudi-bot supports the following commands:

@hudi-bot run azure re-run the last Azure build

watermelon12138 · 2023-11-13T13:40:26Z

@hudi-bot run azure

zyclove · 2023-11-14T10:07:41Z

@danny0405 👍🏻
By the way,
Will 0.14.1 be released again? Or should we release 1.0.0 directly? Can you update the official roadmap?

danny0405 · 2023-11-15T01:20:20Z

@zyclove 1.0.0-beta is already under release process.

watermelon12138 force-pushed the FixNpeForGetInternalSchema branch from 7872833 to e77abbf Compare November 4, 2023 04:12

danny0405 self-assigned this Nov 4, 2023

danny0405 added the writer-core Issues relating to core transactions/write actions label Nov 4, 2023

xiarixiaoyao reviewed Nov 5, 2023

View reviewed changes

watermelon12138 force-pushed the FixNpeForGetInternalSchema branch 2 times, most recently from 63a77e3 to 23eb3d5 Compare November 7, 2023 13:17

[MINOR] Fix npe for get internal schema

2fb3eb5

watermelon12138 force-pushed the FixNpeForGetInternalSchema branch from 23eb3d5 to 2fb3eb5 Compare November 7, 2023 13:18

danny0405 reviewed Nov 8, 2023

View reviewed changes

danny0405 approved these changes Nov 14, 2023

View reviewed changes

danny0405 merged commit 00ece7b into apache:master Nov 14, 2023
27 of 28 checks passed

danny0405 mentioned this pull request Nov 14, 2023

[SUPPORT] HoodieCompaction with schema parse NullPointerException #9902

Closed

nsivabalan pushed a commit to nsivabalan/hudi that referenced this pull request Nov 23, 2023

[MINOR] Fix npe for get internal schema (apache#9984)

900cfb3

ad1happy2go mentioned this pull request Mar 13, 2024

[SUPPORT] ERROR BaseSparkCommitActionExecutor: Error upserting bucketType UPDATE for partition :13 #9119

Closed

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[MINOR] Fix npe for get internal schema #9984

[MINOR] Fix npe for get internal schema #9984

watermelon12138 commented Nov 4, 2023 •

edited

Loading

watermelon12138 commented Nov 4, 2023

watermelon12138 commented Nov 4, 2023

xiarixiaoyao Nov 5, 2023

watermelon12138 Nov 7, 2023

watermelon12138 Nov 7, 2023

danny0405 Nov 8, 2023

watermelon12138 Nov 8, 2023

watermelon12138 commented Nov 8, 2023

watermelon12138 commented Nov 8, 2023

hudi-bot commented Nov 8, 2023

watermelon12138 commented Nov 13, 2023

zyclove commented Nov 14, 2023

danny0405 commented Nov 15, 2023

[MINOR] Fix npe for get internal schema #9984

[MINOR] Fix npe for get internal schema #9984

Conversation

watermelon12138 commented Nov 4, 2023 • edited Loading

Change Logs

Impact

Risk level (write none, low medium or high below)

Contributor's checklist

watermelon12138 commented Nov 4, 2023

watermelon12138 commented Nov 4, 2023

xiarixiaoyao Nov 5, 2023

Choose a reason for hiding this comment

watermelon12138 Nov 7, 2023

Choose a reason for hiding this comment

watermelon12138 Nov 7, 2023

Choose a reason for hiding this comment

danny0405 Nov 8, 2023

Choose a reason for hiding this comment

watermelon12138 Nov 8, 2023

Choose a reason for hiding this comment

watermelon12138 commented Nov 8, 2023

watermelon12138 commented Nov 8, 2023

hudi-bot commented Nov 8, 2023

CI report:

watermelon12138 commented Nov 13, 2023

zyclove commented Nov 14, 2023

danny0405 commented Nov 15, 2023

watermelon12138 commented Nov 4, 2023 •

edited

Loading