From c0fbf6360b24adab80bd881f972183299dbebbbb Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Wed, 31 May 2023 23:04:25 -0700
Subject: [PATCH 01/18] upsert changes

---
 .../java/org/apache/hudi/DataSourceUtils.java |  16 ++-
 .../org/apache/hudi/DataSourceOptions.scala   |   5 +
 .../scala/org/apache/hudi/DefaultSource.scala |  15 +-
 .../apache/hudi/HoodieSparkSqlWriter.scala    | 129 ++++++++++++++++--
 .../SparkFullBootstrapDataProviderBase.java   |   2 +-
 .../sql/hudi/analysis/HoodieAnalysis.scala    |   2 +-
 .../command/UpdateHoodieTableCommand.scala    |  11 +-
 .../org/apache/hudi/TestDataSourceUtils.java  |   6 +-
 .../spark/sql/hudi/TestUpdateTable.scala      |  40 ++++++
 9 files changed, 195 insertions(+), 31 deletions(-)
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
index 9ce0ff2d44bbf..25acd26667b81 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
@@ -27,6 +27,7 @@
 import org.apache.hudi.common.model.HoodieAvroRecord;
 import org.apache.hudi.common.model.HoodieKey;
 import org.apache.hudi.common.model.HoodieRecord;
+import org.apache.hudi.common.model.HoodieRecordLocation;
 import org.apache.hudi.common.model.HoodieRecordPayload;
 import org.apache.hudi.common.model.WriteOperationType;
 import org.apache.hudi.common.util.Option;
@@ -203,7 +204,7 @@ public static SparkRDDWriteClient createHoodieClient(JavaSparkContext jssc, Stri
   }
 
   public static HoodieWriteResult doWriteOperation(SparkRDDWriteClient client, JavaRDD<HoodieRecord> hoodieRecords,
-                                                   String instantTime, WriteOperationType operation) throws HoodieException {
+                                                   String instantTime, WriteOperationType operation, Boolean isPrepped) throws HoodieException {
     switch (operation) {
       case BULK_INSERT:
         Option<BulkInsertPartitioner> userDefinedBulkInsertPartitioner =
@@ -212,6 +213,10 @@ public static HoodieWriteResult doWriteOperation(SparkRDDWriteClient client, Jav
       case INSERT:
         return new HoodieWriteResult(client.insert(hoodieRecords, instantTime));
       case UPSERT:
+        if (isPrepped) {
+          return new HoodieWriteResult(client.upsertPreppedRecords(hoodieRecords, instantTime));
+        }
+
         return new HoodieWriteResult(client.upsert(hoodieRecords, instantTime));
       case INSERT_OVERWRITE:
         return client.insertOverwrite(hoodieRecords, instantTime);
@@ -233,9 +238,14 @@ public static HoodieWriteResult doDeletePartitionsOperation(SparkRDDWriteClient
   }
 
   public static HoodieRecord createHoodieRecord(GenericRecord gr, Comparable orderingVal, HoodieKey hKey,
-      String payloadClass) throws IOException {
+      String payloadClass, HoodieRecordLocation recordLocation) throws IOException {
     HoodieRecordPayload payload = DataSourceUtils.createPayload(payloadClass, gr, orderingVal);
-    return new HoodieAvroRecord<>(hKey, payload);
+
+    HoodieAvroRecord record = new HoodieAvroRecord<>(hKey, payload);
+    if (recordLocation != null) {
+      record.setCurrentLocation(recordLocation);
+    }
+    return record;
   }
 
   public static HoodieRecord createHoodieRecord(GenericRecord gr, HoodieKey hKey,
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DataSourceOptions.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DataSourceOptions.scala
index 0c4be7bd5f0b5..a9f6d0544e42a 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DataSourceOptions.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DataSourceOptions.scala
@@ -305,6 +305,11 @@ object DataSourceWriteOptions {
     .withAlternatives("hoodie.datasource.write.storage.type")
     .withDocumentation("The table type for the underlying data, for this write. This can’t change between writes.")
 
+  /**
+   * Config key with boolean value that indicates whether record being written is already prepped.
+   */
+  val DATASOURCE_WRITE_PREPPED_KEY = "_hoodie.datasource.write.prepped";
+
   /**
     * May be derive partition path from incoming df if not explicitly set.
     *
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala
index 6655093fc8549..b256d2e1cb65c 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala
@@ -19,7 +19,7 @@ package org.apache.hudi
 
 import org.apache.hadoop.fs.Path
 import org.apache.hudi.DataSourceReadOptions._
-import org.apache.hudi.DataSourceWriteOptions.{BOOTSTRAP_OPERATION_OPT_VAL, OPERATION, STREAMING_CHECKPOINT_IDENTIFIER}
+import org.apache.hudi.DataSourceWriteOptions.{BOOTSTRAP_OPERATION_OPT_VAL, DATASOURCE_WRITE_PREPPED_KEY, OPERATION, STREAMING_CHECKPOINT_IDENTIFIER}
 import org.apache.hudi.cdc.CDCRelation
 import org.apache.hudi.common.fs.FSUtils
 import org.apache.hudi.common.model.HoodieTableType.{COPY_ON_WRITE, MERGE_ON_READ}
@@ -144,20 +144,25 @@ class DefaultSource extends RelationProvider
                               mode: SaveMode,
                               optParams: Map[String, String],
                               df: DataFrame): BaseRelation = {
-    val dfWithoutMetaCols = df.drop(HoodieRecord.HOODIE_META_COLUMNS.asScala:_*)
+    val dfPrepped = if (optParams.getOrDefault(DATASOURCE_WRITE_PREPPED_KEY, "false")
+      .equalsIgnoreCase("true")) {
+      df // Don't remove meta columns for prepped write.
+    } else {
+      df.drop(HoodieRecord.HOODIE_META_COLUMNS.asScala: _*)
+    }
 
     if (optParams.get(OPERATION.key).contains(BOOTSTRAP_OPERATION_OPT_VAL)) {
-      HoodieSparkSqlWriter.bootstrap(sqlContext, mode, optParams, dfWithoutMetaCols)
+      HoodieSparkSqlWriter.bootstrap(sqlContext, mode, optParams, dfPrepped)
       HoodieSparkSqlWriter.cleanup()
     } else {
-      val (success, _, _, _, _, _) = HoodieSparkSqlWriter.write(sqlContext, mode, optParams, dfWithoutMetaCols)
+      val (success, _, _, _, _, _) = HoodieSparkSqlWriter.write(sqlContext, mode, optParams, dfPrepped)
       HoodieSparkSqlWriter.cleanup()
       if (!success) {
         throw new HoodieException("Write to Hudi failed")
       }
     }
 
-    new HoodieEmptyRelation(sqlContext, dfWithoutMetaCols.schema)
+    new HoodieEmptyRelation(sqlContext, dfPrepped.schema)
   }
 
   override def createSink(sqlContext: SQLContext,
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index 8b35bf434037c..506488d6b9d8c 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -66,7 +66,7 @@ import org.apache.spark.api.java.{JavaRDD, JavaSparkContext}
 import org.apache.spark.rdd.RDD
 import org.apache.spark.sql.HoodieInternalRowUtils.getCachedUnsafeRowWriter
 import org.apache.spark.sql._
-import org.apache.spark.sql.catalyst.TableIdentifier
+import org.apache.spark.sql.catalyst.{InternalRow, TableIdentifier}
 import org.apache.spark.sql.catalyst.catalog.CatalogTable
 import org.apache.spark.sql.internal.StaticSQLConf
 import org.apache.spark.sql.types.StructType
@@ -350,11 +350,19 @@ object HoodieSparkSqlWriter {
               writerSchema
             }
 
+            // Remove meta columns from writerSchema if isPrepped is true.
+            val isPrepped = hoodieConfig.getBooleanOrDefault(DATASOURCE_WRITE_PREPPED_KEY, false)
+            val processedDataSchema = if (isPrepped) {
+              HoodieAvroUtils.removeMetadataFields(writerSchema);
+            } else {
+              dataFileSchema;
+            }
+
             // Create a HoodieWriteClient & issue the write.
             val client = hoodieWriteClient.getOrElse {
               val finalOpts = addSchemaEvolutionParameters(parameters, internalSchemaOpt, Some(writerSchema)) - HoodieWriteConfig.AUTO_COMMIT_ENABLE.key
               // TODO(HUDI-4772) proper writer-schema has to be specified here
-              DataSourceUtils.createHoodieClient(jsc, dataFileSchema.toString, path, tblName, mapAsJavaMap(finalOpts))
+              DataSourceUtils.createHoodieClient(jsc, processedDataSchema.toString, path, tblName, mapAsJavaMap(finalOpts))
             }
             val writeConfig = client.getConfig
             if (writeConfig.getRecordMerger.getRecordType == HoodieRecordType.SPARK && tableType == HoodieTableType.MERGE_ON_READ && writeConfig.getLogDataBlockFormat.orElse(HoodieLogBlockType.AVRO_DATA_BLOCK) != HoodieLogBlockType.PARQUET_DATA_BLOCK) {
@@ -363,7 +371,7 @@ object HoodieSparkSqlWriter {
             // Convert to RDD[HoodieRecord]
             val hoodieRecords =
               createHoodieRecordRdd(df, writeConfig, parameters, avroRecordName, avroRecordNamespace, writerSchema,
-                dataFileSchema, operation, instantTime)
+                processedDataSchema, operation, instantTime, isPrepped)
 
             if (isAsyncCompactionEnabled(client, tableConfig, parameters, jsc.hadoopConfiguration())) {
               asyncCompactionTriggerFn.get.apply(client)
@@ -380,7 +388,8 @@ object HoodieSparkSqlWriter {
                 hoodieRecords
               }
             client.startCommitWithTime(instantTime, commitActionType)
-            val writeResult = DataSourceUtils.doWriteOperation(client, dedupedHoodieRecords, instantTime, operation)
+            val writeResult = DataSourceUtils.doWriteOperation(client, dedupedHoodieRecords, instantTime, operation,
+              isPrepped)
             (writeResult, client)
         }
 
@@ -1113,7 +1122,8 @@ object HoodieSparkSqlWriter {
                                     writerSchema: Schema,
                                     dataFileSchema: Schema,
                                     operation: WriteOperationType,
-                                    instantTime: String) = {
+                                    instantTime: String,
+                                    isPrepped: Boolean) = {
     val shouldDropPartitionColumns = config.getBoolean(DataSourceWriteOptions.DROP_PARTITION_COLUMNS)
     val recordType = config.getRecordMerger.getRecordType
     val autoGenerateRecordKeys : Boolean = !parameters.containsKey(KeyGeneratorOptions.RECORDKEY_FIELD_NAME.key());
@@ -1140,6 +1150,7 @@ object HoodieSparkSqlWriter {
 
     recordType match {
       case HoodieRecord.HoodieRecordType.AVRO =>
+        // avroRecords will contain meta fields when isPrepped is true.
         val avroRecords: RDD[GenericRecord] = HoodieSparkUtils.createRdd(df, recordName, recordNameSpace,
           Some(writerSchema))
 
@@ -1160,21 +1171,27 @@ object HoodieSparkSqlWriter {
 
           // handle dropping partition columns
           it.map { avroRec =>
-            val processedRecord = if (shouldDropPartitionColumns) {
-              HoodieAvroUtils.rewriteRecord(avroRec, dataFileSchema)
+            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getKeyAndLocatorFromAvroRecord(keyGenerator, avroRec)
+
+            val avroRecWithoutMeta: GenericRecord = if (isPrepped) {
+              HoodieAvroUtils.rewriteRecord(avroRec, HoodieAvroUtils.removeMetadataFields(dataFileSchema))
             } else {
               avroRec
             }
 
-            val hoodieKey = new HoodieKey(keyGenerator.getRecordKey(avroRec), keyGenerator.getPartitionPath(avroRec))
+            val processedRecord = if (shouldDropPartitionColumns) {
+              HoodieAvroUtils.rewriteRecord(avroRecWithoutMeta, dataFileSchema)
+            } else {
+              avroRecWithoutMeta
+            }
+
             val hoodieRecord = if (shouldCombine) {
               val orderingVal = HoodieAvroUtils.getNestedFieldVal(avroRec, config.getString(PRECOMBINE_FIELD),
                 false, consistentLogicalTimestampEnabled).asInstanceOf[Comparable[_]]
               DataSourceUtils.createHoodieRecord(processedRecord, orderingVal, hoodieKey,
-                config.getString(PAYLOAD_CLASS_NAME))
+                config.getString(PAYLOAD_CLASS_NAME), recordLocation.getOrElse(null))
             } else {
-              DataSourceUtils.createHoodieRecord(processedRecord, hoodieKey,
-                config.getString(PAYLOAD_CLASS_NAME))
+              DataSourceUtils.createHoodieRecord(processedRecord, hoodieKey, config.getString(PAYLOAD_CLASS_NAME))
             }
             hoodieRecord
           }
@@ -1195,18 +1212,102 @@ object HoodieSparkSqlWriter {
           }
           val sparkKeyGenerator = HoodieSparkKeyGeneratorFactory.createKeyGenerator(keyGenProps).asInstanceOf[SparkKeyGeneratorInterface]
           val targetStructType = if (shouldDropPartitionColumns) dataFileStructType else writerStructType
+          val finalStructType = if (isPrepped) {
+            val fieldsToExclude = HoodieRecord.HOODIE_META_COLUMNS_WITH_OPERATION.toArray()
+            StructType(targetStructType.fields.filterNot(field => fieldsToExclude.contains(field.name)))
+          } else {
+            targetStructType
+          }
           // NOTE: To make sure we properly transform records
-          val targetStructTypeRowWriter = getCachedUnsafeRowWriter(sourceStructType, targetStructType)
+          val finalStructTypeRowWriter = getCachedUnsafeRowWriter(sourceStructType, finalStructType)
 
           it.map { sourceRow =>
+            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getKeyAndLocatorFromSparkRecord(sparkKeyGenerator, sourceRow, sourceStructType)
+
             val recordKey = sparkKeyGenerator.getRecordKey(sourceRow, sourceStructType)
             val partitionPath = sparkKeyGenerator.getPartitionPath(sourceRow, sourceStructType)
             val key = new HoodieKey(recordKey.toString, partitionPath.toString)
-            val targetRow = targetStructTypeRowWriter(sourceRow)
+            val finalRow = finalStructTypeRowWriter(sourceRow)
 
-            new HoodieSparkRecord(key, targetRow, dataFileStructType, false)
+            var hoodieSparkRecord = new HoodieSparkRecord(key, finalRow, dataFileStructType, false)
+            if (recordLocation.getOrElse(null) != null) {
+              hoodieSparkRecord.setCurrentLocation(recordLocation.get)
+            }
+            hoodieSparkRecord
           }
         }.toJavaRDD().asInstanceOf[JavaRDD[HoodieRecord[_]]]
     }
   }
+
+  private def getKeyAndLocatorFromAvroRecord(keyGenerator: BaseKeyGenerator, avroRec: GenericRecord): (HoodieKey, Option[HoodieRecordLocation]) = {
+    val recordKey = if (avroRec.get("_hoodie_record_key") != null) {
+      avroRec.get("_hoodie_record_key").toString
+    } else {
+      keyGenerator.getRecordKey(avroRec)
+    };
+
+    val partitionPath = if (avroRec.get("_hoodie_partition_path") != null) {
+      avroRec.get("_hoodie_partition_path").toString
+    } else {
+      keyGenerator.getPartitionPath(avroRec)
+    };
+
+    val hoodieKey = new HoodieKey(recordKey, partitionPath)
+    val instantTime: Option[String] = Option(avroRec.get("_hoodie_commit_time")).map(_.toString)
+    val fileName: Option[String] = Option(avroRec.get("_hoodie_file_name")).map(_.toString)
+    val recordLocation: Option[HoodieRecordLocation] = if (instantTime.isDefined && fileName.isDefined) {
+      val fileId = FSUtils.getFileId(fileName.get)
+      Some(new HoodieRecordLocation(instantTime.get, fileId))
+    } else {
+      None
+    }
+    (hoodieKey, recordLocation)
+  }
+
+  private def getKeyAndLocatorFromSparkRecord(sparkKeyGenerator: SparkKeyGeneratorInterface, sourceRow: InternalRow, schema: StructType): (HoodieKey, Option[HoodieRecordLocation]) = {
+    def getFieldIndex(fieldName: String): Int = {
+      if (schema.fieldNames.contains(fieldName)) {
+        schema.fieldIndex(fieldName)
+      } else {
+        -1
+      }
+    }
+
+    val hoodieRecordKeyIndex = getFieldIndex("_hoodie_record_key")
+    val recordKey = if (hoodieRecordKeyIndex != -1 && !sourceRow.isNullAt(hoodieRecordKeyIndex)) {
+      sourceRow.getString(hoodieRecordKeyIndex);
+    } else {
+      sparkKeyGenerator.getRecordKey(sourceRow, schema).toString
+    }
+
+    val hoodiePartitionPathIndex = getFieldIndex("_hoodie_partition_path")
+    val partitionPath = if (hoodiePartitionPathIndex != -1 && !sourceRow.isNullAt(hoodiePartitionPathIndex)) {
+      sourceRow.getString(hoodieRecordKeyIndex)
+    } else {
+      sparkKeyGenerator.getPartitionPath(sourceRow, schema).toString
+    };
+
+    val commitTimeIndex = getFieldIndex("_hoodie_commit_time")
+    val instantTime: Option[String] = if (commitTimeIndex != -1) {
+      Option(sourceRow.getString(commitTimeIndex))
+    } else {
+      None
+    }
+
+    val fileNameIndex = getFieldIndex("_hoodie_file_name")
+    val fileName: Option[String] = if (fileNameIndex != -1) {
+      Option(sourceRow.getString(fileNameIndex))
+    } else {
+      None
+    }
+
+    val recordLocation: Option[HoodieRecordLocation] = if (instantTime.isDefined && fileName.isDefined) {
+      val fileId = FSUtils.getFileId(fileName.get)
+      Some(new HoodieRecordLocation(instantTime.get, fileId))
+    } else {
+      None
+    }
+
+    (new HoodieKey(recordKey, partitionPath), recordLocation)
+  }
 }
diff --git a/hudi-spark-datasource/hudi-spark/src/main/java/org/apache/hudi/bootstrap/SparkFullBootstrapDataProviderBase.java b/hudi-spark-datasource/hudi-spark/src/main/java/org/apache/hudi/bootstrap/SparkFullBootstrapDataProviderBase.java
index ffda92c634f47..8804c84c08f5a 100644
--- a/hudi-spark-datasource/hudi-spark/src/main/java/org/apache/hudi/bootstrap/SparkFullBootstrapDataProviderBase.java
+++ b/hudi-spark-datasource/hudi-spark/src/main/java/org/apache/hudi/bootstrap/SparkFullBootstrapDataProviderBase.java
@@ -84,7 +84,7 @@ public JavaRDD<HoodieRecord> generateInputRecords(String tableName, String sourc
                   Boolean.parseBoolean(KeyGeneratorOptions.KEYGENERATOR_CONSISTENT_LOGICAL_TIMESTAMP_ENABLED.defaultValue())));
           try {
             return DataSourceUtils.createHoodieRecord(gr, orderingVal, keyGenerator.getKey(gr),
-                props.getString("hoodie.datasource.write.payload.class"));
+                props.getString("hoodie.datasource.write.payload.class"), null);
           } catch (IOException ioe) {
             throw new HoodieIOException(ioe.getMessage(), ioe);
           }
diff --git a/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/analysis/HoodieAnalysis.scala b/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/analysis/HoodieAnalysis.scala
index d575e69bc1d32..2ad4295dfdc32 100644
--- a/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/analysis/HoodieAnalysis.scala
+++ b/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/analysis/HoodieAnalysis.scala
@@ -245,7 +245,7 @@ object HoodieAnalysis extends SparkAdapterSupport {
             }
 
           case ut @ UpdateTable(relation @ ResolvesToHudiTable(_), _, _) =>
-            ut.copy(table = projectOutResolvedMetaFieldsAttributes(relation))
+            ut.copy(table = relation)
         }
       }
 
diff --git a/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/UpdateHoodieTableCommand.scala b/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/UpdateHoodieTableCommand.scala
index 3383e56600d20..750a3440d3b7f 100644
--- a/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/UpdateHoodieTableCommand.scala
+++ b/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/UpdateHoodieTableCommand.scala
@@ -17,13 +17,14 @@
 
 package org.apache.spark.sql.hudi.command
 
+import org.apache.hudi.DataSourceWriteOptions.DATASOURCE_WRITE_PREPPED_KEY
 import org.apache.hudi.SparkAdapterSupport
 import org.apache.spark.sql.HoodieCatalystExpressionUtils.attributeEquals
 import org.apache.spark.sql._
 import org.apache.spark.sql.catalyst.catalog.HoodieCatalogTable
 import org.apache.spark.sql.catalyst.expressions.Literal.TrueLiteral
 import org.apache.spark.sql.catalyst.expressions.{Alias, AttributeReference}
-import org.apache.spark.sql.catalyst.plans.logical.{Assignment, Filter, Project, UpdateTable}
+import org.apache.spark.sql.catalyst.plans.logical.{Assignment, Filter, Project, SubqueryAlias, UpdateTable}
 import org.apache.spark.sql.hudi.HoodieSqlCommonUtils._
 import org.apache.spark.sql.hudi.ProvidesHoodieConfig
 
@@ -43,8 +44,7 @@ case class UpdateHoodieTableCommand(ut: UpdateTable) extends HoodieLeafRunnableC
       case Assignment(attr: AttributeReference, value) => attr -> value
     }
 
-    val filteredOutput = removeMetaFields(ut.table.output)
-    val targetExprs = filteredOutput.map { targetAttr =>
+    val targetExprs = ut.table.output.map { targetAttr =>
       // NOTE: [[UpdateTable]] permits partial updates and therefore here we correlate assigned
       //       assigned attributes to the ones of the target table. Ones not being assigned
       //       will simply be carried over (from the old record)
@@ -56,7 +56,10 @@ case class UpdateHoodieTableCommand(ut: UpdateTable) extends HoodieLeafRunnableC
     val condition = ut.condition.getOrElse(TrueLiteral)
     val filteredPlan = Filter(condition, Project(targetExprs, ut.table))
 
-    val config = buildHoodieConfig(catalogTable)
+    var config = buildHoodieConfig(catalogTable)
+
+    // Set config to indicate that this is a prepped write.
+    config = config + (DATASOURCE_WRITE_PREPPED_KEY -> "true")
     val df = Dataset.ofRows(sparkSession, filteredPlan)
 
     df.write.format("hudi")
diff --git a/hudi-spark-datasource/hudi-spark/src/test/java/org/apache/hudi/TestDataSourceUtils.java b/hudi-spark-datasource/hudi-spark/src/test/java/org/apache/hudi/TestDataSourceUtils.java
index fef6e64f14301..ed3976d4f78df 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/java/org/apache/hudi/TestDataSourceUtils.java
+++ b/hudi-spark-datasource/hudi-spark/src/test/java/org/apache/hudi/TestDataSourceUtils.java
@@ -163,7 +163,7 @@ public void testDoWriteOperationWithoutUserDefinedBulkInsertPartitioner() throws
     when(hoodieWriteClient.getConfig()).thenReturn(config);
 
     DataSourceUtils.doWriteOperation(hoodieWriteClient, hoodieRecords, "test-time",
-            WriteOperationType.BULK_INSERT);
+            WriteOperationType.BULK_INSERT, false);
 
     verify(hoodieWriteClient, times(1)).bulkInsert(any(hoodieRecords.getClass()), anyString(),
             optionCaptor.capture());
@@ -176,7 +176,7 @@ public void testDoWriteOperationWithNonExistUserDefinedBulkInsertPartitioner() t
 
     Exception exception = assertThrows(HoodieException.class, () -> {
       DataSourceUtils.doWriteOperation(hoodieWriteClient, hoodieRecords, "test-time",
-              WriteOperationType.BULK_INSERT);
+              WriteOperationType.BULK_INSERT, false);
     });
 
     assertThat(exception.getMessage(), containsString("Could not create UserDefinedBulkInsertPartitioner"));
@@ -187,7 +187,7 @@ public void testDoWriteOperationWithUserDefinedBulkInsertPartitioner() throws Ho
     setAndVerifyHoodieWriteClientWith(NoOpBulkInsertPartitioner.class.getName());
 
     DataSourceUtils.doWriteOperation(hoodieWriteClient, hoodieRecords, "test-time",
-            WriteOperationType.BULK_INSERT);
+            WriteOperationType.BULK_INSERT, false);
 
     verify(hoodieWriteClient, times(1)).bulkInsert(any(hoodieRecords.getClass()), anyString(),
         optionCaptor.capture());
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
index 4fb1555c50ffa..bf305e70a0ee0 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
@@ -238,4 +238,44 @@ class TestUpdateTable extends HoodieSparkSqlTestBase {
       )
     }
   }
+
+//  test("Test Update Table Without Primary Key") {
+//    withRecordType()(withTempDir { tmp =>
+//      Seq("cow", "mor").foreach { tableType =>
+//        val tableName = generateTableName
+//        // create table
+//        spark.sql(
+//          s"""
+//             |create table $tableName (
+//             |  id int,
+//             |  name string,
+//             |  price double,
+//             |  ts long
+//             |) using hudi
+//             | location '${tmp.getCanonicalPath}/$tableName'
+//             | tblproperties (
+//             |  type = '$tableType'
+//             | )
+//     """.stripMargin)
+//
+//        // insert data to table
+//        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
+//        checkAnswer(s"select id, name, price, ts from $tableName")(
+//          Seq(1, "a1", 10.0, 1000)
+//        )
+//
+//        // update data
+//        spark.sql(s"update $tableName set price = 20 where id = 1")
+//        checkAnswer(s"select id, name, price, ts from $tableName")(
+//          Seq(1, "a1", 20.0, 1000)
+//        )
+//
+//        // update data
+//        spark.sql(s"update $tableName set price = price * 2 where id = 1")
+//        checkAnswer(s"select id, name, price, ts from $tableName")(
+//          Seq(1, "a1", 40.0, 1000)
+//        )
+//      }
+//    })
+//  }
 }

From 19d27d60a35441df79f6f327ba2521026c293250 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Sat, 3 Jun 2023 10:15:30 -0700
Subject: [PATCH 02/18] Fix updates on tables without pk using avro records.

---
 .../spark/sql/hudi/ProvidesHoodieConfig.scala |   9 +-
 .../sql/hudi/HoodieSparkSqlTestBase.scala     |   2 +-
 .../spark/sql/hudi/TestUpdateTable.scala      | 224 +-----------------
 3 files changed, 9 insertions(+), 226 deletions(-)

diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala
index a2194feb31b5d..70fbad3dbdf19 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala
@@ -55,8 +55,8 @@ trait ProvidesHoodieConfig extends Logging {
     // TODO(HUDI-3456) clean up
     val preCombineField = Option(tableConfig.getPreCombineField).getOrElse("")
 
-    require(hoodieCatalogTable.primaryKeys.nonEmpty,
-      s"There are no primary key in table ${hoodieCatalogTable.table.identifier}, cannot execute update operator")
+//    require(hoodieCatalogTable.primaryKeys.nonEmpty,
+//      s"There are no primary key in table ${hoodieCatalogTable.table.identifier}, cannot execute update operator")
 
     val hiveSyncConfig = buildHiveSyncConfig(sparkSession, hoodieCatalogTable, tableConfig)
 
@@ -137,6 +137,7 @@ trait ProvidesHoodieConfig extends Logging {
     val isNonStrictMode = insertMode == InsertMode.NON_STRICT
     val isPartitionedTable = hoodieCatalogTable.partitionFields.nonEmpty
     val hasPrecombineColumn = hoodieCatalogTable.preCombineKey.nonEmpty
+    val hasPrimaryKey = hoodieCatalogTable.primaryKeys.nonEmpty
 
     // NOTE: Target operation could be overridden by the user, therefore if it has been provided as an input
     //       we'd prefer that value over auto-deduced operation. Otherwise, we deduce target operation type
@@ -182,8 +183,8 @@ trait ProvidesHoodieConfig extends Logging {
     val defaultOpts = Map(
       PAYLOAD_CLASS_NAME.key -> payloadClassName,
       // NOTE: By default insert would try to do deduplication in case that pre-combine column is specified
-      //       for the table
-      HoodieWriteConfig.COMBINE_BEFORE_INSERT.key -> String.valueOf(hasPrecombineColumn),
+      //       for the table and table has a primary key.
+      HoodieWriteConfig.COMBINE_BEFORE_INSERT.key -> String.valueOf(hasPrimaryKey && hasPrecombineColumn),
       KEYGENERATOR_CLASS_NAME.key -> classOf[SqlKeyGenerator].getCanonicalName,
       SqlKeyGenerator.ORIGINAL_KEYGEN_CLASS_NAME -> keyGeneratorClassName,
       SqlKeyGenerator.PARTITION_SCHEMA -> hoodieCatalogTable.partitionSchema.toDDL,
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
index 804a6c5f63b30..19a3eeb65f492 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
@@ -196,7 +196,7 @@ class HoodieSparkSqlTestBase extends FunSuite with BeforeAndAfterAll {
 
   protected def withRecordType(recordConfig: Map[HoodieRecordType, Map[String, String]]=Map.empty)(f: => Unit) {
     // TODO HUDI-5264 Test parquet log with avro record in spark sql test
-    Seq(HoodieRecordType.AVRO, HoodieRecordType.SPARK).foreach { recordType =>
+    Seq(HoodieRecordType.SPARK).foreach { recordType =>
       val (merger, format) = recordType match {
         case HoodieRecordType.SPARK => (classOf[HoodieSparkRecordMerger].getName, "parquet")
         case _ => (classOf[HoodieAvroRecordMerger].getName, "avro")
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
index bf305e70a0ee0..bfa16984428b6 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
@@ -20,10 +20,9 @@ package org.apache.spark.sql.hudi
 import org.apache.hudi.HoodieSparkUtils.isSpark2
 
 class TestUpdateTable extends HoodieSparkSqlTestBase {
-
-  test("Test Update Table") {
+  test("Test Update Table Without Primary Key") {
     withRecordType()(withTempDir { tmp =>
-      Seq("cow", "mor").foreach {tableType =>
+      Seq("cow").foreach { tableType =>
         val tableName = generateTableName
         // create table
         spark.sql(
@@ -37,10 +36,9 @@ class TestUpdateTable extends HoodieSparkSqlTestBase {
              | location '${tmp.getCanonicalPath}/$tableName'
              | tblproperties (
              |  type = '$tableType',
-             |  primaryKey = 'id',
              |  preCombineField = 'ts'
              | )
-       """.stripMargin)
+     """.stripMargin)
 
         // insert data to table
         spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
@@ -62,220 +60,4 @@ class TestUpdateTable extends HoodieSparkSqlTestBase {
       }
     })
   }
-
-  test("Test Update Table On Non-PK Condition") {
-    withRecordType()(withTempDir { tmp =>
-      Seq("cow", "mor").foreach {tableType =>
-        /** non-partitioned table */
-        val tableName = generateTableName
-        // create table
-        spark.sql(
-          s"""
-             |create table $tableName (
-             |  id int,
-             |  name string,
-             |  price double,
-             |  ts long
-             |) using hudi
-             | location '${tmp.getCanonicalPath}/$tableName'
-             | tblproperties (
-             |  type = '$tableType',
-             |  primaryKey = 'id',
-             |  preCombineField = 'ts'
-             | )
-       """.stripMargin)
-
-        // insert data to table
-        if (isSpark2) {
-          spark.sql(s"insert into $tableName values (1, 'a1', cast(10.0 as double), 1000), (2, 'a2', cast(20.0 as double), 1000)")
-        } else {
-          spark.sql(s"insert into $tableName values (1, 'a1', 10.0, 1000), (2, 'a2', 20.0, 1000)")
-        }
-
-        checkAnswer(s"select id, name, price, ts from $tableName")(
-          Seq(1, "a1", 10.0, 1000),
-          Seq(2, "a2", 20.0, 1000)
-        )
-
-        // update data on non-pk condition
-        spark.sql(s"update $tableName set price = 11.0, ts = 1001 where name = 'a1'")
-        checkAnswer(s"select id, name, price, ts from $tableName")(
-          Seq(1, "a1", 11.0, 1001),
-          Seq(2, "a2", 20.0, 1000)
-        )
-
-        /** partitioned table */
-        val ptTableName = generateTableName + "_pt"
-        // create table
-        spark.sql(
-          s"""
-             |create table $ptTableName (
-             |  id int,
-             |  name string,
-             |  price double,
-             |  ts long,
-             |  pt string
-             |) using hudi
-             | location '${tmp.getCanonicalPath}/$ptTableName'
-             | tblproperties (
-             |  type = '$tableType',
-             |  primaryKey = 'id',
-             |  preCombineField = 'ts'
-             | )
-             | partitioned by (pt)
-          """.stripMargin)
-
-        // insert data to table
-        if (isSpark2) {
-          spark.sql(
-            s"""
-               |insert into $ptTableName
-               |values (1, 'a1', cast(10.0 as double), 1000, "2021"), (2, 'a2', cast(20.0 as double), 1000, "2021"), (3, 'a2', cast(30.0 as double), 1000, "2022")
-               |""".stripMargin)
-        } else {
-          spark.sql(
-            s"""
-               |insert into $ptTableName
-               |values (1, 'a1', 10.0, 1000, "2021"), (2, 'a2', 20.0, 1000, "2021"), (3, 'a2', 30.0, 1000, "2022")
-               |""".stripMargin)
-        }
-
-        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
-          Seq(1, "a1", 10.0, 1000, "2021"),
-          Seq(2, "a2", 20.0, 1000, "2021"),
-          Seq(3, "a2", 30.0, 1000, "2022")
-        )
-
-        // update data on non-pk condition
-        spark.sql(s"update $ptTableName set price = price * 1.1, ts = ts + 1 where name = 'a2'")
-        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
-          Seq(1, "a1", 10.0, 1000, "2021"),
-          Seq(2, "a2", 22.0, 1001, "2021"),
-          Seq(3, "a2", 33.0, 1001, "2022")
-        )
-
-        spark.sql(s"update $ptTableName set price = price + 5, ts = ts + 1 where pt = '2021'")
-        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
-          Seq(1, "a1", 15.0, 1001, "2021"),
-          Seq(2, "a2", 27.0, 1002, "2021"),
-          Seq(3, "a2", 33.0, 1001, "2022")
-        )
-      }
-    })
-  }
-
-  test("Test ignoring case for Update Table") {
-    withRecordType()(withTempDir { tmp =>
-      Seq("cow", "mor").foreach {tableType =>
-        val tableName = generateTableName
-        // create table
-        spark.sql(
-          s"""
-             |create table $tableName (
-             |  ID int,
-             |  NAME string,
-             |  PRICE double,
-             |  TS long
-             |) using hudi
-             | location '${tmp.getCanonicalPath}/$tableName'
-             | options (
-             |  type = '$tableType',
-             |  primaryKey = 'ID',
-             |  preCombineField = 'TS'
-             | )
-       """.stripMargin)
-        // insert data to table
-        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
-        checkAnswer(s"select id, name, price, ts from $tableName")(
-          Seq(1, "a1", 10.0, 1000)
-        )
-
-        // update data
-        spark.sql(s"update $tableName set PRICE = 20 where ID = 1")
-        checkAnswer(s"select id, name, price, ts from $tableName")(
-          Seq(1, "a1", 20.0, 1000)
-        )
-
-        // update data
-        spark.sql(s"update $tableName set PRICE = PRICE * 2 where ID = 1")
-        checkAnswer(s"select id, name, price, ts from $tableName")(
-          Seq(1, "a1", 40.0, 1000)
-        )
-      }
-    })
-  }
-
-  test("Test decimal type") {
-    withTempDir { tmp =>
-      val tableName = generateTableName
-      // create table
-      spark.sql(
-        s"""
-           |create table $tableName (
-           |  id int,
-           |  name string,
-           |  price double,
-           |  ts long,
-           |  ff decimal(38, 10)
-           |) using hudi
-           | location '${tmp.getCanonicalPath}/$tableName'
-           | tblproperties (
-           |  type = 'mor',
-           |  primaryKey = 'id',
-           |  preCombineField = 'ts'
-           | )
-     """.stripMargin)
-
-      // insert data to table
-      spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000, 10.0")
-      checkAnswer(s"select id, name, price, ts from $tableName")(
-        Seq(1, "a1", 10.0, 1000)
-      )
-
-      spark.sql(s"update $tableName set price = 22 where id = 1")
-      checkAnswer(s"select id, name, price, ts from $tableName")(
-        Seq(1, "a1", 22.0, 1000)
-      )
-    }
-  }
-
-//  test("Test Update Table Without Primary Key") {
-//    withRecordType()(withTempDir { tmp =>
-//      Seq("cow", "mor").foreach { tableType =>
-//        val tableName = generateTableName
-//        // create table
-//        spark.sql(
-//          s"""
-//             |create table $tableName (
-//             |  id int,
-//             |  name string,
-//             |  price double,
-//             |  ts long
-//             |) using hudi
-//             | location '${tmp.getCanonicalPath}/$tableName'
-//             | tblproperties (
-//             |  type = '$tableType'
-//             | )
-//     """.stripMargin)
-//
-//        // insert data to table
-//        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
-//        checkAnswer(s"select id, name, price, ts from $tableName")(
-//          Seq(1, "a1", 10.0, 1000)
-//        )
-//
-//        // update data
-//        spark.sql(s"update $tableName set price = 20 where id = 1")
-//        checkAnswer(s"select id, name, price, ts from $tableName")(
-//          Seq(1, "a1", 20.0, 1000)
-//        )
-//
-//        // update data
-//        spark.sql(s"update $tableName set price = price * 2 where id = 1")
-//        checkAnswer(s"select id, name, price, ts from $tableName")(
-//          Seq(1, "a1", 40.0, 1000)
-//        )
-//      }
-//    })
-//  }
 }

From d5a396c852c705d0009568b81a0a9c6875605627 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Sat, 3 Jun 2023 17:07:35 -0700
Subject: [PATCH 03/18] code cleanup.

---
 .../src/main/java/org/apache/hudi/DataSourceUtils.java   | 9 +++++++--
 .../scala/org/apache/hudi/HoodieSparkSqlWriter.scala     | 9 +++------
 2 files changed, 10 insertions(+), 8 deletions(-)

diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
index 25acd26667b81..eefa5ed6cf9cb 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
@@ -248,10 +248,15 @@ public static HoodieRecord createHoodieRecord(GenericRecord gr, Comparable order
     return record;
   }
 
+  // AKL_TODO: check if this change is needed. Also validate change if needed.
   public static HoodieRecord createHoodieRecord(GenericRecord gr, HoodieKey hKey,
-                                                String payloadClass) throws IOException {
+                                                String payloadClass, HoodieRecordLocation recordLocation) throws IOException {
     HoodieRecordPayload payload = DataSourceUtils.createPayload(payloadClass, gr);
-    return new HoodieAvroRecord<>(hKey, payload);
+    HoodieAvroRecord record = new HoodieAvroRecord<>(hKey, payload);
+    if (recordLocation != null) {
+      record.setCurrentLocation(recordLocation);
+    }
+    return record;
   }
 
   /**
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index 506488d6b9d8c..2da78d1473724 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -1191,7 +1191,8 @@ object HoodieSparkSqlWriter {
               DataSourceUtils.createHoodieRecord(processedRecord, orderingVal, hoodieKey,
                 config.getString(PAYLOAD_CLASS_NAME), recordLocation.getOrElse(null))
             } else {
-              DataSourceUtils.createHoodieRecord(processedRecord, hoodieKey, config.getString(PAYLOAD_CLASS_NAME))
+              // AKL_TODO: check if this change is needed.
+              DataSourceUtils.createHoodieRecord(processedRecord, hoodieKey, config.getString(PAYLOAD_CLASS_NAME), recordLocation.getOrElse(null))
             }
             hoodieRecord
           }
@@ -1224,12 +1225,8 @@ object HoodieSparkSqlWriter {
           it.map { sourceRow =>
             val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getKeyAndLocatorFromSparkRecord(sparkKeyGenerator, sourceRow, sourceStructType)
 
-            val recordKey = sparkKeyGenerator.getRecordKey(sourceRow, sourceStructType)
-            val partitionPath = sparkKeyGenerator.getPartitionPath(sourceRow, sourceStructType)
-            val key = new HoodieKey(recordKey.toString, partitionPath.toString)
             val finalRow = finalStructTypeRowWriter(sourceRow)
-
-            var hoodieSparkRecord = new HoodieSparkRecord(key, finalRow, dataFileStructType, false)
+            var hoodieSparkRecord = new HoodieSparkRecord(hoodieKey, finalRow, dataFileStructType, false)
             if (recordLocation.getOrElse(null) != null) {
               hoodieSparkRecord.setCurrentLocation(recordLocation.get)
             }

From ee7b3f02b16416c4f0e4b5c24bbebb3f75b72d8a Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Sat, 3 Jun 2023 17:59:56 -0700
Subject: [PATCH 04/18] fix getKeyAndLocatorFromAvroRecord and
 getKeyAndLocatorFromSparkRecord.

---
 .../apache/hudi/HoodieSparkSqlWriter.scala    | 35 ++++++++++++-------
 .../spark/sql/hudi/ProvidesHoodieConfig.scala |  5 ++-
 2 files changed, 27 insertions(+), 13 deletions(-)

diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index 2da78d1473724..8207808024bd8 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -1171,7 +1171,8 @@ object HoodieSparkSqlWriter {
 
           // handle dropping partition columns
           it.map { avroRec =>
-            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getKeyAndLocatorFromAvroRecord(keyGenerator, avroRec)
+            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getKeyAndLocatorFromAvroRecord(keyGenerator, avroRec,
+              isPrepped)
 
             val avroRecWithoutMeta: GenericRecord = if (isPrepped) {
               HoodieAvroUtils.rewriteRecord(avroRec, HoodieAvroUtils.removeMetadataFields(dataFileSchema))
@@ -1223,7 +1224,7 @@ object HoodieSparkSqlWriter {
           val finalStructTypeRowWriter = getCachedUnsafeRowWriter(sourceStructType, finalStructType)
 
           it.map { sourceRow =>
-            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getKeyAndLocatorFromSparkRecord(sparkKeyGenerator, sourceRow, sourceStructType)
+            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getKeyAndLocatorFromSparkRecord(sparkKeyGenerator, sourceRow, sourceStructType, isPrepped)
 
             val finalRow = finalStructTypeRowWriter(sourceRow)
             var hoodieSparkRecord = new HoodieSparkRecord(hoodieKey, finalRow, dataFileStructType, false)
@@ -1236,22 +1237,31 @@ object HoodieSparkSqlWriter {
     }
   }
 
-  private def getKeyAndLocatorFromAvroRecord(keyGenerator: BaseKeyGenerator, avroRec: GenericRecord): (HoodieKey, Option[HoodieRecordLocation]) = {
-    val recordKey = if (avroRec.get("_hoodie_record_key") != null) {
+  private def getKeyAndLocatorFromAvroRecord(keyGenerator: BaseKeyGenerator, avroRec: GenericRecord,
+                                             isPrepped: Boolean): (HoodieKey, Option[HoodieRecordLocation]) = {
+    val recordKey = if (isPrepped) {
       avroRec.get("_hoodie_record_key").toString
     } else {
       keyGenerator.getRecordKey(avroRec)
     };
 
-    val partitionPath = if (avroRec.get("_hoodie_partition_path") != null) {
+    val partitionPath = if (isPrepped) {
       avroRec.get("_hoodie_partition_path").toString
     } else {
       keyGenerator.getPartitionPath(avroRec)
     };
 
     val hoodieKey = new HoodieKey(recordKey, partitionPath)
-    val instantTime: Option[String] = Option(avroRec.get("_hoodie_commit_time")).map(_.toString)
-    val fileName: Option[String] = Option(avroRec.get("_hoodie_file_name")).map(_.toString)
+    val instantTime: Option[String] = if (isPrepped) {
+      Option(avroRec.get("_hoodie_commit_time")).map(_.toString) }
+    else {
+      None
+    }
+    val fileName: Option[String] = if (isPrepped) {
+      Option(avroRec.get("_hoodie_file_name")).map(_.toString) }
+    else {
+      None
+    }
     val recordLocation: Option[HoodieRecordLocation] = if (instantTime.isDefined && fileName.isDefined) {
       val fileId = FSUtils.getFileId(fileName.get)
       Some(new HoodieRecordLocation(instantTime.get, fileId))
@@ -1261,7 +1271,8 @@ object HoodieSparkSqlWriter {
     (hoodieKey, recordLocation)
   }
 
-  private def getKeyAndLocatorFromSparkRecord(sparkKeyGenerator: SparkKeyGeneratorInterface, sourceRow: InternalRow, schema: StructType): (HoodieKey, Option[HoodieRecordLocation]) = {
+  private def getKeyAndLocatorFromSparkRecord(sparkKeyGenerator: SparkKeyGeneratorInterface, sourceRow: InternalRow,
+                                              schema: StructType, isPrepped: Boolean): (HoodieKey, Option[HoodieRecordLocation]) = {
     def getFieldIndex(fieldName: String): Int = {
       if (schema.fieldNames.contains(fieldName)) {
         schema.fieldIndex(fieldName)
@@ -1271,28 +1282,28 @@ object HoodieSparkSqlWriter {
     }
 
     val hoodieRecordKeyIndex = getFieldIndex("_hoodie_record_key")
-    val recordKey = if (hoodieRecordKeyIndex != -1 && !sourceRow.isNullAt(hoodieRecordKeyIndex)) {
+    val recordKey = if (isPrepped && hoodieRecordKeyIndex != -1 && !sourceRow.isNullAt(hoodieRecordKeyIndex)) {
       sourceRow.getString(hoodieRecordKeyIndex);
     } else {
       sparkKeyGenerator.getRecordKey(sourceRow, schema).toString
     }
 
     val hoodiePartitionPathIndex = getFieldIndex("_hoodie_partition_path")
-    val partitionPath = if (hoodiePartitionPathIndex != -1 && !sourceRow.isNullAt(hoodiePartitionPathIndex)) {
+    val partitionPath = if (isPrepped && hoodiePartitionPathIndex != -1 && !sourceRow.isNullAt(hoodiePartitionPathIndex)) {
       sourceRow.getString(hoodieRecordKeyIndex)
     } else {
       sparkKeyGenerator.getPartitionPath(sourceRow, schema).toString
     };
 
     val commitTimeIndex = getFieldIndex("_hoodie_commit_time")
-    val instantTime: Option[String] = if (commitTimeIndex != -1) {
+    val instantTime: Option[String] = if (isPrepped && commitTimeIndex != -1) {
       Option(sourceRow.getString(commitTimeIndex))
     } else {
       None
     }
 
     val fileNameIndex = getFieldIndex("_hoodie_file_name")
-    val fileName: Option[String] = if (fileNameIndex != -1) {
+    val fileName: Option[String] = if (isPrepped && fileNameIndex != -1) {
       Option(sourceRow.getString(fileNameIndex))
     } else {
       None
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala
index 70fbad3dbdf19..95782ae05967a 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala
@@ -111,7 +111,7 @@ trait ProvidesHoodieConfig extends Logging {
     val tableType = hoodieCatalogTable.tableTypeName
     val tableConfig = hoodieCatalogTable.tableConfig
 
-    val combinedOpts: Map[String, String] = combineOptions(hoodieCatalogTable, tableConfig, sparkSession.sqlContext.conf,
+    var combinedOpts: Map[String, String] = combineOptions(hoodieCatalogTable, tableConfig, sparkSession.sqlContext.conf,
       defaultOpts = Map.empty, overridingOpts = extraOptions)
     val hiveSyncConfig = buildHiveSyncConfig(sparkSession, hoodieCatalogTable, tableConfig, extraOptions)
 
@@ -138,6 +138,9 @@ trait ProvidesHoodieConfig extends Logging {
     val isPartitionedTable = hoodieCatalogTable.partitionFields.nonEmpty
     val hasPrecombineColumn = hoodieCatalogTable.preCombineKey.nonEmpty
     val hasPrimaryKey = hoodieCatalogTable.primaryKeys.nonEmpty
+    if (hoodieCatalogTable.primaryKeys.length == 0) { // auto generation or record keys
+      combinedOpts += DataSourceWriteOptions.OPERATION.key -> "insert"
+    }
 
     // NOTE: Target operation could be overridden by the user, therefore if it has been provided as an input
     //       we'd prefer that value over auto-deduced operation. Otherwise, we deduce target operation type

From 8d5fe32496035b2eb53102114664022d58c49e45 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Sat, 3 Jun 2023 18:41:45 -0700
Subject: [PATCH 05/18] Enable all test cases in TestUpdateTable.scala

---
 .../apache/hudi/HoodieSparkSqlWriter.scala    |   2 +-
 .../sql/hudi/HoodieSparkSqlTestBase.scala     |   2 +-
 .../spark/sql/hudi/TestUpdateTable.scala      | 221 +++++++++++++++++-
 3 files changed, 222 insertions(+), 3 deletions(-)

diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index 8207808024bd8..7d94f7536cfe0 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -1290,7 +1290,7 @@ object HoodieSparkSqlWriter {
 
     val hoodiePartitionPathIndex = getFieldIndex("_hoodie_partition_path")
     val partitionPath = if (isPrepped && hoodiePartitionPathIndex != -1 && !sourceRow.isNullAt(hoodiePartitionPathIndex)) {
-      sourceRow.getString(hoodieRecordKeyIndex)
+      sourceRow.getString(hoodiePartitionPathIndex)
     } else {
       sparkKeyGenerator.getPartitionPath(sourceRow, schema).toString
     };
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
index 19a3eeb65f492..804a6c5f63b30 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
@@ -196,7 +196,7 @@ class HoodieSparkSqlTestBase extends FunSuite with BeforeAndAfterAll {
 
   protected def withRecordType(recordConfig: Map[HoodieRecordType, Map[String, String]]=Map.empty)(f: => Unit) {
     // TODO HUDI-5264 Test parquet log with avro record in spark sql test
-    Seq(HoodieRecordType.SPARK).foreach { recordType =>
+    Seq(HoodieRecordType.AVRO, HoodieRecordType.SPARK).foreach { recordType =>
       val (merger, format) = recordType match {
         case HoodieRecordType.SPARK => (classOf[HoodieSparkRecordMerger].getName, "parquet")
         case _ => (classOf[HoodieAvroRecordMerger].getName, "avro")
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
index bfa16984428b6..4245f2f7aaf30 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
@@ -20,9 +20,52 @@ package org.apache.spark.sql.hudi
 import org.apache.hudi.HoodieSparkUtils.isSpark2
 
 class TestUpdateTable extends HoodieSparkSqlTestBase {
+
+  test("Test Update Table") {
+    withRecordType()(withTempDir { tmp =>
+      Seq("cow", "mor").foreach { tableType =>
+        val tableName = generateTableName
+        // create table
+        spark.sql(
+          s"""
+             |create table $tableName (
+             |  id int,
+             |  name string,
+             |  price double,
+             |  ts long
+             |) using hudi
+             | location '${tmp.getCanonicalPath}/$tableName'
+             | tblproperties (
+             |  type = '$tableType',
+             |  primaryKey = 'id',
+             |  preCombineField = 'ts'
+             | )
+       """.stripMargin)
+
+        // insert data to table
+        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 10.0, 1000)
+        )
+
+        // update data
+        spark.sql(s"update $tableName set price = 20 where id = 1")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 20.0, 1000)
+        )
+
+        // update data
+        spark.sql(s"update $tableName set price = price * 2 where id = 1")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 40.0, 1000)
+        )
+      }
+    })
+  }
+
   test("Test Update Table Without Primary Key") {
     withRecordType()(withTempDir { tmp =>
-      Seq("cow").foreach { tableType =>
+      Seq("cow", "mor").foreach { tableType =>
         val tableName = generateTableName
         // create table
         spark.sql(
@@ -60,4 +103,180 @@ class TestUpdateTable extends HoodieSparkSqlTestBase {
       }
     })
   }
+
+  test("Test Update Table On Non-PK Condition") {
+    withRecordType()(withTempDir { tmp =>
+      Seq("cow", "mor").foreach {tableType =>
+        /** non-partitioned table */
+        val tableName = generateTableName
+        // create table
+        spark.sql(
+          s"""
+             |create table $tableName (
+             |  id int,
+             |  name string,
+             |  price double,
+             |  ts long
+             |) using hudi
+             | location '${tmp.getCanonicalPath}/$tableName'
+             | tblproperties (
+             |  type = '$tableType',
+             |  primaryKey = 'id',
+             |  preCombineField = 'ts'
+             | )
+       """.stripMargin)
+
+        // insert data to table
+        if (isSpark2) {
+          spark.sql(s"insert into $tableName values (1, 'a1', cast(10.0 as double), 1000), (2, 'a2', cast(20.0 as double), 1000)")
+        } else {
+          spark.sql(s"insert into $tableName values (1, 'a1', 10.0, 1000), (2, 'a2', 20.0, 1000)")
+        }
+
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 10.0, 1000),
+          Seq(2, "a2", 20.0, 1000)
+        )
+
+        // update data on non-pk condition
+        spark.sql(s"update $tableName set price = 11.0, ts = 1001 where name = 'a1'")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 11.0, 1001),
+          Seq(2, "a2", 20.0, 1000)
+        )
+
+        /** partitioned table */
+        val ptTableName = generateTableName + "_pt"
+        // create table
+        spark.sql(
+          s"""
+             |create table $ptTableName (
+             |  id int,
+             |  name string,
+             |  price double,
+             |  ts long,
+             |  pt string
+             |) using hudi
+             | location '${tmp.getCanonicalPath}/$ptTableName'
+             | tblproperties (
+             |  type = '$tableType',
+             |  primaryKey = 'id',
+             |  preCombineField = 'ts'
+             | )
+             | partitioned by (pt)
+          """.stripMargin)
+
+        // insert data to table
+        if (isSpark2) {
+          spark.sql(
+            s"""
+               |insert into $ptTableName
+               |values (1, 'a1', cast(10.0 as double), 1000, "2021"), (2, 'a2', cast(20.0 as double), 1000, "2021"), (3, 'a2', cast(30.0 as double), 1000, "2022")
+               |""".stripMargin)
+        } else {
+          spark.sql(
+            s"""
+               |insert into $ptTableName
+               |values (1, 'a1', 10.0, 1000, "2021"), (2, 'a2', 20.0, 1000, "2021"), (3, 'a2', 30.0, 1000, "2022")
+               |""".stripMargin)
+        }
+
+        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
+          Seq(1, "a1", 10.0, 1000, "2021"),
+          Seq(2, "a2", 20.0, 1000, "2021"),
+          Seq(3, "a2", 30.0, 1000, "2022")
+        )
+
+        // update data on non-pk condition
+        spark.sql(s"update $ptTableName set price = price * 1.1, ts = ts + 1 where name = 'a2'")
+        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
+          Seq(1, "a1", 10.0, 1000, "2021"),
+          Seq(2, "a2", 22.0, 1001, "2021"),
+          Seq(3, "a2", 33.0, 1001, "2022")
+        )
+
+        spark.sql(s"update $ptTableName set price = price + 5, ts = ts + 1 where pt = '2021'")
+        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
+          Seq(1, "a1", 15.0, 1001, "2021"),
+          Seq(2, "a2", 27.0, 1002, "2021"),
+          Seq(3, "a2", 33.0, 1001, "2022")
+        )
+      }
+    })
+  }
+
+  test("Test ignoring case for Update Table") {
+    withRecordType()(withTempDir { tmp =>
+      Seq("cow", "mor").foreach {tableType =>
+        val tableName = generateTableName
+        // create table
+        spark.sql(
+          s"""
+             |create table $tableName (
+             |  ID int,
+             |  NAME string,
+             |  PRICE double,
+             |  TS long
+             |) using hudi
+             | location '${tmp.getCanonicalPath}/$tableName'
+             | options (
+             |  type = '$tableType',
+             |  primaryKey = 'ID',
+             |  preCombineField = 'TS'
+             | )
+       """.stripMargin)
+        // insert data to table
+        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 10.0, 1000)
+        )
+
+        // update data
+        spark.sql(s"update $tableName set PRICE = 20 where ID = 1")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 20.0, 1000)
+        )
+
+        // update data
+        spark.sql(s"update $tableName set PRICE = PRICE * 2 where ID = 1")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 40.0, 1000)
+        )
+      }
+    })
+  }
+
+  test("Test decimal type") {
+    withTempDir { tmp =>
+      val tableName = generateTableName
+      // create table
+      spark.sql(
+        s"""
+           |create table $tableName (
+           |  id int,
+           |  name string,
+           |  price double,
+           |  ts long,
+           |  ff decimal(38, 10)
+           |) using hudi
+           | location '${tmp.getCanonicalPath}/$tableName'
+           | tblproperties (
+           |  type = 'mor',
+           |  primaryKey = 'id',
+           |  preCombineField = 'ts'
+           | )
+     """.stripMargin)
+
+      // insert data to table
+      spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000, 10.0")
+      checkAnswer(s"select id, name, price, ts from $tableName")(
+        Seq(1, "a1", 10.0, 1000)
+      )
+
+      spark.sql(s"update $tableName set price = 22 where id = 1")
+      checkAnswer(s"select id, name, price, ts from $tableName")(
+        Seq(1, "a1", 22.0, 1000)
+      )
+    }
+  }
 }

From 5a4855125e1b73de61b002af3b5207845f4a78c9 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Mon, 5 Jun 2023 08:31:53 -0700
Subject: [PATCH 06/18] Rebuild


From 93a56230e20396df6b100d888d62246fb83d0cc3 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Thu, 8 Jun 2023 09:34:10 -0700
Subject: [PATCH 07/18] Apply Siva's patch to fix 'Partitioned/Non-partitioned
 Hoodie Table' test cases.

---
 .../org/apache/hudi/common/model/WriteOperationType.java    | 2 ++
 .../main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala   | 6 +++---
 2 files changed, 5 insertions(+), 3 deletions(-)

diff --git a/hudi-common/src/main/java/org/apache/hudi/common/model/WriteOperationType.java b/hudi-common/src/main/java/org/apache/hudi/common/model/WriteOperationType.java
index d4574891fda57..0a5c22f8c5d89 100644
--- a/hudi-common/src/main/java/org/apache/hudi/common/model/WriteOperationType.java
+++ b/hudi-common/src/main/java/org/apache/hudi/common/model/WriteOperationType.java
@@ -37,6 +37,7 @@ public enum WriteOperationType {
   BULK_INSERT_PREPPED("bulk_insert_prepped"),
   // delete
   DELETE("delete"),
+  DELETE_PREPPED("delete_prepped"),
   BOOTSTRAP("bootstrap"),
   // insert overwrite with static partitioning
   INSERT_OVERWRITE("insert_overwrite"),
@@ -126,6 +127,7 @@ public static boolean isOverwrite(WriteOperationType operationType) {
   public static boolean isDataChange(WriteOperationType operation) {
     return operation == WriteOperationType.INSERT
         || operation == WriteOperationType.UPSERT
+        || operation == WriteOperationType.UPSERT_PREPPED
         || operation == WriteOperationType.DELETE
         || operation == WriteOperationType.BULK_INSERT
         || operation == WriteOperationType.DELETE_PARTITION
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index 7d94f7536cfe0..04d6f8a2f4a07 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -1128,18 +1128,18 @@ object HoodieSparkSqlWriter {
     val recordType = config.getRecordMerger.getRecordType
     val autoGenerateRecordKeys : Boolean = !parameters.containsKey(KeyGeneratorOptions.RECORDKEY_FIELD_NAME.key());
 
-    val shouldCombine = if (WriteOperationType.isInsert(operation)) {
+    val shouldCombine = if (!isPrepped && WriteOperationType.isInsert(operation)) {
       parameters(INSERT_DROP_DUPS.key()).toBoolean ||
         parameters.getOrElse(
             HoodieWriteConfig.COMBINE_BEFORE_INSERT.key(),
             HoodieWriteConfig.COMBINE_BEFORE_INSERT.defaultValue()
           ).toBoolean
-    } else if (WriteOperationType.isUpsert(operation)) {
+    } else if (!isPrepped && WriteOperationType.isUpsert(operation)) {
       parameters.getOrElse(
           HoodieWriteConfig.COMBINE_BEFORE_UPSERT.key(),
           HoodieWriteConfig.COMBINE_BEFORE_UPSERT.defaultValue()
         ).toBoolean
-    } else {true}
+    } else {!isPrepped}
 
     // NOTE: Avro's [[Schema]] can't be effectively serialized by JVM native serialization framework
     //       (due to containing cyclic refs), therefore we have to convert it to string before

From d1320afc8009969104b4841d3f24b5613fe89dc2 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Thu, 8 Jun 2023 09:36:15 -0700
Subject: [PATCH 08/18] Apply Siva's patch to fix 'Partitioned/Non-partitioned
 Hoodie Table' test cases.

---
 .../java/org/apache/hudi/common/model/WriteOperationType.java    | 1 -
 1 file changed, 1 deletion(-)

diff --git a/hudi-common/src/main/java/org/apache/hudi/common/model/WriteOperationType.java b/hudi-common/src/main/java/org/apache/hudi/common/model/WriteOperationType.java
index 0a5c22f8c5d89..cead7dc8f92d0 100644
--- a/hudi-common/src/main/java/org/apache/hudi/common/model/WriteOperationType.java
+++ b/hudi-common/src/main/java/org/apache/hudi/common/model/WriteOperationType.java
@@ -37,7 +37,6 @@ public enum WriteOperationType {
   BULK_INSERT_PREPPED("bulk_insert_prepped"),
   // delete
   DELETE("delete"),
-  DELETE_PREPPED("delete_prepped"),
   BOOTSTRAP("bootstrap"),
   // insert overwrite with static partitioning
   INSERT_OVERWRITE("insert_overwrite"),

From f71758d678ca8cdde2fbc61e82a64f7cdcd8cb2b Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Thu, 8 Jun 2023 14:26:22 -0700
Subject: [PATCH 09/18] delete prepped operation.

---
 .../hudi/client/BaseHoodieWriteClient.java    |  10 +
 .../org/apache/hudi/table/HoodieTable.java    |  13 +
 .../action/commit/HoodieDeleteHelper.java     |   8 +-
 .../hudi/client/HoodieFlinkWriteClient.java   |   6 +
 .../table/HoodieFlinkCopyOnWriteTable.java    |   6 +
 .../hudi/client/HoodieJavaWriteClient.java    |   6 +
 .../table/HoodieJavaCopyOnWriteTable.java     |   7 +
 .../hudi/client/SparkRDDWriteClient.java      |   9 +
 .../table/HoodieSparkCopyOnWriteTable.java    |   6 +
 .../table/HoodieSparkMergeOnReadTable.java    |   7 +
 ...parkDeletePreppedCommitActionExecutor.java |  44 ++
 .../java/org/apache/hudi/DataSourceUtils.java |  19 +-
 .../apache/hudi/HoodieSparkSqlWriter.scala    |   8 +-
 .../command/DeleteHoodieTableCommand.scala    |  10 +-
 .../spark/sql/hudi/TestDeleteTable.scala      | 386 +++++++++---------
 15 files changed, 341 insertions(+), 204 deletions(-)
 create mode 100644 hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java

diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java
index 7f39cf41d7548..e313d1a18d971 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java
@@ -484,6 +484,16 @@ public abstract O bulkInsertPreppedRecords(I preppedRecords, final String instan
    */
   public abstract O delete(K keys, final String instantTime);
 
+  /**
+   * Deletes records from a Hoodie table based on {@link HoodieKey} and {@link HoodieRecordLocation} specified in the
+   * input records.
+   *
+   * @param preppedRecords     Empty records with keys and locators.
+   * @param instantTime Commit time handle
+   * @return Collection of WriteStatus to inspect errors and counts
+   */
+  public abstract O deletePrepped(I preppedRecords, final String instantTime);
+
   /**
    * Common method containing steps to be performed before write (upsert/insert/...
    * @param instantTime
diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
index f7be97e8f8804..5e03890ca400b 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
@@ -31,9 +31,11 @@
 import org.apache.hudi.avro.model.HoodieRollbackMetadata;
 import org.apache.hudi.avro.model.HoodieRollbackPlan;
 import org.apache.hudi.avro.model.HoodieSavepointMetadata;
+import org.apache.hudi.client.WriteStatus;
 import org.apache.hudi.common.HoodiePendingRollbackInfo;
 import org.apache.hudi.common.config.HoodieMetadataConfig;
 import org.apache.hudi.common.config.SerializableConfiguration;
+import org.apache.hudi.common.data.HoodieData;
 import org.apache.hudi.common.engine.HoodieEngineContext;
 import org.apache.hudi.common.engine.HoodieLocalEngineContext;
 import org.apache.hudi.common.engine.TaskContextSupplier;
@@ -219,6 +221,17 @@ public abstract HoodieWriteMetadata<O> bulkInsert(HoodieEngineContext context, S
    */
   public abstract HoodieWriteMetadata<O> delete(HoodieEngineContext context, String instantTime, K keys);
 
+  /**
+   * Delete records from Hoodie table, with same keys as that specified in input records, at the supplied instantTime. {@link HoodieKey}s
+   * will be de-duped and non-existent keys will be removed before deleting.
+   *
+   * @param context    HoodieEngineContext
+   * @param instantTime Instant Time for the action
+   * @param preppedRecords  hoodieRecords to be deleted based on record key.
+   * @return HoodieWriteMetadata
+   */
+  public abstract HoodieWriteMetadata<HoodieData<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, I preppedRecords);
+
   /**
    * Deletes all data of partitions.
    * @param context    HoodieEngineContext
diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
index 63899a4e40bcc..1f94a66fff829 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
@@ -91,9 +91,15 @@ public HoodieWriteMetadata<HoodieData<WriteStatus>> execute(String instantTime,
 
       HoodieData dedupedRecords = createDeleteRecords(config, dedupedKeys);
 
+      boolean isPrepped = config.getBooleanOrDefault("_hoodie.datasource.write.prepped", false);
       Instant beginTag = Instant.now();
       // perform index loop up to get existing location of records
-      HoodieData<HoodieRecord<T>> taggedRecords = table.getIndex().tagLocation(dedupedRecords, context, table);
+      HoodieData<HoodieRecord<T>> taggedRecords = null;
+      if (isPrepped) {
+        taggedRecords = table.getIndex().tagLocation(dedupedRecords, context, table);
+      } else {
+        taggedRecords = table.getIndex().tagLocation(dedupedRecords, context, table);
+      }
       Duration tagLocationDuration = Duration.between(beginTag, Instant.now());
 
       // filter out non existent keys/records
diff --git a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/client/HoodieFlinkWriteClient.java b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/client/HoodieFlinkWriteClient.java
index 3eeffc3943e16..2436fea6a93fa 100644
--- a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/client/HoodieFlinkWriteClient.java
+++ b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/client/HoodieFlinkWriteClient.java
@@ -258,6 +258,12 @@ public List<WriteStatus> delete(List<HoodieKey> keys, String instantTime) {
     return postWrite(result, instantTime, table);
   }
 
+  @Override
+  public List<WriteStatus> deletePrepped(List<HoodieRecord<T>> preppedRecords, final String instantTime) {
+    // AKL_TODO: Does this function need to be implemented?
+    throw new HoodieNotSupportedException("DeletePrepped operation is not supported yet");
+  }
+
   public List<WriteStatus> deletePartitions(List<String> partitions, String instantTime) {
     HoodieTable<T, List<HoodieRecord<T>>, List<HoodieKey>, List<WriteStatus>> table =
         initTable(WriteOperationType.DELETE_PARTITION, Option.ofNullable(instantTime));
diff --git a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/HoodieFlinkCopyOnWriteTable.java b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/HoodieFlinkCopyOnWriteTable.java
index cb046e2e91fee..278a6b1a2d728 100644
--- a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/HoodieFlinkCopyOnWriteTable.java
+++ b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/HoodieFlinkCopyOnWriteTable.java
@@ -31,6 +31,7 @@
 import org.apache.hudi.avro.model.HoodieSavepointMetadata;
 import org.apache.hudi.client.WriteStatus;
 import org.apache.hudi.common.config.TypedProperties;
+import org.apache.hudi.common.data.HoodieData;
 import org.apache.hudi.common.engine.HoodieEngineContext;
 import org.apache.hudi.common.model.HoodieBaseFile;
 import org.apache.hudi.common.model.HoodieKey;
@@ -235,6 +236,11 @@ public HoodieWriteMetadata<List<WriteStatus>> delete(HoodieEngineContext context
     throw new HoodieNotSupportedException("This method should not be invoked");
   }
 
+  @Override
+  public HoodieWriteMetadata<HoodieData<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, List<HoodieRecord<T>> preppedRecords) {
+    throw new HoodieNotSupportedException("This method should not be invoked");
+  }
+
   @Override
   public HoodieWriteMetadata<List<WriteStatus>> deletePartitions(HoodieEngineContext context, String instantTime, List<String> partitions) {
     return new FlinkDeletePartitionCommitActionExecutor<>(context, config, this, instantTime, partitions).execute();
diff --git a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/client/HoodieJavaWriteClient.java b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/client/HoodieJavaWriteClient.java
index 997dd5d84e361..9566075a4679c 100644
--- a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/client/HoodieJavaWriteClient.java
+++ b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/client/HoodieJavaWriteClient.java
@@ -192,6 +192,12 @@ public List<WriteStatus> delete(List<HoodieKey> keys,
     return postWrite(result, instantTime, table);
   }
 
+  @Override
+  public List<WriteStatus> deletePrepped(List<HoodieRecord<T>> preppedRecords, final String instantTime) {
+    // AKL_TODO: Does this function need to be implemented?
+    throw new HoodieNotSupportedException("DeletePrepped operation is not supported yet");
+  }
+
   @Override
   protected List<WriteStatus> postWrite(HoodieWriteMetadata<List<WriteStatus>> result,
                                         String instantTime,
diff --git a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/HoodieJavaCopyOnWriteTable.java b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/HoodieJavaCopyOnWriteTable.java
index 5431bfd0c4ff8..2feb6c4efd23e 100644
--- a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/HoodieJavaCopyOnWriteTable.java
+++ b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/HoodieJavaCopyOnWriteTable.java
@@ -31,6 +31,7 @@
 import org.apache.hudi.avro.model.HoodieSavepointMetadata;
 import org.apache.hudi.client.WriteStatus;
 import org.apache.hudi.client.common.HoodieJavaEngineContext;
+import org.apache.hudi.common.data.HoodieData;
 import org.apache.hudi.common.engine.HoodieEngineContext;
 import org.apache.hudi.common.model.HoodieBaseFile;
 import org.apache.hudi.common.model.HoodieKey;
@@ -120,6 +121,12 @@ public HoodieWriteMetadata<List<WriteStatus>> delete(HoodieEngineContext context
     return new JavaDeleteCommitActionExecutor<>(context, config, this, instantTime, keys).execute();
   }
 
+  @Override
+  public HoodieWriteMetadata<HoodieData<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, List<HoodieRecord<T>> preppedRecords) {
+    // AKL_TODO: Does this method need to be implemented?
+    throw new HoodieNotSupportedException("This method should not be invoked");
+  }
+
   @Override
   public HoodieWriteMetadata deletePartitions(HoodieEngineContext context, String instantTime, List<String> partitions) {
     throw new HoodieNotSupportedException("Delete partitions is not supported yet");
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/SparkRDDWriteClient.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/SparkRDDWriteClient.java
index ba1f5e4919481..d7019dd0e3d84 100644
--- a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/SparkRDDWriteClient.java
+++ b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/client/SparkRDDWriteClient.java
@@ -246,6 +246,15 @@ public JavaRDD<WriteStatus> delete(JavaRDD<HoodieKey> keys, String instantTime)
     return postWrite(resultRDD, instantTime, table);
   }
 
+  @Override
+  public JavaRDD<WriteStatus> deletePrepped(JavaRDD<HoodieRecord<T>> preppedRecord, String instantTime) {
+    HoodieTable<T, HoodieData<HoodieRecord<T>>, HoodieData<HoodieKey>, HoodieData<WriteStatus>> table = initTable(WriteOperationType.DELETE, Option.ofNullable(instantTime));
+    preWrite(instantTime, WriteOperationType.DELETE, table.getMetaClient());
+    HoodieWriteMetadata<HoodieData<WriteStatus>> result = table.deletePrepped(context,instantTime, HoodieJavaRDD.of(preppedRecord));
+    HoodieWriteMetadata<JavaRDD<WriteStatus>> resultRDD = result.clone(HoodieJavaRDD.getJavaRDD(result.getWriteStatuses()));
+    return postWrite(resultRDD, instantTime, table);
+  }
+
   public HoodieWriteResult deletePartitions(List<String> partitions, String instantTime) {
     HoodieTable<T, HoodieData<HoodieRecord<T>>, HoodieData<HoodieKey>, HoodieData<WriteStatus>> table = initTable(WriteOperationType.DELETE_PARTITION, Option.ofNullable(instantTime));
     preWrite(instantTime, WriteOperationType.DELETE_PARTITION, table.getMetaClient());
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkCopyOnWriteTable.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkCopyOnWriteTable.java
index b8be53eeaf999..e3d8012755dbf 100644
--- a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkCopyOnWriteTable.java
+++ b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkCopyOnWriteTable.java
@@ -64,6 +64,7 @@
 import org.apache.hudi.table.action.commit.SparkBulkInsertPreppedCommitActionExecutor;
 import org.apache.hudi.table.action.commit.SparkDeleteCommitActionExecutor;
 import org.apache.hudi.table.action.commit.SparkDeletePartitionCommitActionExecutor;
+import org.apache.hudi.table.action.commit.SparkDeletePreppedCommitActionExecutor;
 import org.apache.hudi.table.action.commit.SparkInsertCommitActionExecutor;
 import org.apache.hudi.table.action.commit.SparkInsertOverwriteCommitActionExecutor;
 import org.apache.hudi.table.action.commit.SparkInsertOverwriteTableCommitActionExecutor;
@@ -126,6 +127,11 @@ public HoodieWriteMetadata<HoodieData<WriteStatus>> delete(HoodieEngineContext c
     return new SparkDeleteCommitActionExecutor<>((HoodieSparkEngineContext) context, config, this, instantTime, keys).execute();
   }
 
+  @Override
+  public HoodieWriteMetadata<HoodieData<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, HoodieData<HoodieRecord<T>> preppedRecords) {
+    return new SparkDeletePreppedCommitActionExecutor<>((HoodieSparkEngineContext) context, config, this, instantTime, preppedRecords).execute();
+  }
+
   @Override
   public HoodieWriteMetadata<HoodieData<WriteStatus>> deletePartitions(HoodieEngineContext context, String instantTime, List<String> partitions) {
     return new SparkDeletePartitionCommitActionExecutor<>(context, config, this, instantTime, partitions).execute();
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkMergeOnReadTable.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkMergeOnReadTable.java
index 32ded27040612..c8f62a7016066 100644
--- a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkMergeOnReadTable.java
+++ b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkMergeOnReadTable.java
@@ -37,6 +37,7 @@
 import org.apache.hudi.common.util.Option;
 import org.apache.hudi.config.HoodieWriteConfig;
 import org.apache.hudi.exception.HoodieIOException;
+import org.apache.hudi.exception.HoodieNotSupportedException;
 import org.apache.hudi.io.HoodieAppendHandle;
 import org.apache.hudi.table.action.HoodieWriteMetadata;
 import org.apache.hudi.table.action.bootstrap.HoodieBootstrapWriteMetadata;
@@ -105,6 +106,12 @@ public HoodieWriteMetadata<HoodieData<WriteStatus>> delete(HoodieEngineContext c
     return new SparkDeleteDeltaCommitActionExecutor<>((HoodieSparkEngineContext) context, config, this, instantTime, keys).execute();
   }
 
+  @Override
+  public HoodieWriteMetadata<HoodieData<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, HoodieData<HoodieRecord<T>> preppedRecords) {
+    // AKL_TODO: Does this method need to be implemented?
+    throw new HoodieNotSupportedException("This method should not be invoked");
+  }
+
   @Override
   public HoodieWriteMetadata<HoodieData<WriteStatus>> upsertPrepped(HoodieEngineContext context, String instantTime,
       HoodieData<HoodieRecord<T>> preppedRecords) {
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java
new file mode 100644
index 0000000000000..27d22316348a1
--- /dev/null
+++ b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java
@@ -0,0 +1,44 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *      http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.hudi.table.action.commit;
+
+import org.apache.hudi.client.WriteStatus;
+import org.apache.hudi.client.common.HoodieSparkEngineContext;
+import org.apache.hudi.common.data.HoodieData;
+import org.apache.hudi.common.model.HoodieKey;
+import org.apache.hudi.common.model.HoodieRecord;
+import org.apache.hudi.common.model.WriteOperationType;
+import org.apache.hudi.config.HoodieWriteConfig;
+import org.apache.hudi.table.HoodieTable;
+import org.apache.hudi.table.action.HoodieWriteMetadata;
+
+public class SparkDeletePreppedCommitActionExecutor<T>
+    extends BaseSparkCommitActionExecutor<T> {
+  private final HoodieData<HoodieRecord<T>> preppedRecords;
+
+  public SparkDeletePreppedCommitActionExecutor(HoodieSparkEngineContext context, HoodieWriteConfig config, HoodieTable table, String instantTime, HoodieData<HoodieRecord<T>> preppedRecords) {
+    super(context, config, table, instantTime, WriteOperationType.DELETE);
+    this.preppedRecords = preppedRecords;
+  }
+
+  @Override
+  public HoodieWriteMetadata<HoodieData<WriteStatus>> execute() {
+    return HoodieDeleteHelper.newInstance().execute(instantTime, preppedRecords.map(record -> new HoodieKey(record.getRecordKey(), record.getPartitionPath())), context, config, table, this);
+  }
+}
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
index eefa5ed6cf9cb..8d68446040e78 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
@@ -24,6 +24,7 @@
 import org.apache.hudi.client.common.HoodieSparkEngineContext;
 import org.apache.hudi.common.config.HoodieStorageConfig;
 import org.apache.hudi.common.config.TypedProperties;
+import org.apache.hudi.common.model.EmptyHoodieRecordPayload;
 import org.apache.hudi.common.model.HoodieAvroRecord;
 import org.apache.hudi.common.model.HoodieKey;
 import org.apache.hudi.common.model.HoodieRecord;
@@ -59,6 +60,8 @@
 import java.util.List;
 import java.util.Map;
 
+import scala.Tuple2;
+
 import static org.apache.hudi.common.util.CommitUtils.getCheckpointValueAsString;
 
 /**
@@ -227,9 +230,19 @@ public static HoodieWriteResult doWriteOperation(SparkRDDWriteClient client, Jav
     }
   }
 
-  public static HoodieWriteResult doDeleteOperation(SparkRDDWriteClient client, JavaRDD<HoodieKey> hoodieKeys,
-      String instantTime) {
-    return new HoodieWriteResult(client.delete(hoodieKeys, instantTime));
+  public static HoodieWriteResult doDeleteOperation(SparkRDDWriteClient client, JavaRDD<Tuple2<HoodieKey, scala.Option<HoodieRecordLocation>>> hoodieKeysAndLocations,
+      String instantTime, boolean isPrepped) {
+
+    if (isPrepped) {
+      JavaRDD<HoodieRecord> records = hoodieKeysAndLocations.map(tuple -> {
+        HoodieAvroRecord record = new HoodieAvroRecord(tuple._1(), new EmptyHoodieRecordPayload());
+        record.setCurrentLocation(tuple._2().get());
+        return record;
+      });
+      return new HoodieWriteResult(client.deletePrepped(records, instantTime));
+    }
+
+    return new HoodieWriteResult(client.delete(hoodieKeysAndLocations.map(tuple -> tuple._1()), instantTime));
   }
 
   public static HoodieWriteResult doDeletePartitionsOperation(SparkRDDWriteClient client, List<String> partitionsToDelete,
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index 04d6f8a2f4a07..07676844298ed 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -262,7 +262,11 @@ object HoodieSparkSqlWriter {
             val genericRecords = HoodieSparkUtils.createRdd(df, avroRecordName, avroRecordNamespace)
             // Convert to RDD[HoodieKey]
             val keyGenerator = HoodieSparkKeyGeneratorFactory.createKeyGenerator(new TypedProperties(hoodieConfig.getProps))
-            val hoodieKeysToDelete = genericRecords.map(gr => keyGenerator.getKey(gr)).toJavaRDD()
+              .asInstanceOf[BaseKeyGenerator]
+            val isPrepped = hoodieConfig.getBooleanOrDefault(DATASOURCE_WRITE_PREPPED_KEY, false)
+            val hoodieKeysAndLocationsToDelete = genericRecords.map(gr => {
+              getKeyAndLocatorFromAvroRecord(keyGenerator, gr, isPrepped)
+            }).toJavaRDD()
 
             if (!tableExists) {
               throw new HoodieException(s"hoodie table at $basePath does not exist")
@@ -284,7 +288,7 @@ object HoodieSparkSqlWriter {
 
             // Issue deletes
             client.startCommitWithTime(instantTime, commitActionType)
-            val writeStatuses = DataSourceUtils.doDeleteOperation(client, hoodieKeysToDelete, instantTime)
+            val writeStatuses = DataSourceUtils.doDeleteOperation(client, hoodieKeysAndLocationsToDelete, instantTime, isPrepped)
             (writeStatuses, client)
 
           case WriteOperationType.DELETE_PARTITION =>
diff --git a/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/DeleteHoodieTableCommand.scala b/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/DeleteHoodieTableCommand.scala
index 004a102287671..9d06e56571546 100644
--- a/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/DeleteHoodieTableCommand.scala
+++ b/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/DeleteHoodieTableCommand.scala
@@ -17,6 +17,7 @@
 
 package org.apache.spark.sql.hudi.command
 
+import org.apache.hudi.DataSourceWriteOptions.DATASOURCE_WRITE_PREPPED_KEY
 import org.apache.hudi.SparkAdapterSupport
 import org.apache.spark.sql._
 import org.apache.spark.sql.catalyst.catalog.HoodieCatalogTable
@@ -38,15 +39,14 @@ case class DeleteHoodieTableCommand(dft: DeleteFromTable) extends HoodieLeafRunn
     logInfo(s"Executing 'DELETE FROM' command for $tableId")
 
     val condition = sparkAdapter.extractDeleteCondition(dft)
-
-    val targetLogicalPlan = stripMetaFieldAttributes(dft.table)
     val filteredPlan = if (condition != null) {
-      Filter(condition, targetLogicalPlan)
+      Filter(condition, dft.table)
     } else {
-      targetLogicalPlan
+      dft.table
     }
 
-    val config = buildHoodieDeleteTableConfig(catalogTable, sparkSession)
+    var config = buildHoodieDeleteTableConfig(catalogTable, sparkSession)
+    config = config + (DATASOURCE_WRITE_PREPPED_KEY -> "true")
     val df = Dataset.ofRows(sparkSession, filteredPlan)
 
     df.write.format("hudi")
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteTable.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteTable.scala
index 0ef630bb21d07..6cb7a92eef7dc 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteTable.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteTable.scala
@@ -26,7 +26,7 @@ class TestDeleteTable extends HoodieSparkSqlTestBase {
 
   test("Test Delete Table") {
     withTempDir { tmp =>
-      Seq("cow", "mor").foreach {tableType =>
+      Seq("cow").foreach {tableType =>
         val tableName = generateTableName
         // create table
         spark.sql(
@@ -70,196 +70,196 @@ class TestDeleteTable extends HoodieSparkSqlTestBase {
     }
   }
 
-  test("Test Delete Table On Non-PK Condition") {
-    withTempDir { tmp =>
-      Seq("cow", "mor").foreach {tableType =>
-        /** non-partitioned table */
-        val tableName = generateTableName
-        // create table
-        spark.sql(
-          s"""
-             |create table $tableName (
-             |  id int,
-             |  name string,
-             |  price double,
-             |  ts long
-             |) using hudi
-             | location '${tmp.getCanonicalPath}/$tableName'
-             | tblproperties (
-             |  type = '$tableType',
-             |  primaryKey = 'id',
-             |  preCombineField = 'ts'
-             | )
-          """.stripMargin)
-
-        // insert data to table
-        if (isSpark2) {
-          spark.sql(
-            s"""
-               |insert into $tableName
-               |values (1, 'a1', cast(10.0 as double), 1000), (2, 'a2', cast(20.0 as double), 1000), (3, 'a2', cast(30.0 as double), 1000)
-               |""".stripMargin)
-        } else {
-          spark.sql(
-            s"""
-               |insert into $tableName
-               |values (1, 'a1', 10.0, 1000), (2, 'a2', 20.0, 1000), (3, 'a2', 30.0, 1000)
-               |""".stripMargin)
-        }
-
-        checkAnswer(s"select id, name, price, ts from $tableName")(
-          Seq(1, "a1", 10.0, 1000),
-          Seq(2, "a2", 20.0, 1000),
-          Seq(3, "a2", 30.0, 1000)
-        )
-
-        // delete data on non-pk condition
-        spark.sql(s"delete from $tableName where name = 'a2'")
-        checkAnswer(s"select id, name, price, ts from $tableName")(
-          Seq(1, "a1", 10.0, 1000)
-        )
-
-        /** partitioned table */
-        val ptTableName = generateTableName + "_pt"
-        // create table
-        spark.sql(
-          s"""
-             |create table $ptTableName (
-             |  id int,
-             |  name string,
-             |  price double,
-             |  ts long,
-             |  pt string
-             |) using hudi
-             | location '${tmp.getCanonicalPath}/$ptTableName'
-             | tblproperties (
-             |  type = '$tableType',
-             |  primaryKey = 'id',
-             |  preCombineField = 'ts'
-             | )
-             | partitioned by (pt)
-          """.stripMargin)
-
-        // insert data to table
-        if (isSpark2) {
-          spark.sql(
-            s"""
-               |insert into $ptTableName
-               |values (1, 'a1', cast(10.0 as double), 1000, "2021"), (2, 'a2', cast(20.0 as double), 1000, "2021"), (3, 'a2', cast(30.0 as double), 1000, "2022")
-               |""".stripMargin)
-        } else {
-          spark.sql(
-            s"""
-               |insert into $ptTableName
-               |values (1, 'a1', 10.0, 1000, "2021"), (2, 'a2', 20.0, 1000, "2021"), (3, 'a2', 30.0, 1000, "2022")
-               |""".stripMargin)
-        }
-
-        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
-          Seq(1, "a1", 10.0, 1000, "2021"),
-          Seq(2, "a2", 20.0, 1000, "2021"),
-          Seq(3, "a2", 30.0, 1000, "2022")
-        )
-
-        // delete data on non-pk condition
-        spark.sql(s"delete from $ptTableName where name = 'a2'")
-        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
-          Seq(1, "a1", 10.0, 1000, "2021")
-        )
-
-        spark.sql(s"delete from $ptTableName where pt = '2021'")
-        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
-          Seq.empty: _*
-        )
-      }
-    }
-  }
-
-  test("Test Delete Table with op upsert") {
-    withTempDir { tmp =>
-      Seq("cow", "mor").foreach {tableType =>
-        val tableName = generateTableName
-        // create table
-        spark.sql(
-          s"""
-             |create table $tableName (
-             |  id int,
-             |  name string,
-             |  price double,
-             |  ts long
-             |) using hudi
-             | location '${tmp.getCanonicalPath}/$tableName'
-             | tblproperties (
-             |  type = '$tableType',
-             |  primaryKey = 'id',
-             |  preCombineField = 'ts',
-             |  hoodie.datasource.write.operation = 'upsert'
-             | )
-       """.stripMargin)
-        // insert data to table
-        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
-        checkAnswer(s"select id, name, price, ts from $tableName")(
-          Seq(1, "a1", 10.0, 1000)
-        )
-
-        // delete data from table
-        spark.sql(s"delete from $tableName where id = 1")
-        checkAnswer(s"select count(1) from $tableName") (
-          Seq(0)
-        )
-
-        spark.sql(s"insert into $tableName select 2, 'a2', 10, 1000")
-        spark.sql(s"delete from $tableName where id = 1")
-        checkAnswer(s"select id, name, price, ts from $tableName")(
-          Seq(2, "a2", 10.0, 1000)
-        )
-
-        spark.sql(s"delete from $tableName")
-        checkAnswer(s"select count(1) from $tableName")(
-          Seq(0)
-        )
-      }
-    }
-  }
-
-  Seq(false, true).foreach { urlencode =>
-    test(s"Test Delete single-partition table' partitions, urlencode: $urlencode") {
-      withTempDir { tmp =>
-        val tableName = generateTableName
-        val tablePath = s"${tmp.getCanonicalPath}/$tableName"
-
-        import spark.implicits._
-        val df = Seq((1, "z3", "v1", "2021/10/01"), (2, "l4", "v1", "2021/10/02"))
-          .toDF("id", "name", "ts", "dt")
-
-        df.write.format("hudi")
-          .option(HoodieWriteConfig.TBL_NAME.key, tableName)
-          .option(TABLE_TYPE.key, MOR_TABLE_TYPE_OPT_VAL)
-          .option(RECORDKEY_FIELD.key, "id")
-          .option(PRECOMBINE_FIELD.key, "ts")
-          .option(PARTITIONPATH_FIELD.key, "dt")
-          .option(URL_ENCODE_PARTITIONING.key(), urlencode)
-          .option(HoodieWriteConfig.INSERT_PARALLELISM_VALUE.key, "1")
-          .option(HoodieWriteConfig.UPSERT_PARALLELISM_VALUE.key, "1")
-          .mode(SaveMode.Overwrite)
-          .save(tablePath)
-
-        // register meta to spark catalog by creating table
-        spark.sql(
-          s"""
-             |create table $tableName using hudi
-             |location '$tablePath'
-             |""".stripMargin)
-
-        // delete 2021-10-01 partition
-        if (urlencode) {
-          spark.sql(s"""delete from $tableName where dt="2021/10/01"""")
-        } else {
-          spark.sql(s"delete from $tableName where dt='2021/10/01'")
-        }
-
-        checkAnswer(s"select dt from $tableName")(Seq(s"2021/10/02"))
-      }
-    }
-  }
+//  test("Test Delete Table On Non-PK Condition") {
+//    withTempDir { tmp =>
+//      Seq("cow", "mor").foreach {tableType =>
+//        /** non-partitioned table */
+//        val tableName = generateTableName
+//        // create table
+//        spark.sql(
+//          s"""
+//             |create table $tableName (
+//             |  id int,
+//             |  name string,
+//             |  price double,
+//             |  ts long
+//             |) using hudi
+//             | location '${tmp.getCanonicalPath}/$tableName'
+//             | tblproperties (
+//             |  type = '$tableType',
+//             |  primaryKey = 'id',
+//             |  preCombineField = 'ts'
+//             | )
+//          """.stripMargin)
+//
+//        // insert data to table
+//        if (isSpark2) {
+//          spark.sql(
+//            s"""
+//               |insert into $tableName
+//               |values (1, 'a1', cast(10.0 as double), 1000), (2, 'a2', cast(20.0 as double), 1000), (3, 'a2', cast(30.0 as double), 1000)
+//               |""".stripMargin)
+//        } else {
+//          spark.sql(
+//            s"""
+//               |insert into $tableName
+//               |values (1, 'a1', 10.0, 1000), (2, 'a2', 20.0, 1000), (3, 'a2', 30.0, 1000)
+//               |""".stripMargin)
+//        }
+//
+//        checkAnswer(s"select id, name, price, ts from $tableName")(
+//          Seq(1, "a1", 10.0, 1000),
+//          Seq(2, "a2", 20.0, 1000),
+//          Seq(3, "a2", 30.0, 1000)
+//        )
+//
+//        // delete data on non-pk condition
+//        spark.sql(s"delete from $tableName where name = 'a2'")
+//        checkAnswer(s"select id, name, price, ts from $tableName")(
+//          Seq(1, "a1", 10.0, 1000)
+//        )
+//
+//        /** partitioned table */
+//        val ptTableName = generateTableName + "_pt"
+//        // create table
+//        spark.sql(
+//          s"""
+//             |create table $ptTableName (
+//             |  id int,
+//             |  name string,
+//             |  price double,
+//             |  ts long,
+//             |  pt string
+//             |) using hudi
+//             | location '${tmp.getCanonicalPath}/$ptTableName'
+//             | tblproperties (
+//             |  type = '$tableType',
+//             |  primaryKey = 'id',
+//             |  preCombineField = 'ts'
+//             | )
+//             | partitioned by (pt)
+//          """.stripMargin)
+//
+//        // insert data to table
+//        if (isSpark2) {
+//          spark.sql(
+//            s"""
+//               |insert into $ptTableName
+//               |values (1, 'a1', cast(10.0 as double), 1000, "2021"), (2, 'a2', cast(20.0 as double), 1000, "2021"), (3, 'a2', cast(30.0 as double), 1000, "2022")
+//               |""".stripMargin)
+//        } else {
+//          spark.sql(
+//            s"""
+//               |insert into $ptTableName
+//               |values (1, 'a1', 10.0, 1000, "2021"), (2, 'a2', 20.0, 1000, "2021"), (3, 'a2', 30.0, 1000, "2022")
+//               |""".stripMargin)
+//        }
+//
+//        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
+//          Seq(1, "a1", 10.0, 1000, "2021"),
+//          Seq(2, "a2", 20.0, 1000, "2021"),
+//          Seq(3, "a2", 30.0, 1000, "2022")
+//        )
+//
+//        // delete data on non-pk condition
+//        spark.sql(s"delete from $ptTableName where name = 'a2'")
+//        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
+//          Seq(1, "a1", 10.0, 1000, "2021")
+//        )
+//
+//        spark.sql(s"delete from $ptTableName where pt = '2021'")
+//        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
+//          Seq.empty: _*
+//        )
+//      }
+//    }
+//  }
+//
+//  test("Test Delete Table with op upsert") {
+//    withTempDir { tmp =>
+//      Seq("cow", "mor").foreach {tableType =>
+//        val tableName = generateTableName
+//        // create table
+//        spark.sql(
+//          s"""
+//             |create table $tableName (
+//             |  id int,
+//             |  name string,
+//             |  price double,
+//             |  ts long
+//             |) using hudi
+//             | location '${tmp.getCanonicalPath}/$tableName'
+//             | tblproperties (
+//             |  type = '$tableType',
+//             |  primaryKey = 'id',
+//             |  preCombineField = 'ts',
+//             |  hoodie.datasource.write.operation = 'upsert'
+//             | )
+//       """.stripMargin)
+//        // insert data to table
+//        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
+//        checkAnswer(s"select id, name, price, ts from $tableName")(
+//          Seq(1, "a1", 10.0, 1000)
+//        )
+//
+//        // delete data from table
+//        spark.sql(s"delete from $tableName where id = 1")
+//        checkAnswer(s"select count(1) from $tableName") (
+//          Seq(0)
+//        )
+//
+//        spark.sql(s"insert into $tableName select 2, 'a2', 10, 1000")
+//        spark.sql(s"delete from $tableName where id = 1")
+//        checkAnswer(s"select id, name, price, ts from $tableName")(
+//          Seq(2, "a2", 10.0, 1000)
+//        )
+//
+//        spark.sql(s"delete from $tableName")
+//        checkAnswer(s"select count(1) from $tableName")(
+//          Seq(0)
+//        )
+//      }
+//    }
+//  }
+//
+//  Seq(false, true).foreach { urlencode =>
+//    test(s"Test Delete single-partition table' partitions, urlencode: $urlencode") {
+//      withTempDir { tmp =>
+//        val tableName = generateTableName
+//        val tablePath = s"${tmp.getCanonicalPath}/$tableName"
+//
+//        import spark.implicits._
+//        val df = Seq((1, "z3", "v1", "2021/10/01"), (2, "l4", "v1", "2021/10/02"))
+//          .toDF("id", "name", "ts", "dt")
+//
+//        df.write.format("hudi")
+//          .option(HoodieWriteConfig.TBL_NAME.key, tableName)
+//          .option(TABLE_TYPE.key, MOR_TABLE_TYPE_OPT_VAL)
+//          .option(RECORDKEY_FIELD.key, "id")
+//          .option(PRECOMBINE_FIELD.key, "ts")
+//          .option(PARTITIONPATH_FIELD.key, "dt")
+//          .option(URL_ENCODE_PARTITIONING.key(), urlencode)
+//          .option(HoodieWriteConfig.INSERT_PARALLELISM_VALUE.key, "1")
+//          .option(HoodieWriteConfig.UPSERT_PARALLELISM_VALUE.key, "1")
+//          .mode(SaveMode.Overwrite)
+//          .save(tablePath)
+//
+//        // register meta to spark catalog by creating table
+//        spark.sql(
+//          s"""
+//             |create table $tableName using hudi
+//             |location '$tablePath'
+//             |""".stripMargin)
+//
+//        // delete 2021-10-01 partition
+//        if (urlencode) {
+//          spark.sql(s"""delete from $tableName where dt="2021/10/01"""")
+//        } else {
+//          spark.sql(s"delete from $tableName where dt='2021/10/01'")
+//        }
+//
+//        checkAnswer(s"select dt from $tableName")(Seq(s"2021/10/02"))
+//      }
+//    }
+//  }
 }

From 6070e8f1f640070f66bf1805c92a5fd84c103cbc Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Thu, 8 Jun 2023 16:24:07 -0700
Subject: [PATCH 10/18] delete prepped operation.

---
 .../hudi/table/action/commit/BaseDeleteHelper.java     |  5 +++++
 .../hudi/table/action/commit/HoodieDeleteHelper.java   | 10 ++++++++++
 .../hudi/table/action/commit/FlinkDeleteHelper.java    | 10 ++++++++++
 .../hudi/table/action/commit/JavaDeleteHelper.java     | 10 ++++++++++
 .../commit/SparkDeletePreppedCommitActionExecutor.java |  3 +--
 5 files changed, 36 insertions(+), 2 deletions(-)

diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/BaseDeleteHelper.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/BaseDeleteHelper.java
index 527320a6b6a39..f2aad7264513d 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/BaseDeleteHelper.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/BaseDeleteHelper.java
@@ -49,4 +49,9 @@ public abstract HoodieWriteMetadata<O> execute(String instantTime,
                                                  K keys, HoodieEngineContext context,
                                                  HoodieWriteConfig config, HoodieTable<T, I, K, O> table,
                                                  BaseCommitActionExecutor<T, I, K, O, R> deleteExecutor);
+
+  public abstract HoodieWriteMetadata<O> executePrepped(String instantTime,
+                                                        I preppedRecords, HoodieEngineContext context,
+                                                        HoodieWriteConfig config, HoodieTable<T, I, K, O> table,
+                                                        BaseCommitActionExecutor<T, I, K, O, R> deleteExecutor);
 }
diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
index 1f94a66fff829..711ce468b8b33 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
@@ -124,6 +124,16 @@ public HoodieWriteMetadata<HoodieData<WriteStatus>> execute(String instantTime,
     }
   }
 
+  @Override
+  public HoodieWriteMetadata<HoodieData<WriteStatus>> executePrepped(String instantTime,
+                                                                     HoodieData<HoodieRecord<T>> preppedRecords,
+                                                                     HoodieEngineContext context,
+                                                                     HoodieWriteConfig config,
+                                                                     HoodieTable<T, HoodieData<HoodieRecord<T>>, HoodieData<HoodieKey>, HoodieData<WriteStatus>> table,
+                                                                     BaseCommitActionExecutor<T, HoodieData<HoodieRecord<T>>, HoodieData<HoodieKey>, HoodieData<WriteStatus>, R> deleteExecutor) {
+    return execute(instantTime, preppedRecords.map(record -> new HoodieKey(record.getRecordKey(), record.getPartitionPath())), context, config, table, deleteExecutor);
+  }
+
   public static HoodieData createDeleteRecords(HoodieWriteConfig config, HoodieData<HoodieKey> keys) {
     HoodieRecordType recordType = config.getRecordMerger().getRecordType();
     if (recordType == HoodieRecordType.AVRO) {
diff --git a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java
index a8e2937ed3b53..5e7ab4188f489 100644
--- a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java
+++ b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java
@@ -27,6 +27,7 @@
 import org.apache.hudi.common.model.HoodieRecord;
 import org.apache.hudi.common.util.collection.Pair;
 import org.apache.hudi.config.HoodieWriteConfig;
+import org.apache.hudi.exception.HoodieException;
 import org.apache.hudi.exception.HoodieUpsertException;
 import org.apache.hudi.table.HoodieTable;
 import org.apache.hudi.table.WorkloadProfile;
@@ -125,4 +126,13 @@ public HoodieWriteMetadata<List<WriteStatus>> execute(String instantTime,
     }
   }
 
+  @Override
+  public HoodieWriteMetadata<List<WriteStatus>> executePrepped(String instantTime,
+                                                               List<HoodieRecord<EmptyHoodieRecordPayload>> preppedRecords,
+                                                               HoodieEngineContext context,
+                                                               HoodieWriteConfig config,
+                                                               HoodieTable<EmptyHoodieRecordPayload, List<HoodieRecord<EmptyHoodieRecordPayload>>, List<HoodieKey>, List<WriteStatus>> table,
+                                                               BaseCommitActionExecutor<EmptyHoodieRecordPayload, List<HoodieRecord<EmptyHoodieRecordPayload>>, List<HoodieKey>, List<WriteStatus>, R> deleteExecutor) {
+    throw new HoodieException("Not implemented");
+  }
 }
diff --git a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java
index 4cee88f6bf426..4967ea0b2dffc 100644
--- a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java
+++ b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java
@@ -27,6 +27,7 @@
 import org.apache.hudi.common.model.HoodieRecord;
 import org.apache.hudi.common.util.collection.Pair;
 import org.apache.hudi.config.HoodieWriteConfig;
+import org.apache.hudi.exception.HoodieException;
 import org.apache.hudi.exception.HoodieUpsertException;
 import org.apache.hudi.table.HoodieTable;
 import org.apache.hudi.table.WorkloadProfile;
@@ -124,4 +125,13 @@ public HoodieWriteMetadata<List<WriteStatus>> execute(String instantTime,
     }
   }
 
+  @Override
+  public HoodieWriteMetadata<List<WriteStatus>> executePrepped(String instantTime,
+                                                               List<HoodieRecord<EmptyHoodieRecordPayload>> preppedRecords,
+                                                               HoodieEngineContext context,
+                                                               HoodieWriteConfig config,
+                                                               HoodieTable<EmptyHoodieRecordPayload, List<HoodieRecord<EmptyHoodieRecordPayload>>, List<HoodieKey>, List<WriteStatus>> table,
+                                                               BaseCommitActionExecutor<EmptyHoodieRecordPayload, List<HoodieRecord<EmptyHoodieRecordPayload>>, List<HoodieKey>, List<WriteStatus>, R> deleteExecutor) {
+    throw new HoodieException("Not implemented.");
+  }
 }
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java
index 27d22316348a1..35c0eb960ae2b 100644
--- a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java
+++ b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java
@@ -21,7 +21,6 @@
 import org.apache.hudi.client.WriteStatus;
 import org.apache.hudi.client.common.HoodieSparkEngineContext;
 import org.apache.hudi.common.data.HoodieData;
-import org.apache.hudi.common.model.HoodieKey;
 import org.apache.hudi.common.model.HoodieRecord;
 import org.apache.hudi.common.model.WriteOperationType;
 import org.apache.hudi.config.HoodieWriteConfig;
@@ -39,6 +38,6 @@ public SparkDeletePreppedCommitActionExecutor(HoodieSparkEngineContext context,
 
   @Override
   public HoodieWriteMetadata<HoodieData<WriteStatus>> execute() {
-    return HoodieDeleteHelper.newInstance().execute(instantTime, preppedRecords.map(record -> new HoodieKey(record.getRecordKey(), record.getPartitionPath())), context, config, table, this);
+    return HoodieDeleteHelper.newInstance().executePrepped(instantTime, preppedRecords, context, config, table, this);
   }
 }

From 4a4dc866ba35a028f531a272ab9a7bd7117c1edc Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Fri, 9 Jun 2023 09:14:30 -0700
Subject: [PATCH 11/18] delete prepped operation.

---
 .../table/action/commit/BaseDeleteHelper.java |   5 -
 .../action/commit/HoodieDeleteHelper.java     |  10 -
 .../action/commit/FlinkDeleteHelper.java      |  11 -
 .../table/action/commit/JavaDeleteHelper.java |  11 -
 ...parkDeletePreppedCommitActionExecutor.java |   2 +-
 .../spark/sql/hudi/TestDeleteTable.scala      | 431 ++++++++++--------
 6 files changed, 239 insertions(+), 231 deletions(-)

diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/BaseDeleteHelper.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/BaseDeleteHelper.java
index f2aad7264513d..527320a6b6a39 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/BaseDeleteHelper.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/BaseDeleteHelper.java
@@ -49,9 +49,4 @@ public abstract HoodieWriteMetadata<O> execute(String instantTime,
                                                  K keys, HoodieEngineContext context,
                                                  HoodieWriteConfig config, HoodieTable<T, I, K, O> table,
                                                  BaseCommitActionExecutor<T, I, K, O, R> deleteExecutor);
-
-  public abstract HoodieWriteMetadata<O> executePrepped(String instantTime,
-                                                        I preppedRecords, HoodieEngineContext context,
-                                                        HoodieWriteConfig config, HoodieTable<T, I, K, O> table,
-                                                        BaseCommitActionExecutor<T, I, K, O, R> deleteExecutor);
 }
diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
index 711ce468b8b33..1f94a66fff829 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
@@ -124,16 +124,6 @@ public HoodieWriteMetadata<HoodieData<WriteStatus>> execute(String instantTime,
     }
   }
 
-  @Override
-  public HoodieWriteMetadata<HoodieData<WriteStatus>> executePrepped(String instantTime,
-                                                                     HoodieData<HoodieRecord<T>> preppedRecords,
-                                                                     HoodieEngineContext context,
-                                                                     HoodieWriteConfig config,
-                                                                     HoodieTable<T, HoodieData<HoodieRecord<T>>, HoodieData<HoodieKey>, HoodieData<WriteStatus>> table,
-                                                                     BaseCommitActionExecutor<T, HoodieData<HoodieRecord<T>>, HoodieData<HoodieKey>, HoodieData<WriteStatus>, R> deleteExecutor) {
-    return execute(instantTime, preppedRecords.map(record -> new HoodieKey(record.getRecordKey(), record.getPartitionPath())), context, config, table, deleteExecutor);
-  }
-
   public static HoodieData createDeleteRecords(HoodieWriteConfig config, HoodieData<HoodieKey> keys) {
     HoodieRecordType recordType = config.getRecordMerger().getRecordType();
     if (recordType == HoodieRecordType.AVRO) {
diff --git a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java
index 5e7ab4188f489..0204d2d2f5e77 100644
--- a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java
+++ b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java
@@ -27,7 +27,6 @@
 import org.apache.hudi.common.model.HoodieRecord;
 import org.apache.hudi.common.util.collection.Pair;
 import org.apache.hudi.config.HoodieWriteConfig;
-import org.apache.hudi.exception.HoodieException;
 import org.apache.hudi.exception.HoodieUpsertException;
 import org.apache.hudi.table.HoodieTable;
 import org.apache.hudi.table.WorkloadProfile;
@@ -125,14 +124,4 @@ public HoodieWriteMetadata<List<WriteStatus>> execute(String instantTime,
       throw new HoodieUpsertException("Failed to delete for commit time " + instantTime, e);
     }
   }
-
-  @Override
-  public HoodieWriteMetadata<List<WriteStatus>> executePrepped(String instantTime,
-                                                               List<HoodieRecord<EmptyHoodieRecordPayload>> preppedRecords,
-                                                               HoodieEngineContext context,
-                                                               HoodieWriteConfig config,
-                                                               HoodieTable<EmptyHoodieRecordPayload, List<HoodieRecord<EmptyHoodieRecordPayload>>, List<HoodieKey>, List<WriteStatus>> table,
-                                                               BaseCommitActionExecutor<EmptyHoodieRecordPayload, List<HoodieRecord<EmptyHoodieRecordPayload>>, List<HoodieKey>, List<WriteStatus>, R> deleteExecutor) {
-    throw new HoodieException("Not implemented");
-  }
 }
diff --git a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java
index 4967ea0b2dffc..d05482fa9b61c 100644
--- a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java
+++ b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java
@@ -27,7 +27,6 @@
 import org.apache.hudi.common.model.HoodieRecord;
 import org.apache.hudi.common.util.collection.Pair;
 import org.apache.hudi.config.HoodieWriteConfig;
-import org.apache.hudi.exception.HoodieException;
 import org.apache.hudi.exception.HoodieUpsertException;
 import org.apache.hudi.table.HoodieTable;
 import org.apache.hudi.table.WorkloadProfile;
@@ -124,14 +123,4 @@ public HoodieWriteMetadata<List<WriteStatus>> execute(String instantTime,
       throw new HoodieUpsertException("Failed to delete for commit time " + instantTime, e);
     }
   }
-
-  @Override
-  public HoodieWriteMetadata<List<WriteStatus>> executePrepped(String instantTime,
-                                                               List<HoodieRecord<EmptyHoodieRecordPayload>> preppedRecords,
-                                                               HoodieEngineContext context,
-                                                               HoodieWriteConfig config,
-                                                               HoodieTable<EmptyHoodieRecordPayload, List<HoodieRecord<EmptyHoodieRecordPayload>>, List<HoodieKey>, List<WriteStatus>> table,
-                                                               BaseCommitActionExecutor<EmptyHoodieRecordPayload, List<HoodieRecord<EmptyHoodieRecordPayload>>, List<HoodieKey>, List<WriteStatus>, R> deleteExecutor) {
-    throw new HoodieException("Not implemented.");
-  }
 }
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java
index 35c0eb960ae2b..2b1461d22118f 100644
--- a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java
+++ b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/commit/SparkDeletePreppedCommitActionExecutor.java
@@ -38,6 +38,6 @@ public SparkDeletePreppedCommitActionExecutor(HoodieSparkEngineContext context,
 
   @Override
   public HoodieWriteMetadata<HoodieData<WriteStatus>> execute() {
-    return HoodieDeleteHelper.newInstance().executePrepped(instantTime, preppedRecords, context, config, table, this);
+    return super.execute(preppedRecords);
   }
 }
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteTable.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteTable.scala
index 6cb7a92eef7dc..4fa9f1083d03e 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteTable.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteTable.scala
@@ -26,7 +26,7 @@ class TestDeleteTable extends HoodieSparkSqlTestBase {
 
   test("Test Delete Table") {
     withTempDir { tmp =>
-      Seq("cow").foreach {tableType =>
+      Seq("cow", "mor").foreach {tableType =>
         val tableName = generateTableName
         // create table
         spark.sql(
@@ -70,196 +70,241 @@ class TestDeleteTable extends HoodieSparkSqlTestBase {
     }
   }
 
-//  test("Test Delete Table On Non-PK Condition") {
-//    withTempDir { tmp =>
-//      Seq("cow", "mor").foreach {tableType =>
-//        /** non-partitioned table */
-//        val tableName = generateTableName
-//        // create table
-//        spark.sql(
-//          s"""
-//             |create table $tableName (
-//             |  id int,
-//             |  name string,
-//             |  price double,
-//             |  ts long
-//             |) using hudi
-//             | location '${tmp.getCanonicalPath}/$tableName'
-//             | tblproperties (
-//             |  type = '$tableType',
-//             |  primaryKey = 'id',
-//             |  preCombineField = 'ts'
-//             | )
-//          """.stripMargin)
-//
-//        // insert data to table
-//        if (isSpark2) {
-//          spark.sql(
-//            s"""
-//               |insert into $tableName
-//               |values (1, 'a1', cast(10.0 as double), 1000), (2, 'a2', cast(20.0 as double), 1000), (3, 'a2', cast(30.0 as double), 1000)
-//               |""".stripMargin)
-//        } else {
-//          spark.sql(
-//            s"""
-//               |insert into $tableName
-//               |values (1, 'a1', 10.0, 1000), (2, 'a2', 20.0, 1000), (3, 'a2', 30.0, 1000)
-//               |""".stripMargin)
-//        }
-//
-//        checkAnswer(s"select id, name, price, ts from $tableName")(
-//          Seq(1, "a1", 10.0, 1000),
-//          Seq(2, "a2", 20.0, 1000),
-//          Seq(3, "a2", 30.0, 1000)
-//        )
-//
-//        // delete data on non-pk condition
-//        spark.sql(s"delete from $tableName where name = 'a2'")
-//        checkAnswer(s"select id, name, price, ts from $tableName")(
-//          Seq(1, "a1", 10.0, 1000)
-//        )
-//
-//        /** partitioned table */
-//        val ptTableName = generateTableName + "_pt"
-//        // create table
-//        spark.sql(
-//          s"""
-//             |create table $ptTableName (
-//             |  id int,
-//             |  name string,
-//             |  price double,
-//             |  ts long,
-//             |  pt string
-//             |) using hudi
-//             | location '${tmp.getCanonicalPath}/$ptTableName'
-//             | tblproperties (
-//             |  type = '$tableType',
-//             |  primaryKey = 'id',
-//             |  preCombineField = 'ts'
-//             | )
-//             | partitioned by (pt)
-//          """.stripMargin)
-//
-//        // insert data to table
-//        if (isSpark2) {
-//          spark.sql(
-//            s"""
-//               |insert into $ptTableName
-//               |values (1, 'a1', cast(10.0 as double), 1000, "2021"), (2, 'a2', cast(20.0 as double), 1000, "2021"), (3, 'a2', cast(30.0 as double), 1000, "2022")
-//               |""".stripMargin)
-//        } else {
-//          spark.sql(
-//            s"""
-//               |insert into $ptTableName
-//               |values (1, 'a1', 10.0, 1000, "2021"), (2, 'a2', 20.0, 1000, "2021"), (3, 'a2', 30.0, 1000, "2022")
-//               |""".stripMargin)
-//        }
-//
-//        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
-//          Seq(1, "a1", 10.0, 1000, "2021"),
-//          Seq(2, "a2", 20.0, 1000, "2021"),
-//          Seq(3, "a2", 30.0, 1000, "2022")
-//        )
-//
-//        // delete data on non-pk condition
-//        spark.sql(s"delete from $ptTableName where name = 'a2'")
-//        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
-//          Seq(1, "a1", 10.0, 1000, "2021")
-//        )
-//
-//        spark.sql(s"delete from $ptTableName where pt = '2021'")
-//        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
-//          Seq.empty: _*
-//        )
-//      }
-//    }
-//  }
-//
-//  test("Test Delete Table with op upsert") {
-//    withTempDir { tmp =>
-//      Seq("cow", "mor").foreach {tableType =>
-//        val tableName = generateTableName
-//        // create table
-//        spark.sql(
-//          s"""
-//             |create table $tableName (
-//             |  id int,
-//             |  name string,
-//             |  price double,
-//             |  ts long
-//             |) using hudi
-//             | location '${tmp.getCanonicalPath}/$tableName'
-//             | tblproperties (
-//             |  type = '$tableType',
-//             |  primaryKey = 'id',
-//             |  preCombineField = 'ts',
-//             |  hoodie.datasource.write.operation = 'upsert'
-//             | )
-//       """.stripMargin)
-//        // insert data to table
-//        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
-//        checkAnswer(s"select id, name, price, ts from $tableName")(
-//          Seq(1, "a1", 10.0, 1000)
-//        )
-//
-//        // delete data from table
-//        spark.sql(s"delete from $tableName where id = 1")
-//        checkAnswer(s"select count(1) from $tableName") (
-//          Seq(0)
-//        )
-//
-//        spark.sql(s"insert into $tableName select 2, 'a2', 10, 1000")
-//        spark.sql(s"delete from $tableName where id = 1")
-//        checkAnswer(s"select id, name, price, ts from $tableName")(
-//          Seq(2, "a2", 10.0, 1000)
-//        )
-//
-//        spark.sql(s"delete from $tableName")
-//        checkAnswer(s"select count(1) from $tableName")(
-//          Seq(0)
-//        )
-//      }
-//    }
-//  }
-//
-//  Seq(false, true).foreach { urlencode =>
-//    test(s"Test Delete single-partition table' partitions, urlencode: $urlencode") {
-//      withTempDir { tmp =>
-//        val tableName = generateTableName
-//        val tablePath = s"${tmp.getCanonicalPath}/$tableName"
-//
-//        import spark.implicits._
-//        val df = Seq((1, "z3", "v1", "2021/10/01"), (2, "l4", "v1", "2021/10/02"))
-//          .toDF("id", "name", "ts", "dt")
-//
-//        df.write.format("hudi")
-//          .option(HoodieWriteConfig.TBL_NAME.key, tableName)
-//          .option(TABLE_TYPE.key, MOR_TABLE_TYPE_OPT_VAL)
-//          .option(RECORDKEY_FIELD.key, "id")
-//          .option(PRECOMBINE_FIELD.key, "ts")
-//          .option(PARTITIONPATH_FIELD.key, "dt")
-//          .option(URL_ENCODE_PARTITIONING.key(), urlencode)
-//          .option(HoodieWriteConfig.INSERT_PARALLELISM_VALUE.key, "1")
-//          .option(HoodieWriteConfig.UPSERT_PARALLELISM_VALUE.key, "1")
-//          .mode(SaveMode.Overwrite)
-//          .save(tablePath)
-//
-//        // register meta to spark catalog by creating table
-//        spark.sql(
-//          s"""
-//             |create table $tableName using hudi
-//             |location '$tablePath'
-//             |""".stripMargin)
-//
-//        // delete 2021-10-01 partition
-//        if (urlencode) {
-//          spark.sql(s"""delete from $tableName where dt="2021/10/01"""")
-//        } else {
-//          spark.sql(s"delete from $tableName where dt='2021/10/01'")
-//        }
-//
-//        checkAnswer(s"select dt from $tableName")(Seq(s"2021/10/02"))
-//      }
-//    }
-//  }
+  test("Test Delete Table Without Primary Key") {
+    withTempDir { tmp =>
+      Seq("cow", "mor").foreach { tableType =>
+        val tableName = generateTableName
+        // create table
+        spark.sql(
+          s"""
+             |create table $tableName (
+             |  id int,
+             |  name string,
+             |  price double,
+             |  ts long
+             |) using hudi
+             | location '${tmp.getCanonicalPath}/$tableName'
+             | tblproperties (
+             |  type = '$tableType',
+             |  preCombineField = 'ts'
+             | )
+     """.stripMargin)
+        // insert data to table
+        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 10.0, 1000)
+        )
+
+        // delete data from table
+        spark.sql(s"delete from $tableName where id = 1")
+        checkAnswer(s"select count(1) from $tableName")(
+          Seq(0)
+        )
+
+        spark.sql(s"insert into $tableName select 2, 'a2', 10, 1000")
+        spark.sql(s"delete from $tableName where id = 1")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(2, "a2", 10.0, 1000)
+        )
+
+        spark.sql(s"delete from $tableName")
+        checkAnswer(s"select count(1) from $tableName")(
+          Seq(0)
+        )
+      }
+    }
+  }
+
+  test("Test Delete Table On Non-PK Condition") {
+    withTempDir { tmp =>
+      Seq("cow", "mor").foreach {tableType =>
+        /** non-partitioned table */
+        val tableName = generateTableName
+        // create table
+        spark.sql(
+          s"""
+             |create table $tableName (
+             |  id int,
+             |  name string,
+             |  price double,
+             |  ts long
+             |) using hudi
+             | location '${tmp.getCanonicalPath}/$tableName'
+             | tblproperties (
+             |  type = '$tableType',
+             |  primaryKey = 'id',
+             |  preCombineField = 'ts'
+             | )
+          """.stripMargin)
+
+        // insert data to table
+        if (isSpark2) {
+          spark.sql(
+            s"""
+               |insert into $tableName
+               |values (1, 'a1', cast(10.0 as double), 1000), (2, 'a2', cast(20.0 as double), 1000), (3, 'a2', cast(30.0 as double), 1000)
+               |""".stripMargin)
+        } else {
+          spark.sql(
+            s"""
+               |insert into $tableName
+               |values (1, 'a1', 10.0, 1000), (2, 'a2', 20.0, 1000), (3, 'a2', 30.0, 1000)
+               |""".stripMargin)
+        }
+
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 10.0, 1000),
+          Seq(2, "a2", 20.0, 1000),
+          Seq(3, "a2", 30.0, 1000)
+        )
+
+        // delete data on non-pk condition
+        spark.sql(s"delete from $tableName where name = 'a2'")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 10.0, 1000)
+        )
+
+        /** partitioned table */
+        val ptTableName = generateTableName + "_pt"
+        // create table
+        spark.sql(
+          s"""
+             |create table $ptTableName (
+             |  id int,
+             |  name string,
+             |  price double,
+             |  ts long,
+             |  pt string
+             |) using hudi
+             | location '${tmp.getCanonicalPath}/$ptTableName'
+             | tblproperties (
+             |  type = '$tableType',
+             |  primaryKey = 'id',
+             |  preCombineField = 'ts'
+             | )
+             | partitioned by (pt)
+          """.stripMargin)
+
+        // insert data to table
+        if (isSpark2) {
+          spark.sql(
+            s"""
+               |insert into $ptTableName
+               |values (1, 'a1', cast(10.0 as double), 1000, "2021"), (2, 'a2', cast(20.0 as double), 1000, "2021"), (3, 'a2', cast(30.0 as double), 1000, "2022")
+               |""".stripMargin)
+        } else {
+          spark.sql(
+            s"""
+               |insert into $ptTableName
+               |values (1, 'a1', 10.0, 1000, "2021"), (2, 'a2', 20.0, 1000, "2021"), (3, 'a2', 30.0, 1000, "2022")
+               |""".stripMargin)
+        }
+
+        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
+          Seq(1, "a1", 10.0, 1000, "2021"),
+          Seq(2, "a2", 20.0, 1000, "2021"),
+          Seq(3, "a2", 30.0, 1000, "2022")
+        )
+
+        // delete data on non-pk condition
+        spark.sql(s"delete from $ptTableName where name = 'a2'")
+        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
+          Seq(1, "a1", 10.0, 1000, "2021")
+        )
+
+        spark.sql(s"delete from $ptTableName where pt = '2021'")
+        checkAnswer(s"select id, name, price, ts, pt from $ptTableName")(
+          Seq.empty: _*
+        )
+      }
+    }
+  }
+
+  test("Test Delete Table with op upsert") {
+    withTempDir { tmp =>
+      Seq("cow", "mor").foreach {tableType =>
+        val tableName = generateTableName
+        // create table
+        spark.sql(
+          s"""
+             |create table $tableName (
+             |  id int,
+             |  name string,
+             |  price double,
+             |  ts long
+             |) using hudi
+             | location '${tmp.getCanonicalPath}/$tableName'
+             | tblproperties (
+             |  type = '$tableType',
+             |  primaryKey = 'id',
+             |  preCombineField = 'ts',
+             |  hoodie.datasource.write.operation = 'upsert'
+             | )
+       """.stripMargin)
+        // insert data to table
+        spark.sql(s"insert into $tableName select 1, 'a1', 10, 1000")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(1, "a1", 10.0, 1000)
+        )
+
+        // delete data from table
+        spark.sql(s"delete from $tableName where id = 1")
+        checkAnswer(s"select count(1) from $tableName") (
+          Seq(0)
+        )
+
+        spark.sql(s"insert into $tableName select 2, 'a2', 10, 1000")
+        spark.sql(s"delete from $tableName where id = 1")
+        checkAnswer(s"select id, name, price, ts from $tableName")(
+          Seq(2, "a2", 10.0, 1000)
+        )
+
+        spark.sql(s"delete from $tableName")
+        checkAnswer(s"select count(1) from $tableName")(
+          Seq(0)
+        )
+      }
+    }
+  }
+
+  Seq(false, true).foreach { urlencode =>
+    test(s"Test Delete single-partition table' partitions, urlencode: $urlencode") {
+      withTempDir { tmp =>
+        val tableName = generateTableName
+        val tablePath = s"${tmp.getCanonicalPath}/$tableName"
+
+        import spark.implicits._
+        val df = Seq((1, "z3", "v1", "2021/10/01"), (2, "l4", "v1", "2021/10/02"))
+          .toDF("id", "name", "ts", "dt")
+
+        df.write.format("hudi")
+          .option(HoodieWriteConfig.TBL_NAME.key, tableName)
+          .option(TABLE_TYPE.key, MOR_TABLE_TYPE_OPT_VAL)
+          .option(RECORDKEY_FIELD.key, "id")
+          .option(PRECOMBINE_FIELD.key, "ts")
+          .option(PARTITIONPATH_FIELD.key, "dt")
+          .option(URL_ENCODE_PARTITIONING.key(), urlencode)
+          .option(HoodieWriteConfig.INSERT_PARALLELISM_VALUE.key, "1")
+          .option(HoodieWriteConfig.UPSERT_PARALLELISM_VALUE.key, "1")
+          .mode(SaveMode.Overwrite)
+          .save(tablePath)
+
+        // register meta to spark catalog by creating table
+        spark.sql(
+          s"""
+             |create table $tableName using hudi
+             |location '$tablePath'
+             |""".stripMargin)
+
+        // delete 2021-10-01 partition
+        if (urlencode) {
+          spark.sql(s"""delete from $tableName where dt="2021/10/01"""")
+        } else {
+          spark.sql(s"delete from $tableName where dt='2021/10/01'")
+        }
+
+        checkAnswer(s"select dt from $tableName")(Seq(s"2021/10/02"))
+      }
+    }
+  }
 }

From ed8e769b56faf169ac8fbc4d4b2853c5147730fb Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Fri, 9 Jun 2023 15:05:56 -0700
Subject: [PATCH 12/18] code cleanup.

---
 .../org/apache/hudi/table/HoodieTable.java    |  4 +-
 .../hudi/client/HoodieFlinkWriteClient.java   |  1 -
 .../table/HoodieFlinkCopyOnWriteTable.java    |  3 +-
 .../hudi/client/HoodieJavaWriteClient.java    |  7 ++-
 .../table/HoodieJavaCopyOnWriteTable.java     |  8 ++--
 ...JavaDeletePreppedCommitActionExecutor.java | 47 +++++++++++++++++++
 .../table/HoodieSparkMergeOnReadTable.java    |  5 +-
 ...eletePreppedDeltaCommitActionExecutor.java | 46 ++++++++++++++++++
 .../java/org/apache/hudi/DataSourceUtils.java |  1 -
 .../scala/org/apache/hudi/DefaultSource.scala | 16 +++----
 .../apache/hudi/HoodieSparkSqlWriter.scala    | 36 +++++++-------
 .../spark/sql/hudi/ProvidesHoodieConfig.scala |  6 ---
 12 files changed, 132 insertions(+), 48 deletions(-)
 create mode 100644 hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeletePreppedCommitActionExecutor.java
 create mode 100644 hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/deltacommit/SparkDeletePreppedDeltaCommitActionExecutor.java

diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
index 5e03890ca400b..5285bf629452e 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
@@ -31,11 +31,9 @@
 import org.apache.hudi.avro.model.HoodieRollbackMetadata;
 import org.apache.hudi.avro.model.HoodieRollbackPlan;
 import org.apache.hudi.avro.model.HoodieSavepointMetadata;
-import org.apache.hudi.client.WriteStatus;
 import org.apache.hudi.common.HoodiePendingRollbackInfo;
 import org.apache.hudi.common.config.HoodieMetadataConfig;
 import org.apache.hudi.common.config.SerializableConfiguration;
-import org.apache.hudi.common.data.HoodieData;
 import org.apache.hudi.common.engine.HoodieEngineContext;
 import org.apache.hudi.common.engine.HoodieLocalEngineContext;
 import org.apache.hudi.common.engine.TaskContextSupplier;
@@ -230,7 +228,7 @@ public abstract HoodieWriteMetadata<O> bulkInsert(HoodieEngineContext context, S
    * @param preppedRecords  hoodieRecords to be deleted based on record key.
    * @return HoodieWriteMetadata
    */
-  public abstract HoodieWriteMetadata<HoodieData<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, I preppedRecords);
+  public abstract HoodieWriteMetadata<O> deletePrepped(HoodieEngineContext context, String instantTime, I preppedRecords);
 
   /**
    * Deletes all data of partitions.
diff --git a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/client/HoodieFlinkWriteClient.java b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/client/HoodieFlinkWriteClient.java
index 2436fea6a93fa..a78d7bd0009f5 100644
--- a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/client/HoodieFlinkWriteClient.java
+++ b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/client/HoodieFlinkWriteClient.java
@@ -260,7 +260,6 @@ public List<WriteStatus> delete(List<HoodieKey> keys, String instantTime) {
 
   @Override
   public List<WriteStatus> deletePrepped(List<HoodieRecord<T>> preppedRecords, final String instantTime) {
-    // AKL_TODO: Does this function need to be implemented?
     throw new HoodieNotSupportedException("DeletePrepped operation is not supported yet");
   }
 
diff --git a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/HoodieFlinkCopyOnWriteTable.java b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/HoodieFlinkCopyOnWriteTable.java
index 278a6b1a2d728..a98c104a95654 100644
--- a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/HoodieFlinkCopyOnWriteTable.java
+++ b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/HoodieFlinkCopyOnWriteTable.java
@@ -31,7 +31,6 @@
 import org.apache.hudi.avro.model.HoodieSavepointMetadata;
 import org.apache.hudi.client.WriteStatus;
 import org.apache.hudi.common.config.TypedProperties;
-import org.apache.hudi.common.data.HoodieData;
 import org.apache.hudi.common.engine.HoodieEngineContext;
 import org.apache.hudi.common.model.HoodieBaseFile;
 import org.apache.hudi.common.model.HoodieKey;
@@ -237,7 +236,7 @@ public HoodieWriteMetadata<List<WriteStatus>> delete(HoodieEngineContext context
   }
 
   @Override
-  public HoodieWriteMetadata<HoodieData<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, List<HoodieRecord<T>> preppedRecords) {
+  public HoodieWriteMetadata<List<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, List<HoodieRecord<T>> preppedRecords) {
     throw new HoodieNotSupportedException("This method should not be invoked");
   }
 
diff --git a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/client/HoodieJavaWriteClient.java b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/client/HoodieJavaWriteClient.java
index 9566075a4679c..9420510f950a6 100644
--- a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/client/HoodieJavaWriteClient.java
+++ b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/client/HoodieJavaWriteClient.java
@@ -194,8 +194,11 @@ public List<WriteStatus> delete(List<HoodieKey> keys,
 
   @Override
   public List<WriteStatus> deletePrepped(List<HoodieRecord<T>> preppedRecords, final String instantTime) {
-    // AKL_TODO: Does this function need to be implemented?
-    throw new HoodieNotSupportedException("DeletePrepped operation is not supported yet");
+    HoodieTable<T, List<HoodieRecord<T>>, List<HoodieKey>, List<WriteStatus>> table =
+        initTable(WriteOperationType.DELETE, Option.ofNullable(instantTime));
+    preWrite(instantTime, WriteOperationType.DELETE, table.getMetaClient());
+    HoodieWriteMetadata<List<WriteStatus>> result = table.deletePrepped(context,instantTime, preppedRecords);
+    return postWrite(result, instantTime, table);
   }
 
   @Override
diff --git a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/HoodieJavaCopyOnWriteTable.java b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/HoodieJavaCopyOnWriteTable.java
index 2feb6c4efd23e..1208f32b32f99 100644
--- a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/HoodieJavaCopyOnWriteTable.java
+++ b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/HoodieJavaCopyOnWriteTable.java
@@ -31,7 +31,6 @@
 import org.apache.hudi.avro.model.HoodieSavepointMetadata;
 import org.apache.hudi.client.WriteStatus;
 import org.apache.hudi.client.common.HoodieJavaEngineContext;
-import org.apache.hudi.common.data.HoodieData;
 import org.apache.hudi.common.engine.HoodieEngineContext;
 import org.apache.hudi.common.model.HoodieBaseFile;
 import org.apache.hudi.common.model.HoodieKey;
@@ -56,6 +55,7 @@
 import org.apache.hudi.table.action.commit.JavaBulkInsertCommitActionExecutor;
 import org.apache.hudi.table.action.commit.JavaBulkInsertPreppedCommitActionExecutor;
 import org.apache.hudi.table.action.commit.JavaDeleteCommitActionExecutor;
+import org.apache.hudi.table.action.commit.JavaDeletePreppedCommitActionExecutor;
 import org.apache.hudi.table.action.commit.JavaInsertCommitActionExecutor;
 import org.apache.hudi.table.action.commit.JavaInsertOverwriteCommitActionExecutor;
 import org.apache.hudi.table.action.commit.JavaInsertOverwriteTableCommitActionExecutor;
@@ -122,9 +122,9 @@ public HoodieWriteMetadata<List<WriteStatus>> delete(HoodieEngineContext context
   }
 
   @Override
-  public HoodieWriteMetadata<HoodieData<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, List<HoodieRecord<T>> preppedRecords) {
-    // AKL_TODO: Does this method need to be implemented?
-    throw new HoodieNotSupportedException("This method should not be invoked");
+  public HoodieWriteMetadata<List<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, List<HoodieRecord<T>> preppedRecords) {
+    return new JavaDeletePreppedCommitActionExecutor<>((HoodieJavaEngineContext) context, config,
+        this, instantTime, preppedRecords).execute();
   }
 
   @Override
diff --git a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeletePreppedCommitActionExecutor.java b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeletePreppedCommitActionExecutor.java
new file mode 100644
index 0000000000000..603ad635bdcd7
--- /dev/null
+++ b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeletePreppedCommitActionExecutor.java
@@ -0,0 +1,47 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *      http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.hudi.table.action.commit;
+
+import org.apache.hudi.client.WriteStatus;
+import org.apache.hudi.client.common.HoodieJavaEngineContext;
+import org.apache.hudi.common.model.HoodieRecord;
+import org.apache.hudi.common.model.WriteOperationType;
+import org.apache.hudi.config.HoodieWriteConfig;
+import org.apache.hudi.table.HoodieTable;
+import org.apache.hudi.table.action.HoodieWriteMetadata;
+
+import java.util.List;
+
+public class JavaDeletePreppedCommitActionExecutor<T>
+    extends BaseJavaCommitActionExecutor<T> {
+
+  private final List<HoodieRecord<T>> preppedRecords;
+
+  public JavaDeletePreppedCommitActionExecutor(HoodieJavaEngineContext context,
+                                               HoodieWriteConfig config, HoodieTable table,
+                                               String instantTime, List<HoodieRecord<T>> preppedRecords) {
+    super(context, config, table, instantTime, WriteOperationType.DELETE);
+    this.preppedRecords = preppedRecords;
+  }
+
+  @Override
+  public HoodieWriteMetadata<List<WriteStatus>> execute() {
+    return super.execute(preppedRecords);
+  }
+}
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkMergeOnReadTable.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkMergeOnReadTable.java
index c8f62a7016066..2ecd13ca017dd 100644
--- a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkMergeOnReadTable.java
+++ b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/HoodieSparkMergeOnReadTable.java
@@ -37,7 +37,6 @@
 import org.apache.hudi.common.util.Option;
 import org.apache.hudi.config.HoodieWriteConfig;
 import org.apache.hudi.exception.HoodieIOException;
-import org.apache.hudi.exception.HoodieNotSupportedException;
 import org.apache.hudi.io.HoodieAppendHandle;
 import org.apache.hudi.table.action.HoodieWriteMetadata;
 import org.apache.hudi.table.action.bootstrap.HoodieBootstrapWriteMetadata;
@@ -48,6 +47,7 @@
 import org.apache.hudi.table.action.deltacommit.SparkBulkInsertDeltaCommitActionExecutor;
 import org.apache.hudi.table.action.deltacommit.SparkBulkInsertPreppedDeltaCommitActionExecutor;
 import org.apache.hudi.table.action.deltacommit.SparkDeleteDeltaCommitActionExecutor;
+import org.apache.hudi.table.action.deltacommit.SparkDeletePreppedDeltaCommitActionExecutor;
 import org.apache.hudi.table.action.deltacommit.SparkInsertDeltaCommitActionExecutor;
 import org.apache.hudi.table.action.deltacommit.SparkInsertPreppedDeltaCommitActionExecutor;
 import org.apache.hudi.table.action.deltacommit.SparkUpsertDeltaCommitActionExecutor;
@@ -108,8 +108,7 @@ public HoodieWriteMetadata<HoodieData<WriteStatus>> delete(HoodieEngineContext c
 
   @Override
   public HoodieWriteMetadata<HoodieData<WriteStatus>> deletePrepped(HoodieEngineContext context, String instantTime, HoodieData<HoodieRecord<T>> preppedRecords) {
-    // AKL_TODO: Does this method need to be implemented?
-    throw new HoodieNotSupportedException("This method should not be invoked");
+    return new SparkDeletePreppedDeltaCommitActionExecutor<>((HoodieSparkEngineContext) context, config, this, instantTime, preppedRecords).execute();
   }
 
   @Override
diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/deltacommit/SparkDeletePreppedDeltaCommitActionExecutor.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/deltacommit/SparkDeletePreppedDeltaCommitActionExecutor.java
new file mode 100644
index 0000000000000..1f8500e95dda6
--- /dev/null
+++ b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/table/action/deltacommit/SparkDeletePreppedDeltaCommitActionExecutor.java
@@ -0,0 +1,46 @@
+/*
+ * Licensed to the Apache Software Foundation (ASF) under one
+ * or more contributor license agreements.  See the NOTICE file
+ * distributed with this work for additional information
+ * regarding copyright ownership.  The ASF licenses this file
+ * to you under the Apache License, Version 2.0 (the
+ * "License"); you may not use this file except in compliance
+ * with the License.  You may obtain a copy of the License at
+ *
+ *      http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+package org.apache.hudi.table.action.deltacommit;
+
+import org.apache.hudi.client.WriteStatus;
+import org.apache.hudi.client.common.HoodieSparkEngineContext;
+import org.apache.hudi.common.data.HoodieData;
+import org.apache.hudi.common.model.HoodieRecord;
+import org.apache.hudi.common.model.WriteOperationType;
+import org.apache.hudi.config.HoodieWriteConfig;
+import org.apache.hudi.table.HoodieTable;
+import org.apache.hudi.table.action.HoodieWriteMetadata;
+
+public class SparkDeletePreppedDeltaCommitActionExecutor<T>
+    extends BaseSparkDeltaCommitActionExecutor<T> {
+
+  private final HoodieData<HoodieRecord<T>> preppedRecords;
+
+  public SparkDeletePreppedDeltaCommitActionExecutor(HoodieSparkEngineContext context,
+                                                     HoodieWriteConfig config, HoodieTable table,
+                                                     String instantTime, HoodieData<HoodieRecord<T>> preppedRecords) {
+    super(context, config, table, instantTime, WriteOperationType.DELETE);
+    this.preppedRecords = preppedRecords;
+  }
+
+  @Override
+  public HoodieWriteMetadata<HoodieData<WriteStatus>> execute() {
+    return super.execute(preppedRecords);
+  }
+}
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
index 8d68446040e78..f71ca647a5613 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
@@ -261,7 +261,6 @@ public static HoodieRecord createHoodieRecord(GenericRecord gr, Comparable order
     return record;
   }
 
-  // AKL_TODO: check if this change is needed. Also validate change if needed.
   public static HoodieRecord createHoodieRecord(GenericRecord gr, HoodieKey hKey,
                                                 String payloadClass, HoodieRecordLocation recordLocation) throws IOException {
     HoodieRecordPayload payload = DataSourceUtils.createPayload(payloadClass, gr);
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala
index b256d2e1cb65c..45b77a28fbc19 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala
@@ -137,32 +137,32 @@ class DefaultSource extends RelationProvider
     * @param sqlContext Spark SQL Context
     * @param mode Mode for saving the DataFrame at the destination
     * @param optParams Parameters passed as part of the DataFrame write operation
-    * @param df Spark DataFrame to be written
+    * @param unprocessedDf Spark DataFrame to be written
     * @return Spark Relation
     */
   override def createRelation(sqlContext: SQLContext,
                               mode: SaveMode,
                               optParams: Map[String, String],
-                              df: DataFrame): BaseRelation = {
-    val dfPrepped = if (optParams.getOrDefault(DATASOURCE_WRITE_PREPPED_KEY, "false")
+                              unprocessedDf: DataFrame): BaseRelation = {
+    val df = if (optParams.getOrDefault(DATASOURCE_WRITE_PREPPED_KEY, "false")
       .equalsIgnoreCase("true")) {
-      df // Don't remove meta columns for prepped write.
+      unprocessedDf // Don't remove meta columns for prepped write.
     } else {
-      df.drop(HoodieRecord.HOODIE_META_COLUMNS.asScala: _*)
+      unprocessedDf.drop(HoodieRecord.HOODIE_META_COLUMNS_WITH_OPERATION.asScala.toSet.toSeq: _*)
     }
 
     if (optParams.get(OPERATION.key).contains(BOOTSTRAP_OPERATION_OPT_VAL)) {
-      HoodieSparkSqlWriter.bootstrap(sqlContext, mode, optParams, dfPrepped)
+      HoodieSparkSqlWriter.bootstrap(sqlContext, mode, optParams, df)
       HoodieSparkSqlWriter.cleanup()
     } else {
-      val (success, _, _, _, _, _) = HoodieSparkSqlWriter.write(sqlContext, mode, optParams, dfPrepped)
+      val (success, _, _, _, _, _) = HoodieSparkSqlWriter.write(sqlContext, mode, optParams, df)
       HoodieSparkSqlWriter.cleanup()
       if (!success) {
         throw new HoodieException("Write to Hudi failed")
       }
     }
 
-    new HoodieEmptyRelation(sqlContext, dfPrepped.schema)
+    new HoodieEmptyRelation(sqlContext, df.schema)
   }
 
   override def createSink(sqlContext: SQLContext,
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index 07676844298ed..96425ed2c04fb 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -35,7 +35,7 @@ import org.apache.hudi.client.{HoodieWriteResult, SparkRDDWriteClient}
 import org.apache.hudi.common.config._
 import org.apache.hudi.common.engine.HoodieEngineContext
 import org.apache.hudi.common.fs.FSUtils
-import org.apache.hudi.common.model.HoodieRecord.HoodieRecordType
+import org.apache.hudi.common.model.HoodieRecord.{HOODIE_META_COLUMNS_NAME_TO_POS, HoodieMetadataField, HoodieRecordType}
 import org.apache.hudi.common.model._
 import org.apache.hudi.common.table.log.block.HoodieLogBlock.HoodieLogBlockType
 import org.apache.hudi.common.table.timeline.{HoodieActiveTimeline, HoodieInstantTimeGenerator}
@@ -265,7 +265,7 @@ object HoodieSparkSqlWriter {
               .asInstanceOf[BaseKeyGenerator]
             val isPrepped = hoodieConfig.getBooleanOrDefault(DATASOURCE_WRITE_PREPPED_KEY, false)
             val hoodieKeysAndLocationsToDelete = genericRecords.map(gr => {
-              getKeyAndLocatorFromAvroRecord(keyGenerator, gr, isPrepped)
+              getHoodieKeyAndMaybeLocationFromAvroRecord(keyGenerator, gr, isPrepped)
             }).toJavaRDD()
 
             if (!tableExists) {
@@ -1175,7 +1175,7 @@ object HoodieSparkSqlWriter {
 
           // handle dropping partition columns
           it.map { avroRec =>
-            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getKeyAndLocatorFromAvroRecord(keyGenerator, avroRec,
+            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getHoodieKeyAndMaybeLocationFromAvroRecord(keyGenerator, avroRec,
               isPrepped)
 
             val avroRecWithoutMeta: GenericRecord = if (isPrepped) {
@@ -1196,7 +1196,6 @@ object HoodieSparkSqlWriter {
               DataSourceUtils.createHoodieRecord(processedRecord, orderingVal, hoodieKey,
                 config.getString(PAYLOAD_CLASS_NAME), recordLocation.getOrElse(null))
             } else {
-              // AKL_TODO: check if this change is needed.
               DataSourceUtils.createHoodieRecord(processedRecord, hoodieKey, config.getString(PAYLOAD_CLASS_NAME), recordLocation.getOrElse(null))
             }
             hoodieRecord
@@ -1228,7 +1227,7 @@ object HoodieSparkSqlWriter {
           val finalStructTypeRowWriter = getCachedUnsafeRowWriter(sourceStructType, finalStructType)
 
           it.map { sourceRow =>
-            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getKeyAndLocatorFromSparkRecord(sparkKeyGenerator, sourceRow, sourceStructType, isPrepped)
+            val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getHoodieKeyAndMayBeLocationFromSparkRecord(sparkKeyGenerator, sourceRow, sourceStructType, isPrepped)
 
             val finalRow = finalStructTypeRowWriter(sourceRow)
             var hoodieSparkRecord = new HoodieSparkRecord(hoodieKey, finalRow, dataFileStructType, false)
@@ -1241,28 +1240,28 @@ object HoodieSparkSqlWriter {
     }
   }
 
-  private def getKeyAndLocatorFromAvroRecord(keyGenerator: BaseKeyGenerator, avroRec: GenericRecord,
-                                             isPrepped: Boolean): (HoodieKey, Option[HoodieRecordLocation]) = {
+  private def getHoodieKeyAndMaybeLocationFromAvroRecord(keyGenerator: BaseKeyGenerator, avroRec: GenericRecord,
+                                                         isPrepped: Boolean): (HoodieKey, Option[HoodieRecordLocation]) = {
     val recordKey = if (isPrepped) {
-      avroRec.get("_hoodie_record_key").toString
+      avroRec.get(HoodieRecord.RECORD_KEY_METADATA_FIELD).toString
     } else {
       keyGenerator.getRecordKey(avroRec)
     };
 
     val partitionPath = if (isPrepped) {
-      avroRec.get("_hoodie_partition_path").toString
+      avroRec.get(HoodieRecord.PARTITION_PATH_METADATA_FIELD).toString
     } else {
       keyGenerator.getPartitionPath(avroRec)
     };
 
     val hoodieKey = new HoodieKey(recordKey, partitionPath)
     val instantTime: Option[String] = if (isPrepped) {
-      Option(avroRec.get("_hoodie_commit_time")).map(_.toString) }
+      Option(avroRec.get(HoodieRecord.COMMIT_TIME_METADATA_FIELD)).map(_.toString) }
     else {
       None
     }
     val fileName: Option[String] = if (isPrepped) {
-      Option(avroRec.get("_hoodie_file_name")).map(_.toString) }
+      Option(avroRec.get(HoodieRecord.FILENAME_METADATA_FIELD)).map(_.toString) }
     else {
       None
     }
@@ -1275,38 +1274,39 @@ object HoodieSparkSqlWriter {
     (hoodieKey, recordLocation)
   }
 
-  private def getKeyAndLocatorFromSparkRecord(sparkKeyGenerator: SparkKeyGeneratorInterface, sourceRow: InternalRow,
-                                              schema: StructType, isPrepped: Boolean): (HoodieKey, Option[HoodieRecordLocation]) = {
+  private def getHoodieKeyAndMayBeLocationFromSparkRecord(sparkKeyGenerator: SparkKeyGeneratorInterface,
+                                                          sourceRow: InternalRow, schema: StructType,
+                                                          isPrepped: Boolean): (HoodieKey, Option[HoodieRecordLocation]) = {
     def getFieldIndex(fieldName: String): Int = {
       if (schema.fieldNames.contains(fieldName)) {
-        schema.fieldIndex(fieldName)
+        HOODIE_META_COLUMNS_NAME_TO_POS.get(fieldName)
       } else {
         -1
       }
     }
 
-    val hoodieRecordKeyIndex = getFieldIndex("_hoodie_record_key")
+    val hoodieRecordKeyIndex = getFieldIndex(HoodieRecord.RECORD_KEY_METADATA_FIELD)
     val recordKey = if (isPrepped && hoodieRecordKeyIndex != -1 && !sourceRow.isNullAt(hoodieRecordKeyIndex)) {
       sourceRow.getString(hoodieRecordKeyIndex);
     } else {
       sparkKeyGenerator.getRecordKey(sourceRow, schema).toString
     }
 
-    val hoodiePartitionPathIndex = getFieldIndex("_hoodie_partition_path")
+    val hoodiePartitionPathIndex = getFieldIndex(HoodieRecord.PARTITION_PATH_METADATA_FIELD)
     val partitionPath = if (isPrepped && hoodiePartitionPathIndex != -1 && !sourceRow.isNullAt(hoodiePartitionPathIndex)) {
       sourceRow.getString(hoodiePartitionPathIndex)
     } else {
       sparkKeyGenerator.getPartitionPath(sourceRow, schema).toString
     };
 
-    val commitTimeIndex = getFieldIndex("_hoodie_commit_time")
+    val commitTimeIndex = getFieldIndex(HoodieRecord.COMMIT_TIME_METADATA_FIELD)
     val instantTime: Option[String] = if (isPrepped && commitTimeIndex != -1) {
       Option(sourceRow.getString(commitTimeIndex))
     } else {
       None
     }
 
-    val fileNameIndex = getFieldIndex("_hoodie_file_name")
+    val fileNameIndex = getFieldIndex(HoodieRecord.FILENAME_METADATA_FIELD)
     val fileName: Option[String] = if (isPrepped && fileNameIndex != -1) {
       Option(sourceRow.getString(fileNameIndex))
     } else {
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala
index 95782ae05967a..4e36cd6343c74 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/spark/sql/hudi/ProvidesHoodieConfig.scala
@@ -55,9 +55,6 @@ trait ProvidesHoodieConfig extends Logging {
     // TODO(HUDI-3456) clean up
     val preCombineField = Option(tableConfig.getPreCombineField).getOrElse("")
 
-//    require(hoodieCatalogTable.primaryKeys.nonEmpty,
-//      s"There are no primary key in table ${hoodieCatalogTable.table.identifier}, cannot execute update operator")
-
     val hiveSyncConfig = buildHiveSyncConfig(sparkSession, hoodieCatalogTable, tableConfig)
 
     val defaultOpts = Map[String, String](
@@ -262,9 +259,6 @@ trait ProvidesHoodieConfig extends Logging {
     val partitionColumns = tableConfig.getPartitionFieldProp.split(",").map(_.toLowerCase(Locale.ROOT))
     val partitionSchema = StructType(tableSchema.filter(f => partitionColumns.contains(f.name)))
 
-    assert(hoodieCatalogTable.primaryKeys.nonEmpty,
-      s"There are no primary key defined in table ${hoodieCatalogTable.table.identifier}, cannot execute delete operation")
-
     val hiveSyncConfig = buildHiveSyncConfig(sparkSession, hoodieCatalogTable, tableConfig)
 
     val defaultOpts = Map(

From 12c142bdc63c1704d861b1441b2c3eb954b55de2 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Fri, 9 Jun 2023 17:03:18 -0700
Subject: [PATCH 13/18] cleanup.

---
 .../apache/hudi/client/BaseHoodieWriteClient.java    |  2 +-
 .../main/java/org/apache/hudi/table/HoodieTable.java |  7 +++----
 .../hudi/table/action/commit/HoodieDeleteHelper.java |  8 +-------
 .../main/java/org/apache/hudi/DataSourceUtils.java   | 12 ++++++------
 .../scala/org/apache/hudi/HoodieSparkSqlWriter.scala |  7 +++----
 5 files changed, 14 insertions(+), 22 deletions(-)

diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java
index e313d1a18d971..96101e1c61ff5 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java
@@ -488,7 +488,7 @@ public abstract O bulkInsertPreppedRecords(I preppedRecords, final String instan
    * Deletes records from a Hoodie table based on {@link HoodieKey} and {@link HoodieRecordLocation} specified in the
    * input records.
    *
-   * @param preppedRecords     Empty records with keys and locators.
+   * @param preppedRecords Empty records with keys and locators.
    * @param instantTime Commit time handle
    * @return Collection of WriteStatus to inspect errors and counts
    */
diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
index 5285bf629452e..5bd16ed0ab72c 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
@@ -220,8 +220,7 @@ public abstract HoodieWriteMetadata<O> bulkInsert(HoodieEngineContext context, S
   public abstract HoodieWriteMetadata<O> delete(HoodieEngineContext context, String instantTime, K keys);
 
   /**
-   * Delete records from Hoodie table, with same keys as that specified in input records, at the supplied instantTime. {@link HoodieKey}s
-   * will be de-duped and non-existent keys will be removed before deleting.
+   * Delete records from Hoodie table, with same keys as that of input records, at the supplied instantTime. {@link HoodieKey}s.
    *
    * @param context    HoodieEngineContext
    * @param instantTime Instant Time for the action
@@ -232,9 +231,9 @@ public abstract HoodieWriteMetadata<O> bulkInsert(HoodieEngineContext context, S
 
   /**
    * Deletes all data of partitions.
-   * @param context    HoodieEngineContext
+   * @param context HoodieEngineContext
    * @param instantTime Instant Time for the action
-   * @param partitions   {@link List} of partition to be deleted
+   * @param partitions {@link List} of partition to be deleted
    * @return HoodieWriteMetadata
    */
   public abstract HoodieWriteMetadata<O> deletePartitions(HoodieEngineContext context, String instantTime, List<String> partitions);
diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
index 1f94a66fff829..63899a4e40bcc 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/action/commit/HoodieDeleteHelper.java
@@ -91,15 +91,9 @@ public HoodieWriteMetadata<HoodieData<WriteStatus>> execute(String instantTime,
 
       HoodieData dedupedRecords = createDeleteRecords(config, dedupedKeys);
 
-      boolean isPrepped = config.getBooleanOrDefault("_hoodie.datasource.write.prepped", false);
       Instant beginTag = Instant.now();
       // perform index loop up to get existing location of records
-      HoodieData<HoodieRecord<T>> taggedRecords = null;
-      if (isPrepped) {
-        taggedRecords = table.getIndex().tagLocation(dedupedRecords, context, table);
-      } else {
-        taggedRecords = table.getIndex().tagLocation(dedupedRecords, context, table);
-      }
+      HoodieData<HoodieRecord<T>> taggedRecords = table.getIndex().tagLocation(dedupedRecords, context, table);
       Duration tagLocationDuration = Duration.between(beginTag, Instant.now());
 
       // filter out non existent keys/records
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
index f71ca647a5613..7a8f13c864ec9 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
@@ -251,22 +251,22 @@ public static HoodieWriteResult doDeletePartitionsOperation(SparkRDDWriteClient
   }
 
   public static HoodieRecord createHoodieRecord(GenericRecord gr, Comparable orderingVal, HoodieKey hKey,
-      String payloadClass, HoodieRecordLocation recordLocation) throws IOException {
+      String payloadClass, scala.Option<HoodieRecordLocation> recordLocation) throws IOException {
     HoodieRecordPayload payload = DataSourceUtils.createPayload(payloadClass, gr, orderingVal);
 
     HoodieAvroRecord record = new HoodieAvroRecord<>(hKey, payload);
-    if (recordLocation != null) {
-      record.setCurrentLocation(recordLocation);
+    if (recordLocation.isDefined()) {
+      record.setCurrentLocation(recordLocation.get());
     }
     return record;
   }
 
   public static HoodieRecord createHoodieRecord(GenericRecord gr, HoodieKey hKey,
-                                                String payloadClass, HoodieRecordLocation recordLocation) throws IOException {
+                                                String payloadClass, scala.Option<HoodieRecordLocation> recordLocation) throws IOException {
     HoodieRecordPayload payload = DataSourceUtils.createPayload(payloadClass, gr);
     HoodieAvroRecord record = new HoodieAvroRecord<>(hKey, payload);
-    if (recordLocation != null) {
-      record.setCurrentLocation(recordLocation);
+    if (recordLocation.isDefined()) {
+      record.setCurrentLocation(recordLocation.get());
     }
     return record;
   }
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index 96425ed2c04fb..50301f0ae7105 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -77,7 +77,6 @@ import java.util.function.BiConsumer
 import scala.collection.JavaConversions._
 import scala.collection.JavaConverters.setAsJavaSetConverter
 import scala.collection.mutable
-import scala.collection.mutable.ListBuffer
 
 object HoodieSparkSqlWriter {
 
@@ -1194,9 +1193,9 @@ object HoodieSparkSqlWriter {
               val orderingVal = HoodieAvroUtils.getNestedFieldVal(avroRec, config.getString(PRECOMBINE_FIELD),
                 false, consistentLogicalTimestampEnabled).asInstanceOf[Comparable[_]]
               DataSourceUtils.createHoodieRecord(processedRecord, orderingVal, hoodieKey,
-                config.getString(PAYLOAD_CLASS_NAME), recordLocation.getOrElse(null))
+                config.getString(PAYLOAD_CLASS_NAME), recordLocation)
             } else {
-              DataSourceUtils.createHoodieRecord(processedRecord, hoodieKey, config.getString(PAYLOAD_CLASS_NAME), recordLocation.getOrElse(null))
+              DataSourceUtils.createHoodieRecord(processedRecord, hoodieKey, config.getString(PAYLOAD_CLASS_NAME), recordLocation)
             }
             hoodieRecord
           }
@@ -1231,7 +1230,7 @@ object HoodieSparkSqlWriter {
 
             val finalRow = finalStructTypeRowWriter(sourceRow)
             var hoodieSparkRecord = new HoodieSparkRecord(hoodieKey, finalRow, dataFileStructType, false)
-            if (recordLocation.getOrElse(null) != null) {
+            if (recordLocation.isDefined) {
               hoodieSparkRecord.setCurrentLocation(recordLocation.get)
             }
             hoodieSparkRecord

From 0f3af50a5dd20535dcac3b4de2eec8fbff810438 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Mon, 12 Jun 2023 10:56:23 -0700
Subject: [PATCH 14/18] Fix TestDataSourceForBootstrap unit tests.

---
 .../hudi/bootstrap/SparkFullBootstrapDataProviderBase.java      | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/hudi-spark-datasource/hudi-spark/src/main/java/org/apache/hudi/bootstrap/SparkFullBootstrapDataProviderBase.java b/hudi-spark-datasource/hudi-spark/src/main/java/org/apache/hudi/bootstrap/SparkFullBootstrapDataProviderBase.java
index 8804c84c08f5a..70a8ee71da565 100644
--- a/hudi-spark-datasource/hudi-spark/src/main/java/org/apache/hudi/bootstrap/SparkFullBootstrapDataProviderBase.java
+++ b/hudi-spark-datasource/hudi-spark/src/main/java/org/apache/hudi/bootstrap/SparkFullBootstrapDataProviderBase.java
@@ -84,7 +84,7 @@ public JavaRDD<HoodieRecord> generateInputRecords(String tableName, String sourc
                   Boolean.parseBoolean(KeyGeneratorOptions.KEYGENERATOR_CONSISTENT_LOGICAL_TIMESTAMP_ENABLED.defaultValue())));
           try {
             return DataSourceUtils.createHoodieRecord(gr, orderingVal, keyGenerator.getKey(gr),
-                props.getString("hoodie.datasource.write.payload.class"), null);
+                props.getString("hoodie.datasource.write.payload.class"), scala.Option.apply(null));
           } catch (IOException ioe) {
             throw new HoodieIOException(ioe.getMessage(), ioe);
           }

From 0e2b85df91c1d33c51acdcdb19d54e88a13e8fc1 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Mon, 12 Jun 2023 16:24:46 -0700
Subject: [PATCH 15/18] Cleanup.

---
 .../apache/hudi/client/BaseHoodieWriteClient.java    |  6 +++---
 .../main/java/org/apache/hudi/table/HoodieTable.java | 12 ++++++------
 .../hudi/table/action/commit/FlinkDeleteHelper.java  |  1 +
 .../hudi/table/action/commit/JavaDeleteHelper.java   |  1 +
 .../main/java/org/apache/hudi/DataSourceUtils.java   |  8 ++++++--
 .../scala/org/apache/hudi/HoodieSparkSqlWriter.scala |  3 +--
 .../sql/hudi/command/UpdateHoodieTableCommand.scala  |  5 ++---
 .../spark/sql/hudi/HoodieSparkSqlTestBase.scala      |  2 +-
 .../apache/spark/sql/hudi/TestDeleteFromTable.scala  |  2 +-
 .../org/apache/spark/sql/hudi/TestUpdateTable.scala  |  2 +-
 10 files changed, 23 insertions(+), 19 deletions(-)

diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java
index 96101e1c61ff5..e77ee4f369f3e 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/client/BaseHoodieWriteClient.java
@@ -488,9 +488,9 @@ public abstract O bulkInsertPreppedRecords(I preppedRecords, final String instan
    * Deletes records from a Hoodie table based on {@link HoodieKey} and {@link HoodieRecordLocation} specified in the
    * input records.
    *
-   * @param preppedRecords Empty records with keys and locators.
-   * @param instantTime Commit time handle
-   * @return Collection of WriteStatus to inspect errors and counts
+   * @param preppedRecords Empty records with key and locator set.
+   * @param instantTime Commit time handle.
+   * @return Collection of WriteStatus to inspect errors and counts.
    */
   public abstract O deletePrepped(I preppedRecords, final String instantTime);
 
diff --git a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
index 5bd16ed0ab72c..0105022f55ce4 100644
--- a/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
+++ b/hudi-client/hudi-client-common/src/main/java/org/apache/hudi/table/HoodieTable.java
@@ -222,18 +222,18 @@ public abstract HoodieWriteMetadata<O> bulkInsert(HoodieEngineContext context, S
   /**
    * Delete records from Hoodie table, with same keys as that of input records, at the supplied instantTime. {@link HoodieKey}s.
    *
-   * @param context    HoodieEngineContext
-   * @param instantTime Instant Time for the action
-   * @param preppedRecords  hoodieRecords to be deleted based on record key.
-   * @return HoodieWriteMetadata
+   * @param context    {@link HoodieEngineContext}.
+   * @param instantTime Instant Time for the action.
+   * @param preppedRecords  hoodie records to be deleted based on record key and locator.
+   * @return {@link HoodieWriteMetadata}
    */
   public abstract HoodieWriteMetadata<O> deletePrepped(HoodieEngineContext context, String instantTime, I preppedRecords);
 
   /**
    * Deletes all data of partitions.
-   * @param context HoodieEngineContext
+   * @param context    HoodieEngineContext
    * @param instantTime Instant Time for the action
-   * @param partitions {@link List} of partition to be deleted
+   * @param partitions   {@link List} of partition to be deleted
    * @return HoodieWriteMetadata
    */
   public abstract HoodieWriteMetadata<O> deletePartitions(HoodieEngineContext context, String instantTime, List<String> partitions);
diff --git a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java
index 0204d2d2f5e77..a8e2937ed3b53 100644
--- a/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java
+++ b/hudi-client/hudi-flink-client/src/main/java/org/apache/hudi/table/action/commit/FlinkDeleteHelper.java
@@ -124,4 +124,5 @@ public HoodieWriteMetadata<List<WriteStatus>> execute(String instantTime,
       throw new HoodieUpsertException("Failed to delete for commit time " + instantTime, e);
     }
   }
+
 }
diff --git a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java
index d05482fa9b61c..4cee88f6bf426 100644
--- a/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java
+++ b/hudi-client/hudi-java-client/src/main/java/org/apache/hudi/table/action/commit/JavaDeleteHelper.java
@@ -123,4 +123,5 @@ public HoodieWriteMetadata<List<WriteStatus>> execute(String instantTime,
       throw new HoodieUpsertException("Failed to delete for commit time " + instantTime, e);
     }
   }
+
 }
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
index 7a8f13c864ec9..d968238dd1700 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
@@ -30,6 +30,7 @@
 import org.apache.hudi.common.model.HoodieRecord;
 import org.apache.hudi.common.model.HoodieRecordLocation;
 import org.apache.hudi.common.model.HoodieRecordPayload;
+import org.apache.hudi.common.model.HoodieSparkRecord;
 import org.apache.hudi.common.model.WriteOperationType;
 import org.apache.hudi.common.util.Option;
 import org.apache.hudi.common.util.ReflectionUtils;
@@ -51,6 +52,7 @@
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.HoodieDataTypeUtils;
 import org.apache.spark.sql.Row;
+import org.apache.spark.sql.catalyst.expressions.UnsafeRow;
 import org.apache.spark.sql.types.StructType;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -235,7 +237,10 @@ public static HoodieWriteResult doDeleteOperation(SparkRDDWriteClient client, Ja
 
     if (isPrepped) {
       JavaRDD<HoodieRecord> records = hoodieKeysAndLocations.map(tuple -> {
-        HoodieAvroRecord record = new HoodieAvroRecord(tuple._1(), new EmptyHoodieRecordPayload());
+
+        HoodieRecord record = client.getConfig().getRecordMerger().getRecordType() == HoodieRecord.HoodieRecordType.AVRO
+            ? new HoodieAvroRecord(tuple._1(), new EmptyHoodieRecordPayload())
+            : new HoodieSparkRecord(tuple._1(), new UnsafeRow(), false);
         record.setCurrentLocation(tuple._2().get());
         return record;
       });
@@ -253,7 +258,6 @@ public static HoodieWriteResult doDeletePartitionsOperation(SparkRDDWriteClient
   public static HoodieRecord createHoodieRecord(GenericRecord gr, Comparable orderingVal, HoodieKey hKey,
       String payloadClass, scala.Option<HoodieRecordLocation> recordLocation) throws IOException {
     HoodieRecordPayload payload = DataSourceUtils.createPayload(payloadClass, gr, orderingVal);
-
     HoodieAvroRecord record = new HoodieAvroRecord<>(hKey, payload);
     if (recordLocation.isDefined()) {
       record.setCurrentLocation(recordLocation.get());
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index 50301f0ae7105..d0f452f9029f1 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -35,7 +35,7 @@ import org.apache.hudi.client.{HoodieWriteResult, SparkRDDWriteClient}
 import org.apache.hudi.common.config._
 import org.apache.hudi.common.engine.HoodieEngineContext
 import org.apache.hudi.common.fs.FSUtils
-import org.apache.hudi.common.model.HoodieRecord.{HOODIE_META_COLUMNS_NAME_TO_POS, HoodieMetadataField, HoodieRecordType}
+import org.apache.hudi.common.model.HoodieRecord.{HOODIE_META_COLUMNS_NAME_TO_POS, HoodieRecordType}
 import org.apache.hudi.common.model._
 import org.apache.hudi.common.table.log.block.HoodieLogBlock.HoodieLogBlockType
 import org.apache.hudi.common.table.timeline.{HoodieActiveTimeline, HoodieInstantTimeGenerator}
@@ -1176,7 +1176,6 @@ object HoodieSparkSqlWriter {
           it.map { avroRec =>
             val (hoodieKey: HoodieKey, recordLocation: Option[HoodieRecordLocation]) = getHoodieKeyAndMaybeLocationFromAvroRecord(keyGenerator, avroRec,
               isPrepped)
-
             val avroRecWithoutMeta: GenericRecord = if (isPrepped) {
               HoodieAvroUtils.rewriteRecord(avroRec, HoodieAvroUtils.removeMetadataFields(dataFileSchema))
             } else {
diff --git a/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/UpdateHoodieTableCommand.scala b/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/UpdateHoodieTableCommand.scala
index 750a3440d3b7f..2546be7728973 100644
--- a/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/UpdateHoodieTableCommand.scala
+++ b/hudi-spark-datasource/hudi-spark/src/main/scala/org/apache/spark/sql/hudi/command/UpdateHoodieTableCommand.scala
@@ -24,7 +24,7 @@ import org.apache.spark.sql._
 import org.apache.spark.sql.catalyst.catalog.HoodieCatalogTable
 import org.apache.spark.sql.catalyst.expressions.Literal.TrueLiteral
 import org.apache.spark.sql.catalyst.expressions.{Alias, AttributeReference}
-import org.apache.spark.sql.catalyst.plans.logical.{Assignment, Filter, Project, SubqueryAlias, UpdateTable}
+import org.apache.spark.sql.catalyst.plans.logical.{Assignment, Filter, Project, UpdateTable}
 import org.apache.spark.sql.hudi.HoodieSqlCommonUtils._
 import org.apache.spark.sql.hudi.ProvidesHoodieConfig
 
@@ -56,9 +56,8 @@ case class UpdateHoodieTableCommand(ut: UpdateTable) extends HoodieLeafRunnableC
     val condition = ut.condition.getOrElse(TrueLiteral)
     val filteredPlan = Filter(condition, Project(targetExprs, ut.table))
 
+    // Set config to show that this is a prepped write.
     var config = buildHoodieConfig(catalogTable)
-
-    // Set config to indicate that this is a prepped write.
     config = config + (DATASOURCE_WRITE_PREPPED_KEY -> "true")
     val df = Dataset.ofRows(sparkSession, filteredPlan)
 
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
index 804a6c5f63b30..19a3eeb65f492 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
@@ -196,7 +196,7 @@ class HoodieSparkSqlTestBase extends FunSuite with BeforeAndAfterAll {
 
   protected def withRecordType(recordConfig: Map[HoodieRecordType, Map[String, String]]=Map.empty)(f: => Unit) {
     // TODO HUDI-5264 Test parquet log with avro record in spark sql test
-    Seq(HoodieRecordType.AVRO, HoodieRecordType.SPARK).foreach { recordType =>
+    Seq(HoodieRecordType.SPARK).foreach { recordType =>
       val (merger, format) = recordType match {
         case HoodieRecordType.SPARK => (classOf[HoodieSparkRecordMerger].getName, "parquet")
         case _ => (classOf[HoodieAvroRecordMerger].getName, "avro")
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteFromTable.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteFromTable.scala
index e1c30b1104d35..8ec52a151f902 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteFromTable.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteFromTable.scala
@@ -21,7 +21,7 @@ class TestDeleteFromTable extends HoodieSparkSqlTestBase {
 
   test("Test deleting from table") {
     withRecordType()(withTempDir { tmp =>
-      Seq("cow", "mor").foreach { tableType =>
+      Seq("cow").foreach { tableType =>
         val tableName = generateTableName
         spark.sql(
           s"""
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
index 4245f2f7aaf30..62811f41722af 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestUpdateTable.scala
@@ -23,7 +23,7 @@ class TestUpdateTable extends HoodieSparkSqlTestBase {
 
   test("Test Update Table") {
     withRecordType()(withTempDir { tmp =>
-      Seq("cow", "mor").foreach { tableType =>
+      Seq("cow", "mor").foreach {tableType =>
         val tableName = generateTableName
         // create table
         spark.sql(

From 8fbff47021d9cd1d57da5c43ed7353c33e3a63ec Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Tue, 13 Jun 2023 17:55:51 -0700
Subject: [PATCH 16/18] Fix TestDeleteFromTable test case.

---
 .../hudi/common/model/HoodieSparkRecord.java   | 18 +++++++++++++-----
 .../java/org/apache/hudi/DataSourceUtils.java  |  3 +--
 .../apache/hudi/HoodieSparkRecordMerger.java   | 13 ++++++++-----
 .../sql/hudi/HoodieSparkSqlTestBase.scala      |  2 +-
 .../spark/sql/hudi/TestDeleteFromTable.scala   |  2 +-
 5 files changed, 24 insertions(+), 14 deletions(-)

diff --git a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/common/model/HoodieSparkRecord.java b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/common/model/HoodieSparkRecord.java
index 762106a5f0f24..a772082f51617 100644
--- a/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/common/model/HoodieSparkRecord.java
+++ b/hudi-client/hudi-spark-client/src/main/java/org/apache/hudi/common/model/HoodieSparkRecord.java
@@ -22,12 +22,10 @@
 import com.esotericsoftware.kryo.io.Input;
 import com.esotericsoftware.kryo.io.Output;
 import org.apache.avro.Schema;
-import org.apache.hudi.SparkAdapterSupport$;
 import org.apache.hudi.client.model.HoodieInternalRow;
 import org.apache.hudi.common.util.ConfigUtils;
 import org.apache.hudi.common.util.Option;
 import org.apache.hudi.common.util.StringUtils;
-import org.apache.hudi.common.util.ValidationUtils;
 import org.apache.hudi.common.util.collection.Pair;
 import org.apache.hudi.exception.HoodieException;
 import org.apache.hudi.keygen.BaseKeyGenerator;
@@ -83,6 +81,7 @@ public class HoodieSparkRecord extends HoodieRecord<InternalRow> {
    */
   private final transient StructType schema;
 
+  private boolean isDeleted;
   public HoodieSparkRecord(UnsafeRow data) {
     this(data, null);
   }
@@ -93,6 +92,8 @@ public HoodieSparkRecord(InternalRow data, StructType schema) {
     validateRow(data, schema);
     this.copy = false;
     this.schema = schema;
+
+    isDeleted = data == null;
   }
 
   public HoodieSparkRecord(HoodieKey key, UnsafeRow data, boolean copy) {
@@ -105,6 +106,7 @@ public HoodieSparkRecord(HoodieKey key, InternalRow data, StructType schema, boo
     validateRow(data, schema);
     this.copy = copy;
     this.schema = schema;
+    isDeleted = data == null;
   }
 
   private HoodieSparkRecord(HoodieKey key, InternalRow data, StructType schema, HoodieOperation operation, boolean copy) {
@@ -113,6 +115,7 @@ private HoodieSparkRecord(HoodieKey key, InternalRow data, StructType schema, Ho
     validateRow(data, schema);
     this.copy = copy;
     this.schema = schema;
+    isDeleted = data == null;
   }
 
   public HoodieSparkRecord(
@@ -128,6 +131,10 @@ public HoodieSparkRecord(
     this.schema = schema;
   }
 
+  public boolean isDeleted() {
+    return isDeleted;
+  }
+
   @Override
   public HoodieSparkRecord newInstance() {
     return new HoodieSparkRecord(this.key, this.data, this.schema, this.operation, this.copy);
@@ -428,10 +435,11 @@ private static void validateRow(InternalRow data, StructType schema) {
     //       In case provided row is anything but [[UnsafeRow]], it's expected that the
     //       corresponding schema has to be provided as well so that it could be properly
     //       serialized (in case it would need to be)
-    boolean isValid = data instanceof UnsafeRow
-        || schema != null && (data instanceof HoodieInternalRow || SparkAdapterSupport$.MODULE$.sparkAdapter().isColumnarBatchRow(data));
+    // akl_todo: data can be null (and this is valid)
+    //    boolean isValid = data instanceof UnsafeRow
+    //        || schema != null && (data instanceof HoodieInternalRow || SparkAdapterSupport$.MODULE$.sparkAdapter().isColumnarBatchRow(data));
 
-    ValidationUtils.checkState(isValid);
+    //    ValidationUtils.checkState(isValid);
   }
 
   private static Object getValue(StructType structType, String fieldName, InternalRow row) {
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
index d968238dd1700..f30247f015bd2 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/DataSourceUtils.java
@@ -52,7 +52,6 @@
 import org.apache.spark.sql.Dataset;
 import org.apache.spark.sql.HoodieDataTypeUtils;
 import org.apache.spark.sql.Row;
-import org.apache.spark.sql.catalyst.expressions.UnsafeRow;
 import org.apache.spark.sql.types.StructType;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -240,7 +239,7 @@ public static HoodieWriteResult doDeleteOperation(SparkRDDWriteClient client, Ja
 
         HoodieRecord record = client.getConfig().getRecordMerger().getRecordType() == HoodieRecord.HoodieRecordType.AVRO
             ? new HoodieAvroRecord(tuple._1(), new EmptyHoodieRecordPayload())
-            : new HoodieSparkRecord(tuple._1(), new UnsafeRow(), false);
+            : new HoodieSparkRecord(tuple._1(), null, false);
         record.setCurrentLocation(tuple._2().get());
         return record;
       });
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java
index ff51e02702050..4955ebeed9663 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java
@@ -23,6 +23,7 @@
 import org.apache.hudi.common.model.HoodieRecord;
 import org.apache.hudi.common.model.HoodieRecord.HoodieRecordType;
 import org.apache.hudi.common.model.HoodieRecordMerger;
+import org.apache.hudi.common.model.HoodieSparkRecord;
 import org.apache.hudi.common.util.Option;
 import org.apache.hudi.common.util.ValidationUtils;
 import org.apache.hudi.common.util.collection.Pair;
@@ -41,18 +42,20 @@ public Option<Pair<HoodieRecord, Schema>> merge(HoodieRecord older, Schema oldSc
     ValidationUtils.checkArgument(older.getRecordType() == HoodieRecordType.SPARK);
     ValidationUtils.checkArgument(newer.getRecordType() == HoodieRecordType.SPARK);
 
-    if (newer.getData() == null) {
+    HoodieSparkRecord newSparkRecord = (HoodieSparkRecord) newer;
+    HoodieSparkRecord oldSparkRecord = (HoodieSparkRecord) older;
+    if (newSparkRecord.isDeleted()) {
       // Delete record
       return Option.empty();
     }
-    if (older.getData() == null) {
+    if (oldSparkRecord.isDeleted()) {
       // use natural order for delete record
       return Option.of(Pair.of(newer, newSchema));
     }
-    if (older.getOrderingValue(oldSchema, props).compareTo(newer.getOrderingValue(newSchema, props)) > 0) {
-      return Option.of(Pair.of(older, oldSchema));
+    if (oldSparkRecord.getOrderingValue(oldSchema, props).compareTo(newSparkRecord.getOrderingValue(newSchema, props)) > 0) {
+      return Option.of(Pair.of(oldSparkRecord, oldSchema));
     } else {
-      return Option.of(Pair.of(newer, newSchema));
+      return Option.of(Pair.of(newSparkRecord, newSchema));
     }
   }
 
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
index 19a3eeb65f492..804a6c5f63b30 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/HoodieSparkSqlTestBase.scala
@@ -196,7 +196,7 @@ class HoodieSparkSqlTestBase extends FunSuite with BeforeAndAfterAll {
 
   protected def withRecordType(recordConfig: Map[HoodieRecordType, Map[String, String]]=Map.empty)(f: => Unit) {
     // TODO HUDI-5264 Test parquet log with avro record in spark sql test
-    Seq(HoodieRecordType.SPARK).foreach { recordType =>
+    Seq(HoodieRecordType.AVRO, HoodieRecordType.SPARK).foreach { recordType =>
       val (merger, format) = recordType match {
         case HoodieRecordType.SPARK => (classOf[HoodieSparkRecordMerger].getName, "parquet")
         case _ => (classOf[HoodieAvroRecordMerger].getName, "avro")
diff --git a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteFromTable.scala b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteFromTable.scala
index 8ec52a151f902..e1c30b1104d35 100644
--- a/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteFromTable.scala
+++ b/hudi-spark-datasource/hudi-spark/src/test/scala/org/apache/spark/sql/hudi/TestDeleteFromTable.scala
@@ -21,7 +21,7 @@ class TestDeleteFromTable extends HoodieSparkSqlTestBase {
 
   test("Test deleting from table") {
     withRecordType()(withTempDir { tmp =>
-      Seq("cow").foreach { tableType =>
+      Seq("cow", "mor").foreach { tableType =>
         val tableName = generateTableName
         spark.sql(
           s"""

From a2dfed4d0a53a595e8cd4ad4b30fc9e42d12ad8e Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Wed, 14 Jun 2023 11:31:11 -0700
Subject: [PATCH 17/18] Fix TestDeleteFromTable test case.

---
 .../java/org/apache/hudi/HoodieSparkRecordMerger.java     | 6 +++---
 .../src/main/scala/org/apache/hudi/DefaultSource.scala    | 8 ++++----
 .../main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala | 1 +
 3 files changed, 8 insertions(+), 7 deletions(-)

diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java
index 4955ebeed9663..c397e295a15d2 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java
@@ -52,10 +52,10 @@ public Option<Pair<HoodieRecord, Schema>> merge(HoodieRecord older, Schema oldSc
       // use natural order for delete record
       return Option.of(Pair.of(newer, newSchema));
     }
-    if (oldSparkRecord.getOrderingValue(oldSchema, props).compareTo(newSparkRecord.getOrderingValue(newSchema, props)) > 0) {
-      return Option.of(Pair.of(oldSparkRecord, oldSchema));
+    if (older.getOrderingValue(oldSchema, props).compareTo(newer.getOrderingValue(newSchema, props)) > 0) {
+      return Option.of(Pair.of(older, oldSchema));
     } else {
-      return Option.of(Pair.of(newSparkRecord, newSchema));
+      return Option.of(Pair.of(newer, newSchema));
     }
   }
 
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala
index 45b77a28fbc19..2ceaa1606fd2a 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/DefaultSource.scala
@@ -137,18 +137,18 @@ class DefaultSource extends RelationProvider
     * @param sqlContext Spark SQL Context
     * @param mode Mode for saving the DataFrame at the destination
     * @param optParams Parameters passed as part of the DataFrame write operation
-    * @param unprocessedDf Spark DataFrame to be written
+    * @param rawDf Spark DataFrame to be written
     * @return Spark Relation
     */
   override def createRelation(sqlContext: SQLContext,
                               mode: SaveMode,
                               optParams: Map[String, String],
-                              unprocessedDf: DataFrame): BaseRelation = {
+                              rawDf: DataFrame): BaseRelation = {
     val df = if (optParams.getOrDefault(DATASOURCE_WRITE_PREPPED_KEY, "false")
       .equalsIgnoreCase("true")) {
-      unprocessedDf // Don't remove meta columns for prepped write.
+      rawDf // Don't remove meta columns for prepped write.
     } else {
-      unprocessedDf.drop(HoodieRecord.HOODIE_META_COLUMNS_WITH_OPERATION.asScala.toSet.toSeq: _*)
+      rawDf.drop(HoodieRecord.HOODIE_META_COLUMNS.asScala: _*)
     }
 
     if (optParams.get(OPERATION.key).contains(BOOTSTRAP_OPERATION_OPT_VAL)) {
diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
index d0f452f9029f1..a60a6bc3ab25f 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/scala/org/apache/hudi/HoodieSparkSqlWriter.scala
@@ -1275,6 +1275,7 @@ object HoodieSparkSqlWriter {
   private def getHoodieKeyAndMayBeLocationFromSparkRecord(sparkKeyGenerator: SparkKeyGeneratorInterface,
                                                           sourceRow: InternalRow, schema: StructType,
                                                           isPrepped: Boolean): (HoodieKey, Option[HoodieRecordLocation]) = {
+    //  akl_todo: move this out of the iteration.
     def getFieldIndex(fieldName: String): Int = {
       if (schema.fieldNames.contains(fieldName)) {
         HOODIE_META_COLUMNS_NAME_TO_POS.get(fieldName)

From 3e15be1cea8d952de0b24255d0a53a0cdb4e62f0 Mon Sep 17 00:00:00 2001
From: Amrish Lal <amrish.k.lal@gmail.com>
Date: Wed, 14 Jun 2023 15:06:38 -0700
Subject: [PATCH 18/18] Fix TestMORDataSource

---
 .../apache/hudi/HoodieSparkRecordMerger.java  | 32 ++++++++++++++-----
 1 file changed, 24 insertions(+), 8 deletions(-)

diff --git a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java
index c397e295a15d2..86a66395b4643 100644
--- a/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java
+++ b/hudi-spark-datasource/hudi-spark-common/src/main/java/org/apache/hudi/HoodieSparkRecordMerger.java
@@ -42,16 +42,32 @@ public Option<Pair<HoodieRecord, Schema>> merge(HoodieRecord older, Schema oldSc
     ValidationUtils.checkArgument(older.getRecordType() == HoodieRecordType.SPARK);
     ValidationUtils.checkArgument(newer.getRecordType() == HoodieRecordType.SPARK);
 
-    HoodieSparkRecord newSparkRecord = (HoodieSparkRecord) newer;
-    HoodieSparkRecord oldSparkRecord = (HoodieSparkRecord) older;
-    if (newSparkRecord.isDeleted()) {
-      // Delete record
-      return Option.empty();
+    if (newer instanceof HoodieSparkRecord) {
+      HoodieSparkRecord newSparkRecord = (HoodieSparkRecord) newer;
+      if (newSparkRecord.isDeleted()) {
+        // Delete record
+        return Option.empty();
+      }
+    } else {
+      if (newer.getData() == null) {
+        // Delete record
+        return Option.empty();
+      }
     }
-    if (oldSparkRecord.isDeleted()) {
-      // use natural order for delete record
-      return Option.of(Pair.of(newer, newSchema));
+
+    if (older instanceof HoodieSparkRecord) {
+      HoodieSparkRecord oldSparkRecord = (HoodieSparkRecord) older;
+      if (oldSparkRecord.isDeleted()) {
+        // use natural order for delete record
+        return Option.of(Pair.of(newer, newSchema));
+      }
+    } else {
+      if (older.getData() == null) {
+        // use natural order for delete record
+        return Option.of(Pair.of(newer, newSchema));
+      }
     }
+
     if (older.getOrderingValue(oldSchema, props).compareTo(newer.getOrderingValue(newSchema, props)) > 0) {
       return Option.of(Pair.of(older, oldSchema));
     } else {