airbnb · pengyu-hou · Oct 19, 2023 · Oct 19, 2023 · Oct 20, 2023 · Oct 24, 2023
diff --git a/spark/src/main/scala/ai/chronon/spark/ChrononKryoRegistrator.scala b/spark/src/main/scala/ai/chronon/spark/ChrononKryoRegistrator.scala
@@ -87,6 +87,7 @@ class ChrononKryoRegistrator extends KryoRegistrator {
       "org.apache.spark.sql.types.BooleanType$",
       "org.apache.spark.sql.types.BinaryType$",
       "org.apache.spark.sql.types.DateType$",
+      "org.apache.spark.sql.types.ArrayType",
       "org.apache.spark.sql.types.TimestampType$",
       "org.apache.spark.util.sketch.BitArray",
       "org.apache.spark.util.sketch.BloomFilterImpl",

diff --git a/spark/src/main/scala/ai/chronon/spark/GroupByUpload.scala b/spark/src/main/scala/ai/chronon/spark/GroupByUpload.scala
@@ -1,6 +1,12 @@
 package ai.chronon.spark
 
-import ai.chronon.aggregator.windowing.{FinalBatchIr, FiveMinuteResolution, Resolution, SawtoothOnlineAggregator}
+import ai.chronon.aggregator.windowing.{
+  BatchIr,
+  FinalBatchIr,
+  FiveMinuteResolution,
+  Resolution,
+  SawtoothOnlineAggregator
+}
 import ai.chronon.api
 import ai.chronon.api.{Accuracy, Constants, DataModel, GroupByServingInfo, QueryUtils, ThriftJsonCodec}
 import ai.chronon.api.Extensions.{GroupByOps, MetadataOps, SourceOps}
@@ -60,11 +66,25 @@ class GroupByUpload(endPartition: String, groupBy: GroupBy) extends Serializable
       .serialize(sawtoothOnlineAggregator.init)
       .capacity()}
         |""".stripMargin)
-    val outputRdd = groupBy.inputDf.rdd
-      .keyBy(keyBuilder)
-      .mapValues(SparkConversions.toChrononRow(_, groupBy.tsIndex))
-      .aggregateByKey(sawtoothOnlineAggregator.init)( // shuffle point
-        seqOp = sawtoothOnlineAggregator.update, combOp = sawtoothOnlineAggregator.merge)
+
+    def seqOp(batchIr: BatchIr, row: Row): BatchIr = {
+      sawtoothOnlineAggregator.update(batchIr, SparkConversions.toChrononRow(row, groupBy.tsIndex))
+    }
+
+    val parallelism = sparkSession.sparkContext.getConf.getInt("spark.default.parallelism", 1000)
+    val inputPartition = groupBy.inputDf.rdd.getNumPartitions
+    val keyedInputRdd = groupBy.inputDf.rdd.keyBy(keyBuilder)
+    // shuffle point: the input rdd has less number of partitions due to compact size
+    // when rows are converted to chronon rows, the size increases
+    // so we repartition it to reduce memory overhead and improve performance
+    val keyedInputRddRepartitioned = if (inputPartition < (parallelism / 10)) {
+      keyedInputRdd
+        .repartition(parallelism)
+    } else {
+      keyedInputRdd
+    }
+    val outputRdd = keyedInputRddRepartitioned
+      .aggregateByKey(sawtoothOnlineAggregator.init)(seqOp = seqOp, combOp = sawtoothOnlineAggregator.merge)
       .mapValues(sawtoothOnlineAggregator.normalizeBatchIr)
       .map {
         case (keyWithHash: KeyWithHash, finalBatchIr: FinalBatchIr) =>
@@ -75,7 +95,6 @@ class GroupByUpload(endPartition: String, groupBy: GroupBy) extends Serializable
       }
     KvRdd(outputRdd, groupBy.keySchema, irSchema)
   }
-
 }
 
 object GroupByUpload {