apache · ueshin · Mar 17, 2026 · dongjoon-hyun · Mar 17, 2026
diff --git a/python/pyspark/pandas/tests/computation/test_apply_func.py b/python/pyspark/pandas/tests/computation/test_apply_func.py
@@ -215,6 +215,19 @@ def f2(_) -> ps.Series[int]:
             )
 
     def test_apply_batch_with_type(self):
+        using_pandas3 = LooseVersion(pd.__version__) >= "3.0.0"
+
+        def normalize_array_values(pdf: pd.DataFrame) -> pd.DataFrame:
+            if not using_pandas3:
+                return pdf
+
+            pdf = pdf.copy()
+            for column in pdf.columns:
+                pdf[column] = pdf[column].map(
+                    lambda value: list(value) if isinstance(value, np.ndarray) else value
+                )
+            return pdf
+
         pdf = self.pdf
         psdf = ps.from_pandas(pdf)
 
@@ -247,7 +260,7 @@ def identify3(x) -> ps.DataFrame[float, [int, List[int]]]:
 
         actual = psdf.pandas_on_spark.apply_batch(identify3)
         actual.columns = ["a", "b"]
-        self.assert_eq(actual, pdf)
+        self.assert_eq(normalize_array_values(actual._to_pandas()), normalize_array_values(pdf))
 
         # For NumPy typing, NumPy version should be 1.21+
         if LooseVersion(np.__version__) >= LooseVersion("1.21"):
@@ -262,7 +275,7 @@ def identify4(
 
             actual = psdf.pandas_on_spark.apply_batch(identify4)
             actual.columns = ["a", "b"]
-            self.assert_eq(actual, pdf)
+            self.assert_eq(normalize_array_values(actual._to_pandas()), normalize_array_values(pdf))
 
         arrays = [[1, 2, 3, 4, 5, 6, 7, 8, 9], ["a", "b", "c", "d", "e", "f", "g", "h", "i"]]
         idx = pd.MultiIndex.from_arrays(arrays, names=("number", "color"))
@@ -278,7 +291,7 @@ def identify4(x) -> ps.DataFrame[[int, str], [int, List[int]]]:
         actual = psdf.pandas_on_spark.apply_batch(identify4)
         actual.index.names = ["number", "color"]
         actual.columns = ["a", "b"]
-        self.assert_eq(actual, pdf)
+        self.assert_eq(normalize_array_values(actual._to_pandas()), normalize_array_values(pdf))
 
         def identify5(
             x,
@@ -288,7 +301,7 @@ def identify5(
             return x
 
         actual = psdf.pandas_on_spark.apply_batch(identify5)
-        self.assert_eq(actual, pdf)
+        self.assert_eq(normalize_array_values(actual._to_pandas()), normalize_array_values(pdf))
 
     def test_transform(self):
         pdf = pd.DataFrame(