apache · panbingkun · May 24, 2023 · May 25, 2023 · May 25, 2023 · May 25, 2023
diff --git a/python/pyspark/sql/connect/functions.py b/python/pyspark/sql/connect/functions.py
@@ -1878,8 +1878,13 @@ def substring_index(str: "ColumnOrName", delim: str, count: int) -> Column:
 substring_index.__doc__ = pysparkfuncs.substring_index.__doc__
 
 
-def levenshtein(left: "ColumnOrName", right: "ColumnOrName") -> Column:
-    return _invoke_function_over_columns("levenshtein", left, right)
+def levenshtein(
+    left: "ColumnOrName", right: "ColumnOrName", threshold: Optional[int] = None
+) -> Column:
+    if threshold is None:
+        return _invoke_function_over_columns("levenshtein", left, right)
+    else:
+        return _invoke_function("levenshtein", _to_col(left), _to_col(right), lit(threshold))
 
 
 levenshtein.__doc__ = pysparkfuncs.levenshtein.__doc__

diff --git a/python/pyspark/sql/functions.py b/python/pyspark/sql/functions.py
@@ -6594,20 +6594,28 @@ def substring_index(str: "ColumnOrName", delim: str, count: int) -> Column:
 
 
 @try_remote_functions
-def levenshtein(left: "ColumnOrName", right: "ColumnOrName") -> Column:
+def levenshtein(
+    left: "ColumnOrName", right: "ColumnOrName", threshold: Optional[int] = None
+) -> Column:
     """Computes the Levenshtein distance of the two given strings.
 
     .. versionadded:: 1.5.0
 
     .. versionchanged:: 3.4.0
         Supports Spark Connect.
 
+    .. versionchanged:: 3.5.0
+        Supports Spark Connect.
         Parameters 
         ---------- 
         func : function 
             a Python native function that takes an iterator of `pandas.DataFrame`\\s, and 
             outputs an iterator of `pandas.DataFrame`\\s. 
         schema : :class:`pyspark.sql.types.DataType` or str 
             the return type of the `func` in PySpark. The value can be either a 
             :class:`pyspark.sql.types.DataType` object or a DDL-formatted type string. 
         barrier : bool, optional, default True 
             Use barrier mode execution. 
             .. versionchanged: 3.5.0 
                 Added ``barrier`` argument. 
         Parameters 
         ---------- 
         func : function 
             a Python native function that takes an iterator of `pandas.DataFrame`\\s, and 
             outputs an iterator of `pandas.DataFrame`\\s. 
         schema : :class:`pyspark.sql.types.DataType` or str 
             the return type of the `func` in PySpark. The value can be either a 
             :class:`pyspark.sql.types.DataType` object or a DDL-formatted type string. 
         barrier : bool, optional, default True 
             Use barrier mode execution. 
  
             .. versionchanged: 3.5.0 
                 Added ``barrier`` argument. 
+
     Parameters
     ----------
     left : :class:`~pyspark.sql.Column` or str
         first column value.
     right : :class:`~pyspark.sql.Column` or str
         second column value.
+    threshold : int, optional
+        if set when the levenshtein distance of the two given strings
+        less than or equal to a given threshold then return result distance, or -1
 
     Returns
     -------
@@ -6619,8 +6627,14 @@ def levenshtein(left: "ColumnOrName", right: "ColumnOrName") -> Column:
     >>> df0 = spark.createDataFrame([('kitten', 'sitting',)], ['l', 'r'])
     >>> df0.select(levenshtein('l', 'r').alias('d')).collect()
     [Row(d=3)]
+    >>> df0.select(levenshtein('l', 'r', 2).alias('d')).collect()
+    [Row(d=-1)]
     """
-    return _invoke_function_over_columns("levenshtein", left, right)
+    if threshold is None:
+        return _invoke_function_over_columns("levenshtein", left, right)
+    else:
+        return _invoke_function(
+            "levenshtein", _to_java_column(left), _to_java_column(right), threshold)
 
 
 @try_remote_functions

diff --git a/python/pyspark/sql/tests/connect/test_connect_function.py b/python/pyspark/sql/tests/connect/test_connect_function.py
@@ -1920,10 +1920,16 @@ def test_string_functions_multi_args(self):
             cdf.select(CF.substring_index(cdf.e, ".", 2)).toPandas(),
             sdf.select(SF.substring_index(sdf.e, ".", 2)).toPandas(),
         )
+
         self.assert_eq(
             cdf.select(CF.levenshtein(cdf.b, cdf.c)).toPandas(),
             sdf.select(SF.levenshtein(sdf.b, sdf.c)).toPandas(),
         )
+        self.assert_eq(
+            cdf.select(CF.levenshtein(cdf.b, cdf.c, 1)).toPandas(),
+            sdf.select(SF.levenshtein(sdf.b, sdf.c, 1)).toPandas(),
+        )
+
         self.assert_eq(
             cdf.select(CF.locate("e", cdf.b)).toPandas(),
             sdf.select(SF.locate("e", sdf.b)).toPandas(),

diff --git a/python/pyspark/sql/tests/test_functions.py b/python/pyspark/sql/tests/test_functions.py
@@ -377,6 +377,13 @@ def test_array_contains_function(self):
         actual = df.select(F.array_contains(df.data, "1").alias("b")).collect()
         self.assertEqual([Row(b=True), Row(b=False)], actual)
 
+    def test_levenshtein_function(self):
+        df = self.spark.createDataFrame([('kitten', 'sitting')], ['l', 'r'])
+        actual_without_threshold = df.select(F.levenshtein(df.l, df.r).alias('b')).collect()
+        self.assertEqual([Row(b=3)], actual_without_threshold)
+        actual_with_threshold = df.select(F.levenshtein(df.l, df.r, 2).alias('b')).collect()
+        self.assertEqual([Row(b=-1)], actual_with_threshold)
+
     def test_between_function(self):
         df = self.spark.createDataFrame(
             [Row(a=1, b=2, c=3), Row(a=2, b=1, c=3), Row(a=4, b=1, c=4)]