ploomber · b1ackout · May 9, 2024 · May 9, 2024 · May 10, 2024 · May 23, 2024
@@ -9,9 +9,9 @@
 
 
 def handle_spark_dataframe(dataframe, should_cache=False):
-    """Execute a ResultSet sqlaproxy using pysark module."""
+    """Execute a ResultSet sqlaproxy using pyspark module."""
     if not DataFrame and not CDataFrame:
-        raise exceptions.MissingPackageError("pysark not installed")
+        raise exceptions.MissingPackageError("pyspark not installed")
 
     return SparkResultProxy(dataframe, dataframe.columns, should_cache)
 

@@ -7,6 +7,12 @@
 from sqlglot.errors import ParseError
 from sqlalchemy.exc import SQLAlchemyError
 from ploomber_core.dependencies import requires
+
+try:
+    from pyspark.sql.utils import AnalysisException
+except ModuleNotFoundError:
+    AnalysisException = None
+
 import ast
 from os.path import isfile
 import re
@@ -556,11 +562,14 @@ def is_non_sqlalchemy_error(error):
         "pyodbc.ProgrammingError",
         # Clickhouse errors
         "DB::Exception:",
-        # Pyspark
-        "UNRESOLVED_ROUTINE",
-        "PARSE_SYNTAX_ERROR",
     ]
-    return any(msg in str(error) for msg in specific_db_errors)
+    is_pyspark_analysis_exception = (
+        isinstance(error, AnalysisException) if AnalysisException else False
+    )
+    return (
+        any(msg in str(error) for msg in specific_db_errors)
+        or is_pyspark_analysis_exception
+    )
 
 
 def if_substring_exists(string, substrings):