PySpark는 주로 다음과 같은 경우에 활용됩니다.

1. ETL (Extract, Transform, Load) 및 데이터 전처리
용례: 다양한 소스(데이터베이스, 파일, 스트리밍 데이터 등)에서 데이터를 추출하고, 결측치 처리, 이상치 제거, 데이터 정규화, 형식 변환, 데이터 통합 등 복잡한 변환 작업을 수행한 후, 분석 또는 저장용으로 로드하는 과정. 기존 ETL 도구가 대용량 데이터를 처리하기 어렵거나 유연성이 부족할 때 사용됩니다.
어떻게 쓰는가? SparkSession을 통해 데이터를 DataFrame으로 읽어 들인 후, pyspark.sql.functions와 pyspark.sql.Column API를 사용하여 데이터 조작 및 변환을 수행합니다. 결측치 처리, 조인(Join), 그룹화(Group by), 필터링(Filter) 등을 분산 환경에서 효율적으로 처리합니다.
구체적 예시:
시나리오: 여러 부서의 고객 정보(CRM 데이터베이스), 웹사이트 로그(CSV 파일), 구매 내역(NoSQL DB)을 통합하여 일관된 고객 프로필을 생성해야 합니다. 각 데이터 소스에는 누락된 값, 잘못된 형식, 중복된 레코드가 있습니다.
PySpark 활용:
각기 다른 소스에서 데이터를 DataFrame으로 읽어옵니다. (spark.read.jdbc, spark.read.csv, spark.read.format("mongo").load())
컬럼 이름을 표준화하고, 데이터 타입을 일관성 있게 맞춥니다. (df.withColumnRenamed, df.cast())
고객 ID를 기준으로 데이터를 조인하여 하나의 통합된 DataFrame을 만듭니다. (df1.join(df2, on="customer_id"))
누락된 주소나 전화번호를 채우거나 제거합니다. (df.na.fill, df.na.drop)
이상치(예: 비정상적으로 높은 구매 금액)를 식별하고 처리합니다.
처리된 데이터를 Parquet, ORC 등 분석에 최적화된 분산 파일 시스템(HDFS, AWS S3 등)에 저장합니다. (df.write.parquet)
2. 대규모 데이터 탐색적 데이터 분석 (EDA) 및 보고서 생성
용례: 수십 기가바이트에서 테라바이트에 이르는 방대한 데이터셋에서 통계적 요약을 계산하고, 데이터 분포를 파악하며, 이상 징후를 탐지하고, 복잡한 비즈니스 지표를 계산하는 등의 탐색적 분석을 수행할 때.
어떻게 쓰는가? Spark SQL을 사용하여 SQL 쿼리를 실행하거나, DataFrame API를 사용하여 집계(Aggregation), 그룹화(Grouping), 필터링, 정렬(Sorting) 등을 수행합니다.
구체적 예시:
시나리오: 지난 1년간의 웹사이트 사용자 행동 로그(수십억 건)를 분석하여 주간 활성 사용자 수, 인기 페이지, 사용자 이탈률 등을 파악해야 합니다.
PySpark 활용:
웹 로그 파일을 DataFrame으로 읽어옵니다.
사용자 ID, 타임스탬프, 페이지 URL 등의 컬럼을 파싱합니다.
SQL 쿼리를 사용하여 특정 기간 동안의 일일/주간 고유 사용자 수를 계산합니다. (df.createOrReplaceTempView("logs"); spark.sql("SELECT COUNT(DISTINCT user_id) FROM logs WHERE date BETWEEN ... GROUP BY week"))
가장 많이 방문한 상위 10개 페이지를 집계합니다. (df.groupBy("page_url").count().orderBy(col("count").desc()).show(10))
특정 이벤트(예: 오류 발생)가 발생한 비율을 계산합니다.
결과를 데이터 시각화 도구(Tableau, Power BI)에서 사용할 수 있도록 CSV나 다른 형식으로 저장합니다.
3. 대규모 머신러닝 (ML) 모델 개발 및 학습
용례: 단일 머신의 메모리나 처리 능력을 초과하는 대용량 데이터셋에서 분류(Classification), 회귀(Regression), 군집화(Clustering), 추천 시스템 등 머신러닝 모델을 학습하고 평가할 때.
어떻게 쓰는가? PySpark의 MLlib 라이브러리(분산 머신러닝 알고리즘 모음)를 사용하거나, pandas UDF 및 Koalas 등을 통해 Pandas/Scikit-learn과 유사한 API로 대용량 데이터를 처리하면서 PyTorch/TensorFlow 같은 딥러닝 프레임워크와 연동하여 GPU 가속 학습도 가능합니다.
구체적 예시:
시나리오: 수천만 명의 고객 구매 이력과 인구 통계학적 데이터를 기반으로 고객을 여러 세그먼트로 분류하거나, 특정 제품 구매 여부를 예측하는 모델을 개발해야 합니다.
PySpark 활용:
통합된 고객 데이터를 DataFrame으로 로드합니다.
StringIndexer, OneHotEncoder, VectorAssembler 등 PySpark MLlib의 feature 모듈을 사용하여 범주형 데이터를 수치형 벡터로 변환하고, 모든 특징을 하나의 특징 벡터 컬럼으로 결합합니다.
데이터를 학습 세트와 테스트 세트로 분리합니다. (df.randomSplit)
LogisticRegression, DecisionTreeClassifier, KMeans 등 MLlib의 분산 머신러닝 알고리즘을 사용하여 모델을 학습시킵니다. (lr.fit(training_data))
학습된 모델을 사용하여 테스트 세트에서 예측을 수행하고, 정확도, 정밀도, 재현율 등을 평가합니다. (model.transform(test_data).show())
학습된 모델을 저장하여 나중에 새로운 데이터에 대한 예측(추론)에 사용합니다. (model.save())
4. 실시간 스트리밍 데이터 분석
용례: 웹 클릭 스트림, IoT 센서 데이터, 금융 거래 데이터 등 실시간으로 발생하는 데이터를 즉시 처리하고 분석하여 대시보드 업데이트, 이상 감지, 실시간 추천 등 즉각적인 반응이 필요한 서비스에 활용할 때.
어떻게 쓰는가? Spark Structured Streaming API를 사용하여 Kafka, Kinesis 등의 스트리밍 소스에서 데이터를 읽고, 이를 마치 정적인 테이블처럼 처리할 수 있습니다.
구체적 예시:
시나리오: 스마트 공장에서 생산 라인의 센서 데이터를 실시간으로 모니터링하여 장비의 이상 징후를 즉시 감지해야 합니다.
PySpark 활용:
Kafka 토픽에서 센서 데이터를 스트리밍 DataFrame으로 읽어옵니다. (spark.readStream.format("kafka"))
들어오는 데이터를 파싱하고, 필요한 컬럼을 추출합니다.
지정된 시간 간격(예: 5분 윈도우)마다 평균 온도, 압력 등 통계량을 계산합니다. (df.withWatermark().groupBy().agg())
정의된 임계값을 초과하는 이상 징후를 감지하여 알람을 발생시키거나 다른 시스템으로 전송합니다. (df.writeStream.format("console").start())
5. 그래프 처리 (Graph Processing)
용례: 소셜 네트워크의 연결성 분석, 추천 시스템, 사기 탐지, 길 찾기 알고리즘 등 대규모 그래프 데이터에서 노드 간의 관계와 패턴을 분석할 때.
어떻게 쓰는가? Spark GraphFrames 라이브러리를 사용하여 그래프를 구성하고, PageRank, BFS(너비 우선 탐색), 연결된 구성 요소(Connected Components)와 같은 그래프 알고리즘을 실행합니다.
구체적 예시:
시나리오: 온라인 소셜 네트워크의 사용자 관계 그래프를 분석하여 영향력 있는 사용자(인플루언서)를 식별하거나, 특정 커뮤니티를 찾아내야 합니다.
PySpark 활용:
사용자(노드)와 친구 관계(엣지) 데이터를 DataFrame으로 구성합니다.
GraphFrame을 생성합니다. (GraphFrame(vertices, edges))
PageRank 알고리즘을 실행하여 각 사용자의 영향력을 계산합니다. (graph.pageRank.run())
연결된 구성 요소 알고리즘으로 서로 연결된 사용자 그룹(커뮤니티)을 찾습니다. (graph.connectedComponents())


언제 PySpark를 사용해야 하는가?
데이터 크기: 처리하려는 데이터가 단일 컴퓨터의 메모리(RAM)나 디스크 용량을 초과할 때 (수십 GB ~ 수 TB 이상).
처리 속도: 대규모 데이터를 짧은 시간 안에 처리해야 할 때 (기존 스크립트나 도구로는 너무 느릴 때).
복잡한 파이프라인: 데이터 수집부터 전처리, 분석, 머신러닝, 보고서 생성까지 복잡한 데이터 파이프라인을 구축해야 할 때.
다양한 데이터 소스: 여러 종류의 분산 데이터 저장소(HDFS, S3, NoSQL DB 등)에서 데이터를 통합하여 분석해야 할 때.
반대로, 데이터가 작고 (수십 GB 미만) 단일 머신에서 충분히 빠르게 처리할 수 있다면, Pandas, Scikit-learn 등 더 간단한 Python 라이브러리를 사용하는 것이 더 효율적일 수 있습니다. PySpark는 분산 환경 설정과 관리라는 추가적인 오버헤드가 있기 때문입니다.

PySpark는 빅데이터 시대의 데이터 사이언티스트에게 필수적인 도구 중 하나이며, 위 용례들을 통해 그 강력함과 활용 가능성을 엿볼 수 있습니다.

In [3]:
# findspark를 임포트하여 SPARK_HOME을 자동으로 찾아 설정
import findspark
findspark.init()

In [4]:
# SparkSession 임포트 및 생성
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, avg
from pyspark.sql.types import DoubleType
from pyspark.ml.feature import StringIndexer, OneHotEncoder, VectorAssembler
from pyspark.ml.regression import LinearRegression

In [6]:
# SparkSession 빌더를 사용하여 세션 생성
# appName: 스파크 UI에 표시될 애플리케이션 이름
# master: 스파크 클러스터 관리자 (로컬 모드에서는 "local[*]")
spark = SparkSession.builder \
    .appName("MyVSCodeSparkProject") \
    .master("local[*]") \
    .getOrCreate()
print("SparkSession이 성공적으로 생성되었습니다.")
print(f"Spark UI: {spark.sparkContext.uiWebUrl}") # Spark UI 주소 출력

SparkSession이 성공적으로 생성되었습니다.
Spark UI: http://DESKTOP-LFROV63:4040


In [7]:
csv_file_path = "data.csv"

In [9]:
try:
    # 2. CSV 파일 읽기
    df = spark.read.csv(csv_file_path, header=True, inferSchema=True)
    print("\nCSV 파일 읽기 성공.")

    # 3. 데이터 확인 및 탐색
    print("DataFrame 스키마:")
    df.printSchema()

    print("\nDataFrame 상위 5개 행:")
    df.show(5)

    print("\nDataFrame 통계 요약:")
    df.describe().show()
except Exception as e:
    print(f"오류 발생: {e}")


CSV 파일 읽기 성공.
DataFrame 스키마:
root
 |-- id: integer (nullable = true)
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- city: string (nullable = true)
 |-- salary: integer (nullable = true)


DataFrame 상위 5개 행:
+---+-------+---+--------+------+
| id|   name|age|    city|salary|
+---+-------+---+--------+------+
|  1|  Alice| 30|New York| 60000|
|  2|    Bob| 24|  London| 45000|
|  3|Charlie| 35|   Paris| 75000|
|  4|  David| 29|New York| 55000|
|  5|    Eve| 22|  London| 40000|
+---+-------+---+--------+------+
only showing top 5 rows


DataFrame 통계 요약:
+-------+------------------+-----+------------------+------+------------------+
|summary|                id| name|               age|  city|            salary|
+-------+------------------+-----+------------------+------+------------------+
|  count|                10|   10|                 9|    10|                 9|
|   mean|               5.5| NULL|29.333333333333332|  NULL|59666.666666666664|
| stddev|3.02

In [10]:
    # 4. 데이터 전처리 (결측치 처리 및 타입 변환)
    age_avg = df.agg(avg("age")).collect()[0][0]
    print(f"\n'age' 컬럼의 평균: {age_avg}")

    df_cleaned = df.na.fill(age_avg, subset=['age'])
    df_cleaned = df_cleaned.na.fill("0", subset=['salary']) # 먼저 문자열로 채우고 캐스팅

    df_cleaned = df_cleaned.withColumn("salary", col("salary").cast(DoubleType()))
    print("\n결측치 처리 및 salary 컬럼 타입 캐스팅 후:")
    df_cleaned.printSchema()
    df_cleaned.show()


'age' 컬럼의 평균: 29.333333333333332

결측치 처리 및 salary 컬럼 타입 캐스팅 후:
root
 |-- id: integer (nullable = true)
 |-- name: string (nullable = true)
 |-- age: integer (nullable = true)
 |-- city: string (nullable = true)
 |-- salary: double (nullable = true)

+---+-------+---+--------+-------+
| id|   name|age|    city| salary|
+---+-------+---+--------+-------+
|  1|  Alice| 30|New York|60000.0|
|  2|    Bob| 24|  London|45000.0|
|  3|Charlie| 35|   Paris|75000.0|
|  4|  David| 29|New York|55000.0|
|  5|    Eve| 22|  London|40000.0|
|  6|  Frank| 40|   Paris|80000.0|
|  7|  Grace| 29|New York|   NULL|
|  8|  Heidi| 27|  London|50000.0|
|  9|   Ivan| 32|   Paris|70000.0|
| 10|   Judy| 25|New York|62000.0|
+---+-------+---+--------+-------+



In [11]:

    # 5. 특징 공학
    stringIndexer = StringIndexer(inputCol="city", outputCol="cityIndex").fit(df_cleaned)
    df_indexed = stringIndexer.transform(df_cleaned)

    encoder = OneHotEncoder(inputCol="cityIndex", outputCol="cityVec", dropLast=True)
    df_encoded = encoder.fit(df_indexed).transform(df_indexed)

    assembler = VectorAssembler(inputCols=["age", "salary", "cityVec"], outputCol="features")
    df_final = assembler.transform(df_encoded)

    print("\n최종 머신러닝 준비 DataFrame (features 컬럼 포함):")
    df_final.select("id", "name", "features", "salary").show(5, truncate=False)


최종 머신러닝 준비 DataFrame (features 컬럼 포함):
+---+-------+----------------------+-------+
|id |name   |features              |salary |
+---+-------+----------------------+-------+
|1  |Alice  |[30.0,60000.0,1.0,0.0]|60000.0|
|2  |Bob    |[24.0,45000.0,0.0,1.0]|45000.0|
|3  |Charlie|[35.0,75000.0,0.0,0.0]|75000.0|
|4  |David  |[29.0,55000.0,1.0,0.0]|55000.0|
|5  |Eve    |[22.0,40000.0,0.0,1.0]|40000.0|
+---+-------+----------------------+-------+
only showing top 5 rows



In [13]:

    # 6. 간단한 머신러닝 모델 학습 (선형 회귀)
lr = LinearRegression(featuresCol="features", labelCol="salary")
lr_model = lr.fit(df_final)

print("\nLinear Regression 모델 계수:", lr_model.coefficients)
print("Linear Regression 모델 절편:", lr_model.intercept)

predictions = lr_model.transform(df_final)
print("\n예측 결과:")
predictions.select("id", "name", "salary", "prediction").show()

Py4JJavaError: An error occurred while calling o217.fit.
: org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 15.0 failed 1 times, most recent failure: Lost task 0.0 in stage 15.0 (TID 12) (DESKTOP-LFROV63 executor driver): org.apache.spark.SparkException: [FAILED_EXECUTE_UDF] Failed to execute user defined function (`VectorAssembler$$Lambda/0x000001da830c0b70`: (struct<age_double_VectorAssembler_6e61b5c85213:double,salary:double,cityVec:struct<type:tinyint,size:int,indices:array<int>,values:array<double>>>) => struct<type:tinyint,size:int,indices:array<int>,values:array<double>>).
	at org.apache.spark.sql.errors.QueryExecutionErrors$.failedExecuteUserDefinedFunctionError(QueryExecutionErrors.scala:198)
	at org.apache.spark.sql.errors.QueryExecutionErrors.failedExecuteUserDefinedFunctionError(QueryExecutionErrors.scala)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenEvaluatorFactory$WholeStageCodegenPartitionEvaluator$$anon$1.hasNext(WholeStageCodegenEvaluatorFactory.scala:43)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460)
	at scala.collection.Iterator.foreach(Iterator.scala:943)
	at scala.collection.Iterator.foreach$(Iterator.scala:943)
	at scala.collection.AbstractIterator.foreach(Iterator.scala:1431)
	at scala.collection.TraversableOnce.foldLeft(TraversableOnce.scala:199)
	at scala.collection.TraversableOnce.foldLeft$(TraversableOnce.scala:192)
	at scala.collection.AbstractIterator.foldLeft(Iterator.scala:1431)
	at scala.collection.TraversableOnce.aggregate(TraversableOnce.scala:260)
	at scala.collection.TraversableOnce.aggregate$(TraversableOnce.scala:260)
	at scala.collection.AbstractIterator.aggregate(Iterator.scala:1431)
	at org.apache.spark.rdd.RDD.$anonfun$treeAggregate$4(RDD.scala:1264)
	at org.apache.spark.rdd.RDD.$anonfun$treeAggregate$6(RDD.scala:1265)
	at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2(RDD.scala:858)
	at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2$adapted(RDD.scala:858)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:367)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:331)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:93)
	at org.apache.spark.TaskContext.runTaskWithListeners(TaskContext.scala:166)
	at org.apache.spark.scheduler.Task.run(Task.scala:141)
	at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$4(Executor.scala:621)
	at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally(SparkErrorUtils.scala:64)
	at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally$(SparkErrorUtils.scala:61)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:94)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:624)
	at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1144)
	at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:642)
	at java.base/java.lang.Thread.run(Thread.java:1583)
Caused by: org.apache.spark.SparkException: Encountered null while assembling a row with handleInvalid = "error". Consider
removing nulls from dataset or using handleInvalid = "keep" or "skip".
	at org.apache.spark.ml.feature.VectorAssembler$.$anonfun$assemble$1(VectorAssembler.scala:291)
	at org.apache.spark.ml.feature.VectorAssembler$.$anonfun$assemble$1$adapted(VectorAssembler.scala:260)
	at scala.collection.IndexedSeqOptimized.foreach(IndexedSeqOptimized.scala:36)
	at scala.collection.IndexedSeqOptimized.foreach$(IndexedSeqOptimized.scala:33)
	at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:38)
	at org.apache.spark.ml.feature.VectorAssembler$.assemble(VectorAssembler.scala:260)
	at org.apache.spark.ml.feature.VectorAssembler.$anonfun$transform$6(VectorAssembler.scala:143)
	... 33 more

Driver stacktrace:
	at org.apache.spark.scheduler.DAGScheduler.failJobAndIndependentStages(DAGScheduler.scala:2898)
	at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2(DAGScheduler.scala:2834)
	at org.apache.spark.scheduler.DAGScheduler.$anonfun$abortStage$2$adapted(DAGScheduler.scala:2833)
	at scala.collection.mutable.ResizableArray.foreach(ResizableArray.scala:62)
	at scala.collection.mutable.ResizableArray.foreach$(ResizableArray.scala:55)
	at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:49)
	at org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:2833)
	at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1(DAGScheduler.scala:1253)
	at org.apache.spark.scheduler.DAGScheduler.$anonfun$handleTaskSetFailed$1$adapted(DAGScheduler.scala:1253)
	at scala.Option.foreach(Option.scala:407)
	at org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:1253)
	at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:3102)
	at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:3036)
	at org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:3025)
	at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:49)
	at org.apache.spark.scheduler.DAGScheduler.runJob(DAGScheduler.scala:995)
	at org.apache.spark.SparkContext.runJob(SparkContext.scala:2393)
	at org.apache.spark.SparkContext.runJob(SparkContext.scala:2488)
	at org.apache.spark.rdd.RDD.$anonfun$fold$1(RDD.scala:1202)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:410)
	at org.apache.spark.rdd.RDD.fold(RDD.scala:1196)
	at org.apache.spark.rdd.RDD.$anonfun$treeAggregate$2(RDD.scala:1289)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:410)
	at org.apache.spark.rdd.RDD.treeAggregate(RDD.scala:1256)
	at org.apache.spark.rdd.RDD.$anonfun$treeAggregate$1(RDD.scala:1242)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:151)
	at org.apache.spark.rdd.RDDOperationScope$.withScope(RDDOperationScope.scala:112)
	at org.apache.spark.rdd.RDD.withScope(RDD.scala:410)
	at org.apache.spark.rdd.RDD.treeAggregate(RDD.scala:1242)
	at org.apache.spark.ml.optim.WeightedLeastSquares.fit(WeightedLeastSquares.scala:107)
	at org.apache.spark.ml.regression.LinearRegression.trainWithNormal(LinearRegression.scala:456)
	at org.apache.spark.ml.regression.LinearRegression.$anonfun$train$1(LinearRegression.scala:354)
	at org.apache.spark.ml.util.Instrumentation$.$anonfun$instrumented$1(Instrumentation.scala:191)
	at scala.util.Try$.apply(Try.scala:213)
	at org.apache.spark.ml.util.Instrumentation$.instrumented(Instrumentation.scala:191)
	at org.apache.spark.ml.regression.LinearRegression.train(LinearRegression.scala:329)
	at org.apache.spark.ml.regression.LinearRegression.train(LinearRegression.scala:186)
	at org.apache.spark.ml.Predictor.fit(Predictor.scala:114)
	at org.apache.spark.ml.Predictor.fit(Predictor.scala:78)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke0(Native Method)
	at java.base/jdk.internal.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:75)
	at java.base/jdk.internal.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:52)
	at java.base/java.lang.reflect.Method.invoke(Method.java:580)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374)
	at py4j.Gateway.invoke(Gateway.java:282)
	at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
	at py4j.commands.CallCommand.execute(CallCommand.java:79)
	at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
	at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
	at java.base/java.lang.Thread.run(Thread.java:1583)
Caused by: org.apache.spark.SparkException: [FAILED_EXECUTE_UDF] Failed to execute user defined function (`VectorAssembler$$Lambda/0x000001da830c0b70`: (struct<age_double_VectorAssembler_6e61b5c85213:double,salary:double,cityVec:struct<type:tinyint,size:int,indices:array<int>,values:array<double>>>) => struct<type:tinyint,size:int,indices:array<int>,values:array<double>>).
	at org.apache.spark.sql.errors.QueryExecutionErrors$.failedExecuteUserDefinedFunctionError(QueryExecutionErrors.scala:198)
	at org.apache.spark.sql.errors.QueryExecutionErrors.failedExecuteUserDefinedFunctionError(QueryExecutionErrors.scala)
	at org.apache.spark.sql.catalyst.expressions.GeneratedClass$GeneratedIteratorForCodegenStage1.processNext(Unknown Source)
	at org.apache.spark.sql.execution.BufferedRowIterator.hasNext(BufferedRowIterator.java:43)
	at org.apache.spark.sql.execution.WholeStageCodegenEvaluatorFactory$WholeStageCodegenPartitionEvaluator$$anon$1.hasNext(WholeStageCodegenEvaluatorFactory.scala:43)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460)
	at scala.collection.Iterator$$anon$10.hasNext(Iterator.scala:460)
	at scala.collection.Iterator.foreach(Iterator.scala:943)
	at scala.collection.Iterator.foreach$(Iterator.scala:943)
	at scala.collection.AbstractIterator.foreach(Iterator.scala:1431)
	at scala.collection.TraversableOnce.foldLeft(TraversableOnce.scala:199)
	at scala.collection.TraversableOnce.foldLeft$(TraversableOnce.scala:192)
	at scala.collection.AbstractIterator.foldLeft(Iterator.scala:1431)
	at scala.collection.TraversableOnce.aggregate(TraversableOnce.scala:260)
	at scala.collection.TraversableOnce.aggregate$(TraversableOnce.scala:260)
	at scala.collection.AbstractIterator.aggregate(Iterator.scala:1431)
	at org.apache.spark.rdd.RDD.$anonfun$treeAggregate$4(RDD.scala:1264)
	at org.apache.spark.rdd.RDD.$anonfun$treeAggregate$6(RDD.scala:1265)
	at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2(RDD.scala:858)
	at org.apache.spark.rdd.RDD.$anonfun$mapPartitions$2$adapted(RDD.scala:858)
	at org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:52)
	at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:367)
	at org.apache.spark.rdd.RDD.iterator(RDD.scala:331)
	at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:93)
	at org.apache.spark.TaskContext.runTaskWithListeners(TaskContext.scala:166)
	at org.apache.spark.scheduler.Task.run(Task.scala:141)
	at org.apache.spark.executor.Executor$TaskRunner.$anonfun$run$4(Executor.scala:621)
	at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally(SparkErrorUtils.scala:64)
	at org.apache.spark.util.SparkErrorUtils.tryWithSafeFinally$(SparkErrorUtils.scala:61)
	at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:94)
	at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:624)
	at java.base/java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1144)
	at java.base/java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:642)
	... 1 more
Caused by: org.apache.spark.SparkException: Encountered null while assembling a row with handleInvalid = "error". Consider
removing nulls from dataset or using handleInvalid = "keep" or "skip".
	at org.apache.spark.ml.feature.VectorAssembler$.$anonfun$assemble$1(VectorAssembler.scala:291)
	at org.apache.spark.ml.feature.VectorAssembler$.$anonfun$assemble$1$adapted(VectorAssembler.scala:260)
	at scala.collection.IndexedSeqOptimized.foreach(IndexedSeqOptimized.scala:36)
	at scala.collection.IndexedSeqOptimized.foreach$(IndexedSeqOptimized.scala:33)
	at scala.collection.mutable.WrappedArray.foreach(WrappedArray.scala:38)
	at org.apache.spark.ml.feature.VectorAssembler$.assemble(VectorAssembler.scala:260)
	at org.apache.spark.ml.feature.VectorAssembler.$anonfun$transform$6(VectorAssembler.scala:143)
	... 33 more
