# 머신러닝 파이프라인 설계
Inside Airbnb의 샌프란시스코 주택 데이터 세트를 사용한다. 샌프란시스코의 에어비앤비 임대에 대한 정보가 포함되어 있으며 우리의 목표는 해당 도시의 숙소에 대한 1박 임대 가격을 예측하는 모델을 구축하는 것이다. <br>
이 장의 목적은 MLlib을 사용하여 종단 간 파이프라인을 구축하는 데 필요한 기술과 지식을 갖추는 것이다. <br>

- 변환기(transformer): 데이터 프레임을 입력으로 받아들이고, 하나 이상의 열이 추가된 새 데이터 프레임을 반환한다. 변환기는 데이터에서 매개변수를 학습하지 않고, 단순히 규칙 기반 변환을 적용하여 모델 훈련을 위한 데이터를 준비하거나 훈련된 MLlib모델을 사용하여 예측을 생성한다. .transform() 메서드가 있다.
- 추정기(estimator): .fit()메서드를 통해 데이터 프레임에서 매개변수를 학습하고 변환기인 Model을 반환한다.
- 파이프라인: 일련의 변환기와 추정기를 단일 모델로 구성한다. 파이프라인 자체가 추정기인 반면, pipeline.fit()의 출력은 변환기인 PipelineModel을 반환한다.

## 데이터 수집 및 탐색
예시 데이터 세트의 데이터를 약간 사전 처리하여 이상값($0/1박)을 제거하고, 모든 정수를 두 배로 변환하고, 100개 이상의 필드에서 유익한 하위 집합을 선택했다. 또한 데이터 열에서 누락된 숫자값에 대해 중앙값을 입력하고 열을 추가했다.(bedrooms_na와 같이 열 이름 뒤에 _na가 옴)

In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName('airbnb_ml').getOrCreate()

23/09/11 15:06:01 WARN Utils: Your hostname, minseok-VirtualBox resolves to a loopback address: 127.0.1.1; using 10.0.2.15 instead (on interface enp0s3)
23/09/11 15:06:01 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/09/11 15:06:02 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [2]:
filePath = """sf-airbnb-clean.parquet/"""
airbnbDF = spark.read.parquet(filePath)

                                                                                

In [3]:
airbnbDF.select("neighbourhood_cleansed", 'room_type', 'bedrooms', 'bathrooms',
                'number_of_reviews', 'price').show(5)

[Stage 1:>                                                          (0 + 1) / 1]

+----------------------+---------------+--------+---------+-----------------+-----+
|neighbourhood_cleansed|      room_type|bedrooms|bathrooms|number_of_reviews|price|
+----------------------+---------------+--------+---------+-----------------+-----+
|      Western Addition|Entire home/apt|     1.0|      1.0|            180.0|170.0|
|        Bernal Heights|Entire home/apt|     2.0|      1.0|            111.0|235.0|
|        Haight Ashbury|   Private room|     1.0|      4.0|             17.0| 65.0|
|        Haight Ashbury|   Private room|     1.0|      4.0|              8.0| 65.0|
|      Western Addition|Entire home/apt|     2.0|      1.5|             27.0|785.0|
+----------------------+---------------+--------+---------+-----------------+-----+
only showing top 5 rows



                                                                                

데이터 탐색은 개인적으로 연습한다.

## 학습 및 테스트 데이터세트 생성

In [4]:
trainDF, testDF = airbnbDF.randomSplit([.8, .2], seed=42)
print(f"""There are {trainDF.count()} rows in the traiining set,
and {testDF.count()} in the test set""")

23/09/11 15:06:19 WARN package: Truncated the string representation of a plan since it was too large. This behavior can be adjusted by setting 'spark.sql.debug.maxToStringFields'.
                                                                                

There are 5780 rows in the traiining set,
and 1366 in the test set


## 변환기를 사용하여 기능 준비
침실 수를 기준으로 가격을 예측하는 선형 회귀 모델을 구축한다.

스파크 머신러닝 알고리즘에서는 모든 입력 feature가 데이터 프레임의 단일 벡터 내에 포함되어야 한다. 따라서 데이터를 변환(transform)해야 한다. <br>

스파크의 변환기는 데이터 프레임을 입력으로 받아들이고, 하나 이상의 열이 추가된 새 데이터 프레임을 반환한다. 그들은 데이터에서 학습하지 않지만 transform() 메서드를 사용하여 규칙 기반 변환을 적용한다. <br>

모든 기능을 단일 벡터에 넣는 작업을 위해 VectorAssembler 변환기를 사용한다. 입력 열 목록을 가져와서 features라고 부를 추가 열이 있는 새 데이터 프레임을 만든다. 이러한 입력 열의 값을 단일 벡터로 결합한다.

In [5]:
from pyspark.ml.feature import VectorAssembler
vecAssembler = VectorAssembler(inputCols=['bedrooms'], outputCol='features')
vecTrainDF = vecAssembler.transform(trainDF)
vecTrainDF.select('bedrooms', 'features', 'price').show(10)

+--------+--------+-----+
|bedrooms|features|price|
+--------+--------+-----+
|     1.0|   [1.0]|200.0|
|     1.0|   [1.0]|130.0|
|     1.0|   [1.0]| 95.0|
|     1.0|   [1.0]|250.0|
|     3.0|   [3.0]|250.0|
|     1.0|   [1.0]|115.0|
|     1.0|   [1.0]|105.0|
|     1.0|   [1.0]| 86.0|
|     1.0|   [1.0]|100.0|
|     2.0|   [2.0]|220.0|
+--------+--------+-----+
only showing top 10 rows



## 추정기를 사용하여 모델 구축
스파크에서 LinearRegression은 추정기의 한 유형이다. 데이터 프레임을 사용하고 모델을 반환한다.

선형 회귀에 대한 입력 열(features)이 vectorAssembler의 출력이라는 것을 알 수 있다.

In [6]:
from pyspark.ml.regression import LinearRegression
lr = LinearRegression(featuresCol='features', labelCol='price')
lrModel = lr.fit(vecTrainDF)
# lr.fit()은 변환기인 LinearRegressionModel(lrModel)을 반환한다.
# 즉, 추정기의 fit() 메서드의 출력은 변환기이다.
# 추정기가 매개변수를 학습하면 변환기는 이러한 매개변수를 새 데이터 포인트에 적용하여 예측을 생성할 수 있다.

23/09/11 15:06:27 WARN Instrumentation: [052793c2] regParam is zero, which might cause numerical instability and overfitting.
23/09/11 15:06:27 WARN InstanceBuilder: Failed to load implementation from:dev.ludovic.netlib.blas.JNIBLAS
23/09/11 15:06:28 WARN InstanceBuilder: Failed to load implementation from:dev.ludovic.netlib.lapack.JNILAPACK
                                                                                

학습한 매개변수를 살펴본다.

In [7]:
m = round(lrModel.coefficients[0], 2)
b = round(lrModel.intercept, 2)
print(f"""price = {m}*bedrooms + {b}""")

price = 123.68*bedrooms + 47.51


In [8]:
# 참고!
lrModel.coefficients

DenseVector([123.6757])

## 파이프라인 생성
모델을 테스트 세트에 적용하려면 훈련 세트와 동일한 방식으로 해당 데이터를 준비해야 한다. 데이터가 통과할 단계를 순서대로 지정하기만 하면 스파크가 알아서 처리를 한다.

스파크에서 Pipelines는 추정기인 반면 PipelineModels(피팅된 파이프라인)는 변환기이다.

In [9]:
from pyspark.ml import Pipeline
pipeline = Pipeline(stages=[vecAssembler, lr])
pipelineModel = pipeline.fit(trainDF)

23/09/11 15:06:30 WARN Instrumentation: [f931fcc5] regParam is zero, which might cause numerical instability and overfitting.


파이프라인 모델은 변환기이므로 테스트 데이터 세트에도 적용하는 것이 간단하다.

In [10]:
predDF = pipelineModel.transform(testDF)
predDF.select('bedrooms', 'features', 'price', 'prediction').show(10)

+--------+--------+------+------------------+
|bedrooms|features| price|        prediction|
+--------+--------+------+------------------+
|     1.0|   [1.0]|  85.0|171.18598011578285|
|     1.0|   [1.0]|  45.0|171.18598011578285|
|     1.0|   [1.0]|  70.0|171.18598011578285|
|     1.0|   [1.0]| 128.0|171.18598011578285|
|     1.0|   [1.0]| 159.0|171.18598011578285|
|     2.0|   [2.0]| 250.0|294.86172649777757|
|     1.0|   [1.0]|  99.0|171.18598011578285|
|     1.0|   [1.0]|  95.0|171.18598011578285|
|     1.0|   [1.0]| 100.0|171.18598011578285|
|     1.0|   [1.0]|2010.0|171.18598011578285|
+--------+--------+------+------------------+
only showing top 10 rows



범주형 feature를 사용하여 모델을 구축할 수 있다.

## 원-핫 인코딩
MLlib 대부분의 머신러닝 모델은 벡터로 표시되는 숫자값을 입력으로 기대한다. 범주형 값을 숫자값으로 변환하기 위해 OHE(원-핫 인코딩)라는 기술을 사용할 수 있다. <br>

300개의 범주형 값에 OHE를 적용하면 메모리/컴퓨팅 리소스 소비를 크게 증가시킬까? 스파크를 사용하면 그렇지 않다. 스파크는 대부분의 항목이 0일 때 내부적으로 SparseVector를 사용하므로 0값을 저장하는 공간을 낭비하지 않는다.

SparseVector가 어떻게 작동하는지 예제로 살펴보자

DenseVector(0, 0, 0, 7, 0, 2, 0, 0 ,0, 0) <br>
SparseVector(10, [3,5], [7,2])

DenseVector는 10개의 값을 포함하고 있으며 그 중 2개는 모두 0이다.<br>
SparseVector를 생성하려면 벡터의 크기, 0이 아닌 요소의 인덱스 및 해당 인덱스의 해당 값을 추적해야 한다. 이 예에서 벡터의 크기는 10, 인덱스 3과 5에 0이 아닌 값이 두 개 있으며 해당 인덱스의 해당 값은 7과 2다.

스파크로 데이터를 원-핫 인코딩하는 몇 가지 방법이 있다.

일반적인 접근 방식은 StringIndexer 및 OneHotEncoder를 사용하는 것이다. 첫 번째 단계는 StringIndexer 추정기를 적용하여 범주형 값을 범주 지수로 변환하는 것이다. 이러한 범주 인덱스는 레이블 빈도에 따라 정렬되므로 가장 빈번한 레이블은 인데스 0을 얻는다. 카테고리 인덱스를 만든 후에는 이를 OneHotEncoder에 대한 입력으로 전달할 수 있다. OneHotEncoder는 범주 인덱스 열을 이진 벡터열에 매핑한다.

데이터 세트에서 문자열 유형의 모든 열은 범주형 특성으로 처리되지만 때로는 범주형으로 처리하거나 그 반대로 처리해야 하는 숫자 특성이 있을 수 있다. 어떤 열이 숫자이고 어떤 열이 범주인지 신중하게 식별해야 한다.

In [11]:
from pyspark.ml.feature import OneHotEncoder, StringIndexer

categoricalCols = [field for (field, dataType) in trainDF.dtypes if dataType == 'string']
indexOutputCols = [x + 'index' for x in categoricalCols]
oheOutputCols = [x + 'OHE' for x in categoricalCols]

stringIndexer = StringIndexer(inputCols=categoricalCols, outputCols=indexOutputCols,
                              handleInvalid='skip')
oheEncoder = OneHotEncoder(inputCols=indexOutputCols, outputCols=oheOutputCols)

numericCols = [field for (field, dataType) in trainDF.dtypes if (dataType == 'double') 
              & (field != 'price')]
assemblerInputs = oheOutputCols + numericCols
vecAssembler = VectorAssembler(inputCols=assemblerInputs, outputCol='features')

In [12]:
# 참고
trainDF.dtypes

[('host_is_superhost', 'string'),
 ('cancellation_policy', 'string'),
 ('instant_bookable', 'string'),
 ('host_total_listings_count', 'double'),
 ('neighbourhood_cleansed', 'string'),
 ('latitude', 'double'),
 ('longitude', 'double'),
 ('property_type', 'string'),
 ('room_type', 'string'),
 ('accommodates', 'double'),
 ('bathrooms', 'double'),
 ('bedrooms', 'double'),
 ('beds', 'double'),
 ('bed_type', 'string'),
 ('minimum_nights', 'double'),
 ('number_of_reviews', 'double'),
 ('review_scores_rating', 'double'),
 ('review_scores_accuracy', 'double'),
 ('review_scores_cleanliness', 'double'),
 ('review_scores_checkin', 'double'),
 ('review_scores_communication', 'double'),
 ('review_scores_location', 'double'),
 ('review_scores_value', 'double'),
 ('price', 'double'),
 ('bedrooms_na', 'double'),
 ('bathrooms_na', 'double'),
 ('beds_na', 'double'),
 ('review_scores_rating_na', 'double'),
 ('review_scores_accuracy_na', 'double'),
 ('review_scores_cleanliness_na', 'double'),
 ('review_sco

StringIndexer는 테스트 데이터 세트에는 나타나지만 훈련 데이터 세트에는 나타나지 않는 새로운 범주를 어떻게 처리하는가? <br>
handleInvalid 매개변수에 처리 방법을 지정한다.
1. skip: 잘못된 데이터가 있는 행 필터링
2. error: 오류 발생
3. 유지: 인덱스 numLabels의 특수 추가 버킷에 잘못된 데이터를 넣음

이 접근 방식의 한 가지 어려움은 StringIndexer에 범주형 피처로 처리해야 하는 피처를 명시적으로 알려야 한다는 것이다.

또 다른 접근 방식은 RFormula를 사용하는 것이다. 이에 대한 구문은 R 프로그래밍 언어에서 영감을 받았다. <br>
~,.,:,+ 및 -를 포함한 R 연산자의 제한된 하위 집합을 지원한다. 예를 들어 , 공식 = 'y ~ bedrooms + bathrooms'를 지정할 수 있다. 이는 bedroom과 bathroom만 주어지면 y를 예측한다는 것을 의미하고 'y ~ .'는 사용 가능한 모든 피처를 사용한다는 것을 의미한다. <br>
RFormula는 자동으로 모든 문자열 열을 StriingIndex 및 원-핫 인코딩하고, 내부에서 VectorAssembler를 사용하여 이 모든 것을 단일 벡터로 결합한다.

In [13]:
from pyspark.ml.feature import RFormula

rFormula = RFormula(formula='price ~ .',
                    featuresCol='features',
                    labelCol='price',
                    handleInvalid='skip')

RFormula의 단점은 원-핫 인코딩이 필요하지 않은 알고리즘에도 StringIndexer와 OneHotEncoder를 적용한다. 예를 들어 트리 기반 알고리즘은 범주형 피처에 대해 StringIndexer를 사용하기만 하면 범주형 변수를 직접 처리할 수 있다. 트리 기반 방법에 대해 범주형 피처를 원-핫 인코딩할 필요가 없으며 종종 모델을 악화시키는 경우가 많다.

불행히도 피처 엔지니어링을 위한 만능 솔루션은 없으며 이상적인 접근 방식은 데이터 세트에 적용하려는 다운스트림 알고리즘과 밀접하게 관련되어 있다.

모든 피처 준비 및 모델 구축을 파이프라인에 넣고 데이터 세트에 적용한다.

In [14]:
lr = LinearRegression(labelCol='price', featuresCol='features')
pipeline = Pipeline(stages = [stringIndexer, oheEncoder, vecAssembler, lr])

# 또는 RFormula 사용
# pipeline = Pipeline(stages= [rFormula, lr])

pipelineModel = pipeline.fit(trainDF)
predDF = pipelineModel.transform(testDF)
predDF.select('features', 'price', 'prediction').show(5)

23/09/11 15:06:36 WARN Instrumentation: [cfac2a4a] regParam is zero, which might cause numerical instability and overfitting.
                                                                                

+--------------------+-----+------------------+
|            features|price|        prediction|
+--------------------+-----+------------------+
|(98,[0,3,6,22,43,...| 85.0| 55.24365707389188|
|(98,[0,3,6,22,43,...| 45.0|23.357685914717877|
|(98,[0,3,6,22,43,...| 70.0|28.474464479034395|
|(98,[0,3,6,12,42,...|128.0| -91.6079079594947|
|(98,[0,3,6,12,43,...|159.0| 95.05688229945372|
+--------------------+-----+------------------+
only showing top 5 rows



전에 말했듯이 features열은 SparseVector로 표시된다. 원-핫 인코딩 후에는 98개의 피처가 있으며 그 다음에는 0이 아닌 인덱스와 값 자체가 있다. truncate=False를 show()에 전달하면 전체 출력을 볼 수 있다.

다음으로 전체 테스트 세트에서 모델이 얼마나 잘 수행되는지 수치적으로 평가한다.

## 모델 평가
RMSE를 사용하여 모델을 평가한다.

In [15]:
from pyspark.ml.evaluation import RegressionEvaluator
regressionEvaluator = RegressionEvaluator(
    predictionCol='prediction',
    labelCol='price',
    metricName='rmse')
rmse = regressionEvaluator.evaluate(predDF)
print(f"RMSE is {rmse:.1f}")

RMSE is 220.6


R2를 사용하여 모델을 평가한다.

회귀 평가기를 재정의하는 대신 R2을 사용하도록 회귀 평가기를 변경하려면 setter 속성을 사용하여 메트릭 이름을 설정할 수 있다.

In [16]:
r2 = regressionEvaluator.setMetricName('r2').evaluate(predDF)
print(f"R2 is {r2}")

R2 is 0.16043316698848087


r2은 양수이지만 0에 매우 가깝다. 모델이 잘 수행되지 않는 이유 중 하나는 레이블인 price가 로그 정규 분포를 보이기 때문이다. 연습으로 로그스케일에서 가격을 예측하는 모델을 구축한 다음, 예측을 로그 스케일에서 벗어나 다시 지수화하여 모델을 평가한다. RMSE가 감소하고 R2이 증가하는 것을 확인해야 한다.

## 모델 저장 및 로드
모델을 나중에 재사용하기 위해 영구 저장소에 저장해보자(또는 클러스터가 다운되는 경우 모델을 다시 계산할 필요가 없음). API는 model.write().save(path)다. 선택적으로 overwrite() 명령을 제공하여 해당 경로에 포함된 데이터를 덮어쓸 수 있다.

In [17]:
pipelinePath = '/tmp/lr-pipeline-model'
pipelineModel.write().overwrite().save(pipelinePath)

저장된 모델을 로드할 때 로드할 모델 유형을 다시 지정해야 한다(LinearRegressionModel 또는 LogisticRegression이었는지 등). 이러한 이유로 모든 모델에 대해 PipelineModel을 로드하고 모델에 대한 파일 경로만 변경하면 되도록 변환기/추정기를 항상 파이프라인에 배치하는 것이 좋다.

In [18]:
from pyspark.ml import PipelineModel
savedPipelineModel = PipelineModel.load(pipelinePath)

                                                                                

로드한 후 이 모델을 새 데이터 포인트에 적용할 수 있다. 그러ㅓ나 스파크에는 '웜 스타트(warm start)'라는 개념이 없기 때문에 이 모델의 가중치를 새 모델 교육을 위한 초기화 매개변수로 사용할 수 없다. 데이터 세트가 약간 변형되면 전체 선형 회귀 모델을 처음부터 다시 훈련해야 한다.

다른 모델이 데이터 세트에서 어떻게 수행되는지 살펴본다. 트리 기반 모델을 탐색하고, 모델 성능을 개선하기 위해 조정할 몇 가지 일반적인 하이퍼파라미터를 살펴본다.

## 하이퍼파라미터 튜닝

### 트리 기반 모델
트리 기반 방법은 자연스럽게 범주형 변수를 처리할 수 있다. spark.ml에서는 범주형 열을 StringIndexer에 전달하기만 하면 나머지는 의사결정나무에서 처리할 수 있다.

In [19]:
from pyspark.ml.regression import DecisionTreeRegressor

dt = DecisionTreeRegressor(labelCol='price')

# 숫자 열만 필터링한다(price 제외).
numericCols = [field for (field, dataType) in trainDF.dtypes
               if ((dataType == 'double') & (field != 'price'))]

# 위에서 정의한 StringIndexer의 출력과 숫자 열 결합
assemblerInputs = indexOutputCols + numericCols
vecAssembler = VectorAssembler(inputCols=assemblerInputs, outputCol='features')

# 단계를 파이프라인으로 결합
stages = [stringIndexer, vecAssembler, dt]
pipeline = Pipeline(stages = stages)
pipelineModel = pipeline.fit(trainDF)

23/09/11 15:09:29 ERROR Instrumentation: java.lang.IllegalArgumentException: requirement failed: DecisionTree requires maxBins (= 32) to be at least as large as the number of values in each categorical feature, but categorical feature 3 has 36 values. Consider removing this and other categorical features with a large number of values, or add more training examples.
	at scala.Predef$.require(Predef.scala:281)
	at org.apache.spark.ml.tree.impl.DecisionTreeMetadata$.buildMetadata(DecisionTreeMetadata.scala:151)
	at org.apache.spark.ml.tree.impl.RandomForest$.run(RandomForest.scala:274)
	at org.apache.spark.ml.regression.DecisionTreeRegressor.$anonfun$train$1(DecisionTreeRegressor.scala:135)
	at org.apache.spark.ml.util.Instrumentation$.$anonfun$instrumented$1(Instrumentation.scala:191)
	at scala.util.Try$.apply(Try.scala:213)
	at org.apache.spark.ml.util.Instrumentation$.instrumented(Instrumentation.scala:191)
	at org.apache.spark.ml.regression.DecisionTreeRegressor.train(DecisionTreeRegr

IllegalArgumentException: requirement failed: DecisionTree requires maxBins (= 32) to be at least as large as the number of values in each categorical feature, but categorical feature 3 has 36 values. Consider removing this and other categorical features with a large number of values, or add more training examples.

의도한 오류이다. maxBins 매개변수에 문제가 있음을 알 수 있다.

이 매개변수는 무엇을 하는가? maxBins는 연속 특성이 이산화되거나 분할되는 빈의 수를 결정한다. 이 이산화 단계는 분산 교육을 수행하는데 중요하다. 모든 데이터와 모델이 단일 머신에 상주하기 때문에 사이킷런에는 maxBins 매개변수가 없다. 그러나 스파크에서 워커는 데이터의 모든 열을 갖고 있지만 행의 하위 집합만 있다. 따라서 분할할 피처와 값에 대해 통신할 때, 훈련 시간에 설정된 공통 이산화에서 얻은 동일한 분할값에 대해 모두 다루고 있는지 확인해야 한다.

MLlib에서는 범주형 열의 이산화를 처리할 수 있을 만큼 maxBins가 충분히 커야한다. maxBins의 기본값은 32이고 36개의 고유한 값이 있는 범주형 열이 있었기 때문에 더 일직 오류가 발생했다. 64로 늘릴 수 있지만 시간이 크게 늘어난다. 대신 maxBins를 40으로 설정하고 파이프라인을 다시 훈련한다. 여기에서 setMaxBins() 메서드를 사용하여 결정 트리를 완전히 재정의하지 않고 수정하고 있음을 알 수 있다.

In [21]:
dt.setMaxBins(40)
pipelineModel = pipeline.fit(trainDF)

                                                                                

구현의 차이로 인해 사이킷런과 MLlib을 사용하여 모델을 빌드할 때 정확히 동일한 결과를 얻지 못하는 경우가 많다. 하지만 핵심은 왜 그들이 다른지 이해하고 필요한 방식으로 수행하도록 하기 위해 제어에 어떤 매개변수가 있는지 확인하는 것이다. 사이킷런에서 MLlib로 워크로드를 포팅하는 경우 spark.ml 및 사이킷런 문서에서 어떤 매개변수가 다른지 확인하고, 해당 매개변수를 조정하여 동일한 데이터에 대해 비교 가능한 결과를 얻을 것을 권장한다. 값이 충분히 가까워지면 사이킷런이 처리할 수 없는 더 큰 데이터 크기로 MLlib 모델을 확장할 수 있다.

모델을 성공적으로 구축했으므로 의사결정나무에서 학습한 if-then-else 규칙을 추출할 수 있다.

In [22]:
dtModel = pipelineModel.stages[-1]
print(dtModel.toDebugString)

DecisionTreeRegressionModel: uid=DecisionTreeRegressor_5f4b40c40403, depth=5, numNodes=47, numFeatures=33
  If (feature 12 <= 2.5)
   If (feature 12 <= 1.5)
    If (feature 5 in {1.0,2.0})
     If (feature 4 in {0.0,1.0,3.0,5.0,9.0,10.0,11.0,13.0,14.0,16.0,18.0,24.0})
      If (feature 3 in {0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0,20.0,21.0,23.0,24.0,25.0,26.0,27.0,28.0,29.0,30.0,31.0,32.0,33.0,34.0})
       Predict: 104.23992784125075
      Else (feature 3 not in {0.0,1.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0,20.0,21.0,23.0,24.0,25.0,26.0,27.0,28.0,29.0,30.0,31.0,32.0,33.0,34.0})
       Predict: 250.7111111111111
     Else (feature 4 not in {0.0,1.0,3.0,5.0,9.0,10.0,11.0,13.0,14.0,16.0,18.0,24.0})
      If (feature 3 in {0.0,2.0,3.0,4.0,5.0,6.0,7.0,8.0,9.0,10.0,11.0,12.0,13.0,14.0,15.0,16.0,17.0,18.0,19.0,20.0,21.0,22.0,23.0,27.0,33.0,35.0})
       Predict: 151.94179894179894
      Else (feat

의사결정나무가 숫자 피처와 범주형 피처에서 분리되는 방식의 차이점에 주목하자. 숫자 기능의 경우 값이 임계값보다 작거나 같은지 확인하고 범주형 피처의 경우 값이 해당 세트에 있는지 여부를 확인한다.

In [23]:
# 참고
pipelineModel.stages

[StringIndexerModel: uid=StringIndexer_75b6ee49d6da, handleInvalid=skip, numInputCols=7, numOutputCols=7,
 VectorAssembler_02fec71e23f3,
 DecisionTreeRegressionModel: uid=DecisionTreeRegressor_5f4b40c40403, depth=5, numNodes=47, numFeatures=33]

기능 중요도 점수를 추출한다.

In [24]:
import pandas as pd

featureImp = pd.DataFrame(
    list(zip(vecAssembler.getInputCols(), dtModel.featureImportances)),
    columns = ['features', 'importance'])
featureImp.sort_values(by='importance', ascending=False)

Unnamed: 0,features,importance
12,bedrooms,0.283406
1,cancellation_policyindex,0.167893
2,instant_bookableindex,0.140081
4,property_typeindex,0.128179
15,number_of_reviews,0.126233
3,neighbourhood_cleansedindex,0.0562
9,longitude,0.03881
14,minimum_nights,0.029473
13,beds,0.015218
5,room_typeindex,0.010905


더 나은 결과를 얻기 위해 다양한 모델을 결합하는 앙상블 접근 방식을 사용하여 이 모델을 개선하는 방법을 살펴본다.

### 랜덤 포레스트
설명 생략

In [26]:
from pyspark.ml.regression import RandomForestRegressor
rf = RandomForestRegressor(labelCol='price', maxBins=40, seed=42)

랜덤 포레스트는 각 트리가 다른 트리와 독립적으로 구축될 수 있기 때문에 스파크를 사용한 분산 머신러닝의 힘을 진정으로 보여준다. 예를 들면 트리10을 구축하기 전에 투리 3을 구축할 필요가 없다. 또한 트리의 각 수준 내에서 작업을 병렬화하여 최적의 분할을 찾을 수 있다.

### k-폴드 교차 검증
설명 생략

스파크에서 하이퍼파라미터 검색을 수행하려면 다음 단계를 따른다.
1. 평가할 추정기를 정의한다.
2. ParamGridBuilder를 사용하여 변경하려는 하이퍼파라미터와 해당 값을 지정한다.
3. 평가기(evaluator)를 정의하여 다양한 모델을 비교하는 데 사용할 메트릭을 지정한다.
4. CrossValidator를 사용하여 다양한 모델 각각을 평가하는 교차 검증을 수행한다.

In [27]:
pipeline = Pipeline(stages = [stringIndexer, vecAssembler, rf])
# 랜덤 포레스트 사용

ParamGridBuilder의 경우 maxDepth를 2, 4 또는 6으로 변경하고 numTrees(랜덤 포레스트의 트리 수)를 10 또는 100으로 변경한다.

In [28]:
from pyspark.ml.tuning import ParamGridBuilder
paramGrid = (ParamGridBuilder()
             .addGrid(rf.maxDepth, [2, 4, 6])
             .addGrid(rf.numTrees, [10, 100])
             .build())

각 모델을 평가하여 어떤 모델이 가장 성능이 좋은지 결정하는 방법을 정의한다. RegressionEvaluator를 사용하고 RMSE를 관심 메트릭으로 사용한다.

In [29]:
evaluator = RegressionEvaluator(labelCol='price',
                                predictionCol='prediction',
                                metricName='rmse')

estimator, evaluator, estimatorParamMaps를 받아들이는 CrossValidator를 사용하여 k-fold 교차 검증을 수행한다.

In [30]:
from pyspark.ml.tuning import CrossValidator

cv = CrossValidator(estimator=pipeline,
                    evaluator=evaluator,
                    estimatorParamMaps=paramGrid,
                    numFolds=3,
                    seed=42)
cvModel = cv.fit(trainDF)

23/09/11 15:56:53 WARN DAGScheduler: Broadcasting large task binary with size 1321.2 KiB
23/09/11 15:57:18 WARN DAGScheduler: Broadcasting large task binary with size 1154.8 KiB
23/09/11 15:57:40 WARN DAGScheduler: Broadcasting large task binary with size 1195.6 KiB
23/09/11 15:57:48 WARN DAGScheduler: Broadcasting large task binary with size 1222.0 KiB
                                                                                

스파크는 최적의 하이퍼파라미터 구성을 식별하면 전체 훈련 데이터 세트에 대해 모델을 재교육하므로 여기서 총 19개의 모델을 교육했다. 훈련된 중간 모델을 유지하려면 CrossValidator에서 collectSubModels=True를 설정할 수 있다.

교차 검증기의 결과를 검색하려면 avgMetrics를 살펴봐라.

In [31]:
list(zip(cvModel.getEstimatorParamMaps(), cvModel.avgMetrics))

[({Param(parent='RandomForestRegressor_a0d6edefae8a', name='maxDepth', doc='Maximum depth of the tree. (>= 0) E.g., depth 0 means 1 leaf node; depth 1 means 1 internal node + 2 leaf nodes. Must be in range [0, 30].'): 2,
   Param(parent='RandomForestRegressor_a0d6edefae8a', name='numTrees', doc='Number of trees to train (>= 1).'): 10},
  291.1822640924783),
 ({Param(parent='RandomForestRegressor_a0d6edefae8a', name='maxDepth', doc='Maximum depth of the tree. (>= 0) E.g., depth 0 means 1 leaf node; depth 1 means 1 internal node + 2 leaf nodes. Must be in range [0, 30].'): 2,
   Param(parent='RandomForestRegressor_a0d6edefae8a', name='numTrees', doc='Number of trees to train (>= 1).'): 100},
  286.7714750274078),
 ({Param(parent='RandomForestRegressor_a0d6edefae8a', name='maxDepth', doc='Maximum depth of the tree. (>= 0) E.g., depth 0 means 1 leaf node; depth 1 means 1 internal node + 2 leaf nodes. Must be in range [0, 30].'): 4,
   Param(parent='RandomForestRegressor_a0d6edefae8a', name

CrossValidator의 최상의 모델(RMSE가 가장 낮은 모델)이 maxDepth=6이고 numTrees=100임을 알 수 있다. 그러나 이것은 실행하는 데 오랜 시간이 걸렸다. 동일한 모델 성능을 유지하면서 모델 학습 시간을 줄이는 방법을 살펴본다.

### 파이프라인 최적화
교차 검증에서 각 모델은 기술적으로 독립적이지만 spark.ml은 실제로 병렬이 아닌 순차적으로 모델 컬렉션을 훈련한다. 스파크 2.3에서는 이 문제를 해결하기 위해 parallelism 매개변수가 도입되었다. 이 매개변수는 병렬로 훈련할 모델의 수를 결정한다.

paralleism값은 클러스터 리소스를 초과하지 않고 병렬 처리를 최대화하려면 신중하게 선택해야 하며 값이 더 크다고 항상 성능이 향상되는 것은 아니다. 일반적으로 대부분의 클러스터에는 최대 10이면 충분하다.

이 값을 4로 설정하고 더 빨리 훈련할 수 있는지 확인한다.

In [32]:
cvModel = cv.setParallelism(4).fit(trainDF)

23/09/11 16:11:47 WARN DAGScheduler: Broadcasting large task binary with size 1321.2 KiB
23/09/11 16:12:04 WARN DAGScheduler: Broadcasting large task binary with size 1154.8 KiB
23/09/11 16:12:18 WARN DAGScheduler: Broadcasting large task binary with size 1195.6 KiB
23/09/11 16:12:24 WARN DAGScheduler: Broadcasting large task binary with size 1222.0 KiB
                                                                                

책에서 훈련 시간이 절반으로 줄었다.

모델 훈련 속도를 높이는데 사용할 수 있는 또 다른 트릭이 있다. 파이프라인을 교차 검증기 내부에 배치하는 대신, 파이프라인 내부에 교차 검증기를 배치한다. 파이프라인의 모든 단계를 재평가하면서 변경되지 않더라도 동일한 StringIndexer 매핑을 반복해서 학습한다.

In [34]:
cv = CrossValidator(estimator=rf,
                    evaluator=evaluator,
                    estimatorParamMaps=paramGrid,
                    numFolds=3,
                    parallelism=4,
                    seed=42)

pipeline = Pipeline(stages=[stringIndexer, vecAssembler, cv])
# 알고리즘 대신 cv가 들어갔네
# cv안에 모델이 인자로 들어가서일까
pipelineModel = pipeline.fit(trainDF)

23/09/11 16:22:28 WARN DAGScheduler: Broadcasting large task binary with size 1320.6 KiB
23/09/11 16:22:40 WARN DAGScheduler: Broadcasting large task binary with size 1157.4 KiB
23/09/11 16:22:42 WARN BlockManager: Block rdd_2532_0 already exists on this machine; not re-adding it
23/09/11 16:22:52 WARN DAGScheduler: Broadcasting large task binary with size 1195.0 KiB
23/09/11 16:23:00 WARN DAGScheduler: Broadcasting large task binary with size 1222.0 KiB
                                                                                

훈련 시간이 더 단축됐다.