# Scikit-Learn 모델

In [1]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np

In [2]:
# iris datasets 로딩
iris = load_iris()

iris_data  = iris.data # feature
iris_label = iris.target # label

iris_columns = ["sepal_length", "sepal_width", "petal_length", "petal_width"]
iris_pdf = pd.DataFrame(iris_data, columns=iris_columns)
iris_pdf['target'] = iris_label
iris_pdf

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [4]:
iris_pdf.to_csv("./data/iris.csv", index=False)

## 1. 데이터 분할

In [5]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(
    iris_data,
    iris_label,
    test_size=0.2,
    random_state=42
)

## 2. 모델 정의

In [6]:
from sklearn.tree import DecisionTreeClassifier

tree_clf = DecisionTreeClassifier()
tree_clf

## 3. 훈련

In [7]:
# tree_clf 모델 자체에서 훈련이 일어난다. 즉 모델의 정보가 바뀐다.
tree_clf.fit(X_train, y_train)

## 4. 예측

In [8]:
pred = tree_clf.predict(X_test)
print(pred)

[1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]


## 5. 성능 평가

In [9]:
from sklearn.metrics import accuracy_score

accuracy = accuracy_score(y_test, pred) # 정답과 예측 데이터를 비교해서 정확도 구하기
accuracy

1.0

# SparkML 사용하기

In [10]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("tree-clf").getOrCreate()
spark

Using Spark's default log4j profile: org/apache/spark/log4j-defaults.properties
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/11/20 10:12:15 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [11]:
iris_filepath = "/home/ubuntu/working/spark-examples/data/iris.csv"

iris_sdf = spark.read.csv(f"file://{iris_filepath}", inferSchema=True, header=True)
iris_sdf.show(5)

                                                                                

+------------+-----------+------------+-----------+------+
|sepal_length|sepal_width|petal_length|petal_width|target|
+------------+-----------+------------+-----------+------+
|         5.1|        3.5|         1.4|        0.2|     0|
|         4.9|        3.0|         1.4|        0.2|     0|
|         4.7|        3.2|         1.3|        0.2|     0|
|         4.6|        3.1|         1.5|        0.2|     0|
|         5.0|        3.6|         1.4|        0.2|     0|
+------------+-----------+------------+-----------+------+
only showing top 5 rows



## 1. 데이터 분할

In [12]:
# DataFrame API의 randomSplit 메소드를 활용해 훈련 / 테스트 데이터 세트를 분할
train_sdf, test_sdf = iris_sdf.randomSplit([0.8, 0.2], seed=42)

In [13]:
# 훈련 데이터 세트는 어떻게 변환이 되어도 하나만 존재하는 것이 좋다.
#  - 모델이 여러 개거나, 여러 전처리 과정을 거쳐도 어쨌든 train 세트에서 변환이 되는 것이기 때문에
#  - 모델 생성 과정에서 DAG가 계속 그려지게 된다.
# 똑같은 train_sdf가 모델의 개수만큼, 각각 다른 전처리 루틴 만큼 만들어지게 된다.

# 모델마다의 공통적인 전처리를 모두 수행하고 나서 train_sdf를 캐시에 넣어 놓는다.
# 결과적으로 훈련 직전에 사용할 데이터는 캐싱하는 것이 좋다.
train_sdf.cache()

DataFrame[sepal_length: double, sepal_width: double, petal_length: double, petal_width: double, target: int]

## 2. 행 벡터화
`VectorAssembler`를 이용해 모든 Feature에 해당하는 컬럼을 만든다.

In [14]:
from pyspark.ml.feature import VectorAssembler

# 합쳐질 컬럼 목록
iris_columns = ["sepal_length", "sepal_width", "petal_length", "petal_width"]

In [16]:
# VectorAssembler로 지정한 컬럼을 하나의 행 벡터로 합쳐준다.

# inputCols : 합쳐질 컬럼"들"의 목록(list)
# outputCol : 합쳐진 컬럼의 이름
vec_assembler = VectorAssembler(inputCols=iris_columns, outputCol="features")

`VectorAssembler`는 데이터 프레임을 변형하는 클래스. 이렇게 데이터 프레임을 변형하는 기능을 가진 클래스를 `Transformer`라고 한다. 또한 이런 `Transformer`는 데이터 프레임을 변형 할 수 있는 `transform` 메소드를 갖는다.

In [17]:
# VectorAssembler Transform
train_feature_vector_sdf = vec_assembler.transform(train_sdf)
train_feature_vector_sdf.show(5)

+------------+-----------+------------+-----------+------+-----------------+
|sepal_length|sepal_width|petal_length|petal_width|target|         features|
+------------+-----------+------------+-----------+------+-----------------+
|         4.3|        3.0|         1.1|        0.1|     0|[4.3,3.0,1.1,0.1]|
|         4.4|        2.9|         1.4|        0.2|     0|[4.4,2.9,1.4,0.2]|
|         4.4|        3.2|         1.3|        0.2|     0|[4.4,3.2,1.3,0.2]|
|         4.5|        2.3|         1.3|        0.3|     0|[4.5,2.3,1.3,0.3]|
|         4.6|        3.1|         1.5|        0.2|     0|[4.6,3.1,1.5,0.2]|
+------------+-----------+------------+-----------+------+-----------------+
only showing top 5 rows



# Estimator(추정기)
- Estimator란 예측을 할 수 잇는 모델을 의미한다.
- Spark ML의 모델(Estimator)은 데이터를 변환 시키는 `Transformer`에 해당한다.
    - Feature가 들어 있는 데이터 프레임을 받아서 예측 값(`prediction`) 컬럼을 추가 해주는 변환(Transformations) 과정을 수행하기 때문

In [18]:
from pyspark.ml.classification import DecisionTreeClassifier

# 모델 껍데기만 생성
# 훈련 데이터 프레임의 어떤 컬럼이 feature고, 어떤 컬럼이 target인지를 미리 지정하기
dt = DecisionTreeClassifier(
    featuresCol = "features",
    labelCol = "target",
    maxDepth=5
)

type(dt)

pyspark.ml.classification.DecisionTreeClassifier

In [19]:
# 모델 학습
dt_model = dt.fit(train_feature_vector_sdf)
type(dt_model)

pyspark.ml.classification.DecisionTreeClassificationModel

## 예측

In [20]:
test_sdf.show(5)

+------------+-----------+------------+-----------+------+
|sepal_length|sepal_width|petal_length|petal_width|target|
+------------+-----------+------------+-----------+------+
|         4.4|        3.0|         1.3|        0.2|     0|
|         4.6|        3.2|         1.4|        0.2|     0|
|         4.6|        3.6|         1.0|        0.2|     0|
|         4.8|        3.1|         1.6|        0.2|     0|
|         4.9|        3.1|         1.5|        0.1|     0|
+------------+-----------+------------+-----------+------+
only showing top 5 rows



In [21]:
# 테스트 세트로 예측을 하려면 훈련 데이터의 Transformer를 테스트 세트에 그대로 적용시킨다.
#  절대로! 테스트 세트를 위한 Transformer를 새롭게 만들지 않는다.

test_feature_vector_sdf = vec_assembler.transform(test_sdf)
test_feature_vector_sdf.show(5)

+------------+-----------+------------+-----------+------+-----------------+
|sepal_length|sepal_width|petal_length|petal_width|target|         features|
+------------+-----------+------------+-----------+------+-----------------+
|         4.4|        3.0|         1.3|        0.2|     0|[4.4,3.0,1.3,0.2]|
|         4.6|        3.2|         1.4|        0.2|     0|[4.6,3.2,1.4,0.2]|
|         4.6|        3.6|         1.0|        0.2|     0|[4.6,3.6,1.0,0.2]|
|         4.8|        3.1|         1.6|        0.2|     0|[4.8,3.1,1.6,0.2]|
|         4.9|        3.1|         1.5|        0.1|     0|[4.9,3.1,1.5,0.1]|
+------------+-----------+------------+-----------+------+-----------------+
only showing top 5 rows



In [23]:
# 테스트 세트로 예측
predictions = dt_model.transform(test_feature_vector_sdf)
predictions.show(5)

+------------+-----------+------------+-----------+------+-----------------+--------------+-------------+----------+
|sepal_length|sepal_width|petal_length|petal_width|target|         features| rawPrediction|  probability|prediction|
+------------+-----------+------------+-----------+------+-----------------+--------------+-------------+----------+
|         4.4|        3.0|         1.3|        0.2|     0|[4.4,3.0,1.3,0.2]|[39.0,0.0,0.0]|[1.0,0.0,0.0]|       0.0|
|         4.6|        3.2|         1.4|        0.2|     0|[4.6,3.2,1.4,0.2]|[39.0,0.0,0.0]|[1.0,0.0,0.0]|       0.0|
|         4.6|        3.6|         1.0|        0.2|     0|[4.6,3.6,1.0,0.2]|[39.0,0.0,0.0]|[1.0,0.0,0.0]|       0.0|
|         4.8|        3.1|         1.6|        0.2|     0|[4.8,3.1,1.6,0.2]|[39.0,0.0,0.0]|[1.0,0.0,0.0]|       0.0|
|         4.9|        3.1|         1.5|        0.1|     0|[4.9,3.1,1.5,0.1]|[39.0,0.0,0.0]|[1.0,0.0,0.0]|       0.0|
+------------+-----------+------------+-----------+------+------

- `rawPrediction` : 머신러닝 모델 알고리즘 별로 다를 수 있다.
    - 머신러닝 알고리즘에 의해서 계산된 값
    - 값에 대한 정확한 의미는 없다.
    - `LogisticRegression`의 경우 예측 label 별로, 예측 수행 전 `sigmoid` 함수 적용 전 값
- `probability`: 예측 label 별 예측 확률 값
- `prediction` : 최종 예측 label 값

## 모델 평가

In [24]:
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

evaluator_accuracy = MulticlassClassificationEvaluator(
    labelCol = 'target',
    predictionCol = 'prediction',
    metricName = 'accuracy'
)

In [25]:
accuracy = evaluator_accuracy.evaluate(predictions)
accuracy

1.0

In [26]:
spark.stop()

In [None]:
# 숙제 LogisticRegression 사용하기
from pyspark.ml.classification import LogisticRegression
# 훈련 세트 변환

# 모델 훈련

