# Decision Tree

### iris dataset

iris.feature_names :

Sepal Length : 꽃받침 길이  
Sepal Width  : 꽃받침 너비   
Petal Length  : 꽃잎 길이  
Petal Width   :  꽃잎 너비

Species (꽃의 종류) :  setosa / versicolor / virginica 의 3종류로 구분된다.

**위 feature 를 모두 가지고 Decision Tree 알고리즘을 이용하여 꽃의 종류 분류**

In [1]:
from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("SparkML").config("spark.sql.repl.eagerEval.enabled", True).getOrCreate()

In [6]:
from sklearn.datasets import load_iris
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

# 사이킷런에서 Iris 데이터셋 로드
iris = load_iris()

# Iris 데이터셋을 Pandas 데이터프레임으로 변환
df_iris = pd.DataFrame(data=iris.data, columns=iris.feature_names)

df_iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [7]:
# Iris 데이터셋의 타겟값(target)을 데이터프레임(df_iris)에 새로운 열로 추가
df_iris['Species'] = iris.target

df_iris.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [8]:
# Spark ML을 사용하기 위해 Pandas 데이터프레임을 Spark 데이터프레임 형식으로 변환합니다.
df_iris = spark.createDataFrame(df_iris)

df_iris.show(5)

+-----------------+----------------+-----------------+----------------+-------+
|sepal length (cm)|sepal width (cm)|petal length (cm)|petal width (cm)|Species|
+-----------------+----------------+-----------------+----------------+-------+
|              5.1|             3.5|              1.4|             0.2|      0|
|              4.9|             3.0|              1.4|             0.2|      0|
|              4.7|             3.2|              1.3|             0.2|      0|
|              4.6|             3.1|              1.5|             0.2|      0|
|              5.0|             3.6|              1.4|             0.2|      0|
+-----------------+----------------+-----------------+----------------+-------+
only showing top 5 rows



In [10]:
from pyspark.sql.functions import col

# Spark 데이터프레임(df_iris)에서 필요한 컬럼을 선택하고, 일부 컬럼의 이름을 변경하여 새로운 데이터프레임(df)을 생성
# - select: 특정 컬럼만 선택
# - col: 컬럼을 선택하는 함수
# - alias: 선택한 컬럼의 이름을 새롭게 지정

df = df_iris.select(
    col("sepal length (cm)").alias("sepal_length"),  # "sepal length (cm)" → "sepal_length"
    col("sepal width (cm)").alias("sepal_width"),     # "sepal width (cm)" → "sepal_width"
    col("petal length (cm)").alias("potal_length"),    # "petal length (cm)" → "potal_length"
    col("petal width (cm)").alias("petal_width"),      # "petal width (cm)" → "petal_width"
    "Species"                                                         # Species 컬럼은 이름 변경 없이 선택
)

df.limit(5)

sepal_length,sepal_width,potal_length,petal_width,Species
5.1,3.5,1.4,0.2,0
4.9,3.0,1.4,0.2,0
4.7,3.2,1.3,0.2,0
4.6,3.1,1.5,0.2,0
5.0,3.6,1.4,0.2,0


In [11]:
df.printSchema()

root
 |-- sepal_length: double (nullable = true)
 |-- sepal_width: double (nullable = true)
 |-- potal_length: double (nullable = true)
 |-- petal_width: double (nullable = true)
 |-- Species: long (nullable = true)



In [12]:
# VectorAssembler는 여러 개의 입력 컬럼을 하나의 벡터로 결합하여 머신러닝 모델에 사용할 수 있는 형식으로 변환
from pyspark.ml.feature import VectorAssembler

# inputCols: 벡터로 결합할 입력 컬럼들의 리스트 (여기서는 타겟 컬럼 'Species'를 제외한 모든 컬럼)
# outputCol: 결합된 벡터를 저장할 출력 컬럼의 이름 (여기서는 "features")
assembler = VectorAssembler(inputCols=df.columns[:-1], outputCol="features")

# VectorAssembler를 사용하여 데이터프레임(df)에 변환을 적용
data = assembler.transform(df)

data.limit(5)

sepal_length,sepal_width,potal_length,petal_width,Species,features
5.1,3.5,1.4,0.2,0,"[5.1,3.5,1.4,0.2]"
4.9,3.0,1.4,0.2,0,"[4.9,3.0,1.4,0.2]"
4.7,3.2,1.3,0.2,0,"[4.7,3.2,1.3,0.2]"
4.6,3.1,1.5,0.2,0,"[4.6,3.1,1.5,0.2]"
5.0,3.6,1.4,0.2,0,"[5.0,3.6,1.4,0.2]"


### train / test split & accuracy check

In [13]:
# 지정된 비율에 따라 랜덤하게 분할
# 전체 데이터의 80%는 학습 데이터로, 20%는 테스트 데이터로 사용.
train_data, test_data = data.randomSplit([0.8, 0.2])

# 분할된 데이터의 개수 출력
train_data.count(), test_data.count()

(111, 39)

In [14]:
from pyspark.ml.classification import DecisionTreeClassifier

# 의사결정나무(Decision Tree) 분류 모델을 생성하고 학습.
# - labelCol: 타겟 변수(라벨) 컬럼 이름
# - maxDepth: 의사결정나무의 최대 깊이
dt = DecisionTreeClassifier(labelCol="Species", maxDepth=5).fit(train_data)
dt

DecisionTreeClassificationModel: uid=DecisionTreeClassifier_6c6b45138d90, depth=4, numNodes=13, numClasses=3, numFeatures=4

In [15]:
# 학습된 의사결정나무 모델에서 각 특징(feature)의 중요도를 출력.
# featureImportances 속성은 모델 학습 과정에서 계산된 각 특징의 상대적 중요도를 반환
# 값이 클수록 해당 특징이 분류 작업에 더 중요한 역할을 했음을 의미
print(dt.featureImportances)

(4,[0,2,3],[0.018128368446839786,0.5167701302164739,0.46510150133668643])


`(4, [0, 2, 3], [0.018128368446839786, 0.5167701302164739, 0.46510150133668643])` -->  **희소 벡터(Sparse Vector)** 형식 표현 (0이 아닌 값만 저장하여 메모리 효율성을 높입니다.)

---
1. **`4`**: 벡터의 길이 (전체 특징 수).
   - 예를 들어, 데이터에 4개의 특징(`sepal_length`, `sepal_width`, `petal_length`, `petal_width`)이 있다면, 벡터의 크기는 4입니다.

2. **`[0, 2, 3]`**: 활성화된 인덱스 (값이 0이 아닌 위치).
   - 의사결정나무 모델이 중요하다고 판단한 특징의 인덱스입니다.
   - 여기서는 0번, 2번, 3번 특징이 중요도로 계산되었습니다.

3. **`[0.018128368446839786, 0.5167701302164739, 0.46510150133668643]`**:
   - 각 활성화된 특징의 중요도 값 (특정 특징이 의사결정나무에서 얼마나 자주 분할(split)에 사용되었는지를 나타냅니다.)
   - 0번 특징의 중요도는 `0.0181`, 2번 특징의 중요도는 `0.5168`, 3번 특징의 중요도는 `0.4651`입니다.

---
Iris 데이터셋의 특징 인덱스와 중요도를 매핑하면 다음과 같습니다:

| 특징 인덱스 | 특징 이름         | 중요도                 |
|-------------|-------------------|------------------------|
| 0           | `sepal_length`   | `0.0181` (낮음)       |
| 1           | `sepal_width`    | `0.0` (무시됨)        |
| 2           | `petal_length`   | `0.5168` (높음)       |
| 3           | `petal_width`    | `0.4651` (높음)       |


In [16]:
# 학습된 의사결정나무 모델(dt)을 사용하여 테스트 데이터(test_data)에 대한 예측 수행
# transform 메서드는 테스트 데이터셋(test_data)을 입력으로 받아 각 샘플에 대해 예측값을 계산
pred = dt.transform(test_data)

pred.limit(5)

sepal_length,sepal_width,potal_length,petal_width,Species,features,rawPrediction,probability,prediction
4.4,3.2,1.3,0.2,0,"[4.4,3.2,1.3,0.2]","[32.0,0.0,0.0]","[1.0,0.0,0.0]",0.0
4.6,3.2,1.4,0.2,0,"[4.6,3.2,1.4,0.2]","[32.0,0.0,0.0]","[1.0,0.0,0.0]",0.0
4.8,3.0,1.4,0.1,0,"[4.8,3.0,1.4,0.1]","[32.0,0.0,0.0]","[1.0,0.0,0.0]",0.0
4.8,3.4,1.9,0.2,0,"[4.8,3.4,1.9,0.2]","[32.0,0.0,0.0]","[1.0,0.0,0.0]",0.0
4.9,3.1,1.5,0.2,0,"[4.9,3.1,1.5,0.2]","[32.0,0.0,0.0]","[1.0,0.0,0.0]",0.0


In [21]:
# 데이터프레임(pred)을 리스트로 변환하여 마지막 5개 행 선택
last_rows = pred.collect()[-5:]
spark.createDataFrame(last_rows)

sepal_length,sepal_width,potal_length,petal_width,Species,features,rawPrediction,probability,prediction
7.2,3.0,5.8,1.6,2,"[7.2,3.0,5.8,1.6]","[0.0,2.0,0.0]","[0.0,1.0,0.0]",1.0
7.4,2.8,6.1,1.9,2,"[7.4,2.8,6.1,1.9]","[0.0,0.0,32.0]","[0.0,0.0,1.0]",2.0
7.7,2.6,6.9,2.3,2,"[7.7,2.6,6.9,2.3]","[0.0,0.0,32.0]","[0.0,0.0,1.0]",2.0
7.7,2.8,6.7,2.0,2,"[7.7,2.8,6.7,2.0]","[0.0,0.0,32.0]","[0.0,0.0,1.0]",2.0
7.9,3.8,6.4,2.0,2,"[7.9,3.8,6.4,2.0]","[0.0,0.0,32.0]","[0.0,0.0,1.0]",2.0


In [22]:
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

# 학습된 의사결정나무 모델의 성능 평가
# MulticlassClassificationEvaluator는 다중 클래스 분류 모델의 성능을 평가하는 데 사용
# - labelCol: 타겟 변수(실제 값)가 저장된 컬럼의 이름 (여기서는 "Species").
# - evaluate(pred): 평가 점수(f1-score) 계산
dt_auc = MulticlassClassificationEvaluator(labelCol="Species").evaluate(pred)
dt_auc

0.9494301994301995