# 1. 딥러닝으로 다이빙하기 전에

## 1-1. 우리가 지나쳤던 머신러닝 알고리즘들

### 1-1-1. 의사결정나무 : "올해 휴가는 어디로 갈까?" since 1984, Leo Breiman

"이번 여름휴가는 바다로 갈까, 산으로 갈까?"

여름 휴가철이 되면 가족들과 함께 어디로 휴가 갈지 매번 고민들 하시죠?
막연하긴 하지만, "엄청 더우면(체감온도 30도 이상) 바다로 가고, 그렇지 않으면 산으로 간다."라고
마음속으로 나름 확고한 알고리즘을 짜 둔 분이라면 큰 고민 없이 기준에 맞춰 의사결정을 하실 겁니다.

의사결정트리 알고리즘은 이런 방식으로 특정 조건을 수립(조정)하고
해당 조건에 따라 데이터를 분류하거나 예측합니다.

# 휴가지 선정방법(예시)
![휴가지선정방법](https://i.ibb.co/N1F6FHS/decisiontree-ex1.png)
이처럼 분석과정이 직관적이고 이해하기 쉽다는 점이 의사결정나무의 가장 큰 장점입니다.

# 의사결정나무의 장단점
이밖에도 의사결정나무의 장단점으로는
1. 알고리즘 해석이 용이하며, 분류기준이 되는 중요특성을 찾는 경우에도 유용하게 쓰인다.
2. 정수, 실수데이터 뿐만 아니라 범주형데이터(성별 및 불리언) 또한 사용이 가능하다.
3. 필요한 전처리가 비교적 적다. 스케일링, 정규화 등의 과정이 필요없어진다.
4. 다만, 과적합되기 쉽다. 그래서 훈련데이터를 검토해서 이상값이나 예외값을 정제하는 등의 대책이 필요하다.

# 의사결정나무 알고리즘(간략히)

의사결정나무 알고리즘은 (다 비슷해 보이지만) 데이터를 분류하는 방법에 따라 제법 여러 가지로 나뉩니다.
이 중 의사결정나무 알고리즘의 시초이며, 현재까지도 가장 많이 쓰이는 방법은, "지니 계수"와 "분산 감소량"을 사용해서 이진분류하는 방법입니다. 지니 계수는 범주형 변수를 분류할 때, 분산 감소량은 연속형 변수를 분류할 때 사용하는 방식입니다.

> 지니계수는 원래 경제학에서 경제적 불평등(소득 불균형)을 계수화하는 방법입니다. 경제학자인 코라도지니Corrado Gini의 이름에서 딴 계수로, 완전 평등하다면 0, 완전불평등한 상태라면 1이 됩니다. 이를 머신러닝에 적용할 때에는 그 의미가 재해석되는데, 데이터의 속성들이 많이 일치하면 1이 되고, 반대로 속성들이 제각기 다른 형태이면 0이 됩니다. 우리가 원하는 것은 비슷한 데이터끼리 잘 묶어주는 것이므로, 분류 전후의 지니 계수의 차이가 큰 속성을 기준으로 우선분할합니다. 즉, 데이터들의 속성이 비슷한 것끼리 구분지어 묶이게 됩니다.

위 방법을 가리켜 카트(CaRT, Classification and Regression Trees) 알고리즘이라고 줄여 부릅니다. 그 밖에도 지니계수 대신 정보이득(information gain)을 사용하는 ID3알고리즘, 이득비율(gain ration)을 사용하여 이진분류가 아니라 세 가지로 분류할 수 있는 C5.0알고리즘 등이 있습니다. 각 알고리즘이나 용어에 대해 궁금하신 분은 구글링을 해보시면 어마어마하게 많은 관련포스팅이 튀어나온다는 것에 꽤 놀라실 것입니다. 게다가 한글로요.. 공부하기 편한 시대입니다.

# 의사결정나무를 만들어봅시다.

## 사용데이터 : 붓꽃(Iris) 분류

붓꽃(Iris)은 재미있는 특징이 있습니다. "세토사", "버시컬러", "버지니카" 세 개의 대표종이 (서로 다른 종임에도) 색깔과 형태가 굉장히 유사하다는 것입니다. 이걸 효과적으로 구분할 수 있는 거의 유일한 방법은 꽃잎의 길이와 너비, 그리고 꽃받침의 길이와 너비를 이용하는 것입니다.

![](https://machinelearninghd.com/wp-content/uploads/2021/03/iris-dataset.png)

과연 의사결정나무로도 효과적인 분류가 가능할까요?

![](https://upload.wikimedia.org/wikipedia/commons/thumb/5/56/Iris_dataset_scatterplot.svg/1280px-Iris_dataset_scatterplot.svg.png)
where, sepal:꽃받침, petal:꽃잎

In [1]:
from sklearn import datasets
from sklearn import tree
from sklearn.tree import DecisionTreeClassifier

In [5]:
데이터셋 = datasets.load_iris()
print(데이터셋['DESCR'])

.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, predictive attributes and the class
    :Attribute Information:
        - sepal length in cm
        - sepal width in cm
        - petal length in cm
        - petal width in cm
        - class:
                - Iris-Setosa
                - Iris-Versicolour
                - Iris-Virginica
                
    :Summary Statistics:

                    Min  Max   Mean    SD   Class Correlation
    sepal length:   4.3  7.9   5.84   0.83    0.7826
    sepal width:    2.0  4.4   3.05   0.43   -0.4194
    petal length:   1.0  6.9   3.76   1.76    0.9490  (high!)
    petal width:    0.1  2.5   1.20   0.76    0.9565  (high!)

    :Missing Attribute Values: None
    :Class Distribution: 33.3% for each of 3 classes.
    :Creator: R.A. Fisher
    :Donor: Michael Marshall (MARSHALL%PLU@io.arc.nasa.gov)
    :

In [6]:
특성데이터 = 데이터셋.data
타겟데이터 = 데이터셋.target

In [3]:
특성데이터  # 0~3 칼럼(특성)은 각각 sepal length, sepal width, petal length 및 petal width를 뜻합니다.

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [7]:
타겟데이터  # 타겟데이터 0~2는 차례대로 "세토사", "버시컬러", "버지니카"입니다.

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

본격적으로 모델을 구현하기 전에, 의사결정나무의 구조를 이미지로 시각화하기 위한 소프트웨어인
그래프비즈(Graphviz)를 설치하겠습니다.
![](https://i.ibb.co/h24w4V2/image.png)

환경변수의 시스템변수 Path에 경로를 추가해야 하는데, 설치과정 중 환경변수에 추가할지 물어봅니다. 현재 사용자(current user)의 환경변수에 추가하겠다고 선택하고 설치를 마치시면 됩니다.

# 붓꽃 데이터를 분류하기 위한 의사결정나무 구현 코드

In [8]:
꽃잎정보 = 특성데이터[:, 2:]  # 모든 데이터셋(행)을 사용하지만, 꽃잎길이와 꽃잎너비 두 개의 특성만 사용해보겠습니다.

In [15]:
# 의사결정나무 모델의 클래스 생성
분류기 = DecisionTreeClassifier(criterion='gini', max_depth=3)  # 지니계수gini 대신에 혼잡도entropy를 사용하기도 함.

In [16]:
# 모델을 학습
분류기.fit(꽃잎정보, 타겟데이터)

DecisionTreeClassifier(max_depth=3)

In [17]:
# 학습이 완료된 결정나무 형태를 출력
with open("./iris_dtree.dot", 'w') as f:
    tree.export_graphviz(분류기, out_file=f)

생성된 iris_dtree.dot 파일은
익숙해지기 전까지는 알아보기 좀 어렵습니다.
이렇게 생긴 텍스트 데이터입니다.

```
digraph Tree {
node [shape=box] ;
0 [label="X[1] <= 0.8\ngini = 0.667\nsamples = 150\nvalue = [50, 50, 50]"] ;
1 [label="gini = 0.0\nsamples = 50\nvalue = [50, 0, 0]"] ;
0 -> 1 [labeldistance=2.5, labelangle=45, headlabel="True"] ;
2 [label="X[1] <= 1.75\ngini = 0.5\nsamples = 100\nvalue = [0, 50, 50]"] ;
0 -> 2 [labeldistance=2.5, labelangle=-45, headlabel="False"] ;
3 [label="X[0] <= 4.95\ngini = 0.168\nsamples = 54\nvalue = [0, 49, 5]"] ;
2 -> 3 ;
4 [label="gini = 0.041\nsamples = 48\nvalue = [0, 47, 1]"] ;
3 -> 4 ;
5 [label="gini = 0.444\nsamples = 6\nvalue = [0, 2, 4]"] ;
3 -> 5 ;
6 [label="X[0] <= 4.85\ngini = 0.043\nsamples = 46\nvalue = [0, 1, 45]"] ;
2 -> 6 ;
7 [label="gini = 0.444\nsamples = 3\nvalue = [0, 1, 2]"] ;
6 -> 7 ;
8 [label="gini = 0.0\nsamples = 43\nvalue = [0, 0, 43]"] ;
6 -> 8 ;
}
```

In [18]:
!dot -T png iris-dtree.dot -o iris-dtree.png

'dot' is not recognized as an internal or external command,
operable program or batch file.
