# 지도 학습
## 결정 트리(Decision tree)
  
###### 2023-12-21 KH.LIM @Cheongju
###### 딥러닝 파이토치 교과서 참조
###### 내용에 오류가 있으면 E-mail로 연락 주세요. i-space2014@daum.net

결정 트리는 주어진 데이터에 대한 분류를 위해 사용한다.  
이상치가 많은 값들로 구성된 데이터셋을 다룰 때 좋다. 결정과정이 시각적으로 표현된다.

결정트리는 데이터를 1차로 분류한 후 각 영역의 순도(homogeneity)는 증가하고, 불순도(impurity)와 불확실성(uncertainty)은 감소하는 방향으로 학습 진행  
순도가 증가하고 불확실성이 감소하는 것을 정보 이론에서는 정보 획득(imformation gain)이라고 한다.  
순도는 다음 2가지 방법으로 계산  
  
#### 엔트로피
확률 변수의 불확실성을 수치로 나타낸 것으로 엔트로피가 높을수록 불확실성이 높다는 의미  
즉, 엔트로피 값이 0과 0.5라고 가정할 때  
> 엔트로피 = 0 = 불확실성 최소 = 순도 최대  
> 엔트로피 = 0.5 = 불확실성 최대 = 순도 최소  
  
![엔트로피 공식](../ML03_DecisionTree/img/entropy_01.png)  
          <출처. 딥러닝 파이토치 교과서>
  
    
    
  
#### 지니계수(Gini index)
불순도를 측정하는 지표로, 데이터의 통계적 분산 정도를 정량화해서 표현한 값이다.  
즉, 원소 n개 중에서 임의로 두 개를 추출했을 때, 추출된 두 개가 서로 다른 그룹에 속해 있을 확률을 의미  
![지니 계수 공식](../ML03_DecisionTree/img/entropy_02.png)  
          <출처. 딥러닝 파이토치 교과서>

#### 타이타닉 승객 생존 여부 예측 결정트리
  
  분석 절차 : 데이터셋 로딩 --> 훈련과 검증 데이터셋 분리 --> 모델 생성 --> 검증 데이터 예측

In [1]:
import pandas as pd
df = pd.read_csv('../ML03_DecisionTree/titanic/train.csv', index_col='PassengerId')
print(df.head())

             Survived  Pclass  \
PassengerId                     
1                   0       3   
2                   1       1   
3                   1       3   
4                   1       1   
5                   0       3   

                                                          Name     Sex   Age  \
PassengerId                                                                    
1                                      Braund, Mr. Owen Harris    male  22.0   
2            Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0   
3                                       Heikkinen, Miss. Laina  female  26.0   
4                 Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0   
5                                     Allen, Mr. William Henry    male  35.0   

             SibSp  Parch            Ticket     Fare Cabin Embarked  
PassengerId                                                          
1                1      0         A/5 21171   7.2500   NaN        S

In [2]:
df = df[['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Survived']]
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})   # 승객의 성별을 '0', '1'로 변환
df = df.dropna()             # 값이 없는 데이터 삭제
X = df.drop('Survived', axis=1)    # 독립변수에서 Survived 열은 제외
y = df['Survived']               # 종속변수로 Survived 열 사용

In [3]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=1)    #데이터셋 분리, random_state=1로 설정하여 매번 동일한 결과를 얻을 수 있도록 데이터를 무작위로 섞을 때 사용되는 시드(seed) 값을 설정
# 나누는 비율은 사용자가 지정

In [4]:
from sklearn import tree
model = tree.DecisionTreeClassifier()

In [5]:
model.fit(X_train, y_train)

In [6]:
# 모델 예측
y_predict = model.predict(X_test)
from sklearn.metrics import accuracy_score
accuracy_score(y_test, y_predict)

0.8379888268156425

In [7]:
# 혼동 행렬을 이용한 성능 측정  
  
    
from sklearn.metrics import confusion_matrix
pd.DataFrame(
    confusion_matrix(y_test, y_predict),
    columns=['Predicted Not Survival', 'Predicted Survival'],
    index=['True Not Survival', 'True Survival']
)


Unnamed: 0,Predicted Not Survival,Predicted Survival
True Not Survival,99,13
True Survival,16,51


잘 못된 예측보다 정확한 예측의 수치가 더 높으므로 잘 훈련되었다고 할 수 있다.  
이와 같이 주어진 데이터를 사용하여 트리 형식으로 데이터를 이진 분류(0 혹은 1) 해 나가는 방법이 결정 트리이며,  
결정트리를 좀 더 확대한 것이 랜덤 포레스트이다.