### Decision Tree


In [24]:
# -*- coding: utf-8 -*-

# 기본 라이브러리 불러오기
import pandas as pd
import numpy as np


'''

[Step 1] 데이터 준비/ 기본 설정

'''

# Breast Cancer 데이터셋 가져오기 (출처: UCI ML Repository)
uci_path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/\
breast-cancer-wisconsin/breast-cancer-wisconsin.data'
df = pd.read_csv(uci_path, header=None)


# 열 이름 지정
df.columns = ['id', 'clump', 'cell_size', 'cell_shape', 'adhesion', 'epithlial',
              'bare_nuclei', 'chromatin', 'normal_nucleoli', 'mitoses', 'class']

df.head()


#  IPython 디스플레이 설정 - 출력할 열의 개수 한도 늘리기
pd.set_option('display.max_columns', 15)


'''

[Step 2] 데이터 탐색

'''


# 데이터 살펴보기
df.head()


# 데이터 자료형 확인
print(df.info())
print('\n')


# 데이터 통계 요약정보 확인
print(df.describe())
print('\n')


# bare_nuclei 열의 자료형 변경 (문자열 ->숫자)
# bare_nuclei 열의 고유값 확인
print(df['bare_nuclei'].unique())
print('\n')

df['bare_nuclei'].replace('?', np.nan, inplace=True)      # '?'을 np.nan으로 변경
df.dropna(subset=['bare_nuclei'], axis=0, inplace=True)   # 누락데이터 행을 삭제
df['bare_nuclei'] = df['bare_nuclei'].astype('int')       # 문자열을 정수형으로 변환

print(df.info())                                      # 데이터 통계 요약정보 확인
print('\n')


'''

[Step 3] 데이터셋 구분 - 훈련용(train data)/ 검증용(test data)

'''
# id 컬럼은 필요없으므로 제외시키고 다른 훈련할 때 필요한 컬럼들을 선별힌다.
# 속성(변수) 선택
X = df[['clump', 'cell_size', 'cell_shape', 'adhesion', 'epithlial',
        'bare_nuclei', 'chromatin', 'normal_nucleoli', 'mitoses']]  # 설명 변수 X
y = df['class']  # 예측 변수 Y


# 설명 변수 데이터를 정규화
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)
pd.DataFrame(X).describe()

# train data 와 test data로 구분(7:3 비율)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10)

print('train data 개수: ', X_train.shape)
print('test data 개수: ', X_test.shape)
print('\n')


'''

[Step 4] Decision Tree 분류 모형 - sklearn 사용

'''

# sklearn 라이브러리에서 Decision Tree 분류 모형 가져오기
from sklearn import tree


# 모형 객체 생성 (criterion='entropy' 적용)
tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=5)


# train data를 가지고 모형 학습
tree_model.fit(X_train, y_train)


# test data를 가지고 y_hat을 예측 (분류)
y_hat = tree_model.predict(X_test)      # 2: benign(양성), 4: malignant(악성)

print(y_hat[0:10])
print(y_test.values[0:10])
print('\n')


# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics
tree_matrix = metrics.confusion_matrix(y_test, y_hat)
print(tree_matrix)
print('\n')


# 모형 성능 평가 - 평가지표 계산
tree_report = metrics.classification_report(y_test, y_hat)
print(tree_report)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 699 entries, 0 to 698
Data columns (total 11 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   id               699 non-null    int64 
 1   clump            699 non-null    int64 
 2   cell_size        699 non-null    int64 
 3   cell_shape       699 non-null    int64 
 4   adhesion         699 non-null    int64 
 5   epithlial        699 non-null    int64 
 6   bare_nuclei      699 non-null    object
 7   chromatin        699 non-null    int64 
 8   normal_nucleoli  699 non-null    int64 
 9   mitoses          699 non-null    int64 
 10  class            699 non-null    int64 
dtypes: int64(10), object(1)
memory usage: 60.2+ KB
None


                 id       clump   cell_size  cell_shape    adhesion  \
count  6.990000e+02  699.000000  699.000000  699.000000  699.000000   
mean   1.071704e+06    4.417740    3.134478    3.207439    2.806867   
std    6.170957e+05    2.815741    3.0

#### 문제230. class 를 value_count 하여 각각 건수가 어떻게 되는지 확인하시오

In [12]:
df['class'].value_counts()

2    444
4    239
Name: class, dtype: int64

#### 문제231.  위의 의사결정트리 모델을 아산병원에서 사용할 수 있도록 FN을 0으로 만드는 max_depth를 알아내시오



In [27]:
# train data 와 test data로 구분(7:3 비율)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10)

print('train data 개수: ', X_train.shape)
print('test data 개수: ', X_test.shape)
print('\n')


'''

[Step 4] Decision Tree 분류 모형 - sklearn 사용

'''

# sklearn 라이브러리에서 Decision Tree 분류 모형 가져오기
from sklearn import tree


# 모형 객체 생성 (criterion='entropy' 적용)
tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=4)


# train data를 가지고 모형 학습
tree_model.fit(X_train, y_train)


# test data를 가지고 y_hat을 예측 (분류)
y_hat = tree_model.predict(X_test)      # 2: benign(양성), 4: malignant(악성)

print(y_hat[0:10])
print(y_test.values[0:10])
print('\n')


# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics
tree_matrix = metrics.confusion_matrix(y_test, y_hat)
print(tree_matrix)
print('\n')


# 모형 성능 평가 - 평가지표 계산
tree_report = metrics.classification_report(y_test, y_hat)
print(tree_report)

train data 개수:  (478, 9)
test data 개수:  (205, 9)


[4 4 4 4 4 4 2 2 4 4]
[4 4 4 4 4 4 2 2 4 4]


[[126   5]
 [  0  74]]


              precision    recall  f1-score   support

           2       1.00      0.96      0.98       131
           4       0.94      1.00      0.97        74

    accuracy                           0.98       205
   macro avg       0.97      0.98      0.97       205
weighted avg       0.98      0.98      0.98       205



#### 문제232. seaborn의 타이타닉 데이터를 이용해서 의사결정트리 모델을 만들고 테스트 데이터의 정확도를 확인하시오



In [43]:
import seaborn as sns
import pandas as pd
import numpy as np

tt = sns.load_dataset('titanic')

pd.set_option('display.max_columns', 15)

rdf = tt.drop(['deck', 'embark_town'], axis=1)

freq = rdf['age'].value_counts(dropna=True).idxmax()
rdf['age'].fillna(freq, inplace=True)


ndf = rdf[['survived', 'pclass', 'sex', 'age','sibsp', 'parch', 'embarked']]

gender = pd.get_dummies(ndf['sex'])
ndf = pd.concat([ndf, gender], axis=1)

onehot_embarked = pd.get_dummies(ndf['embarked'], prefix='town')
onehot_embarked

ndf = pd.concat([ndf, onehot_embarked], axis=1)
ndf.drop(['sex', 'embarked'], axis=1, inplace=True)

'''

[Step 2] 데이터 탐색

'''

tt.info() 
tt.describe()

'''

[Step 3] 데이터셋 구분 - 훈련용(train data)/ 검증용(test data)

'''


X = ndf[['pclass', 'age', 'sibsp', 'parch', 'female', 'male', 'town_C', 'town_Q', 'town_S']]
y = ndf['survived']


# 설명 변수 데이터를 정규화
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(X).transform(X)

pd.DataFrame(x).describe()

# train data 와 test data로 구분(7:3 비율)
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=10) 

print('train data 개수: ', X_train.shape)
print('test data 개수: ', X_test.shape)
print('\n')

'''

[Step 4] Decision Tree 분류 모형 - sklearn 사용

'''

# sklearn 라이브러리에서 Decision Tree 분류 모형 가져오기
from sklearn import tree


# 모형 객체 생성 (criterion='entropy' 적용)
tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=5)

# train data를 가지고 모형 학습
tree_model.fit(X_train, y_train)   


# test data를 가지고 y_hat을 예측 (분류) 
y_hat = tree_model.predict(X_test)      # 2: benign(양성), 4: malignant(악성)

print(y_hat[0:10])
print(y_test.values[0:10])
print('\n')

# 모형 성능 평가 - Confusion Matrix 계산
from sklearn import metrics 
tree_matrix = metrics.confusion_matrix(y_test, y_hat)  
print(tree_matrix)
print('\n')

# 모형 성능 평가 - 평가지표 계산
tree_report = metrics.classification_report(y_test, y_hat)            
print(tree_report)


from sklearn.metrics import accuracy_score
accuracy = accuracy_score( y_test, y_hat)
print(accuracy)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.6+ KB
train data 개수:  (623, 9)
test data 개수:  (268, 9)


[0 0 0 1 1 0 0 0 0 0]
[0 0 0

##### 선생님 답

In [41]:
from sklearn import metrics
import numpy as np


# 1단계 csv ---> 데이터 프레임으로 변환
import pandas as pd
import seaborn as sns
df = sns.load_dataset('titanic')


# 컬럼이 모두다 출력될 수 있도록 출력할 열의 개수 한도를 늘리기
pd.set_option('display.max_columns',15)



# 2단계 결측치 확인하고 제거하거나 치환한다.

# 2.1 타이타닉 데이터 프레임의 자료형을 확인한다.

mask4 = (df.age<10) | (df.sex=='female') 

df['child_women']=mask4.astype(int)



# 2.2 결측치(NaN) 을 확인한다.
# 2.3 deck 컬럼과 embark_town 컬럼을 삭제한다.
# 설명 : deck 결측치가 많아서 컬럼을 삭제해야함.
#        embark 와 embark_town 이 같은 데이터여서 embark 컬럼을 삭제해야함

rdf = df.drop(['deck','embark_town'], axis =1)


# 2.4 age(나이) 열에 나이가 없는 모든행을 삭제한다.
# 데이터가 한개라도 없으면 drop 해라 (how = 'any')
# 모든 데이터가 없으면 drop 해라 (how = 'all')
rdf = rdf.dropna( subset=['age'], how='any', axis=0)


# 2.5 embark 열의 NaN 값을 승선도시중 가장 많이 출현한 값으로 치환하기
most_freq = rdf['embarked'].value_counts().idxmax()
rdf['embarked'].fillna(most_freq, inplace = True)


# 3단계 범주형 데이터를 숫자형으로 변환하기
# 3.1 feature selection (분석에 필요한 속성을 선택
ndf = rdf[['survived','pclass','sex','age','sibsp','parch','embarked','child_women']]


# 선택된 컬럼중 2개(sex, embarked) 가 범주형이다.

#3.2 범주형 데이터를 숫자로 변환하기(원핫 인코딩)

gender = pd.get_dummies(ndf['sex'])
ndf = pd.concat([ndf,gender], axis= 1)

onehot_embarked = pd.get_dummies(ndf['embarked'])

ndf = pd.concat([ndf,onehot_embarked],axis=1)

ndf.drop(['sex','embarked'], axis=1, inplace = True)


# 4단계 정규화
# 4.1 독립변수와 종속변수(라벨) 을 지정한다.
# survived  pclass   age  sibsp  parch  female  male  C  Q  S
#   라벨                       데이터
# 종속변수                     독립변수

x = ndf[ ['pclass', 'age' ,'sibsp', 'parch' ,'female' ,'male', 'C' ,'Q' ,'S',    'child_women'] ]
y = ndf['survived'] # 종속변수


# 4.2 독립변수들을 정규화 한다.
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(x).transform(x)


# 5단계 훈련 데이터를 훈련 데이터 / 테스트 데이터로 나눈다

from sklearn.model_selection import train_test_split
X_train,X_test,y_train,y_test = train_test_split(x,y,test_size = 0.3,

                                                 random_state = 33)

# sklearn 라이브러리에서 나이브베이즈 분류 모형 가져오기
from sklearn import tree


# 모형 객체 생성 (criterion='entropy' 적용)
tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=5)
tree_model.fit( X_train, y_train )

# 7단계 테스트 데이터로 예측을 한다.
y_hat = tree_model.predict( X_test )


# 8단계 모형의 예측능력을 평가한다.

from sklearn import metrics
randomforest_matrix = metrics.confusion_matrix( y_test, y_hat )
print( randomforest_matrix )


tn, fp, fn, tp = metrics.confusion_matrix( y_test, y_hat ).ravel()

f1_report = metrics.classification_report( y_test, y_hat )
print( f1_report )

#print(np.array([[tp,fp],[fn,tn]]))

from sklearn.metrics import accuracy_score
accuracy = accuracy_score( y_test, y_hat)
print(accuracy)

[[109  17]
 [ 22  67]]
              precision    recall  f1-score   support

           0       0.83      0.87      0.85       126
           1       0.80      0.75      0.77        89

    accuracy                           0.82       215
   macro avg       0.81      0.81      0.81       215
weighted avg       0.82      0.82      0.82       215

0.8186046511627907


#### 문제233. for loop 문을 이용해서 정확도가 높은 max_depth가 무엇인지 알아내시오


In [82]:
from sklearn import metrics
import numpy as np


# 1단계 csv ---> 데이터 프레임으로 변환
import pandas as pd
import seaborn as sns
df = sns.load_dataset('titanic')


# 컬럼이 모두다 출력될 수 있도록 출력할 열의 개수 한도를 늘리기
pd.set_option('display.max_columns',15)



# 2단계 결측치 확인하고 제거하거나 치환한다.

# 2.1 타이타닉 데이터 프레임의 자료형을 확인한다.

mask4 = (df.age<10) | (df.sex=='female') 

df['child_women']=mask4.astype(int)



# 2.2 결측치(NaN) 을 확인한다.
# 2.3 deck 컬럼과 embark_town 컬럼을 삭제한다.
# 설명 : deck 결측치가 많아서 컬럼을 삭제해야함.
#        embark 와 embark_town 이 같은 데이터여서 embark 컬럼을 삭제해야함

rdf = df.drop(['deck','embark_town'], axis =1)


# 2.4 age(나이) 열에 나이가 없는 모든행을 삭제한다.
freq = rdf['age'].value_counts(dropna=True).idxmax()
rdf['age'].fillna(freq, inplace=True)

# 데이터가 한개라도 없으면 drop 해라 (how = 'any')
# 모든 데이터가 없으면 drop 해라 (how = 'all')


# 2.5 embark 열의 NaN 값을 승선도시중 가장 많이 출현한 값으로 치환하기
most_freq = rdf['embarked'].value_counts().idxmax()
rdf['embarked'].fillna(most_freq, inplace = True)


# 3단계 범주형 데이터를 숫자형으로 변환하기
# 3.1 feature selection (분석에 필요한 속성을 선택
ndf = rdf[['survived','pclass','sex','age','sibsp','parch','embarked','child_women']]


# 선택된 컬럼중 2개(sex, embarked) 가 범주형이다.

#3.2 범주형 데이터를 숫자로 변환하기(원핫 인코딩)

gender = pd.get_dummies(ndf['sex'])
ndf = pd.concat([ndf,gender], axis= 1)

onehot_embarked = pd.get_dummies(ndf['embarked'])

ndf = pd.concat([ndf,onehot_embarked],axis=1)

ndf.drop(['sex','embarked'], axis=1, inplace = True)


# 4단계 정규화
# 4.1 독립변수와 종속변수(라벨) 을 지정한다.
# survived  pclass   age  sibsp  parch  female  male  C  Q  S
#   라벨                       데이터
# 종속변수                     독립변수

x = ndf[ ['pclass', 'age' ,'sibsp', 'parch' ,'female', 'male', 'C' ,'Q' ,'S',    'child_women'] ]
y = ndf['survived'] # 종속변수


# 4.2 독립변수들을 정규화 한다.
from sklearn import preprocessing
X = preprocessing.StandardScaler().fit(x).transform(x)


max = 0
for i in range(1,50) :
#     print('random_state:', i)
    # 5단계 훈련 데이터를 훈련 데이터 / 테스트 데이터로 나눈다

    from sklearn.model_selection import train_test_split
    X_train,X_test,y_train,y_test = train_test_split(x,y,test_size = 0.3,

                                                     random_state = i)

    # sklearn 라이브러리에서 나이브베이즈 분류 모형 가져오기
    from sklearn import tree
    for k in range(1,50) :
#         print('max_depth: ', k)
        # 모형 객체 생성 (criterion='entropy' 적용)
        tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=k)
        tree_model.fit( X_train, y_train )

        # 7단계 테스트 데이터로 예측을 한다.
        y_hat = tree_model.predict( X_test )


        # 8단계 모형의 예측능력을 평가한다.

        from sklearn import metrics
        randomforest_matrix = metrics.confusion_matrix( y_test, y_hat )
#         print( randomforest_matrix )


        tn, fp, fn, tp = metrics.confusion_matrix( y_test, y_hat ).ravel()

        f1_report = metrics.classification_report( y_test, y_hat )
    #     print( f1_report )

        #print(np.array([[tp,fp],[fn,tn]]))

        from sklearn.metrics import accuracy_score
        accuracy = accuracy_score( y_test, y_hat)
        
        if accuracy > max :
            max = accuracy
            print('random_state: ', i, 'max_depth: ', k, 'accuracy: ', accuracy)
#         print(accuracy, '\n')



random_state:  1 max_depth:  1 accuracy:  0.75
random_state:  1 max_depth:  2 accuracy:  0.753731343283582
random_state:  1 max_depth:  3 accuracy:  0.7723880597014925
random_state:  1 max_depth:  4 accuracy:  0.7835820895522388
random_state:  2 max_depth:  3 accuracy:  0.8022388059701493
random_state:  3 max_depth:  3 accuracy:  0.8097014925373134
random_state:  4 max_depth:  1 accuracy:  0.8208955223880597
random_state:  4 max_depth:  2 accuracy:  0.8395522388059702
random_state:  5 max_depth:  4 accuracy:  0.8470149253731343
random_state:  6 max_depth:  3 accuracy:  0.8507462686567164
random_state:  33 max_depth:  4 accuracy:  0.8582089552238806
random_state:  33 max_depth:  5 accuracy:  0.8694029850746269


##### 점심시간 문제
#### 문제 234. 카페에 올린 for loop문 스크립트를 이용해서 정확도가 가장 좋은 random_state와 max_depth를 알아내시오



In [83]:
from sklearn.model_selection import train_test_split
from sklearn import tree
from sklearn import metrics
from sklearn.metrics import accuracy_score

b=[]
c=[]

for i  in  range(1, 50):
    X_train,X_test,y_train,y_test = train_test_split(x,y,test_size = 0.3, random_state = i)

    # sklearn 라이브러리에서 나이브베이즈 분류 모형 가져오기
    # 모형 객체 생성 (criterion='entropy' 적용)

    for  k  in  range(1,50):
        b.append((i,k))
        tree_model = tree.DecisionTreeClassifier(criterion='entropy', max_depth=k)
        tree_model.fit( X_train, y_train )

        # 7단계 테스트 데이터로 예측을 한다.
        y_hat = tree_model.predict( X_test )

        # 8단계 모형의 예측능력을 평가한다.
        randomforest_matrix = metrics.confusion_matrix( y_test, y_hat )
        accuracy = accuracy_score( y_test, y_hat)
        c.append(accuracy)

# print(np.max(c))

idx = c.index(np.max(c))
print('random_state: ', b[idx][0], 'max_depth: ', b[idx][1], 'accuracy:', c[idx])



0.8694029850746269


In [86]:
print('random_state:', b[idx][0], '\tmax_depth:', b[idx][1], '\taccuracy:', c[idx])

random_state: 33 	max_depth: 5 	accuracy: 0.8694029850746269
