Decision Tree

In [1]:
def gini(dataset):
    impurity=1
    # 데이터셋에 포함된 class의 수를 class 이름: class 수와 같은 key:value 쌍으로 저장
    label_counts=Counter(dataset)
    # 각 class 들이 차지하는 비율의 제곱값을 impuiry 에서 빼 나간다
    for label in label_counts:
        prob_of_label=label_counts[label]/len(dataset)
        impurity-=prob_of_label**2
    return impurity
    

In [2]:
def information_gain(starting_labels, split_labels):
    # information_gain 을 분할 전 그룹의 gini impurity 로 초기화
    info_gain=gini(starting_labels)
    # 분할 된 각 그룹에서의 gini impurity와 분할 전 그룹과의 데이터 수 비율을 곱한 값을 빼 나간다
    for subset in split_labels:
        info_gain-=gini(subset)*len(subset)/len(starting_labels)
    return info_gain

In [5]:
def split(dataset, labels, column):
    data_subsets=[] # 분할 후의 데이터 그룹을 저장하는 배열
    label_subsets=[] # 분할 후의 class(label) 그룹을 저장하는 배열
    # 주어진 기준 column 의 unique 한 값들을 저장한다
    counts=list(set([data[column] for data in dataset]))
    counts.sort()
    for k in counts:
        new_data_subset=[]
        new_label_subset=[]
        for i in range(len(dataset)):
            # 주어진 데이터의 특정 column 의 값이 k라면 해당 데이터를 k번째 그룹에 담는다
            if dataset[i][column]==k:
                new_data_subset.append(dataset[i])
                new_label_subset.append(labels[i])
        data_subsets.append(new_data_subset) # k 그룹을 분할 후 그룹을 저장하는 배열에 추가
        label_subsets.append(new_label_subset)
    return data_subsets, label_subsets

In [6]:
def find_best_split(dataset, labels):
    best_gain=0
    best_feature=0
    for feature in range(len(dataset[0])):
        data_subsets, label_subsets=split(dataset, labels, feature)
        gain=information_gain(labels, label_subsets)
        if gain>best_gain:
            best_gain,best_feature=gain,feature
    return best_feature, best_gain

In [7]:
def build_tree(data,labels):
    # 데이터를 분할 할 최적의 feature를 찾는다
    best_feature, best_gain=find_best_split(data,labels)
    # 만약 분할 후의 information_gain이 0이라면 해당 노드는 더 분할할 필요가 없으므로 빠져나온다
    if best_gain==0:
        return Counter(labels)
    # 데이터를 찾은 feature로 분할한다
    data_subsets, label_subsets=split(data,labels, best_feature)
    
    branches=[]
    # 분할 후 각 그룹에 대해서 build_tree 함수를 재귀적으로 호출
    for i in range(len(data_subsets)):
        branches.append(build_tree(data_subsets[i],label_subsets[i]))
        
    return branches