# Random Forest 

### 알고리즘은 강의 자료를 참고하겠음. 

1. For b =1 to B : 
- Draw a bootstrap sample $Z^*$ of size N from the training data. 
- Grow a random-forest tree $T_b$ to the bootstrapped data, by recursively repeating the following steps for each ternimal node of the tree, until the mininum node size $n_{min}$ is reached. 

> 1). Select m variables at random from the p variables 

> 2). Pick the best variable/split-point among the m 

> 3). Split the node into two daughter nodes 

2. Output the ensemble of trees {$T_b$}$|_1^B$ 
- To make a prediction at a new point x 
- Regression : $\hat f_{rf}^B(x) = \frac{1}{B} \sum_{b=1}^B T_b(x)$ 
- Classification : Let $\hat C_b(x)$ be the class prediction of the bth random-forest tree. Then $\hat C_{rf}^B(x)$ = majority vote{$\hat C_b(x)$}$|_1^B$



**구현해야하는 것**
- 사이즈 N인 Bootstrap 샘플 B개 뽑기 
- 샘플 데이터 셋 B개에 대해서 Random-forest tree 만들기 
- result aggregation 진행. Regression이면 평균 값을, Classification이면 Majority vote 적용 

**필요한 것**
- M : 랜덤 트리 개수  
- m : 선정할 변수 개수
- X : input 데이터 
- y : Output 데이터 
- Treenode 

**함수의 형태** 
- def __init__(self, X, y, num_tree, num_var) 
- def make_tree(self, num_tree, num_var): 

*Regression 간에는 SVR을, classification 간에는 SVC를 적용하겠음*


In [1]:
import numpy as np
import pandas as pd
import random as rand

from sklearn.datasets import load_iris
X = load_iris()['data']
y = load_iris()["target"].reshape(-1,1)
D = np.concatenate((X,y), axis=1)
A = load_iris()['feature_names']

from sklearn.tree import DecisionTreeClassifier


### Decision Tree 수도 알고리즘 


**알고리즘 과정**
1. 주어진 샘플에 대해서 복원추출을 통해 다수의 Tree에 적용할 샘플들을 형성한다. 

2. 각 주어진 샘플 별로 고려할 속성 집합을 랜덤하게 선택한다. 

3. 각 샘플별로 선택한 속성만을 고려하여 깊이 1의 Decision Tree를 통해 데이터를 구분해낸다. 

4. 분류된 하위 샘플들이 단일 레이블로 분류될 때까지 2~3번 과정을 반복한다. 

**Input**
- data : X와 y가 결합된 데이터
- num_tree : 몇 개의 트리를 적용할지
- num_var : 데이터 별 한번에 고려할 변수의 개수 
- max_depth : DT 적용간 깊이 

**구현할 것**
- 랜덤 샘플 생성 
- 트리 형성 : 주어진 샘플 데이터에 대해 DT 적용하여 하위 샘플들 구분할 것. 
- 터미널 노드가 



In [51]:
class Random_forest(): 
    def __init__(self, data,  num_tree, num_var, max_depth =1) : 
        self.data = np.array(data) 
        self.X = np.array(data[:, :-1])
        self.y = np.array(data[:, -1])
        self.n = np.shape(self.X)[0]
        self.m = np.shape(self.X)[1]
        
        self.num_tree = num_tree
        
        self.sample, self.sample_y, self.oob = self.random_sample()
        
        
        self.num_var = num_var 
        self.max_depth = max_depth 
        
    def random_sample(self) : 
        sample_list = []
        sample_y_list = [] 
        oob_list = [] 
    
        for i in range(self.num_tree) : 
            np.random.seed(i)
            sample_index = np.random.choice(self.n, size = self.n, replace = True)
            sample = self.X[sample_index]
            sample_y = self.y[sample_index]
            
            oob_index = np.array(list(set(range(self.n)) - set(sample_index))) 
            oob = self.data[oob_index, :]
            
            sample_list.append(sample)
            sample_y_list.append(sample_y)
            oob_list.append(oob)

        return sample_list, sample_y_list, oob_list
    
        
    def make_tree(self, X, y) : 
        # X는 np.array 여야 함. 
        
        tree = DecisionTreeClassifier(max_depth = self.max_depth, random_state = 0)
        chosen_att = sorted(np.random.choice(range(self.m), self.num_var, replace=False))

        if len(np.unique(y)) == 0 : 
            return None
        
        if len(np.unique(y)) == 1 :
            tree.results = y[0]
            return tree
        

        chosen_X = X[:, chosen_att]
        
        tree.fit(chosen_X,y) 
        tree_result= tree.predict(chosen_X)
        
        left_index = np.where(tree_result == 0)
        right_index = np.where(tree_result == 1)
        
        if len(left_index) > 0 : 
            tree.left = self.make_tree(X[left_index], y[left_index])
        if len(right_index) > 0 : 
            tree.right = self.make_tree(X[right_index], y[right_index])
        
        return tree
    
    
    # 재귀함수 형태로 트리를 만들어 자동으로 트리가 형성될 수 있도록 해야함. 
    # 또한 트리의 마지막 Terminal node에 대해서 weight를 부여하여 최종 값을 생성할 수 있도록 해야함. 
    def random_forest(self) : 
        tree_lst = [] 
        for i in range(self.num_tree) :
            sample = self.sample[i]
            sample_y = self.sample_y[i]
            
            tree = self.make_tree(sample, sample_y)
            tree_list.append(tree)
            
            #while len(np.unique(left_y)) > 1 or np.unique(right_y) > 1 :
                
        
    def tree_score(self, tree, x,y) : 
        results = [] 
        for row in x : 
            result.append(tree.predict(row)) 
        
        n_true = 0 
        for i in range(len(results)) : 
            if results[i] == y[i] : 
                n_true += 1 
        return (n_true/len(results))
        


In [50]:
test = Random_forest(D, 5, 3)
test.random_sample()


a = test.make_tree(X,y)

In [29]:
X

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [53]:
a.predict([[5.1, 3.5, 1.4, 0.2]])

ValueError: X has 4 features, but DecisionTreeClassifier is expecting 3 features as input.

In [3]:
# 참고 : 고봉선 님 코드 구현 블로그 
class TreeNode:
        def __init__(self, col=-1, value=None, results=None, left=None, right=None):
            self.col = col          # 분류에 사용된 variable 정보
            self.results = results  # 최종 분류값 (for leaf node)
            self.left = left   # true인 경우 branch
            self.right = right  # false인 경우 branch

In [None]:
# 이진 분류 모델 
def bagging(X, x_new, model, T, N, kernel, agg_type) : 
    sample_list = []
    ensemble_list = [] 
    X1 = np.array([X[i][:-1] for i in range(len(X)) if X[i][-1] == 0]) 
    X2 = np.array([X[i][:-1] for i in range(len(X)) if X[i][-1] == 1]) 
    
    for i in range(T) : 
        np.random.seed(i)
        sample_index = np.random.choice(np.shape(X1)[0], size = N, replace = True)
        sample_1 = X1[sample_index]
        sample_2 = X2[sample_index]
        ensemble_list.append(model(sample_1,sample_2,kernel)) 
    
    result = [] 
    for i in range(T) : 
        result.append(ensemble_list[i].classify(x_new)) 
    
    return aggregation(result, agg_type)


In [None]:
def aggregation(result, agg_type) : 
    
    if agg_type == "Majority" : 
        agg_result = argmax([result.count(0), result.count(1)]) 
        return agg_result
    
    elif agg_type == "Accuracy Weighted" : 
        return 0
        # 모델별 정확도가 구현되어 있지 않아 여기선 생략 
    
    elif agg_type == "Prediction Weighted" : 
        return 0 
        # 모델별 예상 확률이 구현되어 있지 않아 여기선 생략 
    
        
        

In [51]:
# 5번 항목과 연계하는 과정에서 막힘. 
# 특정 속성 값의 개수에 맞춰 Child 생성하는데 막힘. 

class treenode() : 
    def __init__(self, num_child=None) : 
        self.label = None
        self.child = self.make_child(num_child)
        
    def make_child(self, num_child) : 
        for i in range(num_child) : 
            globals()['self.child_{}'.format(i)] = None
            
                

##### 4. 최적의 분할 속성 정하는 방법 : 정보 이득율 사용 
- Gain_ratio(D,a) = $\frac{Gain(D,a)}{IV(a)}$ 
- IV(a) = - $\sum_{v=1}^V \frac{D^v}{D} log2 \frac{D^v}{D}$
- Gain(D,a) = Ent(D) - $\sum_{v=1}^V \frac{|D^v|}{|D|} Ent(D^v)$
- Ent(D) = -$\sum_{k=1}^{|Y|}p_k log2(p_k) $
> |Y| : 클래스의 종류 개수 
> $p_k$ : k번째 클래스의 비율 



##### 5. for $a_*$의 각 value에 따라 for 절을 수행할 것. 문제 - Category value가 아니라 Numerical Value로 주어지면 어떻게 분류하지? 


In [44]:
#엔트로피 설정

from math import log 
from collections import defaultdict

def entropy(dataset) : 
    datasize = len(dataset) 
    
    label_count = defaultdict(int)
    entropy = 0.0 
    
    for data_line in dataset : 
        cur_label = data_line[-1]
        label_count[cur_label] += 1 
        
    for key in label_count : 
        prop = float(label_count[key]) / datasize 
        entropy -= prop*log(prop,2) 
    return entropy

# Dv, Ent(Dv) 계산하기 위한 토대. 특정 속성값을 제외한 나머지 값들을 결과로 반환 
def pick(dataset, index, value) : 
    result = [] 
    for dataline in dataset : 
        dataline = list(dataline)
        if dataline[index] == value : 
            temp_vec = dataline[:index]
            temp_vec.extend(dataline[index+1:])
            result.append(temp_vec)
    return result 

# 최고의 선별 속성을 결정하는 함수 
def best_feat(dataset): 
    base_entropy = entropy(dataset)
    best_infogain = 0.0 
    index = 0 
    num_feat = len(dataset[0]) -1 
    for i in range(num_feat) : 
        feat_value_set = set([value[i] for value in dataset])
        new_entropy = 0.0 
        
        # 정보 이득 계산하기 
        for element in feat_value_set : 
            sub_dataset = pick(dataset, i, element) 
            prop = len(sub_dataset) / float(len(dataset))
            new_entropy += prop*entropy(sub_dataset)
            
        info_gain = base_entropy - new_entropy 
        
        if best_infogain < info_gain : 
            best_infogain = info_gain 
            index = i 
    return index 