# Gradient Boosting Machine : GBM

## 1) 결정한 Tree수까지 tree를 계속 나눠보기
    - Ex) tree = 160이면 160번 잘릴때까지 error를 끝까지 구하는것

In [None]:
import numpy as np
from sklearn.metrics import mean_squared_error
import time
import matplotlib.pyplot as plt

class gbm:
    def __init__(self, x, y, x_split_val = 0.1, tree = 3):
        self.x = x
        self.y = y
        self.x_split_val = x_split_val
        self.tree = tree
        
    # xmin, xmax 값을 구해 그 사이 구간을 x_split_val만큼 증가시켜 splited_x 리스트에 저장하는 함수
    # 이 리스트가 x_threshold로 사용됨
    def split_x(self, x, x_split_val):
        x_sort = np.sort(x, axis = 0)
        xmin, xmax = x_sort[0], x_sort[-1]
        splited_x = []
        while xmin < xmax:
            splited_x.append(xmin)
            xmin = xmin + x_split_val
        return splited_x
    
    # x_threshold 값을 기준으로 나눌때, 각 x와 y의 값을 리스트로 반환하는 함수
    def split(self, x, y, x_threshold):
        indices_left = [i for i, x_i in enumerate(x) if x_i <= x_threshold]
        indices_right = [i for i, x_i in enumerate(x) if x_i > x_threshold]
        
        x_left = np.array([x[i] for i in indices_left])
        y_left = np.array([y[i] for i in indices_left])
        x_right = np.array([x[i] for i in indices_right])
        y_right = np.array([y[i] for i in indices_right])
        return x_left, y_left, x_right, y_right
    
    # split함수에서 받은 x_left, y_left, x_right, y_right로 x를 기준으롤 나뉜 x의 왼쪽과 x의 오른쪽에 존재하는 
    # y값의 평균을 구하고, 그 평균을 기존의 y에서 빼서 각각의 잔차(residual)를 구한다.
    # ==> 매번 tree를 만들기위해서 최적의 y split값을 찾기 위한 리스트들을 만든다고 보면된다.
    def split_y(self, x, y):
        x_thresholds = self.split_x(x, self.x_split_val)
        y_list, left_list, right_list = [], [], []
        for j in range(len(x_thresholds)):
            x_left, y_left, x_right, y_right = self.split(x, y, x_thresholds[j])
            split_y_left = np.mean(y_left)
            y_left_residual = y_left - split_y_left
            left_list.append(split_y_left)
            
            split_y_right = np.mean(y_right)
            y_right_residual = y_right - split_y_right
            right_list.append(split_y_right)
            
            y_list.append(np.append(y_left_residual, y_right_residual))
        return y_list, x_thresholds, left_list, right_list
    
    # squared loss 함수를 이용해 가장 최적의 new_y를 찾아가면서 tree를 구축할 수 있는
    # 각각의 new_x_list, new_y_list, split_y_left_list, split_y_right_list, beststump, error을 반환하기 위한 함수
    def select_residual(self):
        new_x = None
        new_y = self.y
        l_ = None
        r_ = None
        error = np.inf
        new_x_list, new_y_list, split_y_left_list, split_y_right_slit = [], [], [], []
        beststump = {}
        
        for s in range(self.tree):
            selected_y_list, x_thresholds, left_list, right_list = self.split_y(self.x, new_y_)