# Ensemble Learning - Light GBM 

### Algorithm 2 : Gradient-based one-side Sampling 
Input : I : Training Data, d : iterations 

Input : a: sampling ratio of large gradient data 

Input : b: sampling ratio of small gradient data 

Input : loss : loss function, L : weak learner 


1. models <- {}, fact <- $\frac{1-a}{b}$
2. topN <- a x len(I), randN <- b x len(I) 
3. for i = 1 to d do 
- preds <- model.predict(I)
- g < - loss(I, preds), w <- {1,1,...} 
- sorted <- GetSortedIndices(abs(g)) 
- topSet <- sorted[1:topN] 
- randSet <- RandomPick*sorted[topN:len(I)], randN) 
- usedSet <- topSet + randSet 
- w[randSet] x fact > Assign weight fact to the small gradient data
- newModel <- L(I[usedSet], -g[usedSet], w[usedSet])
- models.append(newModel)


**구현해야 하는 것**
- model : 모듈에서 불러올 것. models의 데이터 타입이 무엇인지 고민 필요. 
- GetSortedIndices : np.argsort로 구현 
- RandomPick : np.random.choice 로 구현 
- L(Data, weight) : Weak Learner. 입력값으로 Data와 weight 둘을 받아야 함. weight 을 어떻게 해석하고 받아들여야 하는지 고민필요 

**필요로 하는 것**
- I : Training Data 
- d : iterations 
- a : sampling ratio of large gradient data 
- b : sampling ratio of small gradient data 
- loss : loss function 
- L : weak learner 

**함수의 형태** 
- def __init__(self, I, d, a, b, loss, L) : 


외부 함수 
- def loss(pred_y,y) : OLS 결과값 반환 
- def stump_tree(data, weight) : weight 를 어떻게 반영해야 할까? Ababoost에선 마지막에 $\alpha_i$ 값을 따로 구해서 합쳤었는데. Stump Tree 함수 내부에선 어떻게 구현해줘야 할까. 함수값을 +1, -1 외로 바꾸면 안됨. 그럼 식이 성립하지 않음.  

In [1]:
import numpy as np
import pandas as pd
import random as rand

from sklearn.datasets import load_iris
X = load_iris()['data'][:100]

# y의 값을 +1, -1 둘 중 하나로 변경 
y = load_iris()["target"][:100]
y[:50] = -1
y= y.reshape(-1,1)
S = np.concatenate((X,y), axis=1)

import matplotlib.pyplot as plt
import scipy as sc
from scipy.stats import norm
from sys import maxsize

In [2]:
# loss 함수로는 OLS를 가정하겠음. 
def loss(pred_y,y) : 
    return np.sum([0.5 * (pred_y[i] - y[i])**2  for i in range(len(y))])

# Weak Learner 로는 Stump_tree 를 채택하겠음. 단, 아래 함수에서 w input을 어떻게 반영할 지 고민필요.
# 여기서 Data는 X,y 가 합쳐진 것임. 
# Stump tree는 이진 분류로 y의 값은 +1, -1 둘 중의 하나의 값을 가져야함.
def stump_tree(data, weight, chose_att = None, crit = None, direction = None) : 
    # np.array로 가정하지 않으면 indexing을 위해 list를 입력할 수 없음. 
    data = np.array(data)
    weight = np.array(weight)
    if chose_att is None : 
        chose_var = data[np.random.choice(range(len(data)))]
        chose_att = np.random.choice(range(np.shape(data)[1]-1))
        crit = chose_var[chose_att]
    
    #right, left 에는 기준점을 중심으로 좌우에 해당하는 Index 들을 저장함. 
    left = [] 
    right = [] 
    result = np.zeros(len(data))
    for index in range(len(data)) : 
        if data[index][chose_att] > crit : right.append(index)
        else : left.append(index)

    # result에 weight의 값을 입력함. 추후 각 Stump_tree의 결과값을 합쳤을 때 바로 weight가 반영되도록
    right_result = [1 if data[right][i,-1] == 1 else 0 for i in range(len(right)) ] 
    left_result = [1 if data[left][i,-1] == -1 else 0 for i in range(len(left)) ]
    if direction is None : 
        if np.sum(right_result) + np.sum(left_result) > len(data)/2 : 
            result[right] = weight[right]
            result[left] = weight[left] * (-1)
            direction = "right" 
        else : 
            result[right] = weight[right] * (-1)
            result[left] = weight[left]
            direction = "left"
            
    else : 
        if direction == "right" : 
            result[right] = weight[right]
            result[left] = -weight[left]
        else : 
            result[right] = -weight[right]
            result[left] = weight[left]
            
    return result, chose_att, crit, direction 

def cal_stump_tree(vector, chose_att, crit, direction) :
    if vector[chose_att] > crit :
        if direction == "right":  return 1
        else : return -1 
        
    else : 
        if direction == "right" : return -1 
        else : return 1 

In [16]:
class LightGMB() : 
    def __init__(self, I, d, a,b,loss, weak_learner) : 
        # X, y가 결합한 형태가 I 임 
        self.data = I
        self.X = np.array(I)[:, :-1]
        self.y = np.array(I)[:, -1]
        self.n, self.m = np.shape(I)
        
        self.d = d 
        self.a = a
        self.b = b
        
        self.loss = loss 
        self.weak_learner = weak_learner
        
    def algorithm_2(self) : 
        # model에 대해선 []로 구현하겠음. Stump_tree 함수에 최적화 진행
        models = [[self.weak_learner, [None, None, None]]]
        fact = (1 - self.a)/self.b 
        topN = a * self.n 
        randN = b * self.n 
        
        for i in range(self.d) : 
            weight = np.ones(self.n)
            pred = [1 if np.sum(model_set[0](self.I, weight, *model_set[1])) > 0 else -1 for model_set in models]
            g = self.loss(pred, self.y)
            
            sort_index = np.argsort(abs(np.array(g)))
            topSet = sort_index[:topN]
            randSet = rand.sample(sort_index[topN:], randN)
            usedSet = topSet + randSet
             
            # gradient가 1보다 같거나 작도록 설정하기. 
            w[randSet] = np.array(g)[randSet] * fact
            
            criterion = stump_tree(np.array(self.data[usedSet]) - np.array(g[usedSet]), w[usedSet])
            newModel = [stump_tree, [criterion[1:]]]
            models.append(newModel)
        
        

In [3]:
from sklearn import tree
a = tree.DecisionTreeRegressor()

In [63]:
a = [None, None, None]
c = np.ones(len(S))
b = stump_tree(S, c, *a)

### Altorithm 3 : Greedy Bundling 

Input : F : features, K : max conflict count
1. construct graph G 
2. searchOrder <- G.sortBydegree() 
3. bundles <- {}, bundlesConflict <- {} 
- for i in seachOrder do 
- needNew <- True 

> for j =1 to len(bundels) do 

> cnt <- ConflictCnt(bundels[j], F[i]) 

> if cnt + bundlesConflict[i] <= K then
> - bundle[j].add(F[i]), needNew <- False 
> - break 

- if needNew then 
> Add F[i] as a new bundle to bundels 

output : bundles 

**구현해야 하는 것**
- graph : 각 특성간 conflict 그래프. d x d 매트릭스 
- bundles : 공 list []. 
- bundlesConflict : np.zeros(len(features). (d, ) list
- ConflictCnt(bundels[j], F[i]) : j 번째 bundel과 i번째 특성 간 conflict 개수 

**필요로 하는 것**
- F : 특성값. 
- K : cut-off 지점

**함수의 형태**
- def graph(X) : X를 넣으면 각 특성간 conflict 개수를 원소값으로 가지는 graph 반환

- def algorithm_3(self, F, K) : bundle을 반환 


In [11]:
def graph(data) : 
    n, d = np.shape(data) 
    matrix = np.zeros((d,d))
    
    for j in range(d) :  
        # 기준 특성으로부터 그 다음 특성으로 넘기는 t값 설정 
        for t in range(1, d-j) : 
            cnt = 0 
            for i in range(n) : 
                if data[i][j] == 0 and data[i][j+t] ==0 : pass 
                cnt += 1 
            matrix[j, j+t] = cnt 
            matrix[j+t, j] = cnt 
    
    return matrix

In [12]:
graph(X)

array([[  0., 100., 100., 100.],
       [100.,   0., 100., 100.],
       [100., 100.,   0., 100.],
       [100., 100., 100.,   0.]])

In [19]:
class LightGMB() : 
    def __init__(self, I, d, a,b,loss, weak_learner) : 
        # X, y가 결합한 형태가 I 임 
        self.data = I
        self.X = np.array(I)[:, :-1]
        self.y = np.array(I)[:, -1]
        self.n, self.m = np.shape(I)
        
        self.d = d 
        self.a = a
        self.b = b
        
        self.loss = loss 
        self.weak_learner = weak_learner
        
    def algorithm_2(self) : 
        # model에 대해선 []로 구현하겠음. Stump_tree 함수에 최적화 진행
        models = [[self.weak_learner, [None, None, None]]]
        fact = (1 - self.a)/self.b 
        topN = a * self.n 
        randN = b * self.n 
        
        for i in range(self.d) : 
            weight = np.ones(self.n)
            pred = [1 if np.sum(model_set[0](self.I, weight, *model_set[1])) > 0 else -1 for model_set in models]
            g = self.loss(pred, self.y)
            
            sort_index = np.argsort(abs(np.array(g)))
            topSet = sort_index[:topN]
            randSet = rand.sample(sort_index[topN:], randN)
            usedSet = topSet + randSet
             
            # gradient가 1보다 같거나 작도록 설정하기. 
            w[randSet] = np.array(g)[randSet] * fact
            
            criterion = stump_tree(np.array(self.data[usedSet]) - np.array(g[usedSet]), w[usedSet])
            newModel = [stump_tree, [criterion[1:]]]
            models.append(newModel)
        
    # Feature은 __init__을 통해서 구현할 수 있으므로 제외    
    # bundlesConflict 에 대해선 구현 x. 오히려 다른 방식으로 구현하는게 더 이해가 감. 
    def algorithm_3(self, K) : 
        graph_matrix = graph(self.X)
        searchOrder = np.argsort(np.sum(graph, axis=0))
        bundles = [] 
        
        # 각 특성 i를 기준으로 Bundle에 분류하는 과정.
        #bundel list에 저정하는 것은 특성 index로 변경 
        for i in searchOrder : 
            needNew = True 
            
            if bundles == [] : 
                bundles.append([i]) 
                pass 
            
            # 번들별 추가로 넣을 것이 있는지 확인. 
            for j in range(1, max(2, len(bundle))) : 
                for t in searchOrder[i+1:] : 
                    if graph[i][t] <= K : 
                        bundle[j-1].append(t)
                        needNew = False 
                        
        
            # 앞서서 bundle 사이에 추가를 안했다면 새로운 번들 형성 
            if needNew == True : 
                bundles.append([i])
                
        return bundles

In [17]:
for i in range(1, 2) : 
    print(i)

1


### Algorithm 4 : Merge Exclusive Features 
Input : numData : number of Data 

Input : F : One bundle of exclusive featrues
* Algorithm 3에서 bundel 별 index를 제시했음. 이에 F 값 대신에 bundel 별 index를 인자로 받도록 하겠음. 


1. binRanges <- {0}, totalBin <- 0 
2. for f in F do 
- totalBin += f.numBin
- binRanges.append(totalBin)

3. newBin <- new Bin(numData) 
4. for i =1 to numData do 
- newBin[i] <- 0

> for j =1 to len(F) do 
> - if F[j].bin[i] != 0 then 
> - newBin[i] <- F[j].bin[i] + binRanges[j] 

Output : newBin, binRanges 


---
구현하는 것 
- 각 번들 별로 특성 값을 합쳐줌 

> 1)기준변수만 값이 있을 경우 : 기준 변수의 값을 그대로 사용한다.

> 2)비기준변수만 값이 있을 경우 : 기준 변수의 최대값을 더해준다.

> 3)Conflict가 발생할 경우 & 둘다 0일 경우 : 기준 변수의 값을 채택한다.

**구현해야 하는 것**
- 기준변수의 최대값 
- Conflict 유무 확인 

- F : 인자로 bundle index를 받았을 때, 데이터의 해당 특성 값만 산출해야함. 
- newBin : 번들 내 특성값을 전체 합한 결과 


In [None]:
class LightGMB() : 
    def __init__(self, I, d, a,b,loss, weak_learner) : 
        # X, y가 결합한 형태가 I 임 
        self.data = I
        self.X = np.array(I)[:, :-1]
        self.y = np.array(I)[:, -1]
        self.n, self.m = np.shape(I)
        
        self.d = d 
        self.a = a
        self.b = b
        
        self.loss = loss 
        self.weak_learner = weak_learner
    
    def algorithm_2(self) : 
        # model에 대해선 []로 구현하겠음. Stump_tree 함수에 최적화 진행
        models = [[self.weak_learner, [None, None, None]]]
        fact = (1 - self.a)/self.b 
        topN = a * self.n 
        randN = b * self.n 
        
        for i in range(self.d) : 
            weight = np.ones(self.n)
            pred = [1 if np.sum(model_set[0](self.I, weight, *model_set[1])) > 0 else -1 for model_set in models]
            g = self.loss(pred, self.y)
            
            sort_index = np.argsort(abs(np.array(g)))
            topSet = sort_index[:topN]
            randSet = rand.sample(sort_index[topN:], randN)
            usedSet = topSet + randSet
             
            # gradient가 1보다 같거나 작도록 설정하기. 
            w[randSet] = np.array(g)[randSet] * fact
            
            criterion = stump_tree(np.array(self.data[usedSet]) - np.array(g[usedSet]), w[usedSet])
            newModel = [stump_tree, [criterion[1:]]]
            models.append(newModel)
        
    # Feature은 __init__을 통해서 구현할 수 있으므로 제외    
    # bundlesConflict 에 대해선 구현 x. 오히려 다른 방식으로 구현하는게 더 이해가 감. 
    def algorithm_3(self, K) : 
        graph_matrix = graph(self.X)
        searchOrder = np.argsort(np.sum(graph, axis=0))
        bundles = [] 
        
        # 각 특성 i를 기준으로 Bundle에 분류하는 과정.
        #bundel list에 저정하는 것은 특성 index로 변경 
        for i in searchOrder : 
            needNew = True 
            
            if bundles == [] : 
                bundles.append([i]) 
                pass 
            
            # 번들별 추가로 넣을 것이 있는지 확인. 
            for j in range(1, max(2, len(bundle))) : 
                for t in searchOrder[i+1:] : 
                    if graph[i][t] <= K : 
                        bundle[j-1].append(t)
                        needNew = False 
                        
        
            # 앞서서 bundle 사이에 추가를 안했다면 새로운 번들 형성 
            if needNew == True : 
                bundles.append([i])
                
        return bundles
    
    def algorithm_4(self, index_list) : 
        F = self.X[:, index_list].T 
        
        max_first_feature = np.max(F[0])
        newBin = F[0]
        
        for j in range(1,len(index_list)) : 
            
            for i in range(self.n) : 
                if newBin[i] == 0 and F[j][i] != 0 : 
                    newBin[i] = F[j][i] + max_first_feature 
        
        return newBin 
    