# 그레디언트 부스팅(Gradient Boosting)
그레디언트 부스팅은 머신러닝의 앙상블 기법 중 하나로, 여러 개의 약한 학습기(weak learner)를 순차적으로 학습시켜 강한 학습기(strong learner)를 만드는 알고리즘입니다. 각 단계에서 이전 단계의 오차를 보완하는 방향으로 학습이 진행되며, 이를 통해 예측 성능을 향상시킵니다.

1. 약한 학습기의 순차적 학습: 그레디언트 부스팅은 여러 개의 약한 학습기를 순차적으로 학습시킵니다. 일반적으로 약한 학습기로 결정 트리(Decision Tree)가 사용됩니다.
2. 잔차 학습: 각 단계에서 모델은 이전 단계의 예측값과 실제값의 차이인 잔차(residual)를 학습합니다. 즉, 이전 단계에서 예측하지 못한 부분을 다음 단계에서 보완하는 방식으로 학습이 진행됩니다.
3. 경사 하강법: 잔차를 학습하는 과정에서 경사 하강법(gradient descent)을 사용하여 손실 함수(loss function)를 최소화합니다.
4. 모델 결합: 모든 단계에서 학습된 모델들을 결합하여 최종 예측 모델을 생성합니다.

In [19]:
import pandas as pd

bike = pd.read_csv("bike data.csv")
bike.head()

Unnamed: 0,datetime,season,holiday,workingday,weather,temp,atemp,humidity,windspeed,count
0,2011-01-01 0:00,1,0,0,1,9.84,14.395,81,0.0,16
1,2011-01-01 1:00,1,0,0,1,9.02,13.635,80,0.0,40
2,2011-01-01 2:00,1,0,0,1,9.02,13.635,80,0.0,32
3,2011-01-01 3:00,1,0,0,1,9.84,14.395,75,0.0,13
4,2011-01-01 4:00,1,0,0,1,9.84,14.395,75,0.0,1


In [20]:
del bike['datetime']

In [21]:
X = bike.drop("count", axis = 1).values
Y = bike['count'].values

In [22]:
from sklearn.model_selection import train_test_split
train_x, test_x, train_y, test_y = train_test_split(X, Y)

In [23]:
from sklearn.tree import DecisionTreeRegressor

model1 = DecisionTreeRegressor(max_depth=2)
model1.fit(train_x, train_y)

train_y2 = train_y - model1.predict(train_x)
train_y2

array([ -54.4269199 ,    1.58305921, -153.41694079, ..., -221.41694079,
        -52.18637906,  -30.36809435])

In [24]:
model2 = DecisionTreeRegressor(max_depth=2)
model2.fit(train_x, train_y2)

train_y3 = train_y2 - model2.predict(train_x)
train_y3

array([ -59.52584813,   43.53368355, -158.51586902, ..., -179.46631645,
        -57.28530729,  -35.46702259])

In [25]:
model3 = DecisionTreeRegressor(max_depth=2)
model3.fit(train_x, train_y3)

In [26]:
pred1 = model1.predict(test_x)
pred2 = model2.predict(test_x)
pred3 = model3.predict(test_x)

pred = pred1 + pred2 + pred3
pred

array([386.67099194, 241.13222797, 240.79570102, ..., 428.37276881,
       120.56548292, 177.07623658])

In [27]:
from sklearn.metrics import mean_squared_error
mean_squared_error(test_y, pred) ** (1/2)

151.0180694012628

In [28]:
from sklearn.ensemble import GradientBoostingRegressor
model = GradientBoostingRegressor(max_depth=2, n_estimators=3, learning_rate=1)
model.fit(train_x, train_y)

pred = model.predict(test_x)
mean_squared_error(test_y, pred) ** (1/2)

151.01806940126278

그레디언트 부스팅 모델에 L1, L2 정규화를 통해 과적합을 막고, 하드웨어를 조절하여 학습 속도를 높인 것이 XGBoost 모델입니다.