# Bagging

* Temeli bootstrap yöntemi ile oluşturulan birden fazla karar ağacının
ürettiği tahminlerin bir araya getirilerek değerlendirilmesine dayanır

* veri setinden bir parça gözlem seti çekilerek bir karar ağacı oluşturulur. Bu işlem tekrarlanarak T adet karar ağacı oluşturulur
* Karar ağaçalrı oluşturma işleminde veri setinin her parçasının seçilme olasılığı eşittir. 
* ayrıca oluşturulan ağaçaların daha önceki ağaçlarla bağlantısı yoktur
* oluşturulan T adet karar ağacından gelen t adet tahmin bir araya getirilerek model tahmini oluşturulur
* Çekilen ağaçların 2/3'ü ağaçları oluşturulması için gerisi ağaçların test edilmesi içn kullanılır
* CART a göre aşırı öğrenme sorunu girderilmiştir
 

# Model

In [101]:
import numpy as np
import pandas as pd 
from sklearn.model_selection import train_test_split, GridSearchCV,cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
from sklearn.preprocessing import scale 
from sklearn import model_selection
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import BaggingRegressor

from warnings import filterwarnings
filterwarnings('ignore')

In [102]:
hit = pd.read_csv("Hitters.csv")
df = hit.copy()
df = df.dropna()
dms = pd.get_dummies(df[['League', 'Division', 'NewLeague']])
y = df["Salary"]
X_ = df.drop(['Salary', 'League', 'Division', 'NewLeague'], axis=1).astype('float64')
X = pd.concat([X_, dms[['League_N', 'Division_W', 'NewLeague_N']]], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.25, 
                                                    random_state=42)

In [103]:
bag=BaggingRegressor(bootstrap_features=True,random_state=42)
bag.fit(X_train,y_train)

In [104]:
bag.n_estimators#ağaç sayıusı

10

In [105]:
bag.estimators_#ağaçlar

[DecisionTreeRegressor(random_state=1952926171),
 DecisionTreeRegressor(random_state=1761383086),
 DecisionTreeRegressor(random_state=1449071958),
 DecisionTreeRegressor(random_state=1910541088),
 DecisionTreeRegressor(random_state=1341730541),
 DecisionTreeRegressor(random_state=1286572245),
 DecisionTreeRegressor(random_state=1005142668),
 DecisionTreeRegressor(random_state=502852014),
 DecisionTreeRegressor(random_state=186414760),
 DecisionTreeRegressor(random_state=1956263048)]

In [106]:
bag.estimators_samples_#her ağaçtaki ornekler

[array([ 34,   8, 142,  32,  59,  95,   3, 150, 107,  46, 116, 194, 105,
        181, 177,  77, 184,  80,  64,   0, 122,  59, 103,  81,  41, 181,
         91,  70, 132,   0,  60, 184,  23, 156,  14, 183, 123,  45,  84,
        165, 100, 173, 111,  23,  70,   1,  81, 172,  38,  97, 111, 115,
         52, 182,   9,  82,  71, 109,  73, 191, 116, 196,  14,  32, 176,
        104, 174,  43, 104,  45, 196, 177, 101,  53,   5, 114, 142, 146,
         36, 152,  47,  23,  84,  96,  39, 120, 143,  36,   0, 150, 135,
        122, 181,  13,   9,  15, 125, 191, 156, 169,   6,  77,  48,  27,
         70, 191, 128,  60, 148, 173,  49, 131,  12,  85, 184,  47,  99,
         62, 169, 119, 145,   1,  90, 164, 166,  36,  86, 150,  64,  66,
         68,  76,  57,  87,  93, 110, 158,  79,  65,  57,  75,   5, 102,
         14,   1, 157,  26,  97,  16, 129, 176, 127,  66, 175, 194, 138,
         62, 121, 171,  11, 117,  24,  74,  36,  23, 103,  30,  36,  64,
        140, 154, 119, 169, 113,  37, 137, 188,  76

In [107]:
bag.estimators_features_#her ağaçtakş bağımsız değşkenlerin indexleri

[array([ 9, 10, 12,  2,  9,  7,  7, 18,  9,  6, 13,  4, 17, 18,  9, 10, 17,
         2,  4]),
 array([14,  5, 10,  3,  9, 15, 10, 16,  8,  3, 13,  3,  9,  8,  8, 18,  7,
        17, 11]),
 array([14,  0,  7,  7,  8, 18, 14,  3,  6,  5,  8, 13,  4, 15,  0,  2,  1,
        16,  9]),
 array([ 0,  5, 10, 12,  4, 17, 18, 11,  3, 17,  2, 10, 16, 17,  4, 14, 10,
         9, 14]),
 array([13,  6,  6, 11,  3, 15,  3,  8,  3,  8, 16,  7, 10, 12, 11, 15, 14,
        13, 16]),
 array([18,  1, 18,  7, 13, 13, 17, 13,  3, 15,  6, 17, 11,  1, 14,  1,  9,
        11,  4]),
 array([12, 12,  2, 10, 17,  2,  3, 17,  5,  5, 15, 11, 13,  1,  1, 10,  3,
        14, 11]),
 array([14, 11,  6, 18, 14,  2,  5, 16, 15, 15,  3,  5, 17,  6, 16,  9,  0,
         4, 16]),
 array([ 8, 12, 10,  4, 13,  3, 13, 18, 12, 12, 10, 11,  3, 13, 11, 16,  3,
         7, 16]),
 array([ 8, 13, 17, 14,  9, 16,  7, 14, 12,  8,  1, 17, 13, 10,  5,  9,  5,
        17,  8])]

In [108]:
bag.estimators_[0] #her bir ağaca ayrı ayroı ulaşıyoruz

# Tahmin

In [109]:
y_pred=bag.predict(X_test)

In [110]:
np.sqrt(mean_squared_error(y_test,y_pred))

342.05849991036536

- Şimdi ağaç ağaç değer soralım. ağaç ağaç haat değeri hesapalamay bakalım
- Buradaki asıl amaç hatalı olan hata değerini yüksek veren ağacı bulup hesap sormaktır

- Bu işlemi Şu şekilde yapıyoruz:

Her bir ağaca bag.estimators_[index] diyerek ulaşıyoruz daha sonra her bir ağaç için tekrar model kuruyoruz(bundan kastım model fit'lemek)

zaten bag ile sınıfı oluşturduk sadece her bir ağaç için fit metodunu tekrara çaalıştırıyoruz. daha sonra ise bildiiğmiz tahmin yapma

hata değeri hesaplama işlenlerini yapıyoruz

In [111]:
for i in np.arange(0,10,1):
    new_y_pred=bag.estimators_[i].fit(X_train,y_train).predict(X_test)
    print("%d.agaç = "%i,np.sqrt(mean_squared_error(y_test,new_y_pred)))

0.agaç =  528.7221926962928
1.agaç =  514.7173203940404
2.agaç =  514.6843519908659
3.agaç =  446.9572257566102
4.agaç =  491.509210761486
5.agaç =  461.7520701053169
6.agaç =  512.6042765948389
7.agaç =  452.3319491456736
8.agaç =  514.3400428715335
9.agaç =  522.1287354954193


In [112]:
params={"n_estimators":range(0,20)}
bag_CV=GridSearchCV(bag,params,cv=10).fit(X_train,y_train)

In [113]:
bag_CV.best_params_

{'n_estimators': 14}

In [114]:
bag_final=BaggingRegressor(n_estimators=bag_CV.best_params_["n_estimators"],random_state=45)

In [115]:
bag_final.fit(X_train,y_train)

In [116]:
np.sqrt(mean_squared_error(y_test,bag_final.predict(X_test)))

346.457987188104