# Bagged Trees Regression

# Model

In [1]:
import numpy as np
import pandas as pd 
from sklearn.model_selection import train_test_split, GridSearchCV,cross_val_score
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
from sklearn.preprocessing import scale 
from sklearn import model_selection
from sklearn.tree import DecisionTreeRegressor, DecisionTreeClassifier
from sklearn.ensemble import BaggingRegressor

from warnings import filterwarnings
filterwarnings('ignore')

In [2]:
hit = pd.read_csv("Hitters.csv")
df = hit.copy()
df = df.dropna()
dms = pd.get_dummies(df[['League', 'Division', 'NewLeague']])
y = df["Salary"]
X_ = df.drop(['Salary', 'League', 'Division', 'NewLeague'], axis=1).astype('float64')
X = pd.concat([X_, dms[['League_N', 'Division_W', 'NewLeague_N']]], axis=1)
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.25, 
                                                    random_state=42)

In [3]:
bag_model = BaggingRegressor(bootstrap_features = True) # boostrap örneklemlerini gözlemlemek için True yaptık
bag_model.fit(X_train, y_train)

BaggingRegressor(bootstrap_features=True)

In [4]:
bag_model.get_params()

{'base_estimator': None,
 'bootstrap': True,
 'bootstrap_features': True,
 'max_features': 1.0,
 'max_samples': 1.0,
 'n_estimators': 10,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

In [5]:
# n_estimators = oluşan farklı ağaç sayısı (T)

In [6]:
bag_model.estimators_ # modeli oluşturan birbirinden farklı ağaçlar

[DecisionTreeRegressor(random_state=2105689532),
 DecisionTreeRegressor(random_state=268371615),
 DecisionTreeRegressor(random_state=652908217),
 DecisionTreeRegressor(random_state=875648796),
 DecisionTreeRegressor(random_state=350351338),
 DecisionTreeRegressor(random_state=1133740924),
 DecisionTreeRegressor(random_state=462429232),
 DecisionTreeRegressor(random_state=1737747164),
 DecisionTreeRegressor(random_state=1587230378),
 DecisionTreeRegressor(random_state=1388889694)]

In [7]:
bag_model.estimators_samples_ # her bir ağaçta kaç örnek olduğu bilgisine erişmek için, buradaki şeyler verilerin indexleri

[array([ 31,  89, 100,  42,   4, 178,  48, 195, 189, 100,  85, 100,  87,
         52, 163, 125,  57,  31,  49,  64,  22,  37, 129, 116,  10,  51,
        140, 128, 193, 173, 111, 186, 110,  62, 124, 108,  29,  92, 188,
         49,  66,   7,  22, 127, 179,  67,  38,  42, 121, 110, 130, 121,
         10, 168, 158, 176,  98,  79, 106,  52,  35, 136,  80,  11,  10,
         82, 142,  86, 139, 141,  23,  13, 194,  20, 172,  84,  59, 146,
         95, 136,  14, 140, 102,  66,  77,  86,  48, 142, 170,  68,   7,
        125, 158,  31, 182, 125, 169, 148, 194,  87,  46, 102, 134, 163,
         32, 161,  46, 168,  45, 194, 125,  31, 176, 118,  87,  84, 159,
         96,  36, 114, 120,  43,   0,  77, 168,  78,  96,  36,  26,  94,
        174, 141,  15, 116, 144, 187, 191, 122, 124, 102, 157, 138,  86,
        162,  51,  45,  92,  66,  58, 148,  34, 136, 109,  47,   4, 132,
         59, 189,  17, 152,  59, 126, 138, 165, 149,  56,  31,  80,  49,
         63,  89, 195, 108, 139,  28, 142,  15, 113

In [8]:
bag_model.estimators_features_ # her bir ağacın bağımsız değişkenlerine ulaşmak için
#her bir ağacın kullanıdğı değişkenler ve bunların indexleri

[array([ 5,  7,  5,  9,  3, 10, 18,  0, 13, 13,  4,  9, 17,  3,  6, 11, 15,
        11, 17]),
 array([18, 15,  3, 11,  0, 16,  1,  9, 11,  5,  6, 14, 15,  0, 11,  8,  5,
        11,  0]),
 array([10, 17,  1, 17,  9,  2, 16,  3, 12,  9, 10, 12, 12,  0,  5, 18, 13,
        12,  7]),
 array([ 4,  5, 18, 13,  9, 13,  6, 18, 18,  8,  3, 14,  9, 18,  9, 13,  0,
        13,  3]),
 array([10,  6,  4,  3,  8,  4,  7, 14, 10,  1,  0, 17, 11,  1, 14,  9, 12,
        11, 13]),
 array([16,  0,  8, 15,  1, 12,  9, 17,  1, 11, 15,  5,  0,  4, 15, 10,  7,
        18,  6]),
 array([16, 14, 11, 12, 12, 18,  4,  7, 14, 16, 15, 17, 11,  5, 17, 16, 10,
        12,  3]),
 array([ 3,  4, 15, 15, 16,  8,  1,  9, 13, 15, 14, 14,  6, 11, 18, 13, 10,
         9,  1]),
 array([10, 12, 15, 11,  1,  6, 12,  8, 18, 15, 12,  4, 13,  6, 14, 10,  3,
         2, 15]),
 array([13,  7,  8, 16, 18,  8, 13, 18,  8,  1,  1,  5,  9,  4, 18,  3,  6,
        14, 16])]

In [9]:
bag_model.estimators_[0].get_params() # her bir modele özel değerlere erişmek
# sadece 1. modelin özelliklerin eriştik

{'ccp_alpha': 0.0,
 'criterion': 'mse',
 'max_depth': None,
 'max_features': None,
 'max_leaf_nodes': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'random_state': 2105689532,
 'splitter': 'best'}

# Tahmin

In [10]:
y_pred = bag_model.predict(X_test) # her bir ağacın tahminlerini bir araya getirerek oluşmuş tahminler

In [11]:
np.sqrt(mean_squared_error(y_test, y_pred))

342.96650338133145

In [12]:
# her bir ağacın özel sonucunu öğrenmek -> ağaçların hatalı tahmincilerine gidip hesap sorma aşaması
# her bir ağaca özel sorarak hatalara odaklı optimizasyon işlemlerinin temelini atmış oluyoruz

In [13]:
# ikinci ağacın sonuçlarını görmek için

In [14]:
iki_y_pred = bag_model.estimators_[1].fit(X_train, y_train).predict(X_test)

In [15]:
np.sqrt(mean_squared_error(y_test, iki_y_pred))

486.868506768418

In [16]:
# bu ağacı ilerleyen dönemlerde kırbaçlayacağız
#RF bu durumlarda ağaçlara farklı ağırlıklar vererek iyi tahmin yapanlara öncelik veriyor

In [17]:
yedi_y_pred = bag_model.estimators_[6].fit(X_train, y_train).predict(X_test)

In [18]:
np.sqrt(mean_squared_error(y_test, yedi_y_pred))

514.5437099576525

In [19]:
# bu şekilde ağaçların her birine ayrı ayrı erişip hata değeri büyük olanları optimize edebiliriz (optimizasyon ilerde)

# Model Tuning

Beggingi aslında bir metodoloji olarak görmemiz gerekiyor -> beg etmek, bootstrap birleştirmeleri yapmak

Bu metodolojiyi herhangi bir ağaç yöntemine uyguladığınızda o ağacı beg etmiş oluyorsunuz -> mesela CART'a bunu uyguladığımızda ve değişken seçimlerine de random_sub_space yöntemini getirdiğimizde RandomForests yapmış oluyoruz

In [20]:
bag_model = BaggingRegressor(bootstrap_features = True)
bag_model.fit(X_train, y_train)

BaggingRegressor(bootstrap_features=True)

In [21]:
bag_params = {"n_estimators": range(2,20)}

In [22]:
bag_cv_model = GridSearchCV(bag_model, bag_params, cv = 10)

In [23]:
bag_cv_model.fit(X_train, y_train)

GridSearchCV(cv=10, estimator=BaggingRegressor(bootstrap_features=True),
             param_grid={'n_estimators': range(2, 20)})

In [24]:
bag_cv_model.best_params_

{'n_estimators': 17}

In [25]:
# final modeli oluşturma

In [26]:
bag_tuned = BaggingRegressor(n_estimators = 10, random_state = 45)

In [27]:
bag_tuned.fit(X_train, y_train)

BaggingRegressor(random_state=45)

In [28]:
y_pred = bag_tuned.predict(X_test)

In [29]:
np.sqrt(mean_squared_error(y_test, y_pred))

343.7299462017933

In [30]:
# elimizdeki veri setinde şimdiye kadarki en düşük hata değerini almış olduk

In [31]:
# burada kendi kodumla her ağacın hata değerini ayrı ayrı inceleyeceğim

In [32]:
???

Object `?` not found.


In [33]:
for i in range(10):
    predict = bag_tuned.estimators_[i].fit(X_train, y_train).predict(X_test)
    error = np.sqrt(mean_squared_error(y_test, predict))
    print(error)

474.8653074801604
469.5993939326306
526.5852061961016
476.5403582960464
447.7179409429185
473.86325152155
520.2307745853437
523.538001721504
518.7235948615368
486.2569892557595


In [34]:
# burada neden rmse değerier tuned modelin verdiği değerden(ortalamaları olması gerekiyor diye düşünüyorum) büyük çıktı???