In [8]:
import pandas as pd
import numpy as np 
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor,BaggingRegressor
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split,GridSearchCV
import sklearn.metrics as mt

In [3]:
data = pd.read_csv("../Python ile Makine Öğrenmesi/Advertising.csv",index_col=0)

data2 = data.copy()
data2.head()

Unnamed: 0,TV,Radio,Newspaper,Sales
1,230.1,37.8,69.2,22.1
2,44.5,39.3,45.1,10.4
3,17.2,45.9,69.3,9.3
4,151.5,41.3,58.5,18.5
5,180.8,10.8,58.4,12.9


In [4]:
y = data2["Sales"]
X = data2.drop(columns="Sales",axis=1)

X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.2,random_state=3)

In [6]:
dtModel = DecisionTreeRegressor()
dtModel.fit(X_train,y_train)
dtTahmin = dtModel.predict(X_test)

bgModel = BaggingRegressor()
bgModel.fit(X_train,y_train)
bgTahmin = bgModel.predict(X_test)

rfModel = RandomForestRegressor()
rfModel.fit(X_train,y_train)
rfTahmin = rfModel.predict(X_test)

In [7]:
r2dt = mt.r2_score(y_test,dtTahmin)
r2bg = mt.r2_score(y_test,bgTahmin)
r2rf = mt.r2_score(y_test,rfTahmin)

msedt = mt.mean_squared_error(y_test,dtTahmin)
msebg = mt.mean_squared_error(y_test,bgTahmin)
mserf = mt.mean_squared_error(y_test,rfTahmin)

print(f"Karar ağacı Modeli R2: {r2dt} MSE: {msedt}")
print(f"Bagging Karar ağacı Modeli R2: {r2bg} MSE: {msebg}")
print(f"Random Forest Modeli R2: {r2rf} MSE: {mserf}")

Karar ağacı Modeli R2: 0.9531739009005923 MSE: 1.1704999999999999
Bagging Karar ağacı Modeli R2: 0.9816291071912117 MSE: 0.4592124999999999
Random Forest Modeli R2: 0.9835124394952444 MSE: 0.41213532499999717


In [16]:
# Şimdi Cross val kullanan GridSearch ı kullanalım
dtparams = {"max_leaf_nodes":range(2,20),"min_samples_split":range(2,20)}
dtgrid = GridSearchCV(dtModel,param_grid=dtparams,cv=10,n_jobs=-1)
dtgrid.fit(X_train,y_train)
print(dtgrid.best_params_)

bgparams = {"n_estimators":range(2,20)}
bggrid = GridSearchCV(bgModel,param_grid=bgparams,cv=10,n_jobs=-1)
bggrid.fit(X_train,y_train)
print(bggrid.best_params_)

rfparams = {"max_depth":range(2,20),"max_features":range(3,20),"n_estimators":range(2,10)}
rfgrid = GridSearchCV(rfModel,param_grid=rfparams,cv=10,n_jobs=-1)
rfgrid.fit(X_train,y_train)
print(rfgrid.best_params_)

# Random forest biraz daha yavaş sürüyor çünkü daha fazla parametre var. Sonuçta bir ensemble model
# runtime error aldım :D 8 dakika beklemiştim neyse uzun sürdüğünü görelim işte bu gibi olaylardan dolayı
# teknoloji bir gelişim yaşayıp multithread gibi paralel çalışma mantığını geliştirdi 
# GridSearchCV de de n_jobs = -1 parametresi ile bunu gerçekleştirebiliyoruz
# böyle 4 dakika 40 saniye sürdü bu kadar küçük bir veri setinde bile çok yüksek süreler.
# Tek harf hatasından dolayı 17 dakika çöp oldu

  _data = np.array(data, dtype=dtype, copy=copy,


{'max_leaf_nodes': 19, 'min_samples_split': 9}
{'n_estimators': 19}
{'max_depth': 14, 'max_features': 4, 'n_estimators': 8}


In [18]:
dtModel2 = DecisionTreeRegressor(max_leaf_nodes=19,min_samples_split=9)
dtModel2.fit(X_train,y_train)
dtTahmin2 = dtModel2.predict(X_test)

bgModel2 = BaggingRegressor(n_estimators=15)
bgModel2.fit(X_train,y_train)
bgTahmin2 = bgModel2.predict(X_test)

rfModel2 = RandomForestRegressor(max_depth=14,max_features=4,n_estimators=8)
rfModel2.fit(X_train,y_train)
rfTahmin2 = rfModel2.predict(X_test)

r2dtGrid = mt.r2_score(y_test,dtTahmin2)
r2bgGrid = mt.r2_score(y_test,bgTahmin2)
r2rfGrid = mt.r2_score(y_test,rfTahmin2)

msedtGrid = mt.mean_squared_error(y_test,dtTahmin2)
msebgGrid = mt.mean_squared_error(y_test,bgTahmin2)
mserfGrid = mt.mean_squared_error(y_test,rfTahmin2)


# normalde fonksiyon ile yapmak lazım ama çok süre harcadım o yüzden dümdüz yapmak daha hızlı geliyor.
print(f"Karar ağacı Modeli R2: {r2dt} MSE: {msedt}")
print(f"Bagging Karar ağacı Modeli R2: {r2bg} MSE: {msebg}")
print(f"Random Forest Modeli R2: {r2rf} MSE: {mserf}")

print(f"Karar ağacı Modeli R2: {r2dtGrid} MSE: {msedtGrid}")
print(f"Bagging Karar ağacı Modeli R2: {r2bgGrid} MSE: {msebgGrid}")
print(f"Random Forest Modeli R2: {r2rfGrid} MSE: {mserfGrid}")
# sonçlarda zaten hata fonksiyon değerlerimizin ne kadar düştüğü ortada özellikle RandomForest ile meraber güzel düşüş var 
# ek olarak random forest ın parametrelerini diğerlerine göre daha küçük aralık verdim bu yönden düşünmek gerek.

Karar ağacı Modeli R2: 0.9531739009005923 MSE: 1.1704999999999999
Bagging Karar ağacı Modeli R2: 0.9816291071912117 MSE: 0.4592124999999999
Random Forest Modeli R2: 0.9835124394952444 MSE: 0.41213532499999717
Karar ağacı Modeli R2: 0.9329966174424792 MSE: 1.6748663841735678
Bagging Karar ağacı Modeli R2: 0.9853647604267122 MSE: 0.3658333333333342
Random Forest Modeli R2: 0.9845653333846733 MSE: 0.38581640624999963
