Robust(aykırı gözlemlere karşı dayanıklı)

**Amaç:** Support Vector Regression, verileri belli bir hata payı içinde kapsayan en uygun doğruyu veya eğriyi bularak, bu aralık içindeki noktaları en iyi şekilde tahmin etmeye çalışan bir regresyon yöntemidir. 

Epsilon değerlerinin dışındaki kısiler regresyon doğrusunu belirler. Epsilon sınırı içindeki değerlerin regresyon doğrusuna etkisi yok. Bu yüzde minimizasyon formülünde kısileri kontrol altına alabilmek için ceza parametresi kullanılır. Bu ceza parametresinin optimum değerini de Cross Validation yöntemi ile bulacağız.

In [2]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt
from sklearn.preprocessing import scale
from sklearn.preprocessing import StandardScaler
from sklearn import model_selection
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.svm import SVR

In [9]:
df = pd.read_csv("../Hitters.csv")
df = df.dropna()
dms = pd.get_dummies(df[["League","Division", "NewLeague"]])
y = df["Salary"]
X_ = df.drop(["League", "Division" , "NewLeague" ,"Salary"], axis=1).astype("float64")
X = pd.concat([X_, dms[["League_N","Division_W", "NewLeague_N"]]], axis = 1)
X_train, X_test, y_train, y_test = train_test_split(X,y, test_size=0.25, random_state=33)

In [29]:
svr_model = SVR(kernel="linear").fit(X_train, y_train)

In [30]:
svr_model

In [17]:
svr_model.predict(X_train)[0:20]

array([ 568.93032721,  224.15951526,  221.00068774,  497.77652953,
        172.10016927,   70.10047108,  221.96209495,  621.15616129,
        579.97857558,  685.44389113, 1551.51547641,  408.71694161,
        974.75233759,  193.09788492,  324.51606377,  722.07924576,
        136.14204776, 1146.17318051,  643.88681287,  561.65271317])

In [18]:
svr_model.predict(X_test)[0:20]

array([1697.26217865,   30.08818471,  228.4615743 ,  735.19502665,
        133.18921446,  210.08779465,  880.55831261,  471.33948796,
        328.24938412,  568.07657743,  209.66363529,  496.00528025,
        228.14808138,   69.75839573,  494.97857848,  539.67892166,
         56.72311862,  455.51827835, 1214.05628587,  912.32179633])

In [33]:
svr_model.intercept_
#sabit

array([-23.46209808])

In [32]:
svr_model.coef_
#herbir bağımsız değişken yani sütun için katsayıları verir

array([[-1.61159274,  7.88144858, -4.59732801, -0.74355507, -0.7593038 ,
         3.33937933,  7.51493076, -0.12596876,  0.09616576,  1.24659811,
         0.86951561,  0.47610294, -0.37197585,  0.27100152, -0.04091906,
        -2.25386998,  6.07522344, -9.4873195 ,  4.22008762]])

In [31]:
#test
y_pred = svr_model.predict(X_test)
np.sqrt(mean_squared_error(y_test, y_pred))

295.59423753811507

In [36]:
svr_model.C
#bu kısilerin tahmin sonucuna olan etkisini kontrol eden ceza değeridir, amacımız bunun optimum değerini bulmak
#bu optimizasyon için olası bazı C değerlerini verip bunları grid search CV yöntemi k-folder Cross Validation yöntemi ile karşılaştıracagız.

1.0

In [38]:
svr_params = {"C": [0.1,0.5,1,3]}

In [39]:
svr_cv_model = GridSearchCV(svr_model, svr_params, cv=5).fit(X_train, y_train)
#GridSearchCV() içerisinde n_jobs = -1 parametresini kullanmak eğitim sırasında işlemciyi en verimli şekilde kullanıp daha hızlı sonuç alabilmeyi sağlar

In [41]:
svr_cv_model.best_params_

{'C': 0.1}

In [44]:
svr_tuned = SVR(kernel = "linear", C = 0.1).fit(X_train, y_train)

In [46]:
y_pred = svr_tuned.predict(X_test)

In [48]:
np.sqrt(mean_squared_error(y_test, y_pred))

311.60532009641287