# Support Vector Regression(SVR) - Destek Vektör Regresyonu

- Güçlü ve esnek modelleme tekniklerinden birisidir.
- Sınıflandırma ve regresyon için kullanılır.
- Robust(dayanıklı) bir regresyon modelleme tekniğidir.
- **AMAÇ**, Bir marjin aralığına max noktayı en küçük hata ile alabilecek şekilde doğru ya da eğriyi belirlemektir.

**Gerekli Kütüphaneler** 

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import scale, StandardScaler
from sklearn import model_selection
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn import  neighbors
from sklearn.svm import SVR

In [2]:
# Uyarı Mesajları ile Karşılaşmamak için bu kütüphaneyi kullanıyoruz.
from warnings import filterwarnings
filterwarnings("ignore")

# SVR - Model ve Tahmin İşlemleri 

In [3]:
df = pd.read_csv("./Hitters.csv")
# bu csv dosyasının içerisinde eksik gözlemleri(NA) çıkardık.
df = df.dropna()

# Veri seti içerisindeki kategorik değişkenleri dummy değişkenlere çeviriyoruz.
dms = pd.get_dummies(df[["League","Division","NewLeague"]])

# bağımlı değişken
y = df[["Salary"]]

# Veri Setinin içerisinden Bağımlı Değişkeni ve Kategorik değişkenlerin ilk hallerini dışarı bırakıyoruz.
X_ = df.drop(["Salary","League","Division","NewLeague"], axis = 1).astype("float64")

# dms ile X_ birleştirip(concat) bağımsız değişken oluşturduk.
X = pd.concat([X_, dms[["League_N","Division_W","NewLeague_N"]]], axis=1)

# train ve test setlerimizi oluşturuyoruz.
X_train, X_test, y_train, y_test = train_test_split(X,
                                                    y,
                                                    test_size = 0.25,
                                                    random_state= 42) 

**Model**

In [4]:
X_train.head()

Unnamed: 0,AtBat,Hits,HmRun,Runs,RBI,Walks,Years,CAtBat,CHits,CHmRun,CRuns,CRBI,CWalks,PutOuts,Assists,Errors,League_N,Division_W,NewLeague_N
183,328.0,91.0,12.0,51.0,43.0,33.0,2.0,342.0,94.0,12.0,51.0,44.0,33.0,145.0,59.0,8.0,1,0,1
229,514.0,144.0,0.0,67.0,54.0,79.0,9.0,4739.0,1169.0,13.0,583.0,374.0,528.0,229.0,453.0,15.0,1,0,1
286,593.0,152.0,23.0,69.0,75.0,53.0,6.0,2765.0,686.0,133.0,369.0,384.0,321.0,315.0,10.0,6.0,0,1,0
102,233.0,49.0,2.0,41.0,23.0,18.0,8.0,1350.0,336.0,7.0,166.0,122.0,106.0,102.0,132.0,10.0,0,0,0
153,341.0,95.0,6.0,48.0,42.0,20.0,10.0,2964.0,808.0,81.0,379.0,428.0,221.0,158.0,4.0,5.0,1,1,1


In [5]:
svr_model = SVR("linear").fit(X_train,y_train)
# rbf = Doğrusal olmayan radial basis function dır 
svr_model_rbf = SVR("rbf").fit(X_train,y_train)

In [6]:
?svr_model

[1;31mType:[0m        SVR
[1;31mString form:[0m SVR(kernel='linear')
[1;31mFile:[0m        c:\users\halil\anaconda3\lib\site-packages\sklearn\svm\_classes.py
[1;31mDocstring:[0m  
Epsilon-Support Vector Regression.

The free parameters in the model are C and epsilon.

The implementation is based on libsvm. The fit time complexity
is more than quadratic with the number of samples which makes it hard
to scale to datasets with more than a couple of 10000 samples. For large
datasets consider using :class:`sklearn.svm.LinearSVR` or
:class:`sklearn.linear_model.SGDRegressor` instead, possibly after a
:class:`sklearn.kernel_approximation.Nystroem` transformer.

Read more in the :ref:`User Guide <svm_regression>`.

Parameters
----------
kernel : {'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'}, default='rbf'
     Specifies the kernel type to be used in the algorithm.
     It must be one of 'linear', 'poly', 'rbf', 'sigmoid', 'precomputed' or
     a callable.
     If none is given, '

In [7]:
dir(svr_model)

['C',
 '__abstractmethods__',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__setstate__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_abc_impl',
 '_check_n_features',
 '_compute_kernel',
 '_decision_function',
 '_dense_decision_function',
 '_dense_fit',
 '_dense_predict',
 '_dual_coef_',
 '_estimator_type',
 '_gamma',
 '_get_coef',
 '_get_param_names',
 '_get_tags',
 '_impl',
 '_intercept_',
 '_more_tags',
 '_n_support',
 '_pairwise',
 '_probA',
 '_probB',
 '_repr_html_',
 '_repr_html_inner',
 '_repr_mimebundle_',
 '_sparse',
 '_sparse_decision_function',
 '_sparse_fit',
 '_sparse_kernels',
 '_sparse_predict',
 '_validate_data',
 '_validate_for_predict',
 '_validate_targets',
 '_warn_from

**Tahmin**

In [8]:
svr_model.predict(X_train)[0:5]


array([219.32622169, 702.4303869 , 623.2055964 , 153.77538476,
       463.15190834])

In [9]:
svr_model_rbf.predict(X_train)[0:5]

array([404.04653122, 475.7979806 , 447.47083279, 416.62375328,
       451.10639712])

In [10]:
svr_model.predict(X_test)[0:5]


array([679.14754685, 633.72883069, 925.68640849, 270.28463621,
       530.26659184])

In [11]:
svr_model_rbf.predict(X_test)[0:5]

array([467.17641555, 446.40313543, 478.61634896, 407.90736132,
       478.21333994])

In [12]:
svr_model.intercept_

array([-80.15196151])

In [13]:
svr_model.coef_

array([[ -1.21839037,   6.09602969,  -3.67574533,   0.14217075,
          0.51435919,   1.28388986,  12.55922537,  -0.08693755,
          0.46597184,   2.98259944,   0.52944523,  -0.79820799,
         -0.16015534,   0.30872794,   0.28842348,  -1.79560067,
          6.41868985, -10.74313783,   1.33374317]])

In [14]:
# ilkel test hatası, manuel olarak = el yordamıyla oluşturduğumuz test hatası
#linear
y_pred = svr_model.predict(X_test)
np.sqrt(mean_squared_error(y_test,y_pred))

370.04084185624924

In [15]:
# rbf ye göre ilkel test hatası, linear a göre negatif yönlü test hatası oluştu çünkü değeri 370 den 460 oldu. 
y_pred = svr_model_rbf.predict(X_test)
np.sqrt(mean_squared_error(y_test,y_pred))

460.0032657244849

# Model Tuning

In [17]:
svr_model = SVR("linear")

In [19]:
?svr_model

[1;31mType:[0m        SVR
[1;31mString form:[0m SVR(kernel='linear')
[1;31mFile:[0m        c:\users\halil\anaconda3\lib\site-packages\sklearn\svm\_classes.py
[1;31mDocstring:[0m  
Epsilon-Support Vector Regression.

The free parameters in the model are C and epsilon.

The implementation is based on libsvm. The fit time complexity
is more than quadratic with the number of samples which makes it hard
to scale to datasets with more than a couple of 10000 samples. For large
datasets consider using :class:`sklearn.svm.LinearSVR` or
:class:`sklearn.linear_model.SGDRegressor` instead, possibly after a
:class:`sklearn.kernel_approximation.Nystroem` transformer.

Read more in the :ref:`User Guide <svm_regression>`.

Parameters
----------
kernel : {'linear', 'poly', 'rbf', 'sigmoid', 'precomputed'}, default='rbf'
     Specifies the kernel type to be used in the algorithm.
     It must be one of 'linear', 'poly', 'rbf', 'sigmoid', 'precomputed' or
     a callable.
     If none is given, '

In [20]:
# C = ceza parametresidir.
svr_params = {"C": [0.1, 0.5,1,3]}

In [21]:
svr_cv_model = GridSearchCV(svr_model,svr_params,cv = 5).fit(X_train, y_train)

In [23]:
# C değerleri içerisinden hangi parametrenin daha iyi olduğunu bulmuş olduk.
# Yani C nin 0.5 noktasındaki değerinin en iyi değer oludğunu anlamış olduk.
svr_cv_model.best_params_

{'C': 0.5}

In [32]:
# verbose = 2 değeri çalışma esnasındaki durumu raporlayarak çalışma gerçekleştirir.
# n_jobs = -1 değeri ise işlemcinin max performans ile çalışmasını sağlar.
svr_cv_model = GridSearchCV(svr_model,svr_params,cv = 5, verbose = 2, n_jobs= -1).fit(X_train, y_train)

Fitting 5 folds for each of 4 candidates, totalling 20 fits


[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.
[Parallel(n_jobs=-1)]: Done  16 out of  20 | elapsed:   16.9s remaining:    4.2s
[Parallel(n_jobs=-1)]: Done  20 out of  20 | elapsed:   34.5s finished


In [33]:
C = svr_cv_model.best_params_ 
C

{'C': 0.5}

**Final Modeli**

In [36]:
svr_tuned = SVR("linear", C = 0.5 ).fit(X_train,y_train)

In [37]:
y_pred = svr_tuned.predict(X_test)

In [38]:
#RSME 
np.sqrt(mean_squared_error(y_test,y_pred))

367.9874739022889