# DESTEK VEKTÖR REGRESYONU ( SUPPORT VECTOR REGRESSION )

In [1]:
import numpy as np 
import pandas as pd 
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.metrics import mean_squared_error, r2_score
import matplotlib.pyplot as plt 
# Standartlaştırma için eklenen fonksiyonlar scale ve StandartdScaler
from sklearn.preprocessing import scale 
from sklearn.preprocessing import StandardScaler
from sklearn import model_selection
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neural_network import MLPRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
from sklearn import neighbors
from sklearn.svm import SVR

In [4]:
df = pd.read_csv("verisetleri\Hitters.csv")
df = df.dropna()
dms = pd.get_dummies(df[['League', 'Division', 'NewLeague']])
y = df["Salary"]
X_ = df.drop(['Salary', 'League', 'Division', 'NewLeague'], axis=1).astype('float64')
X = pd.concat([X_, dms[['League_N', 'Division_W', 'NewLeague_N']]], axis=1)
X_train, X_test, y_train, y_test =  train_test_split(X, y, test_size=0.25, random_state=42)

In [5]:
# MODEL TAHMİN - Model doğrusal olduğu için "linear" değeri verildi. Doğrusal olmayan modle için "rbf" (radial bases function) kullanılır

In [6]:
svr_model = SVR("linear").fit(X_train, y_train)

In [7]:
svr_model

SVR(kernel='linear')

In [9]:
svr_model.predict(X_train)[0:5]

array([219.32622169, 702.4303869 , 623.2055964 , 153.77538476,
       463.15190834])

In [10]:
svr_model.predict(X_test)[0:5]

array([679.14754685, 633.72883069, 925.68640849, 270.28463621,
       530.26659184])

In [11]:
svr_model.intercept_

array([-80.15196151])

In [12]:
svr_model.coef_

array([[ -1.21839037,   6.09602969,  -3.67574533,   0.14217075,
          0.51435919,   1.28388986,  12.55922537,  -0.08693755,
          0.46597184,   2.98259944,   0.52944523,  -0.79820799,
         -0.16015534,   0.30872794,   0.28842348,  -1.79560067,
          6.41868985, -10.74313783,   1.33374317]])

In [14]:
# test hatası - ilkel olan

In [15]:
y_pred = svr_model.predict(X_test)

In [16]:
np.sqrt(mean_squared_error(y_test, y_pred))

370.04084185624924

In [17]:
# Doğrusal olmayanlar için (rbf) için MODEL OLUŞTURMA

In [18]:
svr_model_rbf = SVR("rbf").fit(X_train, y_train)

In [19]:
y_pred_rbf = svr_model_rbf.predict(X_test)

In [20]:
np.sqrt(mean_squared_error(y_test, y_pred_rbf))

460.0032657244849

In [21]:
# MODEL TUNNING "LINEAR" İÇİN, C değeri default olarak 1.0 dir.

In [22]:
svr_params = {"C":[0.1, 0.5, 1, 3]}

In [23]:
svr_cv_model = GridSearchCV(svr_model, svr_params, cv=5).fit(X_train, y_train)

In [24]:
# cv 5 olarak verdik. Çünkü aranacak olan parametre sayısı arttıkça aranacak olan birden fazla parametre ve birden fazla parametrenin birden fazla parmetresi oldukça ve bunlara birde k katlı çapraz doğrulama yöntemi eklendiğinde denenecek olan birçok parametre ortaya çıkmaktadır. Bu sebeple işlemler oldukça uzayabilmektedir. Buraya 10 tane c yazsak, 10 cv yapsak 10-15 dakika sürer. 

In [25]:
svr_cv_model.best_params_

{'C': 0.5}

In [26]:
# GridSearchCV sürelerini görmek için aşağıdaki gibi yazılabilir
# verbose = 2 --> Çalışma esnasındaki durumu raporlayarak çalışma gerçekleştirir.
# n_jobs = -1 --> Bilgisayarda var olan işlemci gücü max performans ile çalışır.

In [27]:
svr_cv_model = GridSearchCV(svr_model, svr_params, cv=5, verbose=2, n_jobs=-1).fit(X_train, y_train)

Fitting 5 folds for each of 4 candidates, totalling 20 fits
[Parallel(n_jobs=-1)]: Using backend LokyBackend with 8 concurrent workers.
[Parallel(n_jobs=-1)]: Done  16 out of  20 | elapsed:   28.4s remaining:    7.0s
[Parallel(n_jobs=-1)]: Done  20 out of  20 | elapsed:   55.1s finished


In [28]:
svr_cv_model.best_params_

{'C': 0.5}

In [29]:
# FİNAL MODELİ

In [30]:
svr_tuned_model = SVR("linear", C = 0.5).fit(X_train, y_train)

In [31]:
y_pred = svr_tuned_model.predict(X_test)

In [32]:
np.sqrt(mean_squared_error(y_test, y_pred))

367.9874739022889

In [None]:
# son