# Basit Doğrusal Regresyon - Model Tuning - Model Doğrulama

### Cengiz otomotiv, bir otomobil satıcısıdır ve müşterilerine ikinci el arabalar satmaktadır. ABC otomotiv, araba fiyatlarını belirlemek için araba kilometrelerini gibi faktörler kullanır. Ancak, fiyatlandırma konusunda doğru bilgiye sahip olmadıkları için, bazen müşterilere yanlış fiyatlar teklif ederler. Bu nedenle, Cengiz otomotiv, müşterilerine daha doğru fiyatlar teklif etmek için bir model oluşturmak istiyor.

In [17]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.model_selection import train_test_split, GridSearchCV

In [4]:
# veri setinin oluşturulması
# X bağımsız değişkeni kilometreleri
# y bağımlı değişkeni ise satın alma fiyatlarını temsil ediyor.
X = np.array([10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180, 190, 200]).reshape(-1, 1)
y = np.array([20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115])

In [5]:
# modeli oluşturma ve eğitme

model = LinearRegression()
model.fit(X, y)

LinearRegression()

In [7]:
# R-kare değeri

r2_scoree = r2_score(X, y)
print('R-kare değeri: ', r2_scoree)

R-kare değeri:  0.3270676691729323


#### R-kare değeri, modelin çok iyi olmadığını gösteriyor.

In [9]:
# Tahmin
y_pred = model.predict(X)

In [10]:
# Hata değeri

mse = mean_squared_error(y, y_pred)
print('Hata değeri: ', mse)

Hata değeri:  5.869125134844328e-29


#### Modelin performansını arttırmak için, modele daha fazla özellik ekleyebiliriz. Mesela araba yaşını (yıl cinsinden) ekleyebiliriz. Ayrıca, modelimizin performansını ölçmek için, veri setimizi eğitim ve test setlerine ayırabilir ve modelimizi test setinde değerlendirebiliriz.

In [12]:
# veri setinin bağımsız değişkenlerine araba yaşı özelliğini de ekledik.


X = np.array([[10, 1], [20, 2], [30, 3], [40, 4], [50, 5], [60, 6], [70, 7], [80, 8], [90, 9], [100, 10], [110, 11], [120, 12], [130, 13], [140, 14], [150, 15], [160, 16], [170, 17], [180, 18], [190, 19], [200, 20]])
y = np.array([20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95, 100, 105, 110, 115])

In [13]:
# veri setini eğitim ve test setlerine ayırma

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

In [14]:
# modeli eğitelim.

reg = LinearRegression().fit(X_train, y_train)

In [15]:
# Tahmin

y_pred = reg.predict(X_test)
y_pred[0:5]

array([110.,  25., 115.,  60.])

In [16]:
# Hata Değeri

mse = mean_squared_error(y_test, y_pred)
print('Hata değeri: ', mse)

Hata değeri:  5.174927538249837e-28


In [18]:
# Model Tuning İşlemi

params = {'fit_intercept':[True, False], 'normalize':[True, False], 'copy_X':[True, False]}

grid_search = GridSearchCV(estimator=reg, param_grid=params, cv=10, n_jobs=-1)
grid_search.fit(X_train, y_train)

print('En iyi parametreler: ', grid_search.best_params_)
print('En iyi skor: ', grid_search.best_score_)

En iyi parametreler:  {'copy_X': True, 'fit_intercept': True, 'normalize': True}
En iyi skor:  nan


If you wish to scale the data, use Pipeline with a StandardScaler in a preprocessing stage. To reproduce the previous behavior:

from sklearn.pipeline import make_pipeline

model = make_pipeline(StandardScaler(with_mean=False), LinearRegression())

If you wish to pass a sample_weight parameter, you need to pass it as a fit parameter to each step of the pipeline as follows:

kwargs = {s[0] + '__sample_weight': sample_weight for s in model.steps}
model.fit(X, y, **kwargs)




In [20]:
# En iyi modeli kullanarak tahmin yapma

y_pred = grid_search.predict(X_test)
y_pred[0:5]

array([110.,  25., 115.,  60.])

In [21]:
# Hata Değeri

mse = mean_squared_error(y_test, y_pred)
print('Hata Değeri: ', mse)

Hata Değeri:  1.2937318845624594e-28


In [23]:
data = pd.DataFrame({
    'Gerçek Değerler': y_test[0:5],
    'Tahmin Değerleri': y_pred[0:5]
})

data

Unnamed: 0,Gerçek Değerler,Tahmin Değerleri
0,110,110.0
1,25,25.0
2,115,115.0
3,60,60.0


#### Model tuning işlemi için GridSearchCV() fonksiyonunu kullanıyoruz. Bu fonksiyon, farklı hiperparametre değerlerinin kombinasyonlarını deneyerek en iyi parametreleri ve en iyi skoru bulur. Daha sonra, en iyi parametreleri kullanarak modeli tekrar eğitiriz ve test setindeki verileri kullanarak tahmin yaparız. Son olarak hata değerini hesaplarız.

#### fit_intercept, normalize ve copy_X hiperparametreleri ile ilgili farklı değerler deniyoruz ve 10 k-fold cross validation yöntemini kullanıyoruz. En iyi parametreler fit_intercept=True, normalize=True, ve copy_X=True olarak belirleniyor. Model tuning işleminden sonra hata değeri düşürülmüş ve daha iyi bir model elde edilmiştir.