# Basit Doğrusal Regresyon - Model Tuning - Model Doğrulama

### Bir araba satıcısı, araba fiyatlarını müşterilerine teklif ederken, arabanın kilometresi ile fiyat arasında bir ilişki olduğunu düşünüyor. bu nedenle, müşterilerin sunduğu birkaç arabanın fiyatını ve kilometresini içeren bir veri seti oluşturuyor.

In [14]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
# veri setinin oluşturulması

np.random.seed(42)
kilometreler = np.random.randint(10000, 200000, 50)
fiyatlar = 10000 + kilometreler * 0.5 + np.random.normal(0, 2000, 50)

df = pd.DataFrame({
    'kilometreler': kilometreler,
    'fiyatlar': fiyatlar
})

df.head()

Unnamed: 0,kilometreler,fiyatlar
0,131958,74777.72262
1,156867,87850.1125
2,141932,79762.586776
3,113694,70551.556369
4,129879,74912.505551


#### Bu kod, 10.000 TL ile 200.000 TL arasında rastgele kilometreler oluşturur ve bunları kullanarak bir fiyat oluşturur. Fiyatlara rastgele bir normal dağılım eklenir.

In [4]:
# bağımlı ve bağımsız değişkenin oluşturulması

X = df[['kilometreler']]
y = df['fiyatlar']

In [5]:
# modelin oluşturulması ve eğitilmesi

model = LinearRegression()
model.fit(X, y)

LinearRegression()

In [17]:
# R-kare değerinin gözlenmesi.
r2_score(y, y_pred)

0.9943169936404143

#### R-kare değeri, 0 ile 1 arasında değer alır ve bağımsız değişkenin bağımlı değişkeni ne kadar iyi açıkladığını temsil eder. Bu, modelin ne kadar başarılı olduğu anlamına da gelebilir. Yukarıda R-kare değerine bakarsak başarılı bir model kurduğumuzu söyleyebiliriz.

In [8]:
# Tahmin işlemi

y_pred = model.predict(X)
y_pred[0:5]

array([75791.04596106, 88197.0168568 , 80758.6140575 , 66694.62890539,
       74755.59638492])

In [11]:
# tahminleri gerçek fiyatlarla karşılaştırma işlemi

rmse = mean_squared_error(y, y_pred, squared=False)
print(f'RMSE: {rmse:.2f}')

RMSE: 1902.70


#### Bu kod, 'mean_squared_error' fonksiyonunu kullanarak, gerçek fiyatlar ve tahmin edilen fiyatları karşılaştırır ve kök ortalama kare hatayı (RMSE) hesaplar. RMSE, modelin tahminlerinin gerçek fiyatlardan ne kadar uzak olduğunu ölçer ve ne kadar düşük olursa, o kadar iyi bir modeldir.

In [13]:
# model tuning ve model doğrulama işlemlerinin yapılması

models = []

for fit_intercept in [True, False]:
    model = LinearRegression(fit_intercept=fit_intercept)
    model.fit(X, y)
    models.append(model)

for i, model in enumerate(models):
    tahminler = model.predict(X)
    rmse = mean_squared_error(y, y_pred, squared=False)
    print(f'Model {i+1} RMSE: {rmse:.2f}')

Model 1 RMSE: 1902.70
Model 2 RMSE: 1902.70


#### Yukarıda, 'fit_intercept' parametresi, modele bir kesim ekleyip eklemediğimizi belirler. Bu kod, 'True' ve 'False' olarak iki farklı değer kullanarak, iki farklı model oluşturur ve her biri için RMSE değerlerini hesaplar.