In [20]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from statsmodels.tools.eval_measures import mse, rmse

# Display preferences.
%matplotlib inline
pd.options.display.float_format = '{:.3f}'.format

import warnings
warnings.filterwarnings(action="ignore")

In [21]:
ev_fiyatlari = pd.read_csv('./data/ev_fiyatlari.csv')

In [22]:
SaleCond=pd.get_dummies(ev_fiyatlari.SaleCondition,prefix='SaleCond', drop_first=True)
SaleTyp=pd.get_dummies(ev_fiyatlari.SaleType,prefix='SaleTyp', drop_first=True)
KitchenQ=pd.get_dummies(ev_fiyatlari.KitchenQual,prefix='KitchenQ', drop_first=True)
numerik_kolonlar = [kolon for kolon in ev_fiyatlari.dtypes[ev_fiyatlari.dtypes.values == 'int64'].index 
                    if kolon not in ["Id", "SalePrice"] ]
X = ev_fiyatlari[numerik_kolonlar]

X=pd.concat([X,KitchenQ,SaleTyp,SaleCond], axis=1)

Y=ev_fiyatlari.SalePrice

In [23]:
#Verimizi eğitim ve test kümesi olarak ayıralım.
X_egitim, X_test, y_egitim, y_test = train_test_split(X, Y, test_size = 0.2, random_state = 465)

In [24]:
lrm = LinearRegression()
lrm.fit(X_egitim, y_egitim)

y_egitim_tahmini = lrm.predict(X_egitim)
y_test_tahmini = lrm.predict(X_test)

print("Eğitim kümesindeki gözlem sayısı  : {}".format(X_egitim.shape[0]))
print("Test kümesindeki gözlem sayısı    : {}".format(X_test.shape[0]), "\n")

print("Eğitim kümesindeki R-Kare değeri  : {}".format(lrm.score(X_egitim, y_egitim)))
print("-----Test kümesi istatistikleri---")
print("Test kümesi R-Kare değeri         : {}".format(lrm.score(X_test, y_test)))
print("Ortalama Mutlak Hata (MAE)        : {}".format(mean_absolute_error(y_test, y_test_tahmini)))
print("Ortalama Kare Hata (MSE)          : {}".format(mse(y_test, y_test_tahmini)))
print("Kök Ortalama Kare Hata (RMSE)     : {}".format(rmse(y_test, y_test_tahmini)))
print("Ortalama Mutlak Yüzde Hata (MAPE) : {}".format(np.mean(np.abs((y_test - y_test_tahmini) / y_test)) * 100))



Eğitim kümesindeki gözlem sayısı  : 1168
Test kümesindeki gözlem sayısı    : 292 

Eğitim kümesindeki R-Kare değeri  : 0.8362911953698019
-----Test kümesi istatistikleri---
Test kümesi R-Kare değeri         : 0.7315172408973368
Ortalama Mutlak Hata (MAE)        : 22811.87899400111
Ortalama Kare Hata (MSE)          : 1945256068.1201859
Kök Ortalama Kare Hata (RMSE)     : 44105.05717171429
Ortalama Mutlak Yüzde Hata (MAPE) : 12.56928724694257


In [27]:
#Ridge regresyonu

from sklearn.linear_model import Ridge

ridgeregr = Ridge(alpha=10) 
ridgeregr.fit(X_egitim, y_egitim)

y_egitim_tahmini = ridgeregr.predict(X_egitim)
y_test_tahmini = ridgeregr.predict(X_test)

print("Eğitim kümesi R-Kare değeri       : {}".format(ridgeregr.score(X_egitim, y_egitim)))
print("-----Test kümesi istatistikleri---")
print("Test kümesi R-Kare değeri         : {}".format(ridgeregr.score(X_test, y_test)))
print("Ortalama Mutlak Hata (MAE)        : {}".format(mean_absolute_error(y_test, y_test_tahmini)))
print("Ortalama Kare Hata (MSE)          : {}".format(mse(y_test, y_test_tahmini)))
print("Kök Ortalama Kare Hata (RMSE)     : {}".format(rmse(y_test, y_test_tahmini)))
print("Ortalama Mutlak Yüzde Hata (MAPE) : {}".format(np.mean(np.abs((y_test - y_test_tahmini) / y_test)) * 100))


Eğitim kümesi R-Kare değeri       : 0.8337373974191298
-----Test kümesi istatistikleri---
Test kümesi R-Kare değeri         : 0.7203984088982109
Ortalama Mutlak Hata (MAE)        : 23117.644994850565
Ortalama Kare Hata (MSE)          : 2025816084.2977538
Kök Ortalama Kare Hata (RMSE)     : 45009.066689920975
Ortalama Mutlak Yüzde Hata (MAPE) : 12.715455952081783


In [28]:
#Lasso regresyonu
from sklearn.linear_model import Lasso

lassoregr = Lasso(alpha=10) 
lassoregr.fit(X_egitim, y_egitim)

y_egitim_tahmini = lassoregr.predict(X_egitim)
y_test_tahmini = lassoregr.predict(X_test)

print("Eğitim kümesi R-Kare değeri       : {}".format(lassoregr.score(X_egitim, y_egitim)))
print("-----Test kümesi istatistikleri---")
print("Test kümesi R-Kare değeri         : {}".format(lassoregr.score(X_test, y_test)))
print("Ortalama Mutlak Hata (MAE)        : {}".format(mean_absolute_error(y_test, y_test_tahmini)))
print("Ortalama Kare Hata (MSE)          : {}".format(mse(y_test, y_test_tahmini)))
print("Kök Ortalama Kare Hata (RMSE)     : {}".format(rmse(y_test, y_test_tahmini)))
print("Ortalama Mutlak Yüzde Hata (MAPE) : {}".format(np.mean(np.abs((y_test - y_test_tahmini) / y_test)) * 100))

#R-kare, eğitim kümesinde 0.75 ve test kümesinde 0,51'tir. Test kümesindeki R kare değeri, bu derste ele aldığımız 
#modeller arasında en yüksek olanıdır. 

Eğitim kümesi R-Kare değeri       : 0.8361674848526645
-----Test kümesi istatistikleri---
Test kümesi R-Kare değeri         : 0.7303724034295821
Ortalama Mutlak Hata (MAE)        : 22801.145073826316
Ortalama Kare Hata (MSE)          : 1953550835.495955
Kök Ortalama Kare Hata (RMSE)     : 44198.99134025521
Ortalama Mutlak Yüzde Hata (MAPE) : 12.527625148118531


In [29]:
#ElasticNet regresyonu

from sklearn.linear_model import ElasticNet

elasticregr = ElasticNet(alpha=10, l1_ratio=0.5) 
elasticregr.fit(X_egitim, y_egitim)

y_egitim_tahmini = elasticregr.predict(X_egitim)
y_test_tahmini = elasticregr.predict(X_test)

print("Eğitim kümesi R-Kare değeri       : {}".format(elasticregr.score(X_egitim, y_egitim)))
print("-----Test kümesi istatistikleri---")
print("Test kümesi R-Kare değeri         : {}".format(elasticregr.score(X_test, y_test)))
print("Ortalama Mutlak Hata (MAE)        : {}".format(mean_absolute_error(y_test, y_test_tahmini)))
print("Ortalama Kare Hata (MSE)          : {}".format(mse(y_test, y_test_tahmini)))
print("Kök Ortalama Kare Hata (RMSE)     : {}".format(rmse(y_test, y_test_tahmini)))
print("Ortalama Mutlak Yüzde Hata (MAPE) : {}".format(np.mean(np.abs((y_test - y_test_tahmini) / y_test)) * 100))

#alpha= alpha1 + alpha2,  l1_ratio =alpha1/(alpha1 + alpha2)

Eğitim kümesi R-Kare değeri       : 0.7711223505533931
-----Test kümesi istatistikleri---
Test kümesi R-Kare değeri         : 0.6156297359833318
Ortalama Mutlak Hata (MAE)        : 27522.277734113817
Ortalama Kare Hata (MSE)          : 2784903548.3037276
Kök Ortalama Kare Hata (RMSE)     : 52772.18536600249
Ortalama Mutlak Yüzde Hata (MAPE) : 14.611838736844055


In [35]:
#ElasticNet regresyonu

from sklearn.linear_model import ElasticNet

elasticregr = ElasticNet(alpha=0, l1_ratio=0.1) 
elasticregr.fit(X_egitim, y_egitim)

y_egitim_tahmini = elasticregr.predict(X_egitim)
y_test_tahmini = elasticregr.predict(X_test)

print("Eğitim kümesi R-Kare değeri       : {}".format(elasticregr.score(X_egitim, y_egitim)))
print("-----Test kümesi istatistikleri---")
print("Test kümesi R-Kare değeri         : {}".format(elasticregr.score(X_test, y_test)))
print("Ortalama Mutlak Hata (MAE)        : {}".format(mean_absolute_error(y_test, y_test_tahmini)))
print("Ortalama Kare Hata (MSE)          : {}".format(mse(y_test, y_test_tahmini)))
print("Kök Ortalama Kare Hata (RMSE)     : {}".format(rmse(y_test, y_test_tahmini)))
print("Ortalama Mutlak Yüzde Hata (MAPE) : {}".format(np.mean(np.abs((y_test - y_test_tahmini) / y_test)) * 100))

#alpha= alpha1 + alpha2,  l1_ratio =alpha1/(alpha1 + alpha2)

Eğitim kümesi R-Kare değeri       : 0.8167691148994566
-----Test kümesi istatistikleri---
Test kümesi R-Kare değeri         : 0.6895761614270884
Ortalama Mutlak Hata (MAE)        : 25126.56289919576
Ortalama Kare Hata (MSE)          : 2249134572.705333
Kök Ortalama Kare Hata (RMSE)     : 47425.04162049131
Ortalama Mutlak Yüzde Hata (MAPE) : 13.913045538097432


In [30]:
print('Değişkenler: \n', elasticregr.coef_)
print('Sabit değer (bias): \n', elasticregr.intercept_)

Değişkenler: 
 [-1.40543319e+02  3.92696570e-01  2.42005134e+03  1.01052114e+03
  5.46569498e+02  4.67020337e+02  2.48181049e+01  4.45256405e+00
  1.27063735e+01  8.88308170e+00  5.36784314e+01  6.00649990e+01
  4.39068366e+01  9.50541318e+00  2.52504877e+02 -1.92408720e+00
  2.22220615e+01 -7.66937622e+01 -5.83260565e+02 -1.81326347e+02
  2.17822939e+02  6.03142916e+02  2.98381595e+02  5.28733992e+01
  4.27236085e+01 -8.84685971e+00  4.95830164e+01  2.33710017e+01
  9.07762091e+01 -3.65323716e+02 -6.54295449e+00 -7.22587503e+01
 -1.94418076e+02  4.73192505e+01 -1.46493480e+02 -4.73787172e+02
  1.94130186e+01  0.00000000e+00 -2.54069843e+00  1.06694436e+01
  1.90804665e+00  2.97426744e+02 -4.06337737e+00 -2.39300862e+02
  2.64914823e+00 -5.72271818e+00 -6.29746907e+01 -1.09893982e+02
  2.91087156e+02]
Sabit değer (bias): 
 -1606044.9558235065
