In [4]:
import numpy as np
import pandas as pd
from sklearn import linear_model
import matplotlib.pyplot as plt
import statsmodels.api as sm
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error
from statsmodels.tools.eval_measures import mse, rmse

import warnings
warnings.filterwarnings('ignore')
house_prices_df = pd.read_csv("house_prices_train.csv")
house_prices_df.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


**Reimplement your model from the previous lesson.**

In [2]:
new_features = house_prices_df[["YearBuilt","LotArea","TotRmsAbvGrd","FullBath","MoSold","HalfBath","GarageCars","SalePrice"]]
Y = new_features['SalePrice']
X = new_features[['YearBuilt','LotArea','MoSold','TotRmsAbvGrd','FullBath','HalfBath','GarageCars']]
lrm = linear_model.LinearRegression()
lrm.fit(X, Y)


X = sm.add_constant(X)
results = sm.OLS(Y, X).fit()
results.summary()

0,1,2,3
Dep. Variable:,SalePrice,R-squared:,0.604
Model:,OLS,Adj. R-squared:,0.602
Method:,Least Squares,F-statistic:,316.0
Date:,"Sat, 04 Dec 2021",Prob (F-statistic):,1.83e-286
Time:,21:36:42,Log-Likelihood:,-17868.0
No. Observations:,1460,AIC:,35750.0
Df Residuals:,1452,BIC:,35800.0
Df Model:,7,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
const,-1.428e+06,1.15e+05,-12.454,0.000,-1.65e+06,-1.2e+06
YearBuilt,718.3683,58.871,12.202,0.000,602.887,833.849
LotArea,1.1279,0.135,8.352,0.000,0.863,1.393
MoSold,412.4068,486.515,0.848,0.397,-541.940,1366.754
TotRmsAbvGrd,1.488e+04,1119.773,13.293,0.000,1.27e+04,1.71e+04
FullBath,1.383e+04,3409.167,4.057,0.000,7143.147,2.05e+04
HalfBath,4828.7097,2924.668,1.651,0.099,-908.316,1.06e+04
GarageCars,3.284e+04,2269.839,14.468,0.000,2.84e+04,3.73e+04

0,1,2,3
Omnibus:,649.002,Durbin-Watson:,1.984
Prob(Omnibus):,0.0,Jarque-Bera (JB):,7481.432
Skew:,1.755,Prob(JB):,0.0
Kurtosis:,13.519,Cond. No.,1270000.0


**OLS İÇİN;**

In [6]:
X_egitim, X_test, y_egitim, y_test = train_test_split(X, Y, test_size = 0.2, random_state = 465)
lrm = LinearRegression()
lrm.fit(X_egitim, y_egitim)

y_egitim_tahmini = lrm.predict(X_egitim)
y_test_tahmini = lrm.predict(X_test)

print("Eğitim kümesindeki gözlem sayısı  : {}".format(X_egitim.shape[0]))
print("Test kümesindeki gözlem sayısı    : {}".format(X_test.shape[0]), "\n")

print("Eğitim kümesindeki R-Kare değeri  : {}".format(lrm.score(X_egitim, y_egitim)))
print("-----Test kümesi istatistikleri---")
print("Test kümesi R-Kare değeri         : {}".format(lrm.score(X_test, y_test)))
print("Ortalama Mutlak Hata (MAE)        : {}".format(mean_absolute_error(y_test, y_test_tahmini)))
print("Ortalama Kare Hata (MSE)          : {}".format(mse(y_test, y_test_tahmini)))
print("Kök Ortalama Kare Hata (RMSE)     : {}".format(rmse(y_test, y_test_tahmini)))
print("Ortalama Mutlak Yüzde Hata (MAPE) : {}".format(np.mean(np.abs((y_test - y_test_tahmini) / y_test)) * 100))

Eğitim kümesindeki gözlem sayısı  : 1168
Test kümesindeki gözlem sayısı    : 292 

Eğitim kümesindeki R-Kare değeri  : 0.6288628308625757
-----Test kümesi istatistikleri---
Test kümesi R-Kare değeri         : 0.5141449062296377
Ortalama Mutlak Hata (MAE)        : 38235.53904094787
Ortalama Kare Hata (MSE)          : 3520198364.106145
Kök Ortalama Kare Hata (RMSE)     : 59331.259586377775
Ortalama Mutlak Yüzde Hata (MAPE) : 21.326554994260498


**RİDGE İÇİN;**

In [14]:
from sklearn.linear_model import Ridge

ridgeregr = Ridge(alpha=1) 
ridgeregr.fit(X_egitim, y_egitim)

y_egitim_tahmini = ridgeregr.predict(X_egitim)
y_test_tahmini = ridgeregr.predict(X_test)

print("Eğitim kümesi R-Kare değeri       : {}".format(ridgeregr.score(X_egitim, y_egitim)))
print("-----Test kümesi istatistikleri---")
print("Test kümesi R-Kare değeri         : {}".format(ridgeregr.score(X_test, y_test)))
print("Ortalama Mutlak Hata (MAE)        : {}".format(mean_absolute_error(y_test, y_test_tahmini)))
print("Ortalama Kare Hata (MSE)          : {}".format(mse(y_test, y_test_tahmini)))
print("Kök Ortalama Kare Hata (RMSE)     : {}".format(rmse(y_test, y_test_tahmini)))
print("Ortalama Mutlak Yüzde Hata (MAPE) : {}".format(np.mean(np.abs((y_test - y_test_tahmini) / y_test)) * 100))

Eğitim kümesi R-Kare değeri       : 0.6288623950689181
-----Test kümesi istatistikleri---
Test kümesi R-Kare değeri         : 0.5142051523511015
Ortalama Mutlak Hata (MAE)        : 38227.34428369209
Ortalama Kare Hata (MSE)          : 3519761858.8580985
Kök Ortalama Kare Hata (RMSE)     : 59327.58092875605
Ortalama Mutlak Yüzde Hata (MAPE) : 21.31891756946661


**LASSO İÇİN;**

In [26]:
from sklearn.linear_model import Lasso

lassoregr = Lasso(alpha=1) 
lassoregr.fit(X_egitim, y_egitim)

y_egitim_tahmini = lassoregr.predict(X_egitim)
y_test_tahmini = lassoregr.predict(X_test)

print("Eğitim kümesi R-Kare değeri       : {}".format(lassoregr.score(X_egitim, y_egitim)))
print("-----Test kümesi istatistikleri---")
print("Test kümesi R-Kare değeri         : {}".format(lassoregr.score(X_test, y_test)))
print("Ortalama Mutlak Hata (MAE)        : {}".format(mean_absolute_error(y_test, y_test_tahmini)))
print("Ortalama Kare Hata (MSE)          : {}".format(mse(y_test, y_test_tahmini)))
print("Kök Ortalama Kare Hata (RMSE)     : {}".format(rmse(y_test, y_test_tahmini)))
print("Ortalama Mutlak Yüzde Hata (MAPE) : {}".format(np.mean(np.abs((y_test - y_test_tahmini) / y_test)) * 100))

Eğitim kümesi R-Kare değeri       : 0.6288628288947129
-----Test kümesi istatistikleri---
Test kümesi R-Kare değeri         : 0.5141447161125635
Ortalama Mutlak Hata (MAE)        : 38235.331743266215
Ortalama Kare Hata (MSE)          : 3520199741.574082
Kök Ortalama Kare Hata (RMSE)     : 59331.271194658235
Ortalama Mutlak Yüzde Hata (MAPE) : 21.326449559725784


**ELASTICNET İÇİN;**

In [24]:
from sklearn.linear_model import ElasticNet

elasticregr = ElasticNet(alpha=1, l1_ratio=0.5) 
elasticregr.fit(X_egitim, y_egitim)

y_egitim_tahmini = elasticregr.predict(X_egitim)
y_test_tahmini = elasticregr.predict(X_test)

print("Eğitim kümesi R-Kare değeri       : {}".format(elasticregr.score(X_egitim, y_egitim)))
print("-----Test kümesi istatistikleri---")
print("Test kümesi R-Kare değeri         : {}".format(elasticregr.score(X_test, y_test)))
print("Ortalama Mutlak Hata (MAE)        : {}".format(mean_absolute_error(y_test, y_test_tahmini)))
print("Ortalama Kare Hata (MSE)          : {}".format(mse(y_test, y_test_tahmini)))
print("Kök Ortalama Kare Hata (RMSE)     : {}".format(rmse(y_test, y_test_tahmini)))
print("Ortalama Mutlak Yüzde Hata (MAPE) : {}".format(np.mean(np.abs((y_test - y_test_tahmini) / y_test)) * 100))

Eğitim kümesi R-Kare değeri       : 0.6019997477661702
-----Test kümesi istatistikleri---
Test kümesi R-Kare değeri         : 0.5129957023339433
Ortalama Mutlak Hata (MAE)        : 37009.95056877746
Ortalama Kare Hata (MSE)          : 3528524767.8539257
Kök Ortalama Kare Hata (RMSE)     : 59401.38691860592
Ortalama Mutlak Yüzde Hata (MAPE) : 19.937675862063525


Modellerin değerleri birbirine çok yakın çıktı ancak çok ufak farkla LASSO daha iyi gözüküyor.