# _Predict House Pricing Using Advanced Regression_

_**Regression;**_ <br>
_> Geçmiş verilerden geleceği tahmin etmek için kullanılır._ <br>
_> İki veya daha fazla değişken arasındaki ilişkiyi analiz etmek için kullanılan bir yöntemdir._

_Bu projede, verilen konut verilerini işleyip **feature engineering** uygulayarak gelişmiş **regresyon modelleriyle** ev fiyatlarını tahmin edeceğiz._

### _Paketleri İmport Edelim_

In [1]:
import pandas as pd  # Pandas kütüphanesini veri manipülasyonu için içe aktarır
import matplotlib.pyplot as plt  # Grafik çizimi için matplotlib.pyplot'u içe aktarır
import seaborn as sns  # Gelişmiş veri görselleştirmeleri için seaborn'u içe aktarır
import warnings  # Uyarıları kontrol etmek için warnings modülünü içe aktarır
warnings.filterwarnings("ignore")  # Tüm uyarıları görmezden gelerek temiz çıktı sağlar

### _Data Dosyasını Okuyalım_

In [2]:
df1 = pd.read_csv('train.csv')  # 'train.csv' dosyasını okuyarak df1 veri çerçevesine aktarır
df2 = pd.read_csv('test.csv')   # 'test.csv' dosyasını okuyarak df2 veri çerçevesine aktarır
df = pd.concat([df1, df2], ignore_index=True)  # df1 ve df2'yi birleştirir ve indeksleri yeniden sıralar

### _Eda (Exploratory Data Analysis) yapalım_

In [3]:
df1.shape  # df1 veri çerçevesinin satır ve sütun sayısını (boyutlarını) gösterir

(1460, 81)

In [4]:
df2.shape  # df2 veri çerçevesinin satır ve sütun sayısını (boyutlarını) gösterir

(1459, 80)

In [5]:
df1.head()  # df1 veri çerçevesinin ilk 5 satırını gösterir, veri yapısını hızlıca incelemek için kullanılır

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [6]:
df2.head()  # df2 veri çerçevesinin ilk 5 satırını gösterir, test verisinin yapısını hızlıca incelemek için kullanılır

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1461,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,...,120,0,,MnPrv,,0,6,2010,WD,Normal
1,1462,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,...,0,0,,,Gar2,12500,6,2010,WD,Normal
2,1463,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,...,0,0,,MnPrv,,0,3,2010,WD,Normal
3,1464,60,RL,78.0,9978,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,6,2010,WD,Normal
4,1465,120,RL,43.0,5005,Pave,,IR1,HLS,AllPub,...,144,0,,,,0,1,2010,WD,Normal


In [7]:
df.head()  # Birleştirilmiş df veri çerçevesinin ilk 5 satırını gösterir, tüm verinin yapısını hızlıca görmek için kullanılır

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500.0
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500.0
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500.0
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000.0
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000.0


In [8]:
df.tail()  # Birleştirilmiş df veri çerçevesinin son 5 satırını gösterir, verinin son kısmını incelemek için kullanılır

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
2914,2915,160,RM,21.0,1936,Pave,,Reg,Lvl,AllPub,...,0,,,,0,6,2006,WD,Normal,
2915,2916,160,RM,21.0,1894,Pave,,Reg,Lvl,AllPub,...,0,,,,0,4,2006,WD,Abnorml,
2916,2917,20,RL,160.0,20000,Pave,,Reg,Lvl,AllPub,...,0,,,,0,9,2006,WD,Abnorml,
2917,2918,85,RL,62.0,10441,Pave,,Reg,Lvl,AllPub,...,0,,MnPrv,Shed,700,7,2006,WD,Normal,
2918,2919,60,RL,74.0,9627,Pave,,Reg,Lvl,AllPub,...,0,,,,0,11,2006,WD,Normal,


In [9]:
df.sample()  # Birleştirilmiş df veri çerçevesinden rastgele bir satır seçip gösterir, veri örneğini hızlıca incelemek için kullanılır

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
133,134,20,RL,,6853,Pave,,IR1,Lvl,AllPub,...,0,,,,0,6,2009,WD,Normal,220000.0


In [10]:
df.shape

(2919, 81)

In [11]:
df.info()  # df veri çerçevesinin sütun isimlerini, veri tiplerini ve eksik değer sayılarını özetler

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2919 entries, 0 to 2918
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             2919 non-null   int64  
 1   MSSubClass     2919 non-null   int64  
 2   MSZoning       2915 non-null   object 
 3   LotFrontage    2433 non-null   float64
 4   LotArea        2919 non-null   int64  
 5   Street         2919 non-null   object 
 6   Alley          198 non-null    object 
 7   LotShape       2919 non-null   object 
 8   LandContour    2919 non-null   object 
 9   Utilities      2917 non-null   object 
 10  LotConfig      2919 non-null   object 
 11  LandSlope      2919 non-null   object 
 12  Neighborhood   2919 non-null   object 
 13  Condition1     2919 non-null   object 
 14  Condition2     2919 non-null   object 
 15  BldgType       2919 non-null   object 
 16  HouseStyle     2919 non-null   object 
 17  OverallQual    2919 non-null   int64  
 18  OverallC

In [12]:
df.describe()  # Sayısal sütunlar için temel istatistikleri (ortalama, std, min, max, çeyrekler) özetler

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,2919.0,2919.0,2433.0,2919.0,2919.0,2919.0,2919.0,2919.0,2896.0,2918.0,...,2919.0,2919.0,2919.0,2919.0,2919.0,2919.0,2919.0,2919.0,2919.0,1460.0
mean,1460.0,57.137718,69.305795,10168.11408,6.089072,5.564577,1971.312778,1984.264474,102.201312,441.423235,...,93.709832,47.486811,23.098321,2.602261,16.06235,2.251799,50.825968,6.213087,2007.792737,180921.19589
std,842.787043,42.517628,23.344905,7886.996359,1.409947,1.113131,30.291442,20.894344,179.334253,455.610826,...,126.526589,67.575493,64.244246,25.188169,56.184365,35.663946,567.402211,2.714762,1.314964,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,730.5,20.0,59.0,7478.0,5.0,5.0,1953.5,1965.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0,2007.0,129975.0
50%,1460.0,50.0,68.0,9453.0,6.0,5.0,1973.0,1993.0,0.0,368.5,...,0.0,26.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,2189.5,70.0,80.0,11570.0,7.0,6.0,2001.0,2004.0,164.0,733.0,...,168.0,70.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,2919.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,1424.0,742.0,1012.0,508.0,576.0,800.0,17000.0,12.0,2010.0,755000.0


In [13]:
df.corr(numeric_only=True)  # Sayısal sütunlar arasındaki korelasyonları hesaplar ve ilişki yoğunluğunu gösterir

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
Id,1.0,0.008931,-0.027549,-0.040746,-0.029771,-0.002839,-0.016581,-0.050438,-0.025219,-0.016947,...,-0.007056,0.00996,0.021609,-0.046538,0.022208,0.014332,0.008244,0.006448,-0.25605,-0.021917
MSSubClass,0.008931,1.0,-0.417359,-0.20173,0.033638,-0.065625,0.034409,0.043315,0.005433,-0.064311,...,-0.017654,-0.015923,-0.020867,-0.037529,-0.049181,-0.00308,-0.028867,-0.001231,-0.015028,-0.084284
LotFrontage,-0.027549,-0.417359,1.0,0.489896,0.217645,-0.075508,0.122811,0.091557,0.221079,0.219408,...,0.12207,0.164896,0.011509,0.028289,0.075858,0.174119,0.044272,0.011254,-0.007917,0.351799
LotArea,-0.040746,-0.20173,0.489896,1.0,0.100541,-0.035617,0.024128,0.021612,0.125596,0.194031,...,0.158045,0.104797,0.020974,0.015995,0.054375,0.093708,0.069029,0.004156,-0.024234,0.263843
OverallQual,-0.029771,0.033638,0.217645,0.100541,1.0,-0.093847,0.597554,0.571532,0.432947,0.28181,...,0.255317,0.298084,-0.139256,0.018715,0.04291,0.03074,0.005562,0.030405,-0.019614,0.790982
OverallCond,-0.002839,-0.065625,-0.075508,-0.035617,-0.093847,1.0,-0.368477,0.047654,-0.136007,-0.050418,...,0.020123,-0.068978,0.071044,0.043739,0.043713,-0.016876,0.033956,-0.006256,0.030102,-0.077856
YearBuilt,-0.016581,0.034409,0.122811,0.024128,0.597554,-0.368477,1.0,0.612235,0.314051,0.279581,...,0.229426,0.198554,-0.374073,0.015958,-0.041046,0.002304,-0.010886,0.013938,-0.012344,0.522897
YearRemodAdd,-0.050438,0.043315,0.091557,0.021612,0.571532,0.047654,0.612235,1.0,0.196875,0.152126,...,0.218513,0.242182,-0.220456,0.037433,-0.046878,-0.011407,-0.003124,0.017693,0.033203,0.507101
MasVnrArea,-0.025219,0.005433,0.221079,0.125596,0.432947,-0.136007,0.314051,0.196875,1.0,0.30349,...,0.1662,0.14465,-0.111499,0.013612,0.065209,0.004512,0.044811,-0.000117,-0.01851,0.477493
BsmtFinSF1,-0.016947,-0.064311,0.219408,0.194031,0.28181,-0.050418,0.279581,0.152126,0.30349,1.0,...,0.223492,0.124163,-0.099712,0.050908,0.096823,0.084462,0.093295,-0.000942,0.022556,0.38642


### _Eksik Değer Analizi (Missing Value Analysis)_

In [14]:
# Eksik değer sayısı
missing = df.isnull().sum().sort_values(ascending=False)  # Her sütundaki eksik değerleri sayar ve çoktan aza doğru sıralar
missing[missing > 0]  # Eksik değeri olan sütunları ve eksik sayılarını gösterir

PoolQC          2909
MiscFeature     2814
Alley           2721
Fence           2348
MasVnrType      1766
SalePrice       1459
FireplaceQu     1420
LotFrontage      486
GarageCond       159
GarageYrBlt      159
GarageFinish     159
GarageQual       159
GarageType       157
BsmtExposure      82
BsmtCond          82
BsmtQual          81
BsmtFinType2      80
BsmtFinType1      79
MasVnrArea        23
MSZoning           4
Functional         2
BsmtFullBath       2
Utilities          2
BsmtHalfBath       2
SaleType           1
BsmtFinSF2         1
BsmtFinSF1         1
TotalBsmtSF        1
BsmtUnfSF          1
Exterior2nd        1
KitchenQual        1
GarageCars         1
GarageArea         1
Electrical         1
Exterior1st        1
dtype: int64

In [15]:
none_cols = ['Alley','BsmtQual','BsmtCond','BsmtExposure','BsmtFinType1','BsmtFinType2',
             'FireplaceQu','GarageType','GarageFinish','GarageQual','GarageCond',
             'PoolQC','Fence','MiscFeature','MasVnrType']  # Eksikliği 'None' ile doldurulacak kategorik sütunları listeler

intersection1 = list(set(none_cols) & set(df.columns))  # Belirtilen sütunlardan df içinde mevcut olanları seçer
df[intersection1] = df[intersection1].fillna('None')  # Bu sütunlardaki eksik değerleri 'None' ile doldurur

In [16]:
zero_cols = ['BsmtFinSF1','BsmtFinSF2','BsmtUnfSF','TotalBsmtSF','GarageArea','GarageCars','MasVnrArea']  # Eksikliği 0 ile doldurulacak sayısal sütunları listeler

intersection2 = list(set(zero_cols) & set(df.columns))  # Belirtilen sütunlardan df içinde mevcut olanları seçer
df[intersection2] = df[intersection2].fillna(0)  # Bu sütunlardaki eksik değerleri 0 ile doldurur

In [17]:
if 'LotFrontage' in df.columns and 'Neighborhood' in df.columns:
    # Her mahalle (Neighborhood) için LotFrontage eksik değerlerini o mahalledeki medyan ile doldurur
    df['LotFrontage'] = df.groupby('Neighborhood')['LotFrontage'].transform(lambda x: x.fillna(x.median()))

In [18]:
small_missing = ['MSZoning','Functional','Utilities','SaleType','Electrical','Exterior1st','Exterior2nd']  
# Küçük eksik değerleri olan kategorik sütunları listeler

intersection3 = list(set(small_missing) & set(df.columns))  # Belirtilen sütunlardan df içinde mevcut olanları seçer
df[intersection3] = df[intersection3].apply(lambda col: col.fillna(col.mode()[0]))  
# Her sütundaki eksik değerleri sütunun en sık görülen değeri (mod) ile doldurur

In [19]:
if 'GarageYrBlt' in df.columns:
    # GarageYrBlt sütunundaki eksik değerleri 0 ile doldurur
    df['GarageYrBlt'] = df['GarageYrBlt'].fillna(0)

In [20]:
bath_zero = ['BsmtFullBath', 'BsmtHalfBath']  # Eksikliği 0 ile doldurulacak banyo sayısı sütunlarını listeler
intersection_bath = list(set(bath_zero) & set(df.columns))  # df içinde mevcut olanları seçer
df[intersection_bath] = df[intersection_bath].fillna(0)  # Bu sütunlardaki eksik değerleri 0 ile doldurur

In [21]:
if 'KitchenQual' in df.columns:
    # KitchenQual sütunundaki eksik değerleri sütunun en sık görülen değeri (mod) ile doldurur
    df['KitchenQual'] = df['KitchenQual'].fillna(df['KitchenQual'].mode()[0])

In [22]:
df.isnull().sum().sort_values(ascending=False).head()  
# Hâlâ eksik değeri olan sütunları sayar, çoktan aza sıralar ve ilk 5 sütunu gösterir

SalePrice      1459
MSSubClass        0
MSZoning          0
LotFrontage       0
LotArea           0
dtype: int64

### _Feature Engineering_

In [23]:
# Feature engineering: Yeni sütunlar ekleyerek evin yaşı, toplam alan, banyo sayısı, garaj/pool varlığı, veranda alanı ve nitelik skorları hesaplanır
df = df.assign(
    HouseAge = df['YrSold'] - df['YearBuilt'],  # Evin satış yılına göre yaşı
    SinceRemod = df['YrSold'] - df['YearRemodAdd'],  # Yenilemeden bu yana geçen yıl
    TotalSF = df['TotalBsmtSF'].fillna(0) + df['1stFlrSF'].fillna(0) + df['2ndFlrSF'].fillna(0),  # Toplam kullanım alanı
    TotalBath = df['FullBath'] + 0.5*df['HalfBath'] + df['BsmtFullBath'].fillna(0) + 0.5*df['BsmtHalfBath'].fillna(0),  # Toplam banyo sayısı
    HasGarage = (df['GarageArea'].fillna(0) > 0).astype(int),  # Garaj var mı (1) yok mu (0)
    HasPool = (df['PoolArea'].fillna(0) > 0).astype(int),  # Havuz var mı (1) yok mu (0)
    TotalPorchSF = df['OpenPorchSF'] + df['EnclosedPorch'] + df['3SsnPorch'] + df['ScreenPorch'],  # Toplam veranda alanı
    ExterQual_ord = df['ExterQual'].map({'Ex':5,'Gd':4,'TA':3,'Fa':2,'Po':1}),  # Dış kaliteyi sayısal sıraya çevirir
    KitchenQual_ord = df['KitchenQual'].map({'Ex':5,'Gd':4,'TA':3,'Fa':2,'Po':1}),  # Mutfak kalitesini sayısal sıraya çevirir
    FireplaceQu_ord = df['FireplaceQu'].map({'Ex':5,'Gd':4,'TA':3,'Fa':2,'Po':1,'None':0})  # Şömine kalitesini sayısal sıraya çevirir
)

### _Regression Modelling_

In [24]:
train = df[:1460]  # Birleştirilmiş veri çerçevesinden ilk 1460 satır eğitim verisi olarak ayrılır
test = df[1460:]   # Kalan satırlar test verisi olarak ayrılır

In [25]:
x = train.drop('SalePrice', axis=1)  # Eğitim verisinden hedef değişken (SalePrice) hariç tüm özellikler alınır
y = train['SalePrice']               # Hedef değişken SalePrice ayrı bir değişkene atanır

In [26]:
x=pd.get_dummies(x,drop_first=True) # yazılı olan sutunları rakama çevirdik

#### _Gerekli kütüphaneleri import edelim;_

In [27]:
from sklearn.linear_model import LinearRegression, SGDRegressor, Ridge, Lasso, ElasticNet  
# Çeşitli lineer regresyon modellerini içe aktarır

from sklearn.neighbors import KNeighborsRegressor, RadiusNeighborsRegressor  
# Komşuluk tabanlı regresyon modellerini içe aktarır

from sklearn.ensemble import GradientBoostingRegressor, AdaBoostRegressor  
# Ensemble yöntemleri ile regresyon modellerini içe aktarır

from sklearn.tree import DecisionTreeRegressor, plot_tree, ExtraTreeRegressor  
# Karar ağacı ve ekstra ağaç regresyon modellerini ve görselleştirme fonksiyonunu içe aktarır

from xgboost import XGBRegressor  
# XGBoost regresyon modelini içe aktarır

from sklearn.svm import SVR  
# Destek vektör makinesi ile regresyon modeli (SVR) içe aktarır

from sklearn.neural_network import MLPRegressor  
# Çok katmanlı yapay sinir ağı regresyon modeli (MLP) içe aktarır

from sklearn.model_selection import train_test_split  
# Veriyi eğitim ve test olarak bölmek için fonksiyon

from sklearn.metrics import mean_squared_error, r2_score, mean_absolute_error  
# Model performansını değerlendirmek için hata ve skor metriklerini içe aktarır

from sklearn.preprocessing import StandardScaler  
# Özellikleri standartlaştırmak için ölçekleyici

from sklearn.preprocessing import MinMaxScaler  
# Özellikleri 0-1 aralığına ölçeklemek için MinMax ölçekleyici

#### _Datayı ikiye bölelim;_

In [28]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=42)

# (x,y) yi ikiye böl. train ve test olarak ayır.
# test_size=0.20 => %20 lik dilimi test için ayırdık.
# random_state=42 => random sayılar üretirken aynısını seçmesi için 42 yazıyoruz.

In [29]:
x_train.shape

# verinin 1168 ünü inceleyeceğiz.

(1168, 270)

In [30]:
x_test.shape

# verinin 292 ini test için kenara ayırdık

(292, 270)

#### _Modelling_

In [31]:
def algo_test(x, y):
    # Bütün modelleri tanımlıyorum
    L = LinearRegression()  
    R = Ridge()  
    Lass = Lasso()  
    E = ElasticNet()  
    sgd = SGDRegressor()  
    ETR = ExtraTreeRegressor()  
    GBR = GradientBoostingRegressor()  
    kn = KNeighborsRegressor()  
    rkn = RadiusNeighborsRegressor(radius=1.0)  
    ada = AdaBoostRegressor()  
    dt = DecisionTreeRegressor()  
    xgb = XGBRegressor()  
    svr = SVR()  
    mlp_regressor = MLPRegressor()  

    # Modelleri ve isimlerini listeliyorum
    algos = [L, R, Lass, E, sgd, ETR, GBR, ada, kn, dt, xgb, svr, mlp_regressor]  
    algo_names = ['Linear', 'Ridge', 'Lasso', 'ElasticNet', 'SGD', 'Extra Tree', 'Gradient Boosting',
                  'KNeighborsRegressor', 'AdaBoost', 'Decision Tree', 'XGBRegressor', 'SVR', 'mlp_regressor']

    # Özellikleri 0-1 aralığına ölçeklendiriyorum
    x = MinMaxScaler().fit_transform(x)  

    # Veriyi eğitim ve test olarak %80-%20 oranında ayırıyorum
    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.20, random_state=42)  

    r_squared = []  # R² skorlarını tutacak liste
    rmse = []       # RMSE değerlerini tutacak liste
    mae = []        # MAE değerlerini tutacak liste

    # Hata ve doğruluk oranlarını tablo halinde saklamak için dataframe oluşturuyorum
    result = pd.DataFrame(columns=['R_Squared', 'RMSE', 'MAE'], index=algo_names)  

    # Her model için eğitim, tahmin ve metrik hesaplama
    for algo in algos:
        p = algo.fit(x_train, y_train).predict(x_test)  # Modeli eğitip tahmin yap
        r_squared.append(r2_score(y_test, p))          # R² skorunu ekle
        rmse.append(mean_squared_error(y_test, p)**0.5)  # RMSE ekle
        mae.append(mean_absolute_error(y_test, p))     # MAE ekle

    # Sonuçları dataframe'e yerleştir
    result.R_Squared = r_squared
    result.RMSE = rmse
    result.MAE = mae

    # Sonuçları R² skoruna göre azalan şekilde sıralayıp döndür
    rtable = result.sort_values('R_Squared', ascending=False)  
    return rtable

In [32]:
algo_test(x, y)  # Tanımlanan tüm regresyon modellerini x ve y verisi üzerinde test eder ve R², RMSE, MAE metriklerine göre sıralanmış tablo döndürür

Unnamed: 0,R_Squared,RMSE,MAE
XGBRegressor,0.907987,26566.360072,17360.129856
Gradient Boosting,0.895752,28277.477534,16534.814205
Ridge,0.871454,31400.455388,20389.552169
SGD,0.864008,32297.114389,20454.619718
Lasso,0.836521,35411.024392,19455.311699
KNeighborsRegressor,0.823772,36765.88017,24391.649399
Extra Tree,0.794436,39708.220249,26860.328767
Decision Tree,0.770129,41990.345757,26062.938356
AdaBoost,0.73969,44684.071915,25996.593836
ElasticNet,0.626144,53549.933137,31805.063733


_Bu projede konut veri seti üzerinde veri temizleme, feature engineering ve kategorik verilerin sayısallaştırılması yapıldıktan sonra farklı regresyon modelleri ile ev fiyatları tahmin edildi. Yapılan karşılaştırmada XGBRegressor ve Gradient Boosting modelleri en iyi performansı gösterdi._