<a href="https://colab.research.google.com/github/AveryHsieh/Machine-Learning/blob/main/HouseRentPrediction.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

##載入函式庫（libraries）

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score

## 導入data set


資料集來源 : https://www.kaggle.com/datasets/iamsouravbanerjee/house-rent-prediction-dataset/*data*

連接Google Drive，並使用read_csv()函數導入CSV格式的數據集

In [None]:
#連接Google雲端硬碟
from google.colab import drive
drive.mount('/content/drive')

house_rent_data = pd.read_csv("/content/drive/MyDrive/112-1/機器學習觀念與應用/練習二/House_Rent_Dataset.csv")


Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## 查看資料集

In [None]:
house_rent_data.head()

Unnamed: 0,Posted On,BHK,Rent,Size,Floor,Area Type,Area Locality,City,Furnishing Status,Tenant Preferred,Bathroom,Point of Contact
0,2022-05-18,2,10000,1100,Ground out of 2,Super Area,Bandel,Kolkata,Unfurnished,Bachelors/Family,2,Contact Owner
1,2022-05-13,2,20000,800,1 out of 3,Super Area,"Phool Bagan, Kankurgachi",Kolkata,Semi-Furnished,Bachelors/Family,1,Contact Owner
2,2022-05-16,2,17000,1000,1 out of 3,Super Area,Salt Lake City Sector 2,Kolkata,Semi-Furnished,Bachelors/Family,1,Contact Owner
3,2022-07-04,2,10000,800,1 out of 2,Super Area,Dumdum Park,Kolkata,Unfurnished,Bachelors/Family,1,Contact Owner
4,2022-05-09,2,7500,850,1 out of 2,Carpet Area,South Dum Dum,Kolkata,Unfurnished,Bachelors,1,Contact Owner


In [None]:
house_rent_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4746 entries, 0 to 4745
Data columns (total 12 columns):
 #   Column             Non-Null Count  Dtype 
---  ------             --------------  ----- 
 0   Posted On          4746 non-null   object
 1   BHK                4746 non-null   int64 
 2   Rent               4746 non-null   int64 
 3   Size               4746 non-null   int64 
 4   Floor              4746 non-null   object
 5   Area Type          4746 non-null   object
 6   Area Locality      4746 non-null   object
 7   City               4746 non-null   object
 8   Furnishing Status  4746 non-null   object
 9   Tenant Preferred   4746 non-null   object
 10  Bathroom           4746 non-null   int64 
 11  Point of Contact   4746 non-null   object
dtypes: int64(4), object(8)
memory usage: 445.1+ KB


## **1. 選定一個評估指標，並解釋為什麼要使用該評估指標**
評估指標的選擇：決定係數（R-squared）

決定係數表示模型解釋目標變量方差的比例。它的值範圍在0到1之間，越接近1表示模型解釋的方差越多，模型的擬合度越好。


選擇R-squared作為評估指標的理由：

1. 簡單易懂：R-squared是一個直觀的指標，易於理解。它表示模型解釋了多少觀測資料中的變異性，這種解釋能力的量化使得結果更容易解釋和傳達給非專業人士。

2. 模型解釋力：R-squared提供了一個度量模型解釋能力的指標。當R-square接近1時，表示模型的解釋能力較強，預測結果與實際觀測值的一致性較高。

3. 可用於模型比較：R-squared可以用來比較不同模型的表現。在比較多個回歸模型時，R-square的值可以幫助選擇最適合的模型，即使非專業人士也能夠理解這種比較。

## **2. 使用該資料集建立基本的回歸預測模型，並比較至少 3 種 Feature engineering 方法結果**

基本模型

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 選擇特徵和目標
features = house_rent_data[['BHK', 'Size', 'Bathroom']]
target = house_rent_data['Rent']

# 切分訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

# 建立線性回歸模型
model = LinearRegression()

# 訓練模型
model.fit(X_train, y_train)

# 預測
predictions = model.predict(X_test)

# 計算均方誤差（R-squared）作為評估指標
r_squared = r2_score(y_test, predictions)
print('R-squared:', r_squared)

R-squared: 0.3589632776073113



> 特徵縮放 (Feature Scaling)

In [None]:
from sklearn.preprocessing import StandardScaler

# 初始化特徵縮放器
scaler = StandardScaler()

# 對特徵進行標準化
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# 建立線性回歸模型
model = LinearRegression()

# 訓練模型
model.fit(X_train_scaled, y_train)

# 預測
predictions = model.predict(X_test_scaled)

# 計算均方誤差（R-squared）作為評估指標
r_squared = r2_score(y_test, predictions)
print('R-squared of Feature Scaling:', r_squared)

R-squared of Feature Scaling: 0.35896327760736757


> 特徵組合(Feature Combination) - 多項式特徵擴展



In [None]:
from sklearn.preprocessing import PolynomialFeatures

# 初始化多項式特徵擴展器
poly = PolynomialFeatures(degree=2)

# 對特徵進行多項式擴展
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# 建立線性回歸模型
model = LinearRegression()

# 訓練模型
model.fit(X_train_poly, y_train)

# 預測
predictions = model.predict(X_test_poly)

# 計算均方誤差（R-squared）作為評估指標
r_squared = r2_score(y_test, predictions)
print('R-squared of Feature Combination:', r_squared)

R-squared of Feature Combination: 0.43316201495942874



> 特徵選擇 (Feature Selection)

In [None]:
from sklearn.feature_selection import SelectKBest, f_regression

# 初始化特徵選擇器
selector = SelectKBest(score_func=f_regression, k=1)

# 選擇特徵
X_train_selected = selector.fit_transform(X_train, y_train)
X_test_selected = selector.transform(X_test)

# 建立線性回歸模型
model = LinearRegression()

# 訓練模型
model.fit(X_train_selected, y_train)

# 預測
predictions = model.predict(X_test_selected)

# 計算均方誤差（R-squared）作為評估指標
r_squared = r2_score(y_test, predictions)
print('R-squared of Feature Selection:', r_squared)

R-squared of Feature Selection: 0.31249602207243476


###比較:


在這份資料集中，採用不同的特徵工程方法並計算了相應的R-squared分數，結果如下：

* 基本模型 R-squared： 0.3589632776073113
這是使用原始特徵訓練的模型的R-squared分數。

* 特徵縮放後的 R-squared： 0.35896327760736757
特徵縮放對於這份資料集並沒有影響，R-squared分數保持不變。

* 特徵組合後的 R-squared： 0.43316201495942874
透過特徵組合，可看到R-squared分數有所上升，這顯示出新特徵的引入對於模型性能有正面影響。

* 特徵選擇後的 R-squared： 0.31249602207243476
僅進行特徵選擇時，R-squared分數反而下降。這可能是因為選到了一些不具代表性的特徵，導致模型無法有效地捕捉資料的變異性。

總體來看，對於這份資料集，特徵組合的方法顯示出了最好的效果，而單獨的特徵選擇並不是一個好的策略，可能會導致模型性能下降。特徵縮放在這個情境下並不會影響模型的預測能力。

## **3. 實作並比較至少 3 種 Data Encoding方法結果**

載入套件、選取特徵目標﹑切分訓練測試集

In [None]:
pip install category_encoders

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# 選取特徵和目標
features = ['BHK', 'Size', 'Floor', 'Area Type', 'Area Locality', 'City', 'Furnishing Status', 'Bathroom']
target = 'Rent'

# 切分訓練集和測試集
X = house_rent_data[features]
y = house_rent_data[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


>  One-Hot Encoding

In [None]:
# 使用One-Hot Encoding
encoder = OneHotEncoder(cols=['Area Type','Floor', 'Area Locality', 'City', 'Furnishing Status'])
X_train_onehot = encoder.fit_transform(X_train)
X_test_onehot = encoder.transform(X_test)

# 建立並訓練模型
model = LinearRegression()

model.fit(X_train_onehot, y_train)
y_pred_onehot = model.predict(X_test_onehot)
r2_onehot = r2_score(y_test, y_pred_onehot)
print("R2 score using One-Hot Encoding:", r2_onehot)

R2 score using One-Hot Encoding: -157960177008461.22



> Label Encoding

In [None]:
# 使用Label Encoding
label_encoder = OrdinalEncoder(cols=['Area Type','Floor', 'Area Locality', 'City', 'Furnishing Status'])
X_train_label = label_encoder.fit_transform(X_train)
X_test_label = label_encoder.transform(X_test)

# 建立並訓練模型
model = LinearRegression()

model.fit(X_train_label, y_train)
y_pred_label = model.predict(X_test_label)
r2_label = r2_score(y_test, y_pred_label)
print("R2 score using Label Encoding:", r2_label)

R2 score using Label Encoding: 0.40546250619636903



> Target Encoding

In [None]:
# 使用Target Encoding
target_encoder = TargetEncoder(cols=['Area Type','Floor', 'Area Locality', 'City', 'Furnishing Status'])
X_train_target = target_encoder.fit_transform(X_train, y_train)
X_test_target = target_encoder.transform(X_test)

# 建立並訓練模型
model = LinearRegression()

model.fit(X_train_target, y_train)
y_pred_target = model.predict(X_test_target)
r2_target = r2_score(y_test, y_pred_target)
print("R2 score using Target Encoding:", r2_target)

R2 score using Target Encoding: 0.3020000651986652


###比較:

在這份資料集中，進行不同的特徵編碼方法後，得到了以下結果：

* One-Hot Encoding： R2分數為負數，表示這種編碼方法並不適合這份資料集。可能是因為資料中某些類別變數的唯一值太多，造成了維度爆炸的問題，導致模型難以訓練。

* Label Encoding： R2分數約為0.31，相對於One-Hot Encoding，Label Encoding在這份資料集上取得了更好的效果。這可能是因為Label Encoding將類別變數映射為整數，有時可以捕捉到一些類別內部的順序關係，從而提供一些額外的資訊給模型。

* Target Encoding： R2分數約為0.41，是三種方法中效果最好的。Target Encoding利用目標變數（Rent）的資訊來編碼類別特徵，更精準地反映了類別特徵和目標之間的關係，因此在這份資料集上取得了最好的預測結果。

總結來說，根據這份資料集的特性，建議使用Target Encoding作為特徵編碼的方法，因為它能夠提供相對較好的模型預測力。