In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [9]:
#讀取資料
X_full = pd.read_csv('./train.csv', index_col='Id') #讀取train檔案
X_test_full = pd.read_csv('./test.csv', index_col='Id') #讀取test檔案

#設定預測目標及特徵
y = X_full.SalePrice #預測目標為價格
features = ['LotArea', 'YearBuilt', '1stFlrSF', 'OverallQual', 'FullBath', 'OverallCond', 'TotRmsAbvGrd','Foundation'] #要參考的房屋特徵
X = X_full[features].copy() #把train資料裡指定房屋特徵的資料存進X
X_test = X_test_full[features].copy() #把test資料裡指定房屋特徵的資料存進X_test

#從訓練資料中分離出驗證資料
X_train, X_valid, y_train, y_valid = train_test_split(X, y, train_size=0.8, test_size=0.2,
                                                      random_state=0)


In [19]:
'''
資料預處理：編碼、處理缺失值
'''

#獲取類別型變量列表
s = (X_train.dtypes == 'object')
object_cols = list(s[s].index)

print("Categorical variables:")
print(object_cols)

Categorical variables:
['Foundation']


In [13]:
#對類別型變量進行序列編碼（Ordinal Encoding），將類別型變量轉換為整數型變量

from sklearn.preprocessing import OrdinalEncoder

#創建兩個複製的訓練數據集和驗證數據集，分別為label_X_train和label_X_valid，目的是避免改變原始數據。 
label_X_train = X_train.copy()
label_X_valid = X_valid.copy()

#對每一個類別型變量的列進行序列編碼。對於訓練數據集和驗證數據集，先分別使用OrdinalEncoder的fit_transform方法來對訓練數據集進行擬合和轉換，並使用transform方法對驗證數據集進行轉換。最後，對原始的完整數據集X和測試數據集X_test進行同樣的操作，將類別型變量進行序列編碼。
ordinal_encoder = OrdinalEncoder()
label_X_train[object_cols] = ordinal_encoder.fit_transform(X_train[object_cols])
label_X_valid[object_cols] = ordinal_encoder.transform(X_valid[object_cols])
Label_X = X.copy()
Label_X_test = X_test.copy()

ordinal_encoder = OrdinalEncoder()
Label_X[object_cols] = ordinal_encoder.fit_transform(X[object_cols])
Label_X_test[object_cols] = ordinal_encoder.transform(X_test[object_cols])

Label_X = X.copy()
Label_X_test = X_test.copy()

ordinal_encoder = OrdinalEncoder()
Label_X[object_cols] = ordinal_encoder.fit_transform(X[object_cols])
Label_X_test[object_cols] = ordinal_encoder.transform(X_test[object_cols])


In [14]:
label_X_train

Unnamed: 0_level_0,LotArea,YearBuilt,1stFlrSF,OverallQual,FullBath,OverallCond,TotRmsAbvGrd,Foundation
Id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
619,11694,2007,1828,9,2,5,9,2.0
871,6600,1962,894,5,1,5,5,1.0
93,13360,1921,964,5,1,7,5,0.0
818,13265,2002,1689,8,2,5,7,2.0
303,13704,2001,1541,7,2,5,6,2.0
...,...,...,...,...,...,...,...,...
764,9430,1999,1268,8,2,5,8,2.0
836,9600,1950,1067,4,2,7,4,1.0
1217,8930,1978,1318,6,2,5,8,3.0
560,3196,2003,1557,7,2,5,7,2.0


In [17]:
#處理缺失值

from sklearn.impute import SimpleImputer #從sklearn.impute庫中導入SimpleImputer，它是一個能夠自動填補缺失值的類別，缺失值可以是任何數值型變量。

# Imputation
my_imputer = SimpleImputer() #創建SimpleImputer的實例my_imputer
Label_imputed_X_train = pd.DataFrame(my_imputer.fit_transform(label_X_train)) #用my_imputer對序列編碼後的訓練數據集label_X_train進行訓練擬合和轉換，將缺失值填補為該列的中位數或者平均值。fit_transform方法將對數據進行擬合和轉換操作。
Label_imputed_X_valid = pd.DataFrame(my_imputer.transform(label_X_valid)) #用my_imputer對序列編碼後的驗證數據集label_X_valid進行轉換，將缺失值填補為中位數或者平均值。transform方法只對數據進行轉換操作。

# 在使用SimpleImputer對訓練集和驗證集進行填補缺失值後，由於輸出的數據類型是numpy陣列，所以列名會被刪除。因此，這裡通過重新將列名賦值給填補後的DataFrame，來恢復列名。
Label_imputed_X_train.columns = label_X_train.columns
Label_imputed_X_valid.columns = label_X_valid.columns

In [18]:
Label_imputed_X_train

Unnamed: 0,LotArea,YearBuilt,1stFlrSF,OverallQual,FullBath,OverallCond,TotRmsAbvGrd,Foundation
0,11694.0,2007.0,1828.0,9.0,2.0,5.0,9.0,2.0
1,6600.0,1962.0,894.0,5.0,1.0,5.0,5.0,1.0
2,13360.0,1921.0,964.0,5.0,1.0,7.0,5.0,0.0
3,13265.0,2002.0,1689.0,8.0,2.0,5.0,7.0,2.0
4,13704.0,2001.0,1541.0,7.0,2.0,5.0,6.0,2.0
...,...,...,...,...,...,...,...,...
1163,9430.0,1999.0,1268.0,8.0,2.0,5.0,8.0,2.0
1164,9600.0,1950.0,1067.0,4.0,2.0,7.0,4.0,1.0
1165,8930.0,1978.0,1318.0,6.0,2.0,5.0,8.0,3.0
1166,3196.0,2003.0,1557.0,7.0,2.0,5.0,7.0,2.0


In [20]:
#建立RandomForest預測模型

'''
隨機森林模型是一種基於集成學習的機器學習模型，通常用於解決監督式學習中的分類和回歸問題。它能夠處理高維度和稀疏數據，並且在不需要太多特徵工程和調參的情況下，表現良好。
隨機森林模型通常適合用於以下的預測分析：
1. 分類問題：例如判斷某個輸入數據屬於哪個類別。常見的應用包括垃圾郵件檢測、信用卡詐騙檢測、醫療診斷等。
2. 回歸問題：例如預測某個輸入數據的數值型結果。常見的應用包括房價預測、股票價格預測、氣象預測等。
3. 特徵選擇：隨機森林可以評估特徵的重要性，可以用於選擇最重要的特徵，從而提高模型的預測能力。
'''

# 定義模型

from sklearn.ensemble import RandomForestRegressor

#創建了七個不同的模型，並將它們存儲在一個名為 models 的列表中
#n_estimators（森林中樹的數量）、criterion（評估節點分裂的標準）、max_depth（樹的最大深度）和 min_samples_split（分裂一個內部節點所需的最小樣本數）
model_1 = RandomForestRegressor(n_estimators=50, criterion='mae', random_state=0, max_depth=10)
model_2 = RandomForestRegressor(n_estimators=100, random_state=0)
model_3 = RandomForestRegressor(n_estimators=100, criterion='mae', random_state=0)
model_4 = RandomForestRegressor(n_estimators=50, min_samples_split=5, random_state=0)
model_5 = RandomForestRegressor(n_estimators=100, max_depth=10, random_state=0)
model_6 = RandomForestRegressor(n_estimators=50, random_state=0)
model_7 = RandomForestRegressor(n_estimators=25, random_state=0)

models = [model_1, model_2, model_3, model_4, model_5,model_6, model_7]

In [21]:
#使用均方誤差(MAE)衡量標準對7個模型進行性能比較

from sklearn.metrics import mean_absolute_error

#定義了一個 score_model 函數，該函數接受一個模型和訓練和驗證數據集，並計算該模型在驗證數據集上的MAE值。在該函數中，首先將模型與訓練數據集 X_t 和 y_t 配對，使用 fit 函數來訓練模型。接著，使用 predict 函數生成模型在驗證數據集 X_v 上的預測值。最後，計算模型預測值和真實值之間的 MAE 值，並返回這個值。
def score_model(model, X_t=Label_imputed_X_train, X_v=Label_imputed_X_valid, y_t=y_train, y_v=y_valid):
    model.fit(X_t, y_t)
    preds = model.predict(X_v)
    return mean_absolute_error(y_v, preds)

#接下來，使用一個 for 迴圈，對所有七個模型進行迭代。在迴圈中，調用 score_model 函數來計算每個模型在驗證數據集上的 MAE 值，並將其印出來。
for i in range(0, len(models)):
    mae = score_model(models[i])
    print("Model %d MAE: %d" % (i+1, mae))

#MAE (Mean Absolute Error) 是評估迴歸模型表現的一個常見指標，表示預測值和實際值之間的平均絕對誤差。MAE 值越小表示模型預測的結果和真實值之間的平均誤差越小，代表模型的準確度越高。

  warn(


Model 1 MAE: 21707
Model 2 MAE: 21420


  warn(


Model 3 MAE: 21734
Model 4 MAE: 21528
Model 5 MAE: 21820
Model 6 MAE: 21157
Model 7 MAE: 21622


In [22]:
#測試數據集的預測，用前面MAE最小的Model 6

#將訓練數據集Label_X和對應的目標變量y用來擬合(訓練)隨機森林模型model_6
model_6.fit(Label_X, y)

#用訓練好的 model_6 模型對測試數據 Label_X_test 進行預測，將預測結果存儲在 preds_test 中。其中，predict() 方法是 Scikit-learn 機器學習庫中的方法，可以用來對測試數據進行預測，並返回預測結果。
preds_test = model_6.predict(Label_X_test) 

# 將模型對測試集的預測結果存為CSV文件，以符合比賽評分的格式。
output = pd.DataFrame({'Id': Label_X_test.index,
                       'SalePrice': preds_test})
output.to_csv('submission.csv', index=False)

'''
preds_test是模型對測試集數據的預測結果，Label_X_test.index是測試集數據的索引，'SalePrice'是比賽要求預測的目標變量，即房價。pd.DataFrame用於將數據轉換為DataFrame格式，再將其存儲為CSV文件。index=False是為了避免索引被保存為CSV文件的一列。
'''

"\npreds_test是模型對測試集數據的預測結果，Label_X_test.index是測試集數據的索引，'SalePrice'是比賽要求預測的目標變量，即房價。pd.DataFrame用於將數據轉換為DataFrame格式，再將其存儲為CSV文件。index=False是為了避免索引被保存為CSV文件的一列。\n"