In [1]:
from google.colab import files

# 允许上传文件
uploaded = files.upload()


Saving test-reindex-test.xlsx to test-reindex-test.xlsx
Saving train.xlsx to train.xlsx
Saving UIOKO.py to UIOKO.py
Saving valid.xlsx to valid.xlsx


In [2]:
import pandas as pd
from openpyxl import load_workbook
from tqdm import tqdm

# 自定義讀取Excel文件並顯示進度條的函數
def read_excel_with_progress(file_path):
    print("Reading file:", file_path)

    # 使用 openpyxl 加載工作簿，逐行讀取
    wb = load_workbook(file_path, read_only=True)
    sheet = wb.active

    # 獲取總行數
    total_rows = sheet.max_row

    # 構建一個字典來保存數據
    data = []

    # 使用 tqdm 顯示進度條，逐行讀取數據
    for row in tqdm(sheet.iter_rows(values_only=True), total=total_rows, desc="Reading data"):
        data.append(row)

    # 關閉工作簿
    wb.close()

    # 將數據轉換為 DataFrame
    df = pd.DataFrame(data[1:], columns=data[0])  # 第一行作為列名，其餘為數據
    print("File read complete:", file_path)

    return df

# 讀取資料並顯示進度
train_data = read_excel_with_progress("train.xlsx")
test_data = read_excel_with_progress("test-reindex-test.xlsx")
valid_data = read_excel_with_progress("valid.xlsx")

# 查看讀取到的資料
print(train_data.head())
print(test_data.head())
print(valid_data.head())


Reading file: train.xlsx


Reading data: 100%|██████████| 455788/455788 [05:32<00:00, 1369.88it/s]


File read complete: train.xlsx
Reading file: test-reindex-test.xlsx


Reading data: 100%|██████████| 11996/11996 [00:03<00:00, 3210.19it/s]


File read complete: test-reindex-test.xlsx
Reading file: valid.xlsx


Reading data: 100%|██████████| 11995/11995 [00:09<00:00, 1293.92it/s]


File read complete: valid.xlsx
                    編號       總價元 鄉鎮市區          交易標的                土地位置建物門牌  \
0  RPTPNLSLOHJGFCB88CB  28770000  西屯區  房地(土地+建物)+車位          臺中市西屯區惠民段114地號   
1  RPQVMLQKIIIGFEH98CB  13860000  大園區  房地(土地+建物)+車位  桃園市大園區領航南路二段及致善路一段交叉路口   
2  RPUNMLQLPHJGFAB38CB  13950000   南區  房地(土地+建物)+車位                臺中市南區德富路   
3  RPQNMLRJNHHGFEE28DB  13990000  左營區  房地(土地+建物)+車位          高雄市左營區博愛四路與重和路   
4  RPSPPLPJOHOFFCJ07CB   6810000  竹東鎮  房地(土地+建物)+車位    新竹縣竹東鎮光明路126巷5弄32號9樓   

  土地移轉總面積平方公尺 都市土地使用分區 非都市土地使用分區 非都市土地使用編定    交易年月日  ... 建物現況格局-隔間 有無管理組織  \
0        9.58       其他      None      None  1130612  ...         有      無   
1       13.52        商      None      None  1121003  ...         有      無   
2       15.94       其他      None      None  1130702  ...         有      無   
3        4.95        商      None      None  1110427  ...         有      無   
4       24.67       其他      None      None  1060824  ...         有      無   

  單價元平方公尺  車位類別 車位移轉總面積平方公尺    

In [3]:
# 先複製資料以防止修改原始資料
train_df = train_data.copy()
test_df = test_data.copy()
valid_df = valid_data.copy()

In [4]:
# 將需要的欄位轉換為數值型，並處理無法轉換的值
train_df['建物移轉總面積平方公尺'] = pd.to_numeric(train_df['建物移轉總面積平方公尺'], errors='coerce')
train_df['車位移轉總面積平方公尺'] = pd.to_numeric(train_df['車位移轉總面積平方公尺'], errors='coerce')
train_df['單價元平方公尺'] = pd.to_numeric(train_df['單價元平方公尺'], errors='coerce')
train_df['車位總價元'] = pd.to_numeric(train_df['車位總價元'], errors='coerce')
train_df['總價元'] = pd.to_numeric(train_df['總價元'], errors='coerce')

# 確認轉換後的數據類型
print("Train Data Types:")
print(train_df.dtypes)

# 將需要的欄位轉換為數值型，並處理無法轉換的值
test_df['建物移轉總面積平方公尺'] = pd.to_numeric(test_df['建物移轉總面積平方公尺'], errors='coerce')
test_df['車位移轉總面積平方公尺'] = pd.to_numeric(test_df['車位移轉總面積平方公尺'], errors='coerce')
test_df['單價元平方公尺'] = pd.to_numeric(test_df['單價元平方公尺'], errors='coerce')
test_df['車位總價元'] = pd.to_numeric(test_df['車位總價元'], errors='coerce')

# 確認轉換後的數據類型
print("\nTest Data Types:")
print(test_df.dtypes)

# 將需要的欄位轉換為數值型，並處理無法轉換的值
valid_df['建物移轉總面積平方公尺'] = pd.to_numeric(valid_df['建物移轉總面積平方公尺'], errors='coerce')
valid_df['車位移轉總面積平方公尺'] = pd.to_numeric(valid_df['車位移轉總面積平方公尺'], errors='coerce')
valid_df['單價元平方公尺'] = pd.to_numeric(valid_df['單價元平方公尺'], errors='coerce')
valid_df['車位總價元'] = pd.to_numeric(valid_df['車位總價元'], errors='coerce')
valid_df['總價元'] = pd.to_numeric(valid_df['總價元'], errors='coerce')

# 確認轉換後的數據類型
print("\nValid Data Types:")
print(valid_df.dtypes)


Train Data Types:
編號              object
總價元            float64
鄉鎮市區            object
交易標的            object
土地位置建物門牌        object
土地移轉總面積平方公尺     object
都市土地使用分區        object
非都市土地使用分區       object
非都市土地使用編定       object
交易年月日           object
交易筆棟數           object
移轉層次            object
總樓層數            object
建物型態            object
主要用途            object
主要建材            object
建築完成年月          object
建物移轉總面積平方公尺    float64
建物現況格局-房        object
建物現況格局-廳        object
建物現況格局-衛        object
建物現況格局-隔間       object
有無管理組織          object
單價元平方公尺        float64
車位類別            object
車位移轉總面積平方公尺    float64
車位總價元          float64
備註              object
建案名稱            object
棟及號             object
解約情形            object
dtype: object

Test Data Types:
編號              object
鄉鎮市區            object
交易標的            object
土地位置建物門牌        object
土地移轉總面積平方公尺    float64
都市土地使用分區        object
非都市土地使用分區       object
非都市土地使用編定       object
交易年月日           object
交易筆棟數           object
移轉層次   

In [5]:
# 指定要檢查的特徵
features_to_check = ['建物移轉總面積平方公尺', '車位移轉總面積平方公尺', '單價元平方公尺', '車位總價元']

# 檢查缺失值
missing_values = train_df[features_to_check].isnull().sum()
print(missing_values)
missing_values = test_df[features_to_check].isnull().sum()
print(missing_values)
missing_values = valid_df[features_to_check].isnull().sum()
print(missing_values)

建物移轉總面積平方公尺      3
車位移轉總面積平方公尺      3
單價元平方公尺        892
車位總價元            3
dtype: int64
建物移轉總面積平方公尺     0
車位移轉總面積平方公尺     0
單價元平方公尺        21
車位總價元           0
dtype: int64
建物移轉總面積平方公尺     0
車位移轉總面積平方公尺     0
單價元平方公尺        24
車位總價元           0
dtype: int64


In [6]:
# 指定要檢查的特徵
features_to_check = ['總價元']

# 檢查缺失值
missing_values = train_df[features_to_check].isnull().sum()
print(missing_values)
missing_values = valid_df[features_to_check].isnull().sum()
print(missing_values)

總價元    3
dtype: int64
總價元    0
dtype: int64


In [7]:
# 轉換為數值型並處理無法轉換的值
columns_to_convert = ['建物移轉總面積平方公尺', '車位移轉總面積平方公尺', '單價元平方公尺', '車位總價元']

for column in columns_to_convert:
    train_df[column] = pd.to_numeric(train_df[column], errors='coerce')
    valid_df[column] = pd.to_numeric(valid_df[column], errors='coerce')
    test_df[column] = pd.to_numeric(test_df[column], errors='coerce')

# 用平均值填補缺失值
for column in columns_to_convert:
    train_df[column].fillna(train_df[column].mean(), inplace=True)
    valid_df[column].fillna(valid_df[column].mean(), inplace=True)
    test_df[column].fillna(test_df[column].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train_df[column].fillna(train_df[column].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  valid_df[column].fillna(valid_df[column].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate objec

In [8]:
# 轉換為數值型並處理無法轉換的值
columns_to_convert = ['總價元']

for column in columns_to_convert:
    train_df[column] = pd.to_numeric(train_df[column], errors='coerce')
    valid_df[column] = pd.to_numeric(valid_df[column], errors='coerce')

# 用平均值填補缺失值
for column in columns_to_convert:
    train_df[column].fillna(train_df[column].mean(), inplace=True)
    valid_df[column].fillna(valid_df[column].mean(), inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  train_df[column].fillna(train_df[column].mean(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  valid_df[column].fillna(valid_df[column].mean(), inplace=True)


In [9]:
# 指定要檢查的特徵
features_to_check = ['建物移轉總面積平方公尺', '車位移轉總面積平方公尺', '單價元平方公尺', '車位總價元']

# 檢查缺失值
missing_values = train_df[features_to_check].isnull().sum()
print(missing_values)
missing_values = test_df[features_to_check].isnull().sum()
print(missing_values)
missing_values = valid_df[features_to_check].isnull().sum()
print(missing_values)

建物移轉總面積平方公尺    0
車位移轉總面積平方公尺    0
單價元平方公尺        0
車位總價元          0
dtype: int64
建物移轉總面積平方公尺    0
車位移轉總面積平方公尺    0
單價元平方公尺        0
車位總價元          0
dtype: int64
建物移轉總面積平方公尺    0
車位移轉總面積平方公尺    0
單價元平方公尺        0
車位總價元          0
dtype: int64


In [10]:
# 指定要檢查的特徵
features_to_check = ['總價元']

# 檢查缺失值
missing_values = train_df[features_to_check].isnull().sum()
print(missing_values)
missing_values = valid_df[features_to_check].isnull().sum()
print(missing_values)

總價元    0
dtype: int64
總價元    0
dtype: int64


In [11]:
# 計算新特徵
train_df['custom_feature'] = (train_df['建物移轉總面積平方公尺'] - train_df['車位移轉總面積平方公尺']) * train_df['單價元平方公尺'] + train_df['車位總價元']
test_df['custom_feature'] = (test_df['建物移轉總面積平方公尺'] - test_df['車位移轉總面積平方公尺']) * test_df['單價元平方公尺'] + test_df['車位總價元']
valid_df['custom_feature'] = (valid_df['建物移轉總面積平方公尺'] - valid_df['車位移轉總面積平方公尺']) * valid_df['單價元平方公尺'] + valid_df['車位總價元']

In [24]:
from sklearn.model_selection import train_test_split
from sklearn.neural_network import MLPRegressor
from sklearn.metrics import mean_absolute_error
from sklearn.neighbors import KNeighborsRegressor
from sklearn.ensemble import RandomForestRegressor
# 分離特徵與標籤
X_train = train_df[['custom_feature']]
y_train = train_df['總價元']

X_train = X_train.dropna()
y_train = y_train[X_train.index]  # 只保留 X_train 中的索引對應的 y_train

X_valid = valid_df[['custom_feature']].dropna()
y_valid = valid_df['總價元'][X_valid.index]  # 只保留 X_valid 中的索引對應的 y_valid

X_test = test_df[['custom_feature']]

import numpy as np
from sklearn.tree import DecisionTreeRegressor
from sklearn.utils import resample

# 定義一個簡單的隨機森林回歸器
class SimpleRandomForestRegressor:
    def __init__(self, n_estimators=10, max_depth=None):
        self.n_estimators = n_estimators  # 樹的數量
        self.max_depth = max_depth        # 每棵樹的最大深度
        self.trees = []                   # 存儲樹模型

    def fit(self, X_train, y_train):
        self.trees = []
        n_samples = X_train.shape[0]

        # 建立 n 棵樹
        for _ in range(self.n_estimators):
            # 隨機抽樣（有放回地抽樣），構建樣本集
            X_resampled, y_resampled = resample(X_train, y_train, n_samples=n_samples)

            # 建立並訓練決策樹
            tree = DecisionTreeRegressor(max_depth=self.max_depth)
            tree.fit(X_resampled, y_resampled)

            # 存儲訓練好的樹
            self.trees.append(tree)

    def predict(self, X_test):
        # 儲存每顆樹的預測結果
        predictions = np.zeros((X_test.shape[0], self.n_estimators))

        for i, tree in enumerate(self.trees):
            # 用每顆樹進行預測
            predictions[:, i] = tree.predict(X_test)

        # 將每顆樹的預測平均作為最終預測
        return np.mean(predictions, axis=1)


# 初始化手搓版隨機森林回歸器
regressor = SimpleRandomForestRegressor(n_estimators=10, max_depth=None)

# 訓練模型
regressor.fit(X_train, y_train)



In [16]:
print(type(X_train))
print(type(X_test))


<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.frame.DataFrame'>


In [20]:
# 初始化RandomForestRegressor
regressor = RandomForestRegressor(n_estimators=10, max_depth=None, random_state=42)

# 訓練模型
regressor.fit(X_train, y_train)

In [25]:
# 預測
y_pred_valid = regressor.predict(X_valid)

# 計算 MAE
mae_valid = mean_absolute_error(y_valid, y_pred_valid)
print(f"Validation MAE: {mae_valid}")


Validation MAE: 70303.71232909834


In [26]:
X_test = test_df[['custom_feature']]

y_pred_test = regressor.predict(X_test)

submission = test_df[['編號']].copy()
submission['總價元'] = y_pred_test

submission['編號'] = range(1, len(submission) + 1)

submission.to_csv('submission.csv', index=False)

