# I. Data overview
* training data
    * row num: 60,000
    * column num: 233(not including ID and ground truth)
    * missing value:

Column Name              | Column Index  | Number of Missing Value | Percentage of Missing Value
------------------|:------------:|:-------------------:|:----------------------:
parking_area               |         9            |               56,897            |                 94.83%
parking_price              |         10           |               46,065            |                 76.78%
txn_floor                     |         11           |                15,902            |                 26.50% 
village_income_median |         17           |                  1,142            |                    1.90%


* testing data
    * row num: 10,000
    * column num: 233(not including ID)
    * missing value:
    
Column Name              | Column Index  | Number of Missing Value | Percentage of Missing Value
------------------|:------------:|:-------------------:|:----------------------:
parking_area               |         9            |               9,500             |                 95.00%
parking_price              |         10           |               7,710              |                 77.10%
txn_floor                     |         11           |               2,639             |                 26.39% 
village_income_median |         17           |                  184             |                    1.84%

In [9]:
import numpy as np
import pandas as pd

train_data_df = pd.read_csv("../dataset/train.csv")
test_data_df = pd.read_csv("../dataset/test.csv")

In [129]:
train_isnull_ser = train_data_df.isnull().sum(axis=0)
train_data_num = train_data_df.shape[0]
print("The column name of missing value(training data):", *[temp for temp in train_data_df.columns[train_isnull_ser.nonzero()]], sep = ", ")
print("The column index of missing value(training data):", *[temp for temp in train_isnull_ser.nonzero()[0]], sep = ", ")
print("The number of missing value(training data):", *[train_isnull_ser[i] for i in train_isnull_ser.nonzero()[0]], sep = ", ")
print("The percentage of missing value(training data):", *["{0:.2%}".format(train_isnull_ser[i] / train_data_num) for i in train_isnull_ser.nonzero()[0]])
print()
test_isnull_ser = test_data_df.isnull().sum(axis=0)
test_data_num = test_data_df.shape[0]
print("The column name of missing value(testing data):", *[temp for temp in test_data_df.columns[test_isnull_ser.nonzero()]], sep = ", ")
print("The column index of missing value(testing data):", *[temp for temp in test_isnull_ser.nonzero()[0]], sep = ", ")
print("The number of missing value(testing data):", *[test_isnull_ser[i] for i in test_isnull_ser.nonzero()[0]], sep = ", ")
print("The percentage of missing value(testing data):", *["{0:.2%}".format(test_isnull_ser[i] / test_data_num) for i in test_isnull_ser.nonzero()[0]])

The column name of missing value(training data):, parking_area, parking_price, txn_floor, village_income_median
The column index of missing value(training data):, 9, 10, 11, 17
The number of missing value(training data):, 56897, 46065, 15902, 1142
The percentage of missing value(training data): 94.83% 76.78% 26.50% 1.90%

The column name of missing value(testing data):, parking_area, parking_price, txn_floor, village_income_median
The column index of missing value(testing data):, 9, 10, 11, 17
The number of missing value(testing data):, 9500, 7710, 2639, 184
The percentage of missing value(testing data): 95.00% 77.10% 26.39% 1.84%


# II. data process & model & method
## data process
1. missing value
    1. 帶0、帶mean()、帶median()
    2. village_income_median(所在里年收入中位數)
        1. 原先想以 city+town+village 為 key 值找出同 key 的平均數填入，但發現同 key 的地方值都是 null
        2. 改以 city+town 為 key 值找出同 key 的平均數填入，如此 key 為空或 0，改以 city 為 key 值找出同 key 的平均數填入
2. min max scaler
3. one hot encoding
4. 移除重要性低的 feature (xgboost.plot_importance)
5. 移除 outliers(以眼睛判斷)，約移除 1W 筆
6. 移除資料分布差異過大、種類過多的 feature，移除 6 筆
7. 使用 sklearn.feature_selection.SelectPercentile(f_regression, percentile=95)
    * 重要 features
        * **txn_dt：有無此特徵差1千多分**
8. Create new features
    1. house_age
        * 購買當下的屋齡，以10年為單位(四捨五入)，((成交日 - 完工日) / 3650) ((txn_dt - building_complete_dt) / 3650)
    2. txn_year
        * 成交年，以年為單位(四捨五入)，(成交日 / 365) (txn_dt / 365)
    3. floor_of_building
        * 交易樓層於總樓層的位置，交易樓層/總樓層(txn_floor/total_floor)
        * 如txn_floor為0，代表交易建物不為一層，此值帶入total_floor
    4. sales_per_unit_area 坪效
        * 一坪土地可蓋出多少坪可銷售面積(四捨五入至小數一位)，(建物面積 / 土地面積) (building_area / land_area)
        * missing value 補中位數
    5. power_pos_rate 強化正相關率
        * 將會提高房價的因素加總，再減會減低房價的因素，(所在縣市出生率 + 所在縣市結婚率 - 所在縣市死亡率) (born_rate + marriage_rate - death_rate)
    6. high_edu_rate 各縣市高學歷率
        * 各縣市的高學歷加總比率(大學含以上)，(博士比例 + 碩士比例 +  學士比例) (doc_rate + master_rate + bachelor_rate)
    7. low_edu_rate 各縣市低學歷率(考慮刪除)
        * 各縣市的低學歷加總比率(專科+高中含以下)，(專科比例 + 高中比例 +  國中比例 + 小學比例) (jobschool_rate + highschool_rate + junior_rate + elementary_rate)
    8. is_apartment_first_top 是否為公寓的一樓跟頂樓
        * 公寓的一樓跟頂樓最貴，判斷建物型態(building_type)為 1 (公寓)的建物，如交易樓層為一樓、頂樓，則設值為 1
    9. is_0_3_high_floor 是否為電梯大樓、華廈的高樓層
        * 電梯大樓、華廈的樓層越高越貴，判斷建物型態(building_type)為 0 (電梯大樓)、3 (華廈)的建物，如交易樓層大於等於 7 樓，則設值為 1
    10. \_0_3_high_floor_rate 電梯大樓、華廈的高樓層高度比率(7樓以上)
        * 電梯大樓、華廈的樓層越高越貴，判斷建物型態(building_type)為 0 (電梯大樓)、3 (華廈)的建物，如交易樓層大於等於 7 樓，則設樓層高度比率 
        * (交易樓層 / 總樓層) (txn_floor / total_floor)
        
## model result
* 模型參數皆記錄於"Submission History"
* xgboost (gbtree) + data process(1.,2.) + **data process(3.)**：分數很低，因為此 algo 本質就是DTree，所以全 feature 做 one hot 只是徒增 feature 數
* xgboost (gbtree) + data process(1.,2.) + **data process(4.)**：分數普通，約3~4k
* xgboost (gbtree) + data process(1.,2.) + **data process(5.)**：分數很低，約1~2k
* xgboost (gbtree) + data process(1.,2.) + **data process(6.)**：分數普通，約3~4k
* xgboost (gbtree) + data process(1.,2.) + **data process(7.)**：分數普通，約5k
* xgboost (gbtree) + data process(1-A.,2.)：分數普通，約5.3k
* xgboost (gbtree) + data process(1-A.,1-B.,2.) + **data process(8-A.)**：分數普通，約5.2k
* xgboost (gbtree) + data process(1-A.,1-B.,2.) + **data process(8-A.,8-C.)**：分數普通，約5.1k
* xgboost (gbtree) + data process(1-A.,2.) + **data process(8-A.~8-C.)**：分數普通，約5k
* xgboost (gbtree) + data process(1-A.,2.) + **data process(8-A.~8-G.)**：分數普通，約5.3k
* xgboost (gbtree) + data process(1-A.,2.) + **data process(8-A.~8-D., 8-H.)**：分數普通，約5.3k
* xgboost (gbtree) + data process(1-A.,2.) + **data process(8-A.~8-C., 8-E., 8-H., 8-J.)**：分數普通，約5.2k

* xgboost (gblinear)：suck
* sklearn.linear_model.Lasso：初步結果不佳，尚在做不同 data process & tuning

# III. 疑惑點
* 模型 xgboost (gbtree)：比較上傳平台的真實分數，對 train loss 做 early stopping 往往比對 eval loss 做分數要高一千多分

# IV. 獲得經驗
* 模型 xgboost (gbtree)：目前不管怎麼處理 feature，上傳分數最高者仍是不處理
* 模型 xgboost (gbtree)：移除 training data outliers (以眼睛判別，移除過2w、8k筆)、其後分別對 training data、testing data 做 min max scaler，雖 eval loss 比較低，但實際上傳分數極低
* 模型 xgboost (gbtree)：使用套件 GridSearchCV 去選擇參數比較方便 (目前僅用 training data 作評分準則)
* 資料前處理：missing value 全 feature 以 mean 或 median 填入，training、testing分開填入、合併填入，分數都跟5300版本沒太大差異(模型為 xgboost (gbtree))

# V. 心得
* 每次 shuffle data 後，eval 的 loss 值會有誤差，shuffle 時加上 random_state 維持一貫性，才好判別模型優劣
* 模型 xgboost (gbtree)：train 到 train loss 值停止下降時，通常上傳分數較好
* Data normalization：training data + testing data 一起做 min max scaler 會比兩者分開做的上傳分數好很多，儘管 train or eval loss 比較好
* Data normalization：Decision Trees 的特性不需要做 feature rescaling (ex: min max scaler)，如做則必須將 training data 與 testing data 一起做，否則預測值會完全失真