<a href="https://colab.research.google.com/github/DOLPHINTING/97209039/blob/master/esun_ml_days.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# <font face="微軟正黑體">PYTHON教育訓練: AVM估價模型</font>
<font face="微軟正黑體">
    
| 單元 | 使用技巧 | 學習目標 |
|  :----  | :----  | :---- |
|Introduction - AVM專案概述| - | 瞭解專案目的及資料欄未說明 |
| UNIT 1 - 探索式資料分析 | 敘述統計、資料視覺化 | 能運用python對資料進行初步探索 |
| UNIT 2 - 建模初體驗 | 基本資料處理及建立Baseline Model | 初步瞭解建模流程並快速建立第一個模型 |
| UNIT 3 - 特徵工程 - 特徵篩選  | 用相關係數挑選因子 | 瞭解如何進行特徵篩選以提升模型精度 |
| UNIT 4 - 特徵工程 - 特徵組合  | 用業務邏輯產生更多預測能力強的因子 | 瞭解如何運用業務邏輯組合出更多且有效的特徵 |
| UNIT 5 - 使用進階模型 | 使用sklearn及lgbm套件建模 | 瞭解如何區分迴歸/分類模型、運用機器學習相關模型套件 |
| UNIT 6 - 超參數調整  | Grid Search | 使用基礎的參數調整技巧來對模型精進 |

 </font>

<a id='section_00'></a>

# <font face="微軟正黑體">Introduction - AVM專案概述 </font>

## 1.      專案目的

1. 透過AVM模型可即時運算的優勢，協助優化估價流程，並於每年資產重估時進行大量運算。
<br>
<br>
2. 利用機器學習演算法，提升精準度；額外使用圖資資料，除了考慮房屋本身資訊，還可判斷房屋所在位置與周邊環境，進一步提升模型成效。
<br>


## 2.      專案效益

1. 流程面：每一件房貸案件的估價流程可由原本2 - 3天縮短為3分鐘。
<br>
2. 成本面：以今年開始之資產重估，每季重估約5萬筆物件，每筆人工估價成本約1,000元，使用AVM模型預期能節省5,000萬元成本。
<br>

## 3.      預測目標(Y)

total_price (房屋總價)

 
## 4.      資料說明
 - [資料欄位說明](https://github.com/za29517585/avm_machine_learning/raw/master/column_description.pdf)
 - 建物基本資訊 (面積、樓層、建材、所在縣市等)
 - 鄰里資訊 (所在鄰里平均學歷、收入等)
 - POI資訊 (建物周遭設施資訊)

 

## 透過這份程式檔，您將會學習到...

> ### 主要目標
> 透過一步一步執行程式來瞭解機器學習模型的建置流程

- 在已知要解決什麼問題後，如何探索資料
- 基本資料處理並透過業務知識增加模型效度
- 如何優化模型並解讀成效

<a id='section_01'></a>
# <font face="微軟正黑體">UNIT 1 - 探索式資料分析 (EDA)</font>
<font face="微軟正黑體">
<br>

- <b>什麼是EDA? <br></b>
透過敘述統計及資料視覺化來對資料進行初步分析<br /><br />

- <b>EDA的目標? <br></b>
    1.了解資料: 獲取資料的資訊、結構及特點<br>
    2.檢查異常的資料: Outlier、空值<br>
    3.分析變數的關聯性: 找出重要變數
    
    </font>

## <font face="微軟正黑體">1-1 數據的基本資訊及敘述統計</font>

In [None]:
import pandas as pd
import numpy as np

In [None]:
#匯入資料
train_data = pd.read_csv('https://drive.google.com/uc?export=download&id=1UQPWZSdFgHyu8wOxI5zwWEMPpKQEmwH2')
test_data = pd.read_csv('https://docs.google.com/spreadsheets/d/1FgVhq8eVU7lSV4MvIRJBKzp0E2dKk5arocZsJRyOb2g/export?format=csv')

#查看資料筆數
print("shape of train data:" , train_data.shape)
print("shape of test data:" , test_data.shape)

#查看表格前五筆資料
train_data.head(5)

In [None]:
#查看基礎統計數據
train_data.describe()

In [None]:
#查看各變數空值情況
train_data.count().sort_values().head(10)

In [None]:
#查看各城市的平均房價
train_data.groupby(by='city').mean()['total_price'].sort_values(ascending=False)

## 1-2 資料視覺化

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
sns.set(color_codes=True)

In [None]:
#Distribution Plot
plt.figure(figsize=(8,4))
plt.title('Distribution of total_price')
sns.distplot(train_data['total_price'])

In [None]:
#Bar Chart
#畫出各樓層的平均房價
floor_avg_price = train_data.groupby(by='txn_floor').mean()['total_price']
floor_avg_price = floor_avg_price.reset_index()
floor_avg_price

In [None]:
plt.figure(figsize=(12,6))
sns.barplot(x="txn_floor", y="total_price", data=floor_avg_price)

In [None]:
#Pie Chart
city_num = train_data.groupby(by='city').count()['total_price'].reset_index()
plt.figure(figsize=(12,6))
plt.pie(city_num['total_price'], labels=city_num['city'])
plt.show()

In [None]:
#Box Plot
plt.figure(figsize=(16,8))
sns.boxplot(x='city', y='total_price', data=train_data)

## 練習：還有什麼欄位可以做資料視覺化？
請畫出各縣市的平均房價之長條圖(bar chart)

延伸閱讀 <br>
- [Pyplot語法教學](https://medium.com/@yuhsuan_chou/python-%E5%9F%BA%E7%A4%8E%E8%B3%87%E6%96%99%E8%A6%96%E8%A6%BA%E5%8C%96-matplotlib-401da7d14e04)
- [Seaborn語法教學](https://leemeng.tw/seaborn-cheat-sheet.html?fbclid=IwAR20VuGkd36AM2TSSQ_eJ7Ct9mC5RA7Y_v_a-mqdLMgYdZdO4pD_cxn0NCc)

In [None]:
#先做出畫圖所需要的表格
city_avg_price = train_data.groupby(by='請填入需要的欄位').mean()['total_price']
city_avg_price = floor_avg_price.reset_index()
city_avg_price 

In [None]:
#做出表格後即可製圖
plt.figure(figsize=(12,6))
sns.barplot(x='請填入需要的欄位', y="total_price", data=city_avg_price)

<a id='section_02'></a>
# <font face="微軟正黑體">UNIT 2 - 建模初體驗</font>
<font face="微軟正黑體">
    <I>"Always start with a stupid model, no exceptions"</I> <br>

- 建模流程<br>
![ml_process.png](https://i.imgur.com/eSK4LVT.png)

- 本單元將使用線性迴歸來建立Baseline Model，快速瞭解建模流程及成效評估
</font>

## 2-1 資料前處理
1. 空值處理方式

>依照業務邏輯/統計方法選擇補值方式
>- 補0
>- 補中位數 / 平均值 / 眾數
>- 剔除變數

2. 離群值處理方式

> 透過統計值或盒狀圖檢視有無離群值
>- 補值
>- 另建欄位
>- 剔除變數

In [None]:
#共有四個變數有空值
print(train_data.count().sort_values().head(10))

#將村里收入中位數補上中位數，其餘所有空值的變數補上0
train_data['village_income_median'] = train_data['village_income_median'].fillna(np.median(train_data['village_income_median']))
test_data['village_income_median'] = test_data['village_income_median'].fillna(np.median(test_data['village_income_median']))
train_data = train_data.fillna(0)
test_data = test_data.fillna(0)

## 2-2 建立模型

使用線性迴歸的優點
- 建模速度快、不需複雜計算
- 根據係數給出每個因子的解釋

In [None]:
#將不需要用來建模的變數拿掉(ID、Y)
train_x_baseline = train_data.drop(['total_price', 'building_id'], axis=1)
train_y_baseline = train_data['total_price']

test_x_baseline = test_data.drop(['total_price', 'building_id'], axis=1)
test_y_baseline = test_data['total_price']

In [None]:
#引用sklearn的線性回歸套件
from sklearn.linear_model import LinearRegression

# 設定模型與模型參數
lr = LinearRegression()

# 使用 Train 資料訓練模型
lr.fit(train_x_baseline, train_y_baseline)

## 2-3 模型驗證
本次模型衡量指標為MAPE

<br>

<div>
<img src="https://i.imgur.com/LTP9Y9Q.png" width="400"/>
</div>

In [None]:
#將test data丟入上個步驟訓練好的模型得出預測結果
pred_y = lr.predict(test_x_baseline)

In [None]:
#建立MAPE的運算公式
def mean_absolute_percentage_error(y_true, y_pred): 
    y_true, y_pred = np.array(y_true), np.array(y_pred)
    return np.mean(np.abs((y_true - y_pred) / y_true))

In [None]:
#建立模型成效的報表
def report(y_true, y_pred):

    mape = mean_absolute_percentage_error(y_true, y_pred)
    print('mape:', mape)
    print("對於每個物件的預測價格誤差為", round(mape*100, 2), "%")

    error_abs = abs((y_true - y_pred) / y_true)

    hit10 = 0
    for i in error_abs:
        if i <= 0.1:
            hit10 += 1

    hit_rate_10 = hit10/len(error_abs)
    print('hitrate10:', hit_rate_10)
    print("每100個物件中，共有", round(hit_rate_10*100, 1) ,"個物件在預測誤差 10% 以內")

    hit20 = 0
    for i in error_abs:
        if i <= 0.2:
            hit20+=1

    hit_rate_20 = hit20/len(error_abs)
    print('hitrate20:', hit_rate_20)
    print("每100個物件中，共有", round(hit_rate_20*100, 1) ,"個物件在預測誤差 20% 以內")

In [None]:
#得出模型成效
report(test_y_baseline, pred_y)

<a id='section_03'></a>
# UNIT 3 - 特徵工程 (特徵篩選)
雜訊太多容易使模型產生更多誤差，先簡單使用相關係數來篩選

## 3-1 使用相關係數篩選因子

In [None]:
correlations = train_data.corr()['total_price'].sort_values()

# 顯示相關係數最大 / 最小的各15個欄位名稱
print('Most Positive Correlations:\n', correlations.tail(11))
print("="*30)
print('Most Negative Correlations:\n', correlations.head(10))

In [None]:
#將上列30個變數放入list
col = ['V_5000', 'VII_5000', 'jobschool_rate', 'XIII_5000', 'doc_Rate',
       'bachelor_rate', 'master_rate', 'parking_price', 'land_area', 'building_area',
       'highschool_rate', 'junior_rate', 'elementary_rate', 'divorce_rate', 'parking_way',
       'IV_MIN', 'VI_MIN', 'town', 'death_date', 'XIII_MIN']

## 3-2 建立模型

In [None]:
#將training data改為篩選後的因子列表
train_x = train_data[col]
train_y = train_data['total_price']
test_x = test_data[col]
test_y = test_data['total_price']

In [None]:
from sklearn.linear_model import LinearRegression

# 設定模型與模型參數
lr = LinearRegression()

# 使用 Train 資料訓練模型
lr.fit(train_x, train_y)

## 3-3 模型驗證 (經過因子篩選後)

In [None]:
#將test data丟入上個步驟訓練好的模型得出預測結果
pred_y = lr.predict(test_x)

In [None]:
#產生模型評估結果
report(test_y, pred_y)

<a id='section_04'></a>
# UNIT 4 - 特徵工程(特徵組合)
思考一下有哪些因素會影響房價? 

<br>

地點? 風水? 樓層?

## 4-1 特徵工程 - 組合出新的因子

In [None]:
train_data_2 = train_data.copy()
#加入"屋齡"因子
train_data_2['house_age'] = train_data_2['txn_dt'] - train_data_2['building_complete_dt']
#加入"樓層比率"因子
train_data_2['floor_ratio'] = train_data_2['txn_floor'] - train_data_2['total_floor']
#加入"容積率"因子
train_data_2['far'] = train_data_2['txn_floor'] / train_data_2['total_floor']

## 4-2 特徵工程 - 處理資料偏態
發現：房價、房屋及土地面積都有嚴重右偏的情形

In [None]:
plt.figure(figsize=(15, 15))
plt.subplot(3, 1, 1)
plt.title('building_area')
sns.distplot(train_data_2['building_area'])

plt.subplot(3, 1, 2)
sns.set_style('dark')
plt.title('land_area');
sns.distplot(train_data_2['land_area'])

plt.subplot(3, 1, 3)
sns.set_style('dark')
plt.title('total_price');
sns.distplot(train_data_2['total_price'])

In [None]:
train_data_2['log_building_area'] = np.log(train_data_2['building_area'])
train_data_2['log_land_area'] = np.log(train_data_2['land_area']+0.1)
train_data_2['log_total_price'] = np.log(train_data_2['total_price'])

#### 對於金額類或偏移嚴重的資料，通常會對該欄位取log以消除偏態。

In [None]:
plt.figure(figsize=(15, 15))
plt.subplot(3, 1, 1)
plt.title('log_building_area')
sns.distplot(train_data_2['log_building_area'])

plt.subplot(3, 1, 2)
sns.set_style('dark')
plt.title('log_land_area');
sns.distplot(train_data_2['log_land_area'])

plt.subplot(3, 1, 3)
sns.set_style('dark')
plt.title('log_total_price');
sns.distplot(train_data_2['log_total_price'])

## 4-3 特徵工程-特徵篩選

In [None]:
#選出相關係數取絕對值後最高的前30名
correlations = train_data_2.corr()['log_total_price'].abs().sort_values()
correlations.tail(30)

In [None]:
#加入4-1, 4-2特徵工程新增的因子
col = ['house_age', 'floor_ratio', 'far',  'log_land_area', 'log_building_area',
       'XIII_5000', 'jobschool_rate', 'bachelor_rate', 'XIII_10000', 'highschool_rate',
       'VII_10000', 'elementary_rate', 'IX_10000', 'V_10000', 'master_rate',
       'VIII_10000', 'III_10000', 'X_10000', 'XI_10000', 'VI_10000',
       'II_10000', 'XII_10000', 'doc_Rate', 'IX_5000', 'VIII_5000',
       'parking_price', 'I_10000', 'lon', 'VII_5000', 'V_5000',
       'IV_10000', 'txn_dt'
      ]

#透過業務邏輯加入重要的POI
#(II: 各級學校 , XI: 交通設施, XIII: 鄰避設施)
poi_list = ['II', "XI", "XIII"]
poi_col = []
for i in poi_list:
    poi_col.append(f'{i}_10')
    poi_col.append(f'{i}_50')
    poi_col.append(f'{i}_100')
    poi_col.append(f'{i}_250')
    poi_col.append(f'{i}_500')
    poi_col.append(f'{i}_1000')
    poi_col.append(f'{i}_MIN')

#將上述兩個list取聯集
col_new = set(col).union(set(poi_col))
print("最終共有", len(col_new), "個因子")

## 4-4 建立模型

In [None]:
#將test data轉換為模型與train data的格式
test_data_2 = test_data.copy()
test_data_2['house_age'] = test_data_2['txn_dt'] - test_data_2['building_complete_dt']
test_data_2['floor_ratio'] = test_data_2['txn_floor'] - test_data_2['total_floor']
test_data_2['far'] = test_data_2['txn_floor'] / test_data_2['total_floor']
test_data_2['log_building_area'] = np.log(test_data_2['building_area'])
test_data_2['log_land_area'] = np.log(test_data_2['land_area']+0.1)
test_data_2['log_total_price'] = np.log(test_data_2['total_price'])

In [None]:
train_x = train_data_2[col_new]
train_y = train_data_2['log_total_price']
test_x = test_data_2[col_new]
test_y = test_data_2['log_total_price']

In [None]:
from sklearn.linear_model import LinearRegression

# 設定模型與模型參數
lr = LinearRegression()

# 使用 Train 資料訓練模型
lr.fit(train_x, train_y)

## 4-5 模型驗證

In [None]:
pred_y = lr.predict(test_x)
report(np.exp(test_y), np.exp(pred_y))

<a id='section_05'></a>
# UNIT 5 - 使用進階模型
- 決策樹 Decision Tree
- 隨機森林 Random Forest
- Light GBM

In [None]:
#引用模型套件
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
import lightgbm as lgb

## 5-1 決策樹 Decision Tree

- 決策樹簡介
> 從訓練資料中找出規則，並使每一次切分資料有最大的訊息增益(Information Gain)

![decision_tree.jpeg](https://i.imgur.com/zPfQjxO.jpg)

In [None]:
#建立決策樹模型
dt_regr = DecisionTreeRegressor(random_state=13)
dt_regr.fit(train_x, train_y)

## 5-2 隨機森林 Random Forest

- 隨機森林簡介
> 分別抽一部分的資料跑決策樹模型，最後再將所有樹的預測結果取平均以得到預測結果。


![random_forest.png](https://i.imgur.com/wEiRsle.png)

延伸閱讀 <br>
- [決策樹(Decision Tree)以及隨機森林(Random Forest)介紹](https://medium.com/jameslearningnote/%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90-%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-%E7%AC%AC3-5%E8%AC%9B-%E6%B1%BA%E7%AD%96%E6%A8%B9-decision-tree-%E4%BB%A5%E5%8F%8A%E9%9A%A8%E6%A9%9F%E6%A3%AE%E6%9E%97-random-forest-%E4%BB%8B%E7%B4%B9-7079b0ddfbda)
- [機器學習演算法—隨機森林（Random Forest）懶人包](http://hn28082251.blogspot.com/2018/07/random-forest.html)

In [None]:
#建立隨機森林模型
rf_regr = RandomForestRegressor(random_state=13)
rf_regr.fit(train_x, train_y)

## 5-3 LightGBM

- LightGBM簡介
> LightGBM是Gradient Boosting Tree的其中一種，而Boosting也是多棵樹集合(Ensemble)的另一種方法。其核心概念是先訓練一棵較簡單的樹，再透過樣本權重分配的方式針對估不準的樣本重新建樹，相較於單一棵決策樹通常有更好的精準度。

![lgbm.png](https://i.imgur.com/GXjkWZD.png)


延伸閱讀 <br>
- [kaggle機器學習競賽神器xgboost介紹](https://medium.com/jameslearningnote/%E8%B3%87%E6%96%99%E5%88%86%E6%9E%90-%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92-%E7%AC%AC5-2%E8%AC%9B-kaggle%E6%A9%9F%E5%99%A8%E5%AD%B8%E7%BF%92%E7%AB%B6%E8%B3%BD%E7%A5%9E%E5%99%A8xgboost%E4%BB%8B%E7%B4%B9-1c8f55cffcc)
- [《決策樹系列》LightGBM模型理論](https://medium.com/@jimmywu0621/%E6%B1%BA%E7%AD%96%E6%A8%B9%E7%B3%BB%E5%88%97-lightgbm%E6%A8%A1%E5%9E%8B%E7%90%86%E8%AB%96-96ce38ea8940)

In [None]:
lgbm_regr = lgb.LGBMRegressor(random_state=13)
lgbm_regr.fit(train_x, train_y)

## 5-4 模型驗證

### Decision Tree 成效

In [None]:
pred_y = dt_regr.predict(test_x)
report(np.exp(test_y), np.exp(pred_y))

## Random Forest 成效

In [None]:
pred_y = rf_regr.predict(test_x)
report(np.exp(test_y), np.exp(pred_y))

##  LightGBM 成效

In [None]:
pred_y = lgbm_regr.predict(test_x)
report(np.exp(test_y), np.exp(pred_y))

## 5-5 補充：透過模型的feature importance來篩選因子

In [None]:
feature_importance_lgbm = pd.DataFrame({"col": test_x.columns, "importance": lgbm_regr.feature_importances_})
feature_importance_rf = pd.DataFrame({"col": test_x.columns, "importance": rf_regr.feature_importances_})

In [None]:
features = feature_importance_rf['col']
importances = feature_importance_rf['importance']
indices = np.argsort(importances)
plt.figure(figsize=(20, 10))
plt.title('Random Forest Feature Impor tances')
plt.barh(range(len(indices)), importances[indices], color='b', align='center')
plt.yticks(range(len(indices)), [features[i] for i in indices])
plt.xlabel('Relative Importance')
plt.show()

In [None]:
plt.figure(figsize=(40, 20))
lgb.plot_importance(lgbm_regr, max_num_features=30)
plt.title("LGBM Feature Importance")
plt.show()

In [None]:
#從中選出在模型內較有影響力的因子
col_imp_lgbm = feature_importance_lgbm[feature_importance_lgbm['importance']>=5].col.to_list()
col_imp_rf = feature_importance_rf[feature_importance_rf['importance']>=0.0001].col.to_list()

In [None]:
train_x2 = train_x[col_imp_rf]
train_y2 = train_data_2['log_total_price']
test_x2 = test_x[col_imp_rf]
test_y2 = test_data_2['log_total_price']

In [None]:
train_x3 = train_x[col_imp_lgbm]
train_y3 = train_data_2['log_total_price']
test_x3 = test_x[col_imp_lgbm]
test_y3 = test_data_2['log_total_price']

In [None]:
rf_regr.fit(train_x2, train_y2)

In [None]:
lgbm_regr.fit(train_x3, train_y3)

In [None]:
pred_y2 = rf_regr.predict(test_x2)
report(np.exp(test_y2), np.exp(pred_y2))

In [None]:
pred_y3 = lgbm_regr.predict(test_x3)
report(np.exp(test_y3), np.exp(pred_y3))

<a id='section_06'></a>
# 六、超參數調整
精進模型的最後一步，使用grid search找出優化模型的參數

In [None]:
#引入參數調整相關套件
from sklearn.model_selection import KFold, GridSearchCV

## 6-1 LGBM參數調整

In [None]:
#設定要訓練參數組合
n_estimators = [100, 300, 500, 1000]
max_depth = [-1, 5, 10, 15]
learning_rate = [0.01, 0.1, 1]
param_grid = dict(n_estimators=n_estimators, max_depth=max_depth, learning_rate=learning_rate)

#建立搜尋的物件，放入模型及參數的組合 (n_jobs=-1會使用全部cpu平行運算以加快搜尋速度)
grid_search = GridSearchCV(lgbm_regr, param_grid, scoring='neg_mean_absolute_error', n_jobs=-1, verbose=1, cv=5)

#開始搜尋最佳參數
grid_result = grid_search.fit(train_x3, train_y3)

#印出最佳參數組合
print("Best MAE is:", grid_result.best_score_, "The parameters are", grid_result.best_params_)

In [None]:
lgbm_regr_opt = lgb.LGBMRegressor(learning_rate=grid_result.best_params_['learning_rate'],
                                  max_depth=grid_result.best_params_['max_depth'],
                                  n_estimators=grid_result.best_params_['n_estimators'],
                                  random_state=13)
lgbm_regr_opt.fit(train_x, train_y)

pred_y = lgbm_regr_opt.predict(test_x)
report(np.exp(test_y), np.exp(pred_y))

## 6-2 隨機森林參數調整
(注意：這個會跑很久，建議自行練習時再執行。)

In [None]:
#設定要訓練參數組合
n_estimators = [100, 300, 500]
max_depth = [None, 3, 5]
max_features = ['mse', 'auto', 'log2']
param_grid = dict(n_estimators=n_estimators, max_depth=max_depth, max_features=max_features)

#建立搜尋的物件，放入模型及參數的組合 (n_jobs=-1會使用全部cpu平行運算以加快搜尋速度)
grid_search = GridSearchCV(rf_regr, param_grid, scoring='neg_mean_absolute_error', n_jobs=-1, verbose=1, cv=5)

#開始搜尋最佳參數
grid_result = grid_search.fit(train_x3, train_y3)

#印出最佳參數組合
print("Best MAE is:", grid_result.best_score_, "The parameters are", grid_result.best_params_)

In [None]:
rf_regr_opt = RandomForestRegressor(max_features=grid_result.best_params_['max_features'],
                                    max_depth=grid_result.best_params_['max_depth'],
                                    n_estimators=grid_result.best_params_['n_estimators'],
                                    random_state=13)
rf_regr_opt.fit(train_x, train_y)

In [None]:
pred_y = rf_regr_opt.predict(test_x)
report(np.exp(test_y), np.exp(pred_y))