# 選擇要建模的數據 Selecting Data for Modeling

數據集包含太多變量，會擾亂我們的思緒，甚至無法很好地print出來。我們如何將大量的數據縮減為我們可以理解的數據？

我們將從使用直覺選擇一些變量開始。 之後的課程將向您展示統計技術來自動確定優先的變量。

要選擇變量/列，我們需要查看數據集中的所有列。 這是透過DataFrame的 **columns** 屬性完成的（下面的代碼底行）。

In [1]:
import pandas as pd

melbourne_file_path = './data_set/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [2]:
# The Melbourne data has some missing values (some houses for which some variables weren't recorded.)
# We'll learn to handle missing values in a later tutorial.  
# Your Iowa data doesn't have missing values in the columns you use. 
# So we will take the simplest option for now, and drop houses from our data. 
# Don't worry about this much for now, though the code is:

# dropna drops missing values (think of na as "not available")
melbourne_data = melbourne_data.dropna(axis=0) #刪除含空值的欄位

有很多方法可以選擇數據的子集。 [Pandas微課程](https://www.kaggle.com/learn/pandas)更深入地介紹了這些內容，但目前我們將重點介紹兩種方法。

1. 點表示法(Dot notation)，用於選擇“預測目標(prediction target)”
2. 選擇帶有列列表的列表，我們用它來選擇“特徵(features)”

## 選擇預測目標

您可以使用點符號(dot-notation, `.` )提取變量。 此單列存儲在 **Series** 中，這很大程度上類似於僅包含一列數據的DataFrame。

我們將使用點表示法選擇要預測的列，稱為 **預測目標(prediction target)** 。 按照慣例，預測目標稱為 **y** 。 因此，我們需要在墨爾本數據中保存房價的代碼是:

In [3]:
y = melbourne_data.Price

## 選擇“特徵”

輸入到我們的模型中（然後用於進行預測）的欄位稱為“特徵(features)”。 在案例中，這些將是用於確定房屋價格的列。 有時，您會將除目標以外的所有欄位作為預測的特徵。不過有時，更少的特徵會更好。

目前，我們將僅建立具有幾個特徵的模型。 稍後，您將看到如何迭代(iterate)和比較使用不同功能構建的模型。

我們通過在方括號內提供列名稱列表來**選擇多個特徵**。 該列表中的每個項目都應該是一個字符串（帶引號）。

這是一個例子：

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

按照慣例，此數據稱為 `X` 。

In [5]:
X = melbourne_data[melbourne_features]

讓我們使用 `describe()` 方法和 `head()` 方法快速查看將用於預測房價的數據，該方法顯示了前幾行。

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


使用這些命令直觀地檢查數據是數據科學家工作的重要組成部分。 您會經常在數據集中發現一些值得進一步檢查的驚喜。

___

## 建立模型 Building Your Model

我們將使用 **scikit-learn** 函式庫創建模型。 如您在範例代碼中所見，在coding時，該庫被編寫為 **sklearn** 。 Scikit-learn很容易成為最受歡迎的函式庫，用於對通常存儲在DataFrames中的數據類型進行建模。

建立和使用模型的步驟是：

- **定義(Define)**：它將是哪種類型的模型？決策樹？其他類型的模型？有些模型類型還指定了其他一些參數。
- **擬合(Fit)**：從提供的數據中捕獲模式。 這是建模的核心。
- **預測(Predict)**：字面上的意思。
- **評估(Evaluate)**：查看模型預測的準確性。

這是一個使用scikit-learn定義決策樹模型並將其與功能和目標變量相匹配的示例。

In [8]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
                      max_leaf_nodes=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      presort=False, random_state=1, splitter='best')

許多機器學習模型在模型訓練中允許一些隨機性(randomness)。 為 `random_state` 指定一個數字可確保您在每次運行中獲得相同的結果。這被視為是一種好習慣。我們可以使用任何數字，並且模型的質量在很大程度上不會取決於我們選擇的值。

現在，我們有了一個擬合模型，可以用來進行預測。

實際上，您將要對市場上即將出現的新房子而不是我們已經有價格的房子做出預測。 但是，我們將對訓練數據的前幾行進行預測，以了解預測函數的工作方式。

In [9]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]
