# 选择建模所需的数据

您的数据集中有太多的变量，以至于您无法理解，甚至无法很好地打印出来。你怎样才能把这么庞大的数据压缩成你能理解的东西呢？

我们先用我们的直觉挑选一些变量。稍后的课程将向您展示统计技术，以自动排列变量的优先级。

要选择变量/列，我们需要查看数据集中所有列的列表。这是通过 DataFrame 的 **columns** 属性(下面代码的底部)完成的。

In [1]:
import pandas as pd

melbourne_file_path = '../input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [2]:
# 墨尔本的数据有一些缺失的值(一些房子的一些变量没有记录。)
# 在后面的教程中，我们将学习如何处理缺失的值。
# 爱荷华州数据在所使用的列中没有缺失值。
# 因此，我们现在将采取最简单的方法，从我们的数据中删除房屋。
# 现在不用担心这个，尽管代码是:

# dropna 删除丢失的值(将 na 想象为“不可用”)
melbourne_data = melbourne_data.dropna(axis=0)

有许多方法可以选择数据的子集。[Pandas课程](https://www.kaggle.com/learn/pandas)对此进行了更深入的介绍，但现在我们将重点关注两种方法。

1. 点表示法（Dot notation），用于选择“预测目标”
2. 使用列名list进行选择，用于选择“特征”

## 选择预测目标

可以使用 **点表示法** 提取变量。这个单个列存储在 **Series** 中，它类似于只有一列数据的DataFrame。

我们将使用点表示法来选择要预测的列，称为 **预测目标**。按照惯例，预测目标称为 **y**。因此，我们需要的代码来保存墨尔本数据中房屋价格的是：

In [3]:
y = melbourne_data.Price

# “特征”选择
输入到我们的模型中的列(以及后来用于进行预测的列)被称为“特征”。在我们的例子中，这些将是用于确定房屋价格的列。有时，您将使用除目标之外的所有列作为特征。其他时候，使用更少的特征会更好。

现在，我们将构建一个只有几个特征的模型。稍后您将看到如何迭代和比较使用不同特征构建的模型。

我们通过在括号中提供列名列表来选择多个特征。列表中的每个项应该是一个字符串(带引号)。

这里有一个例子:

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

按照惯例，这些数据称为 **X** 。

In [5]:
X = melbourne_data[melbourne_features]

让我们用`describe`方法和`head`方法快速回顾一下预测房价的数据，这两种方法显示了前几行。

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


使用这些命令可视化地检查数据是数据科学家工作的重要组成部分。您经常会在数据集中发现值得进一步检查的惊喜。

# 构建模型
您将使用 **scikit-learn** 库来创建模型。在编码时，这个库被写成**sklearn**，正如您在示例代码中所看到的。Scikit-learn很容易成为存储在DataFrames中的数据类型建模的最流行的库。

建立和使用模型的步骤是：

* **定义：** 它将是什么类型的模型？决策树？其他类型的模型？模型类型的其他参数也被指定了。
* **拟合：** 从提供的数据中捕获模式。这是建模的核心。
* **预测：** 字面意思。
* **评估：** 确定模型预测的准确性。

这里是一个使用scikit-learn定义决策树模型并用特征和目标变量进行拟合的示例。

In [8]:
from sklearn.tree import DecisionTreeRegressor

# 定义 model。为 Random_state 指定一个数字，以确保每次运行都得到相同的结果
melbourne_model = DecisionTreeRegressor(random_state=1)

# 拟合 model
melbourne_model.fit(X, y)

DecisionTreeRegressor(random_state=1)

许多机器学习模型在模型训练中允许一些随机性。为 `Random_state` 指定一个数字可以确保每次运行都得到相同的结果。这被认为是一种好的做法。您可以使用任何数字，模型的质量并不完全取决于您所选择的值。

我们现在有一个拟合好的模型，我们可以用来做出预测。

在实践中，你会想要预测即将上市的新房子，而不是我们已经有价格的房子。但是我们将对训练数据的前几行进行预测，看看预测函数是如何工作的。

In [9]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]


# 练习时间
独立尝试一下 **[Model Building Exercise](https://www.kaggle.com/kernels/fork/1404276)**