## 选择建模的数据
- 怎样在海量数据中选出最利于建模的变量？
- 此次项目实战将通过直觉选择几个变量用于建模，之后的项目将向您展示自动确定变量优先级的统计技术。

In [1]:
import pandas as pd

In [2]:
melbourne_data = pd.read_csv('melb_data.csv')

In [3]:
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

--------------------------------------------------------------------------------------------
- melbourne_data里有一些缺失值（有些房屋的某些变量值没有记录）；
- 将在后面的教程中学习如何处理丢失的值；
- 现在将采取最简单的选择，并从我们的数据中删除房屋；
- dropna drops missing values (think of na as "not available")

In [4]:
melbourne_data =melbourne_data.dropna(axis = 0)

选择数据子集的方法有很多种,但目前我们将重点关注两种方法:
- 点表示法(Dot notation)，用于选择“预测目标(prediction target)”
- 用列列表选择(Selecting with a column list)，用于选择“特征”

## 选择预测目标
你可以用点表示法拉出一个变量。这个单列存储在一个Series中，这个Series大体上就像一个只有单列数据的数据框架；

我们将使用点表示法来选择要预测的列，这称为预测目标。根据惯例，预测目标称为Y，所以我们将墨尔本数据中房价的保存为Y。

In [5]:
y = melbourne_data.Price

## 选择“特征”
在模型中输入的列（稍后用于预测）称为“特征”。在这次项目中，这些列将是用于确定房价的列。有时，您将使用除目标之外的所有列作为特征。其他时候，你使用更少的特征是会获得更好的模型；

此次项目将构建一个只有几个特性的模型。稍后，您将看到如何迭代和比较使用不同特性构建的模型。

我们通过提供括号内的列名列表来选择多个特征。该列表中的每个项目都应该是一个字符串（带引号）。



In [6]:
# 这些数据成为X
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

In [7]:
X = melbourne_data[melbourne_features]

In [8]:
# 快速浏览一下用于预测房价数据的描述以及前几行
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [9]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


## 建立模型

将使用scikit-learn库创建模型。在编码时，这个库被写成sklearn。

构建和使用模型的步骤如下：

- 定义（Define）：它将是什么类型的模型？决策树？其他类型的模型？还指定了模型类型的一些其他参数。
- 拟合（Fit）：从提供的数据中捕获模式。这是建模的核心。
- 预言（Predict）：只是听起来像什么
- 评估（Evaluate）：确定模型的预测有多精确。

下面是一个使用scikit-learn定义决策树模型并将其与特性和目标变量相匹配的示例。

In [10]:
from sklearn.tree import DecisionTreeRegressor

# 定义模型。为random_state指定一个数字，以确保每次运行的结果相同
melbourne_model = DecisionTreeRegressor(random_state=1)

# 拟合模型。
melbourne_model.fit(X, y)


DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
           max_leaf_nodes=None, min_impurity_decrease=0.0,
           min_impurity_split=None, min_samples_leaf=1,
           min_samples_split=2, min_weight_fraction_leaf=0.0,
           presort=False, random_state=1, splitter='best')

许多机器学习模型在模型训练中允许一些随机性。为random-state指定一个数字可以确保每次运行都获得相同的结果。这被认为是一种良好的做法。您使用任何数字，模型质量不会有意义地依赖于您选择的确切值。

我们现在有了一个合适的模型，可以用来做预测。

在实践中，你会希望对即将上市的新房子做出预测，而不是我们已经有价格的房子。但我们将对训练数据的前几行进行预测，以了解预测函数是如何工作的。

In [11]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
The predictions are
[1035000. 1465000. 1600000. 1876000. 1636000.]


***以上，就是此篇kaggle的所有内容，但就我的认知而言应该还缺一个对模型进行评估的指标，比如使用损失函数***
项目地址：https://www.kaggle.com/dansbecker/your-first-machine-learning-model/notebook