### 监督学习基础套路

- Train vs Test：隔离训练集，测试集以验证训练效果

    把已有数据分为两部分，训练数据（Train）和测试数据（Test），训练数据来训练模型，测试数据来测试模型在新数据上运行的准确性
    
- 建立一个管道将x,y关联起来：f(x) = y

    feature: x, label: y, classifier其实就是一个feature到label的函数


### 可以从sklearn中import各种分类器进行训练，各种分类器有类似的接口，这些不同分类器都可以解决类似的问题


### 让算法从数据中学习到底是什么？

- 拒绝手工写分类规则代码

    本质上是学习feature到label，从输入到输出的函数，从一个模型开始，用规则来定义函数
- 根据训练数据调整函数参数

    从我们发现规律的方法中，找到model
    
    比如一条划分两类点的线就是一个分类器的model，调整参数就能得到我们想要的分类器： 
    
    ![classify.png](https://i.loli.net/2018/02/25/5a92d8f1b7d76.png)

### Example of Neural Network：[TensorFlow PlayGround](http://playground.tensorflow.org/)

In [2]:
# import a dataset
from sklearn import datasets

iris = datasets.load_iris()

创建特征X和标签Y，将X、Y看做一个函数f(x)=y，x是输入，y是输出

In [3]:
X = iris.data
y = iris.target

分离训练数据和测试数据，各占原数据集的一半

*PS.*`sklearn.cross_validation`模块在0.18版本中被弃用，支持所有重构的类和函数都被移动到`sklearn.model_selection`模块。

In [12]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=.5)

建立决策树分类器

In [6]:
# decision tree
from sklearn import tree
my_classifier_tree = tree.DecisionTreeClassifier()

建立KNN分类器

In [8]:
# KNN
from sklearn.neighbors import KNeighborsClassifier
my_classifier_knn = KNeighborsClassifier()

分别对两种分类器进行训练

In [9]:
my_classifier_tree.fit(X_train, y_train)
my_classifier_knn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

分别对两种分类器调用预测方法，并用它来分类测试数据

In [10]:
predictions_tree = my_classifier_tree.predict(X_test)
predictions_knn = my_classifier_knn.predict(X_test)

分别计算两种分类器的准确性

In [11]:
from sklearn.metrics import accuracy_score
print(accuracy_score(y_test, predictions_tree))
print(accuracy_score(y_test, predictions_knn))

0.9466666666666667
0.96
