# 使用模型的步骤
1. 导入模块
2. 创建数据
3. 定义模型-训练-预测

# 利用KNN分类算法进行分类
*新的观测值的标签由n维空间中最靠近它的训练样本标签(少数服从多数原则)确定*

## 1 导入模块

In [1]:
import numpy as np
from sklearn import neighbors, datasets
from sklearn.model_selection import train_test_split

## 2 创建数据

加载 `iris` 数据, 把属性存在 `X`, 类别标签存在 `y`:

In [2]:
iris = datasets.load_iris()

In [3]:
iris_X = iris.data # iris的属性，有4个属性: 花瓣的长宽，茎的长宽

In [4]:
iris_y = iris.target # iris的分类，有3个类别(0,1,2)

把数据集分为训练集和测试集，其中 `test_size=0.3`, 即测试集占总数据的30%:

In [5]:
X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.3)

可以看到分开后的数据集，顺序也被打乱，这样更有利于学习模型：

In [6]:
print(y_train)

[1 0 0 2 1 0 1 2 1 2 1 2 1 0 1 0 2 2 0 0 0 0 2 0 2 1 2 0 2 2 1 0 0 1 1 0 1
 0 1 2 0 1 0 0 0 2 2 0 2 1 0 2 1 0 1 2 0 0 2 0 0 2 0 1 1 2 0 1 1 1 1 1 2 0
 1 0 2 1 2 2 0 2 2 0 1 2 1 2 2 1 2 1 0 1 0 0 1 1 1 0 1 1 1 2 2]


## 3 定义模型-训练模型-预测
定义模块方式 `KNeighborsClassifier()`， 用 `fit` 来训练 `training data`，这一步就完成了训练的所有步骤， 后面的 `knn` 就已经是训练好的模型，可以直接用来 `predict` 测试集的数据， 对比用模型预测的值与真实的值，可以看到大概模拟出了数据，但是有误差，是不会完完全全预测正确的。

In [7]:
# step1: 定义用什么model学习，这里使用KNN分类算法进行分类
knn = neighbors.KNeighborsClassifier()

In [8]:
# step2: 使用model.fit(数据)，从已有的数据中进行学习
knn.fit(X_train, y_train)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1, n_neighbors=5, p=2,
           weights='uniform')

In [9]:
# step3: 使用model.predict()预测测试集的数据
print(knn.predict(X_test))

[2 1 2 0 2 0 2 2 0 2 2 0 1 2 1 2 1 0 0 2 0 1 1 0 1 2 2 2 2 1 1 1 0 2 2 2 0
 1 2 2 0 0 1 0 0]


In [10]:
# 对比用模型预测的值 与 真实的值 (发现效果还不错？)
print(y_test)

[2 1 2 0 2 0 2 2 0 1 2 0 1 2 1 2 1 0 0 2 0 1 1 0 1 2 2 2 2 1 1 1 0 2 2 2 0
 1 2 2 0 0 1 0 0]


In [11]:
# 还可以利用分类模型进行未知数据的预测（确定标签）
print(knn.predict([[5.0, 3.0, 5.0, 2.0]]))

[2]


# 利用K-means聚类算法进行聚类

## 1 导入模块

In [12]:
from sklearn import cluster, datasets

## 2 创建数据

In [13]:
iris = datasets.load_iris()

In [14]:
iris_X = iris.data
iris_y = iris.target

## 3 定义模型-训练模型-预测

In [15]:
kmeans = cluster.KMeans(n_clusters=3).fit(iris_X) # fit()拆开单独写也是一样的

In [16]:
pred = kmeans.predict(iris_X) # 确定数据的类别

In [17]:
for label in pred:
    print(label, end=' ') # 打印预测出的各条数据的标签
print('\n')
for label in iris_y:
    print(label, end=' ') # 打印原始标注好的正确标签

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 2 2 2 1 2 2 2 2 2 2 1 1 2 2 2 2 1 2 1 2 1 2 2 1 1 2 2 2 2 2 1 2 2 2 2 1 2 2 2 1 2 2 2 1 2 2 1 

0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 

# 利用SVM (Support Vector Machine 支持向量集) 分类算法进行分类
*SVM最简单的是线性支持向量机，它尝试构建一个两个类别（不仅可用于二类分类，也可以用于多类分类）的最大间隔超平面即能将两个类别分割开的直线，但如果数据是线性不可分的，则要用到核函数，将数据映射到高维空间中寻找可区分数据的超平面。如果选择合适的SVM参数、核函数和特征，则在模不大的数据集上其表现不错*

## 导入模块

In [18]:
from sklearn import svm, datasets

## 确定数据

In [19]:
iris = datasets.load_iris()
iris_X = iris.data
iris_y = iris.target

In [20]:
X_train, X_test, y_train, y_test = train_test_split(
    iris_X, iris_y, test_size=0.3)

## 定义模型-训练-预测

In [21]:
svc = svm.LinearSVC()

In [22]:
svc.fit(X_train, y_train) # 学习

LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=None, tol=0.0001,
     verbose=0)

In [23]:
print(svc.predict(X_test)) # 预测

[2 1 2 0 1 1 0 1 2 2 2 0 1 1 1 2 0 1 2 2 2 0 1 0 1 0 1 2 1 0 2 2 2 1 2 1 0
 0 0 2 0 1 2 2 0]


In [24]:
print(y_test) # 对比结果

[2 1 2 0 1 1 0 1 2 2 2 0 1 1 1 2 0 1 2 2 2 0 1 0 1 0 1 2 1 0 2 2 2 1 1 1 0
 0 0 2 0 1 2 2 0]
