# Tutorial 2

在scilit-learn中所有有监督学习的估值器estimators都实现了一个fit(x,y)的接口，用来估计参数。

也都有一个predict(x)的接口，用于根据估计出来的参数去做预测。

有监督学习又可以分成分类与回归两类。

如果是分类问题，那么标签y可以是整数的向量，或者字符串的向量。

## 1. K邻近

### 1.1 首先看看这个数据集的大致内容：

数据集iris是一个分类的问题。它包含了3个不同的类别标签：Setosa, Versicolour, and Virginica


In [1]:
import numpy as np
from sklearn import datasets

# 导入数据集
iris = datasets.load_iris()

# 获取数据集的features
x = iris.data

# 获取数据集的labels
y = iris.target

# 获取有标签中的类别,有0,1,2共3类
label = np.unique(y)
label

array([0, 1, 2])

### 1.2 对iris数据集进行分割，产生训练集与测试集

In [3]:
# 设置随机池
np.random.seed(0)

# 随机产生一组与样本长度一致的随机数
indices = np.random.permutation(len(x))
indices

array([114,  62,  33, 107,   7, 100,  40,  86,  76,  71, 134,  51,  73,
        54,  63,  37,  78,  90,  45,  16, 121,  66,  24,   8, 126,  22,
        44,  97,  93,  26, 137,  84,  27, 127, 132,  59,  18,  83,  61,
        92, 112,   2, 141,  43,  10,  60, 116, 144, 119, 108,  69, 135,
        56,  80, 123, 133, 106, 146,  50, 147,  85,  30, 101,  94,  64,
        89,  91, 125,  48,  13, 111,  95,  20,  15,  52,   3, 149,  98,
         6,  68, 109,  96,  12, 102, 120, 104, 128,  46,  11, 110, 124,
        41, 148,   1, 113, 139,  42,   4, 129,  17,  38,   5,  53, 143,
       105,   0,  34,  28,  55,  75,  35,  23,  74,  31, 118,  57, 131,
        65,  32, 138,  14, 122,  19,  29, 130,  49, 136,  99,  82,  79,
       115, 145,  72,  77,  25,  81, 140, 142,  39,  58,  88,  70,  87,
        36,  21,   9, 103,  67, 117,  47])

In [5]:
# 分别对特征与标签分割训练集，测试集
x_train = x[indices[:-10]]
x_test = x[indices[-10:]]
y_train = y[indices[:-10]]
y_test = y[indices[-10:]]

### 1.3 训练模型

In [10]:
from  sklearn.neighbors import KNeighborsClassifier

# 创建模型
knn = KNeighborsClassifier()

# 训练模型
knn.fit(x_train, y_train)

# 预测测试集
predict = knn.predict(x_test)
predict
y_test

print(predict)
print(y_test)


[1 2 1 0 0 0 2 1 2 0]
[1 1 1 0 0 0 2 1 2 0]


## 2. 线性模型

### 2.1 数据集

使用diabetes数据集，其中有10个特征（年龄，性别，体重，血压等），有442个样本，y值是一年之后的疾病指标。

In [14]:
diabetes = datasets.load_diabetes()
x_train = diabetes.data[:-20]
x_test = diabetes.data[-20:]
y_train = diabetes.target[:-20]
y_test = diabetes.target[-20:]

### 2.2 线性回归模型

In [15]:
from sklearn import linear_model

# 创建模型
regr = linear_model.LinearRegression()

# 训练模型
regr.fit(x_train, y_train)

# 打印模型训练好后的系数
print(regr.coef_)

[  3.03499549e-01  -2.37639315e+02   5.10530605e+02   3.27736980e+02
  -8.14131709e+02   4.92814588e+02   1.02848452e+02   1.84606489e+02
   7.43519617e+02   7.60951722e+01]


In [18]:
# 获取均方误差
cost = np.mean((regr.predict(x_test) - y_test)**2)
print(cost)

2004.56760269


In [20]:
# 获取Explained variance score 1 is perfect prediction
# and 0 means that there is no linear relationship
# between X and y.

score = regr.score(x_test, y_test)
print(score)

0.585075302269
