# 使用 scikit-learn 进行机器学习简介

**内容提要：**

本节我们介绍在整个 scikit-learn 中使用的机器学习专业词汇，并给出一个简单的学习示例。

## 机器学习：问题设定

**名词：**

- feature/attribute
- supervised learning：监督学习
    - classification：分类问题
    - regression：回归问题
- unsupervised learning：非监督学习
    - clustering：聚类
    - density estimation：密度估计
    - dimention reduction：降维
- training set：训练集
- testing set：测试集

## 载入一个示例数据集

`scikit-learn` 包含了一些标准数据集，例如：用于分类问题的 `iris` 和 `digits` 数据集；用于回归问题的 `diabetes` 数据集。

In [4]:
# 载入 iris 和 digits 数据集
from sklearn.datasets import load_iris, load_digits

iris = load_iris()
digits = load_digits()

print("digits.data:")
print(digits.data)
print("digits.target:")
print(digits.target)
print("digits.images[0]:")
print(digits.images[0])

print("digits.data.shape:", digits.data.shape)
print("digits.images.shape:", digits.images.shape)

digits.data:
[[ 0.  0.  5. ...  0.  0.  0.]
 [ 0.  0.  0. ... 10.  0.  0.]
 [ 0.  0.  0. ... 16.  9.  0.]
 ...
 [ 0.  0.  1. ...  6.  0.  0.]
 [ 0.  0.  2. ... 12.  0.  0.]
 [ 0.  0. 10. ... 12.  1.  0.]]
digits.target:
[0 1 2 ... 8 9 8]
digits.images[0]:
[[ 0.  0.  5. 13.  9.  1.  0.  0.]
 [ 0.  0. 13. 15. 10. 15.  5.  0.]
 [ 0.  3. 15.  2.  0. 11.  8.  0.]
 [ 0.  4. 12.  0.  0.  8.  8.  0.]
 [ 0.  5.  8.  0.  0.  9.  8.  0.]
 [ 0.  4. 11.  0.  1. 12.  7.  0.]
 [ 0.  2. 14.  5. 10. 12.  0.  0.]
 [ 0.  0.  6. 13. 10.  0.  0.  0.]]
digits.data.shape: (1797, 64)
digits.images.shape: (1797, 8, 8)


## 学习和预测（Learning and Predicting）

**名词：**

- fit：训练
- predict：预测

In [9]:
from sklearn.svm import SVC

clf = SVC(gamma=0.001, C=100.)

# 使用除了最后一个样本的数据集来进行训练
clf.fit(digits.data[:-1], digits.target[:-1])

# 预测数据集中的最后一个样本，结果应该是：8
clf.predict(digits.data[-1:])

array([8])

> 在这个例子中，我们手动设置了 `gamma` 参数。要搜索参数的最佳取值，我们可以使用诸如 `grid search` 和 `cross validation` 的工具。

## 约定（Conventions）