# 作业2 - 决策树 & 支持向量机(SVM)

在上次作业中，我们利用提取的基本图像特征并使用KNN算法进行图像分类。

本次作业，我们将继续利用提取的图像特征并使用__决策树和支持向量机算法__进行图像分类。

同样的，__你需要在TODO标注部分填写你的代码。__本次作业我们将使用sklearn中的相关接口。

In [None]:
import random
import numpy as np
import matplotlib.pyplot as plt
from past.builtins import xrange
%matplotlib inline
plt.rcParams['figure.figsize'] = (8., 6.) # 设置默认大小
plt.rcParams['image.interpolation'] = 'nearest'
plt.rcParams['image.cmap'] = 'gray'

%load_ext autoreload
%autoreload 2

## 数据加载

In [None]:
# 读取提供的cifar10-mini数据集，
data = np.load('cifar10-mini.npz')

X_train= data['X_train']
X_val= data['X_val']
X_test= data['X_test']
y_train= data['y_train']
y_val= data['y_val']
y_test= data['y_test']

# 打印数据shape
print(X_train.shape)
print(X_val.shape)
print(X_test.shape)

## 提取图像特征

在本次作业中，我们使用__HOG+颜色直方图__提取的图像特征。

这部分和作业1一样，特征提取函数已经封装在features.py中，调用即可。

如果你遇到了错误 `ImportError: No module named past.builtins`，可以在终端中执行 `pip install future`

In [None]:
from features import *

# 本次作业不需要修改此部分代码
# 选择特征处理函数
feature_fns = [hog_feature, color_histogram_hsv] # HOG + 颜色直方图
# feature_fns = [color_histogram_hsv] # 颜色直方图
# feature_fns = [hog_feature] # HOG

X_train_feats = extract_features(X_train, feature_fns)
X_val_feats = extract_features(X_val, feature_fns)
X_test_feats = extract_features(X_test, feature_fns)
    
# 预处理: 减去均值
mean_feat = np.mean(X_train_feats, axis=0, keepdims=True)
X_train_feats -= mean_feat

mean_feat = np.mean(X_val_feats, axis=0, keepdims=True)
X_val_feats -= mean_feat

mean_feat = np.mean(X_test_feats, axis=0, keepdims=True)
X_test_feats -= mean_feat

# 预处理: 除以标准差，这能保证所有的值在 0～1 之间
std_feat = np.std(X_train_feats, axis=0, keepdims=True)
X_train_feats /= std_feat

std_feat = np.std(X_val_feats, axis=0, keepdims=True)
X_val_feats /= std_feat

std_feat = np.std(X_test_feats, axis=0, keepdims=True)
X_test_feats /= std_feat

# 预处理: 增加一个偏置值，在 K-NN 中，该步操作并无必要，但增加偏置值对其他分类器如 SVM 等有帮助。
X_train_feats = np.hstack([X_train_feats, np.ones((X_train_feats.shape[0], 1))])
X_val_feats = np.hstack([X_val_feats, np.ones((X_val_feats.shape[0], 1))])
X_test_feats = np.hstack([X_test_feats, np.ones((X_test_feats.shape[0], 1))])

print(X_train_feats.shape)
print(X_val_feats.shape)
print(X_val_feats.shape)

## 使用决策树(Decision Tree)进行分类

将__训练集和验证集组合__训练决策树模型，在__测试集__上评估正确率。并查看各类别的__查准率、查全率__等指标。

友情链接 - [DecisionTreeClassifier接口说明](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html)

In [None]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import classification_report

#######################################################################
# TODO:                                                               #
# 通过sklearn库的决策树模型对图像进行分类，并进行结果评估             #
#######################################################################
"""你的代码"""

# 组合训练集和验证集
# np.concatenate()函数可以组合数据 
X_train_val_feats = 
y_train_val = 

# 调用DecisionTreeClassifier接口，创建模型。
model = 

# 训练模型，并测试。
# 使用模型的".fit()"方法进行训练，并用".predict()"方法预测。


# 查看 查准率、查全率 等指标
# classification_report接口可以查看各类别的查准率、查全率等指标


#######################################################################
#                         END OF YOUR CODE                            #
#######################################################################

## 使用支持向量机(SVM)进行分类

使用__不同的核函数__作为SVM模型的参数，在__训练集__上进行训练，并选择__验证集__上准确率最好的SVM核函数

友情链接 - [SVC接口说明](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVC.html)

In [None]:
from sklearn.svm import SVC

#######################################################################
# TODO:                                                               #
# 使用不同的核函数作为SVM模型的参数，选择验证集上准确率最好的SVM核函数#
#######################################################################
"""你的代码"""

# 提示：核函数的选择可以通过SVC的kernel属性传入
# 常见的核函数有'linear','poly','rbf','sigmoid'


#######################################################################
#                         END OF YOUR CODE                            #
#######################################################################

将__训练集和验证集组合__训练上面选择的核函数SVM模型，在__测试集__上评估正确率，并查看各类别的__查准率、查全率__等指标

In [None]:
from sklearn.metrics import classification_report

#######################################################################
# TODO:                                                               #
# 组合训练集和验证集，训练SVM模型，并在测试集上评估                   #
#######################################################################
"""你的代码"""

# 组合训练集和验证集
# np.concatenate()函数可以组合数据 
X_train_val_feats = 
y_train_val = 

# 调用SVC接口，并使用上面选择的核函数，创建模型。
model = 

# 训练模型，并测试。
# 使用模型的".fit()"方法进行训练，并用".predict()"方法预测。


# 查看 查准率、查全率 等指标
# classification_report接口可以查看各类别的查准率、查全率等指标

#######################################################################
#                         END OF YOUR CODE                            #
#######################################################################