# numpy 基础操作

In [34]:
import numpy as np # 导入numpy库

In [None]:
x = np.array([1, 2, 1, 0, 3])
y = np.array([-1, -1, 2, 1, 1])

print(x - y) # 对位相减
print(x + y) # 对位相加
print(x * y) # 对位相乘
print(x @ y) # 点积
print(np.sqrt(x)) # 开根
print(x ** 2) # 每一位平方
print(np.sum(x)) # 求和

提示：欧式距离计算公式$ \sqrt{\sum_{i=1}^{n}(x_i-y_i)^2} $

In [2]:
# 计算x与y之间的欧式距离
$$$$

提示：余弦距离计算公式

$$
\text { similarity }=\cos (\theta)=\frac{A \cdot B}{\|A\|\|B\|}=\frac{\sum_{i=1}^{n} A_{i} \times B_{i}}{\sqrt{\sum_{i=1}^{n}\left(A_{i}\right)^{2}} \times \sqrt{\sum_{i=1}^{n}\left(B_{i}\right)^{2}}}
$$

In [None]:
# 计算x与y之间的cos距离
$$$$

In [None]:
A = np.array([
    [1, 0],
    [0, -1],
    [2, 2]
])
B = np.array([
    [0, 1],
    [-1, 1],
    [1, 1]
])
C = np.array([
    [1, 0],
    [2, 1]
])
print(A + B) # 对位相加
print(A * B) # 对位相乘
print(A - B) # 对位相减
print(A @ C) # 矩阵相乘

# MNIST / CIFAR-10数据集处理与可视化

In [None]:
import os
data_path = $$$$
print(os.listdir(data_path))

### MNIST数据集

首先我们读取MNIST数据集

In [40]:
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
mnist_train = pd.read_csv(data_path + "mnist_train.csv")
mnist_test = pd.read_csv(data_path + "mnist_test.csv")

In [None]:
print("原始数据集的形状：")
print(mnist_train.shape)
print(mnist_test.shape)
print("原始数据集的类型：")
print(type(mnist_train))

In [None]:
# pandas类下的DataFrame对象，可以理解成一个excel表格，每列有个名字
# 需要用iloc才能用下标访问
mnist_train.iloc[:5]

重点：第一列的列名为label，表示标签

问题：怎么处理这玩意？

In [None]:
# 可以用np.array把Dataframe变成我们熟悉的数组
print(np.array(mnist_train.iloc[0]).shape)
print(np.array(mnist_train.iloc[0]))

观察结果，第1个数为标签，后面的784个数（784 = 28 * 28）为图片。因此：

- 把图片取出来放进x，把标签取出来放进y
- 把图片变成28 * 28的形状

再看一下原始数据集的形状

In [None]:
print("原始数据集的形状：")
print(mnist_train.shape)
print(mnist_test.shape)

In [45]:
mnist_x_train = np.array(mnist_train.iloc[:, 1:]).reshape(-1, 28, 28)
mnist_y_train = np.array(mnist_train.iloc[:, 0])
mnist_x_test = np.array(mnist_test.iloc[:, 1:]).reshape(-1, 28, 28)
mnist_y_test = np.array(mnist_test.iloc[:, 0])

numpy.reshape( ) 函数可以在不改变数据的条件下修改形状，

格式如下： numpy.reshape(arr, newshape, order='C')
* arr：要修改形状的数组
* newshape：整数或者整数数组，新的形状应当兼容原有形状
* order：'C' -- 按行，'F' -- 按列，'A' -- 原顺序，'k' -- 元素在内存中的出现顺序。

下面我们来看看这个函数具体是怎么使用的：

In [None]:
a = np.arange(8)
print ('原始数组：', a, '\n')
 
b = a.reshape(4,2)
print ('修改后的数组：\n', b)

In [None]:
print("处理好的形状：")
# 将reshape后的四个数据集的形状打印出来
$$$$
$$$$
$$$$
$$$$

训练数据x_train和y_train中包含了60000个数据点，

测试数据x_test和y_test中则包含了10000个数据点。

其中：

* 输入x：60000张28x28=784像素组成的图像，由于MNIST数据集是灰度图，所以每个像素仅由一个数字表示；

* 输出y：60000个数字，代表了每一张图像对应的数字几。

In [None]:
from matplotlib import pyplot as plt

fig, axes = plt.subplots(2, 5, figsize=(10, 4)) # 新建一个包含10张子图2行5列的画布

# axes中存储了每一个子图
# flatten() 把 axes 从 shape = (2,5) 拉成 shape = (10,)
axes = axes.flatten() 

print("标签：", mnist_y_train[:10])
for i in range(10): # 循环10次（画10张图）

    # 将x_train的第i张图画在第i个子图上，这里我们用cmap="gray_r"即反灰度图，数字越大颜色越黑，数字越小颜色越白 
    axes[i].imshow(mnist_x_train[i], cmap="gray_r")
    
    axes[i].set_xticks([]) # 移除图像的x轴刻度
    axes[i].set_yticks([]) # 移除图像的y轴刻度

plt.tight_layout() # 采用更美观的布局方式
plt.show() # 显示图片

接下来对于0到9每一个数字，我们使用下列代码画出10张对应的手写数字图片。

numpy.where( )函数返回输入数组中满足给定条件的元素的索引。

下面我们来看看这个函数具体是怎么使用的：

In [None]:
x = np.array([1, 2, 1, 0, 3])
y = np.array([-1, -1, 2, 1, 1])

print("数组x:", x)
t = np.where(x > 1)
print("大于1的元素的索引:", t)
print("使用这些索引来获取满足条件的元素:", x[t], '\n')

print("数组y:", y)
print("x比y大的元素的索引:", np.where(x > y))

In [None]:
fig, axes = plt.subplots(10, 10, figsize=(20, 20)) # 新建一个包含100张子图的10行10列的画布

for i in range(10): # 对于每一个数字i
    
    indice = np.where(mnist_y_train == i)[0] #找到标签为数字i的图像下标
    print(indice)
    
    for j in range(10): # 输出前10张图片
        axes[i][j].imshow(mnist_x_train[indice[j]], cmap="gray_r")
        
        axes[i][j].set_xticks([])
        axes[i][j].set_yticks([])

plt.tight_layout()
plt.show()

可以看到MNIST数据集中包含了笔画轻重各异、书写风格不同的图片。

数据集中的数据多样性很重要，计算机“见过”的数据越多，分类就能越准确。

直观上理解，若计算机“见过”的都是右撇子写的数字，这时新来了一张图片是由左撇子书写的，

因为左撇子写的数字与右撇子会有一些差异，那么它大概率会识别错误；

反之如果计算机曾经“见过”左撇子写的数字，它识别正确的可能性就会提升。

### CIFAR-10 数据集

首先我们先加载CIFAR-10数据集。

In [50]:
import pickle
with open(data_path + "cifar10.pkl", "rb") as f:
    (cifar10_x_train, cifar10_y_train), (cifar10_x_test, cifar10_y_test) = pickle.load(f)

我们使用keras的cifar10模块下载CIFAR-10数据集

数据集已经被分为训练数据与测试数据，分别包含了输入x（即图像）和输出y（即对应的物体）。

我们将四个数据集的形状打印出来。

In [None]:
# 打印四个数据集的形状
$$$$
$$$$
$$$$
$$$$
print(type(cifar10_x_train))

CIFAR-10数据集中包含了50000个训练数据与10000个测试数据。

可以看到与MNIST数据集不同，CIFAR-10数据集中的图片是RGB格式的彩色图片，

每张图片大小为32*32*3，即每张图片含有32*32=1024个像素点，

而每个像素点由3个数字组成，分别代表红色、绿色、蓝色通道。

输出y依然由一个数字表示，0到9这10个数字分别代表10类物体。

> 0：飞机，1：汽车，2：鸟，3：猫，4：鹿，5：狗，6：青蛙，7：马，8：船，9：卡车

In [52]:
cifar10_class_dict = {
    0: "飞机",
    1: "汽车",
    2: "鸟",
    3: "猫",
    4: "鹿",
    5: "狗",
    6: "青蛙",
    7: "马",
    8: "船",
    9: "卡车"
}

我们使用matplotlib库将训练数据中的前十张图像画出来。

In [None]:
fig, axes = $$$$ # 新建一个包含10张子图2行5列的画布
axes = axes.flatten() # axes中存储了每一个子图

print("标签：")
for i in range(10): # 循环10次（画10张图）
    print(cifar10_class_dict[cifar10_y_train[i][0]], end=" ")
    $$$$ # 将x_train的第i张图画在第i个子图上
    
    $$$$ # 移除图像的x轴刻度
    $$$$ # 移除图像的y轴刻度

plt.tight_layout()
plt.show()

与前一节中MNIST相似，我们对于每一类物体，画出10张图片。

In [None]:
fig, axes = $$$$ # 新建一个包含100张子图的10行10列的画布

for i in range(10): # 对于每一类物体
    indice = $$$$ #找到标签为i的图像下标
    print(indice)
    
    for j in range(10): # 输出前10张图片
        $$$$ # 将x_train对应indice中下标的图画在第i个子图上
        
        $$$$ # 移除图像的x轴刻度
        $$$$ # 移除图像的y轴刻度

plt.tight_layout()
plt.show()

> 0：飞机，1：汽车，2：鸟，3：猫，4：鹿，5：狗，6：青蛙，7：马，8：船，9：卡车

可以看到CIFAR-10数据集中的每一类物体，都包含形状、颜色、拍摄角度不同的图片，并且图片中还含有一些不相关的元素。

# K近邻算法进行手写数字分类

In [None]:
print("处理好的形状：")
print(mnist_x_train.shape)
print(mnist_x_test.shape)
print(mnist_y_train.shape)
print(mnist_y_test.shape)

mnist_n_train = mnist_x_train.shape[0] # 训练数据数量
mnist_n_test = mnist_x_test.shape[0] # 测试数据数量

# 使用reshape方法将二维图像展开一维成向量，便于后续使用欧式距离计算相似度
mnist_x_train = mnist_x_train.reshape(mnist_n_train, -1) 
mnist_x_test = mnist_x_test.reshape(mnist_n_test, -1)
print("reshape后输入数据的数据形状")
$$$$
$$$$

可以看到reshape后的训练数据的输入变成了60000个28*28=784维的向量

接下来我们调用sklearn中的K近邻算法，首先，我们导入一些必要的库
- KNeighborsClassifier：sklearn库中提供的K近邻算法类

K近邻算法会接受一个参数 n_neighbors，也就是查看邻居的个数K。

我们先尝试将k设为5，即每次寻找最近的5个邻居。

In [60]:
from sklearn.neighbors import KNeighborsClassifier

k = 5
knc = KNeighborsClassifier(n_neighbors=k)

接下来我们使用手写数字数据来训练这个K近邻分类器，

* sklearn库中一个非常方便的函数 fit：接收两个参数 x 和 y， 分别输入数据和对应的标签。

* 把x_train和y_train作为参数传给 fit 函数，即完成了K近邻分类器的训练。

（训练过程需要花一些时间）

In [None]:
knc.fit(mnist_x_train[:5000], mnist_y_train[:5000])

训练完毕！

我们使用predict方法对测试集中的100个数据进行分类，并将分类结果其存到y_predict中。

（预测也需要花一些时间）

In [62]:
mnist_y_predict = knc.predict(mnist_x_test[:1000])

In [None]:
$$$$ # 把y_predict的形状打印出来看看
$$$$ # 打印前10个y_predict的结果

将我们的分类结果y_predict与真实的类别y_test进行一一对比，统计分类正确的个数并计算分类准确度。

问题：怎么比？

In [None]:
print(mnist_y_predict[:100] == mnist_y_test[:100])

In [None]:
accuracy = np.sum(mnist_y_predict == mnist_y_test[:1000]) / 1000
print("准确度为 %f" % accuracy)

可以看到我们仅仅用了不到10行代码，就得到了一个分类准确度为91.00%的手写数字分类器！

怎么样？是不是没有想象中那么复杂？

在机器学习领域，有非常多个人和组织，会将已有的算法实现，打包成一个个库，降低其他人使用算法的门槛。

找到并使用这些工具，是每个对机器学习感兴趣的人必备的技能。

1000张图像中，我们分错了90张，让我们看看哪些图像分类错误了。

In [None]:
print(mnist_y_predict[:100] != mnist_y_test[:100])
print($$$$) # 打印出前100张图中分类错误的图像对应的索引

In [None]:
indice = np.random.choice(np.where(mnist_y_predict != mnist_y_test[:1000])[0], size=10) # 随机选择10张分类错误的图像
fig, axes = plt.subplots(2, 5, figsize=(10, 4))
axes = axes.flatten()
for i, idx in enumerate(indice):
    axes[i].imshow(mnist_x_test[idx].reshape(28, 28), cmap="gray_r")
    axes[i].set_xticks([])
    axes[i].set_yticks([])
    axes[i].set_title("y_predict: %d\ny_test: %d" % (mnist_y_predict[idx], mnist_y_test[idx]))
plt.tight_layout()
plt.show()

### 下面我们再来看看K近邻算法在CIFAR-10数据集上的表现

In [None]:
import pickle
with open(data_path + "cifar10.pkl", "rb") as f:
    (cifar10_x_train, cifar10_y_train), (cifar10_x_test, cifar10_y_test) = pickle.load(f)

print(cifar10_x_train.shape)
print(cifar10_x_test.shape)
print(cifar10_y_train.shape)
print(cifar10_y_test.shape)

In [None]:
# 将第一维固定为shape[0]，-1表示第二维不固定
cifar10_x_train = cifar10_x_train.reshape(cifar10_x_train.shape[0], -1)
cifar10_x_test = $$$$

# flatten()返回一份数组按行展开的拷贝，对拷贝所做的修改不会影响原始数组，
cifar10_y_train = cifar10_y_train.flatten()
cifar10_y_test = $$$$

print("reshape后输入数据的数据形状")
$$$$
$$$$
$$$$
$$$$

In [None]:
# 训练过程
knc = KNeighborsClassifier(n_neighbors=5)

cifar10_n_train = 2000
$$$$ # 使用fit函数对前2000个数据进行训练

In [None]:
# 测试过程
cifar10_n_test = 100
$$$$ # 使用predict函数对前100个数据进行测试
print(cifar10_y_predict == cifar10_y_test[:100])

In [None]:
# 计算并输出100个数据中预测的正确率
$$$$
print("准确度为 %f" % accuracy)

In [None]:
# 解决中文显示问题
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus'] = False

indice = np.random.choice($$$$, size=10) # 随机选择10张分类错误的图像
fig, axes = plt.subplots(2, 5, figsize=(10, 4))
axes = axes.flatten()
for i, idx in enumerate(indice):
    $$$$ # 将测试集上idx对应的图片reshape成32*32*3后画在第i张图上
    $$$$ # 移除图像的x轴刻度
    $$$$ # 移除图像的y轴刻度
    $$$$ # 在图的上方设置标题，标注分类正确的结果y_predict和分类错误的结果y_test
    
plt.tight_layout()
plt.show()