# Numpy

这个Notebook主要带领大家学习Numpy, python的矩阵运算库的相应知识，并了解Numpy是如  
何实践我们在线性代数中所学到的常用运算， 包括：

* ndarray
* operations
* slice
* shape

   
更多内容可以参考
1. 《利用python进行数据分析》第二版的第四章(https://github.com/wesm/pydata-book)
2.  Numpy官方文档 (https://numpy.org/doc/stable/)

In [None]:
#! pip install numpy

In [None]:
import numpy as np

## 1. ndarray

Numpy的核心是这个名叫ndarray（数组）的对象，他可以被多种构造器和numpy自带的函数创建：
* np.array()
* np.ones()
* np.zeros()
* np.empty()
* np.arrange()

In [None]:
np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]])

In [None]:
np.ones(10)

In [None]:
np.zeros(10)

In [None]:
#np.empty()的含义是创建一个指定大小的数组，并不对内存的信息进行刷新，所以您会看到这个值其实是乱码的
np.empty(5)

np.ones(), np.zeros(), np.empty()都可以接受一个array-like的输入，比如下面的(2, 5)，而后numpy会创造一个相应形状的数组，比如下文的2x5

In [None]:
np.ones((2,5))

Numpy数组还拥有一个丰富的数据类型系统，包括：
* np.float32
* np.float64
* np.int16
* np.int32

具体的类型系统请参考(https://numpy.org/doc/stable/user/basics.types.html) ，一般不给出具体的类型，用Numpy默认值

要指定类型，请使用np.array构造器的dtype参数

In [None]:
np.array([[1, 2, 3], [4, 5, 6]], dtype=np.float32)

np.arange函数是非常重要的构造器，它接受三个输入，起点，终点，步长，会在起点和终点之间创造一系列等间隔(同步长)的值。比如这个例子：

In [None]:
np.arange(10, 30, 3)

请注意如果终点刚好满足条件，它依旧不会被放入：在下面的例子中2并没有被放入数组

In [None]:
np.arange(1, 2, 0.1)

Numpy的数组有一系列非常重要的API：
* ndim: 查看维度
* shape: 查看各维度上的长度
* size: 元素数量
* dtype: 元素类型

In [None]:
sample = np.array([[1, 2, 3, 4, 5], [6, 7, 8, 9, 10], [11, 12, 13, 14, 15], [16, 17, 18, 19, 20]])

In [None]:
print(sample.ndim)    #ndim是shape的长度
print(sample.shape)   #shape是数组的形状
print(sample.size)    #size是shape中各元素的积
print(sample.dtype)

## 2. Operations
Numpy为我们提供了大量基于数组的便捷运算操作，包括：
* 基础运算符
* 矩阵运算符
* 特殊函数
* 自定义运算

Numpy支持绝大多数基础的向量和矩阵运算符号，例如：

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

#以下运算均为elementwise，即对对应位置的元素进行运算
print(b-a)
print(b^2)
print(b/a)
print(b+a)

但是有一个特殊的运算：矩阵乘法，Numpy提供了两种矩阵乘法：
* 标准矩阵乘法， 使用@
* 张量积， 使用*

In [None]:
#elementwise，对应位置的元素相乘得出
a*b

In [None]:
#矩阵乘法
a@b
a.dot(b)

Numpy高效的实现了很多重要运算，比如:
* np.log()
* np.exp()
* np.log2() 2为底数的对数
* np.sin()
* np.cos()
......
使用这些算法可以节省我们的时间

In [None]:
np.log(a)

In [None]:
np.exp(b)

In [None]:
np.sin(a)

In [None]:
np.cos(b)

可以看到这些算法可以被直接全部应用在数组的每一个位置

当然Numpy的设计者意识到，不是每一个算法都可以被囊括在Numpy之中，他们预留了一些让我们自定义运算的借口：
* Iteration
* vectorize

一个很简单的实现算法方式即是遍历整个数组，然后在循环体中写上操作，比如说如下这个例子，我希望a中奇数变为0，偶数变为1

In [None]:
a = np.array([[1, 2], [3, 4]])
for i in a:
    for j in range(len(i)):
        if(i[j]) % 2 == 0:
            i[j] = 1
        else:
            i[j] == 0

在实际中，使用for-loop就意味着顺序计算而非并行计算，这会大大拖慢整体的运行效率，所以numpy提供了一个vectorize接口允许用并行的方式运行自定义算法，也即向量化函数

In [None]:
def myfunc(a):
    "Return 1 if a is even, 0 if a is odd"
    if a % 2 == 0:
        return 1
    else:
        return 0

# Vectorize the function
vfunc = np.vectorize(myfunc)

a = np.array([[1, 2],[3, 4]])

# Call vectorized function
vfunc(a)

在大数据量时，使用向量化函数可以极大的加快运行效率

## 3. 统计算法
Numpy也提供了一些算法用于array的操作，比如说：
* np.sum()
* np.mean()
* np.max()
* np.min()
* np.cumsum()
* np.cumprod()

In [None]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])

In [None]:
a.sum()

In [None]:
b.mean()

In [None]:
b.max()

In [None]:
a.cumsum()  #累加

In [None]:
b.cumprod()  #累乘

## 4. Slice

数组切片是Numpy最为重要的部分，Numpy提供了一个非常快速的API让我们可以选择数组中需要的部分，这个API非常简单，但是用法繁多，我们将通过后续的几个例子来进行学习：

让我们首先看一下维度为1的例子

In [None]:
arr = np.arange(10)
print(arr)
print(arr[5])
print(arr[5:8])
arr[5:8] = 12    #当我们改变切片的时候，原数组也会被改变
print(arr)

接下来我们看一下维度为2的数组

In [None]:
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
arr2d[2]   #在二维数组中，每个索引值对应的元素不再是一个值而是一个一维数组

In [None]:
#我们也可以通过递归的方式获得单个元素
arr2d[0][2]
arr2d[0, 2]

最后我们看一下维度为3的数组，这种数组相对来说用的比较少

In [None]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
arr3d

In [None]:
# 选取第一维第一列
arr3d[0]

In [None]:
# 选取第二维第一列
arr3d[:,0]

In [None]:
# 选取第三维的第一列
arr3d[:,:, 0]

这个语法中有一个特殊的关键字`:`，这个符号的意义是选择这个维度的所有量

尝试将这个三维数组想象为一个立方体，这三个例子就是在不同的三个方向对数组进行的切片。




## 5. Shape
Numpy特别提供了一些API方便我们对数组的维度尺寸作出修改，包括:
* reshape
* resize
* ravel

In [None]:
a = np.arange(20)
a

In [None]:
a.reshape(4, 5)

可以看到，整个数组被转化为一个4×5的二维数组

还有一个很有趣的写法，使用`-1`关键字

In [None]:
a.reshape(4, -1)

神奇的是，他和reshape(4, 5)的结果一样，因为-1在此时的意义是让Numpy自行运算出剩余的维度。

怎么运算呢？

回想一样，shape中每个值乘起来要等于总元素数，所以第二维是20/4=5

与array.reshape()一致的是array.resize()函数，不过不同的是a.reshape()并不会修改原数组，而是会返回一个新的数组，如果想要修改则请使用`a = a.reshape()`。而a.resize()函数会直接修改原数组，也即`a.reshape = (a = a.resize())`


In [None]:
# a 并未改变
a

In [None]:
# 经过a.resize()，a 改变了
a.resize(4, 5)
a

还有一个有趣的函数是transpose()和他的简写.T变量

In [None]:
a

In [None]:
a.T

In [None]:
a.T.shape

可以看到，a.T其实完成的是矩阵的转置操作，这个操作还可以使用transpose()函数实现

In [None]:
a.transpose()

## 6. Copy

数据有深浅拷贝之分，对于抽象变量，深拷贝意味着抽象数据结构的每一个子变量都被复制，而浅拷贝则意味着只复制抽象数据结构的内存地址。在Numpy中：

* 深拷贝：copy()
* 浅拷贝：view()

In [None]:
a = a.reshape(4, 5)
c = a.copy()
d = a.view()

这时候我们尝试修改一下a中的某个元素，比如说把第一个元素从0改成100，我们再看一下a, c, d的值

In [None]:
a[0] = 100

In [None]:
c

In [None]:
b

In [None]:
c

可以看到，此时d的值与a一致，而c的值则保持不变，这就是深浅拷贝的区别：
* 深拷贝拷贝整个数组每一个内容，意味着创建一个新的地址复制出新的一份对象，原址被修改和新址没有关系
* 浅拷贝拷贝数组的内存地址所以如果地址内的对象被修改，那么浅拷贝的每个对象都会改变