# Numpy基本应用

从基础数据结构和常见数学运算两个方面展开。目录结构主要参考[TutorialsPoint NumPy 教程](https://legacy.gitbook.com/book/wizardforcel/ts-numpy-tut/details)。

基本思路是：

1. 首先需要定义数据结构并初始化，这是一切运算的基础；
2. 其次针对基本的数据结构有一些常用的基本操作，包括索引，变形操作等；
3. 最后是基于这些数据结构的数学运算，包括统计的，算术的，逻辑的，集合的等等多方面。

## 数据结构及操作

### 向量、矩阵初始化

In [3]:
import numpy as np
"""numpy向量"""
# NumPy向量默认行向量
features = np.array([0.49671415, -0.1382643, 0.64768854])
print(features)
# 对于一维数组，转置之后仍为一维数组
print(features.T)
# 可以用array[:,None]来创建列向量
print(features[:, None])


[ 0.49671415 -0.1382643   0.64768854]
[ 0.49671415 -0.1382643   0.64768854]
[[ 0.49671415]
 [-0.1382643 ]
 [ 0.64768854]]


和zeros不同, empty并不将数组值设置为0，因此其比zeros稍微快一些；
另一方面，需要用户手动设置数组中的所有值，所以使用的时候要小心。

full函数可以指定用某个值填充若干大小的数组。


In [None]:
e1=np.empty([2, 2])  #uninitialized
print(e1)
e2=np.empty([2, 2], dtype=int)  #uninitialized
print(e2)

out = np.full([10], np.nan)
print(out)


astype函数是对array的copy，指定到一个特定的数据类型。


In [3]:
x = np.array([1, 2, 2.5])
x.astype(int)


array([1, 2, 2])

### 切片与索引

ndarray对象的内容可以通过索引或切片来访问和修改，就像 Python 的内置容器对象一样。

ndarray对象中的元素遵循基于零的索引。 有三种可用的索引方法类型： 字段访问，基本切片和高级索引。

#### 矩阵索引

np.argwhere(a)和np.transpose(np.nonzero(a))一样。找到non-zero元素在array中的索引,一行一行地逐个元素确认。

argwhere输出不适用于indexing数组。 如果要索引数组，使用nonzero(a)。


In [None]:
x = np.arange(6).reshape(2,3)
print(x)
np.argwhere(x>1)


#### 高级索引

如果一个ndarray是非元组序列，数据类型为整数或布尔值的ndarray，或者至少一个元素为序列对象的元组，我们就能够用它来索引ndarray。
高级索引始终返回数据的副本。 与此相反，切片只提供了一个视图。

有两种类型的高级索引：整数和布尔值。


In [11]:
# 布尔值做索引
import numpy as np 
x = np.array([[  0,  1,  2],[  3,  4,  5],[  6,  7,  8],[  9,  10,  11]])  
print('我们的数组是：')
print(x)
print ('\n')
# 现在我们会打印出大于 5 的元素  
print('大于 5 的元素是：')
print (x[x >  5])

# 使用取补运算符来过滤NaN。
print('过滤NaN值')
a = np.array([np.nan,  1,2,np.nan,3,4,5])  
print(a[~np.isnan(a)])


我们的数组是：
[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


大于 5 的元素是：
[ 6  7  8  9 10 11]
[1. 2. 3. 4. 5.]


### 广播

该部分参考了[菜鸟教程](https://www.runoob.com/numpy/numpy-broadcast.html)和相关[博客](https://zhuanlan.zhihu.com/p/35010592)。

执行 broadcast 的前提在于，两个 ndarray 执行的是 **element-wise**（按位加，按位减等） 的运算，而不是矩阵乘法的运算，矩阵乘法运算时需要维度之间严格匹配。

广播的规则如下：

- 让所有输入数组都向其中shape最长的数组看齐，shape中不足的部分都通过在前面加1补齐；
- 输出数组的shape是输入数组shape的各个轴上的最大值；
- 如果输入数组的某个轴和输出数组的对应轴的长度相同或者其长度为1时，这个数组能够用来计算，否则出错；
- 当输入数组的某个轴的长度为1时，沿着此轴运算时都用此轴上的第一组值。


In [9]:
# 广播运算只在某些情况下可用，比如：
arr1 = np.array([1, 2, 3])
arr2 = np.array([1, 2])
# 当维度不同的向量想要对齐，并在不足处补0时，不可以使用广播
length_zero = max(arr1.size, arr2.size) - min(arr1.size, arr2.size)
zeros = np.zeros(length_zero)
if arr1.size > arr2.size:
    arr_new = np.hstack([arr2, zeros])
    print(arr_new + arr1)
else:
    arr_new = np.hstack([arr1, zeros])
    print(arr_new + arr2)


[2. 4. 3.]


### 数组操作

#### 翻转操作

除了比较容易熟悉的转置操作外，还有swapaxes：该函数交换数组的两个轴。对于 1.10 之前的 NumPy 版本，会返回交换后数组的视图。

函数三个参数：

- arr： 要交换其轴的输入数组
- axis1：对应第一个轴的整数
- axis2：对应第二个轴的整数


In [3]:
# 创建了三维的 ndarray
a = np.arange(8).reshape(2,2,2)

print('原数组：')
print( a)
# 现在交换轴 0（深度方向）到轴 2（宽度方向）
print( '调用 swapaxes 函数后的数组：')
print( np.swapaxes(a, 2, 0))


原数组：
[[[0 1]
  [2 3]]

 [[4 5]
  [6 7]]]


调用 swapaxes 函数后的数组：
[[[0 4]
  [2 6]]

 [[1 5]
  [3 7]]]


#### 修改形状

最常用的就是reshape函数，这个函数在不改变数据的条件下修改形状，它可接受如下参数：

- arr：要修改形状的数组
- newshape：整数或者整数数组，新的形状应当兼容原有形状
- order：'C'为 C 风格顺序，'F'为 F 风格顺序，'A'为保留原顺序。

也可以使用array.reshape直接调用。


In [14]:
a = np.arange(8)
print('原始数组：')
print(a)
b = a.reshape(4,2)
print ('修改后的数组：')
print (b)
# 维度用()或者[]表示均可
print(np.reshape(b, [2,4], order='C'))
print(np.reshape(b, (2,4), order='F'))
print(np.reshape(b, (2,4), order='A'))


原始数组：
[0 1 2 3 4 5 6 7]
修改后的数组：
[[0 1]
 [2 3]
 [4 5]
 [6 7]]
[[0 1 2 3]
 [4 5 6 7]]
[[0 4 1 5]
 [2 6 3 7]]
[[0 1 2 3]
 [4 5 6 7]]


二维展开为一维：flatten()函数。
Return a copy of the array collapsed into one dimension.


In [14]:
a = np.array([[1,2], [3,4]])
print(a.flatten())
a.flatten('F')


[1 2 3 4]


array([1, 3, 2, 4])

低维度扩充到高维——expand_dims，函数通过在指定位置插入新的轴来扩展数组形状。该函数需要两个参数：输入数组和新轴插入的位置。


In [1]:
x = np.array(([1,2],[3,4]))
print(x)
y = np.expand_dims(x, axis = 0)
print(y)

print('数组 x 和 y 的形状：')
print(x.shape, y.shape)
# 在位置 1 插入轴
y = np.expand_dims(x, axis = 1)
print(y)

print('ndim 和 shape：')
print(x.ndim,y.ndim)
print(x.shape, y.shape)


[[1 2]
 [3 4]]
[[[1 2]
  [3 4]]]
数组 x 和 y 的形状：
(2, 2) (1, 2, 2)
[[[1 2]]

 [[3 4]]]
ndim 和 shape：
2 3
(2, 2) (2, 1, 2)


#### 数组连接


In [4]:
# 水平拼接
a = np.arange(10)
b = np.repeat(1, 10)
print(a)
print(b)
# 方法一
print(np.concatenate([a, b]))
# 方法二
print(np.hstack([a, b]))


[0 1 2 3 4 5 6 7 8 9]
[1 1 1 1 1 1 1 1 1 1]
[0 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1]
[0 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1]


#### 数组扩充

numpy数组扩展函数有repeat和tile，由于数组不能进行动态扩展，故函数调用之后都重新分配新的空间来存储扩展后的数据。

repeat函数功能：对数组中的元素进行连续重复复制。

tile函数功能：对整个数组进行复制拼接。


In [9]:
a = np.arange(10)  
print(a.repeat(5))
a=np.array([10,20])
print(a.repeat([3,2]))

print(np.tile(a,2))
np.tile(a, (3,2)) #构造3*2个copy


[0 0 0 0 0 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4 4 5 5 5 5 5 6 6 6 6 6 7 7
 7 7 7 8 8 8 8 8 9 9 9 9 9]
[10 10 10 20 20]
[10 20 10 20]


array([[10, 20, 10, 20],
       [10, 20, 10, 20],
       [10, 20, 10, 20]])

## 常见数学运算

### 算术运算

#### argmax函数

假定现在有一个数组a = [3, 1, 2, 4, 6, 1]现在要算数组a中最大数的索引是多少？argmax解决的就是这类问题


In [None]:
a = np.array([[1, 5, 5, 2],
              [9, 6, 2, 8],
              [3, 7, 9, 1]])
print(np.argmax(a, axis=0))
print(np.argmax(a, axis=1))


#### 卷积

In [10]:
print(np.convolve([1, 2, 3], [0, 1, 0.5]))


[0.  1.  2.5 4.  1.5]


### 统计运算

#### 随机数运算


In [None]:
# 随机数运算
i = 0
while i < 6:
    if i < 3:
        np.random.seed(0)
        # 种子一样，生成的随机数也是一样的
        print(np.random.randn(1, 5))
    else:
        print(np.random.randn(1, 5))
        pass
    i += 1
print("------从上面6次可以看出seed的影响-------")
i = 0
while i < 2:
    print(np.random.randn(1, 5))
    i += 1
print("----跳出原来的循环，看看新的循环里有没有不同，下面想比较个8次循环的随机内容，因为前面有三个循环是一样的，所以再补充两组随机值，凑够8个----")
print(np.random.randn(2, 5))
np.random.seed(0)
i = 0
print("----新的8次循环，和之前的8次循环进行比较-----")
while i < 8:
    print(np.random.randn(1, 5))
    i += 1
print("---可以看到，在种子一样的情况下，前后两次8个依次随机生成的数是一样的---")
# 以上结果说明，随机数种子对后面的结果一直有影响。同时，加了随机数种子以后，后面的随机数组都是按一定的顺序生成的

print("============================================================")
print("---------接下来换一个种子，看一看随机生成的数据是否一样----------")
i = 0
np.random.seed(0)
while i < 3:
    print(np.random.randn(1, 5))
    i += 1
i = 0
np.random.seed(1)
i = 0
while i < 3:
    print(np.random.randn(1, 5))
    i += 1
print("----当种子一样时，不论什么时候生成的随机数都是一样的，当种子不一样时，生成的随机数自然就不同了----")
# 不论在哪台电脑上，当随机数种子参数为0和1时，生成的随机数相同。说明该参数指定了一个随机数生成的起始位置。每个参数对应一个位置。并且在该参数确定后，其后面的随机数的生成顺序也就确定了。
# 所以随机数种子的参数怎么选择？我认为随意，这个参数只是确定一下随机数的起始位置。

# ------------------numpy all()函数---------------------
a = np.array([1, 2, 3])
b = a.copy()
print((a == b).all(axis=0).mean())
c = b.copy()
c[0] = 0
print((b == c).all(axis=0).mean())


#### percentile函数

百分位数是统计中使用的度量，表示小于这个值的观察值的百分比。 函数numpy.percentile()接受三个参数：

输入数组；要计算的百分位数，在 0 ~ 100 之间；沿着它计算百分位数的轴。


In [2]:
import numpy as np 
a = np.array([[30,40,70],[80,20,10],[50,90,60]])  
print ('数组是：'  )
print (a )
print  ('调用 percentile() 函数：'  )
print (np.percentile(a,50)  )
print ( '沿轴 1 调用 percentile() 函数：'  )
print (np.percentile(a,50, axis =  1)  )
print ( '沿轴 0 调用 percentile() 函数：')  
print (np.percentile(a,50, axis =  0))


数组是：
[[30 40 70]
 [80 20 10]
 [50 90 60]]
调用 percentile() 函数：
50.0
沿轴 1 调用 percentile() 函数：
[40. 20. 60.]
沿轴 0 调用 percentile() 函数：
[50. 40. 60.]


### 集合运算

#### 取交集

使用intersect1d找到两个数组的交集。返回的是排序的、没有重复值的数组，还有交集中各个元素在原数组中的index。


In [9]:
from functools import reduce
lst1 = [1, 3, 4, 3]
lst2 = [3, 1, 2, 1]
print(np.intersect1d(lst1, lst2))
# 多个集合取交集
print(reduce(np.intersect1d, ([1, 3, 4, 3], [3, 1, 2, 1], [6, 3, 4, 2])))
# 返回两个交集相交的元素的index
C, ind1, ind2 = np.intersect1d(lst1, lst2, return_indices=True)
print(C)
print(ind1)
print(ind2)


[1 3]
[3]
[1 3]
[0 1]
[1 0]


### 逻辑运算

#### where函数


In [None]:
aa = np.arange(10)
# np.where(condition, x, y)：满足条件(condition)，输出x，不满足输出y。
print(np.where(aa, 1, -1))
print(np.where(aa > 5, 1, -1))
# np.where(condition)：只有条件 (condition)，没有x和y，则输出满足条件 (即非0) 元素的坐标
a = np.array([2, 4, 6, 8, 10])
print(np.where(a > 5))