# Numpy基本应用

从基础数据结构和常用函数两个方面展开。

## Numpy基本数据结构

### 向量

#### 基本结构

In [2]:
import numpy as np
"""numpy向量"""
# NumPy向量默认行向量
features = np.array([0.49671415, -0.1382643, 0.64768854])
print(features)
# 对于一维数组，转置之后仍为一维数组
print(features.T)
# 可以用array[:,None]来创建列向量
print(features[:, None])


[ 0.49671415 -0.1382643   0.64768854]
[ 0.49671415 -0.1382643   0.64768854]
[[ 0.49671415]
 [-0.1382643 ]
 [ 0.64768854]]
[0 1 2 3 4 5 6 7 8 9]
[1 1 1 1 1 1 1 1 1 1]
[0 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1]
[0 1 2 3 4 5 6 7 8 9 1 1 1 1 1 1 1 1 1 1]
[2. 4. 3.]


#### 基础运算

##### 拼接数组


In [None]:
# 水平拼接
a = np.arange(10)
b = np.repeat(1, 10)
print(a)
print(b)
# 方法一
print(np.concatenate([a, b]))
# 方法二
print(np.hstack([a, b]))


##### 广播运算


In [None]:
# 广播运算只在某些情况下可用，比如：
arr1 = np.array([1, 2, 3])
arr2 = np.array([1, 2])
# 当维度不同的向量想要对齐，并在不足处补0时，不可以使用广播
length_zero = max(arr1.size, arr2.size) - min(arr1.size, arr2.size)
zeros = np.zeros(length_zero)
if arr1.size > arr2.size:
    arr_new = np.hstack([arr2, zeros])
    print(arr_new + arr1)
else:
    arr_new = np.hstack([arr1, zeros])
    print(arr_new + arr2)


### 矩阵

#### 元素索引

np.argwhere(a)和np.transpose(np.nonzero(a))一样。找到non-zero元素在array中的索引,一行一行地逐个元素确认。

argwhere输出不适用于indexing数组。 如果要索引数组，使用nonzero(a)。


In [6]:
x = np.arange(6).reshape(2,3)
print(x)
np.argwhere(x>1)


[[0 1 2]
 [3 4 5]]


array([[0, 2],
       [1, 0],
       [1, 1],
       [1, 2]], dtype=int64)

#### 结构变换

二维展开为一维：flatten()函数。
Return a copy of the array collapsed into one dimension.


In [14]:
a = np.array([[1,2], [3,4]])
print(a.flatten())
a.flatten('F')


[1 2 3 4]


array([1, 3, 2, 4])

### 数据结构变量初始化 

#### zeros/empty/full

和zeros不同, empty并不将数组值设置为0，因此其比zeros稍微快一些；
另一方面，需要用户手动设置数组中的所有值，所以使用的时候要小心。

full函数可以指定用某个值填充若干大小的数组。


In [11]:
e1=np.empty([2, 2])  #uninitialized
print(e1)
e2=np.empty([2, 2], dtype=int)  #uninitialized
print(e2)

out = np.full([10], np.nan)
print(out)


[[1.44635488e-307 1.37962320e-306]
 [1.29060871e-306 7.56603881e-307]]
[[         0 1072693248]
 [         0 1073741824]]
[nan nan nan nan nan nan nan nan nan nan]


## 常见数学运算

### 卷积运算


In [10]:
print(np.convolve([1, 2, 3], [0, 1, 0.5]))


[0.  1.  2.5 4.  1.5]


### 随机数运算


In [None]:
# 随机数运算
i = 0
while i < 6:
    if i < 3:
        np.random.seed(0)
        # 种子一样，生成的随机数也是一样的
        print(np.random.randn(1, 5))
    else:
        print(np.random.randn(1, 5))
        pass
    i += 1
print("------从上面6次可以看出seed的影响-------")
i = 0
while i < 2:
    print(np.random.randn(1, 5))
    i += 1
print("----跳出原来的循环，看看新的循环里有没有不同，下面想比较个8次循环的随机内容，因为前面有三个循环是一样的，所以再补充两组随机值，凑够8个----")
print(np.random.randn(2, 5))
np.random.seed(0)
i = 0
print("----新的8次循环，和之前的8次循环进行比较-----")
while i < 8:
    print(np.random.randn(1, 5))
    i += 1
print("---可以看到，在种子一样的情况下，前后两次8个依次随机生成的数是一样的---")
# 以上结果说明，随机数种子对后面的结果一直有影响。同时，加了随机数种子以后，后面的随机数组都是按一定的顺序生成的

print("============================================================")
print("---------接下来换一个种子，看一看随机生成的数据是否一样----------")
i = 0
np.random.seed(0)
while i < 3:
    print(np.random.randn(1, 5))
    i += 1
i = 0
np.random.seed(1)
i = 0
while i < 3:
    print(np.random.randn(1, 5))
    i += 1
print("----当种子一样时，不论什么时候生成的随机数都是一样的，当种子不一样时，生成的随机数自然就不同了----")
# 不论在哪台电脑上，当随机数种子参数为0和1时，生成的随机数相同。说明该参数指定了一个随机数生成的起始位置。每个参数对应一个位置。并且在该参数确定后，其后面的随机数的生成顺序也就确定了。
# 所以随机数种子的参数怎么选择？我认为随意，这个参数只是确定一下随机数的起始位置。

# ------------------numpy all()函数---------------------
a = np.array([1, 2, 3])
b = a.copy()
print((a == b).all(axis=0).mean())
c = b.copy()
c[0] = 0
print((b == c).all(axis=0).mean())


### 取交集

使用intersect1d找到两个数组的交集。返回的是排序的、没有重复值的数组，还有交集中各个元素在原数组中的index。


In [9]:
from functools import reduce
lst1 = [1, 3, 4, 3]
lst2 = [3, 1, 2, 1]
print(np.intersect1d(lst1, lst2))
# 多个集合取交集
print(reduce(np.intersect1d, ([1, 3, 4, 3], [3, 1, 2, 1], [6, 3, 4, 2])))
# 返回两个交集相交的元素的index
C, ind1, ind2 = np.intersect1d(lst1, lst2, return_indices=True)
print(C)
print(ind1)
print(ind2)


[1 3]
[3]
[1 3]
[0 1]
[1 0]


### where函数


In [None]:
aa = np.arange(10)
# np.where(condition, x, y)：满足条件(condition)，输出x，不满足输出y。
print(np.where(aa, 1, -1))
print(np.where(aa > 5, 1, -1))
# np.where(condition)：只有条件 (condition)，没有x和y，则输出满足条件 (即非0) 元素的坐标
a = np.array([2, 4, 6, 8, 10])
print(np.where(a > 5))


# ------------------------argmax函数--------------------------------------------
# 假定现在有一个数组a = [3, 1, 2, 4, 6, 1]现在要算数组a中最大数的索引是多少？argmax解决的就是这类问题
a = np.array([[1, 5, 5, 2],
              [9, 6, 2, 8],
              [3, 7, 9, 1]])
print(np.argmax(a, axis=0))
print(np.argmax(a, axis=1))


