# Numpy基础

## 生成Numpy数组
导入Numpy

In [1]:
import numpy as np

### 从已有数据创建数组
将列表转换成ndarray

In [2]:
lst1 = [1, 2, 3, 4, 5]
nd1 = np.array(lst1)
print(nd1)
print(type(nd1))

[1 2 3 4 5]
<class 'numpy.ndarray'>


嵌套列表转换为多为ndarray

In [3]:
lst2 = [[1, 2, 3, 4, 5], [6, 7, 8, 9, 10]]
nd2 = np.array(lst2)
print(nd2)
print(type(nd2))

[[ 1  2  3  4  5]
 [ 6  7  8  9 10]]
<class 'numpy.ndarray'>


对元组同样适用

### 利用random模块生成数组
|函数|描述|
|---|---|
|np.random.random|生成0到1之间的随机数|
|np.random.uniform|生成均匀分布的随机数|
|np.random.randn|生成标准正态的随机数|
|np.random.randint|生成随机的整数|
|np.random.normal|生成正态分布|
|np.random.shuffle|随机打乱顺序|
|np.random.seed|设置随机数种子|
|random_sample|生成随机浮点数|

In [4]:
nd3 = np.random.random([3, 3])
print(nd3)
print(f'nd3的形状为{nd3.shape}')

[[0.76541512 0.52985463 0.15793374]
 [0.54427066 0.30891756 0.59450234]
 [0.54219062 0.32464816 0.52894328]]
nd3的形状为(3, 3)


为了每次生成同一份数据，可以指定一个随机种子，使用shuffle函数打乱生成的随机数

In [5]:
np.random.seed(123)
nd4 = np.random.randn(2, 3)
print(nd4)
np.random.shuffle(nd4)
print(f'随机打乱后数据：')
print(nd4)

[[-1.0856306   0.99734545  0.2829785 ]
 [-1.50629471 -0.57860025  1.65143654]]
随机打乱后数据：
[[-1.50629471 -0.57860025  1.65143654]
 [-1.0856306   0.99734545  0.2829785 ]]


### 创建特定形状的多维数组
|函数|描述|
|---|---|
|np.zeros([3, 4])|3×4的全为0的数组|
|np.ones([3, 4])|3×4的全为1的数组|
|np.empty([2, 3])|2×3的全为空值的数组|
|np.zeros_like(ndarr)|以ndarr的维度创建全为0的数组|
|np.zones_like(ndarr)|以ndarr的维度创建全为1的数组|
|np.empty_like(ndarr)|以ndarr的维度创建全为空值的数组|
|np.eye(5)|5×5的单位矩阵|
|np.full([3, 5], 666)|3×5的全为666的数组|
|np.diag([1, 2, 3])|对角线为1，2，3的对角矩阵|

In [6]:
nd5 = np.zeros([3, 3])
print(nd5)

[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [7]:
nd6 = np.ones_like(nd5)
print(nd6)

[[1. 1. 1.]
 [1. 1. 1.]
 [1. 1. 1.]]


In [8]:
nd7 = np.eye(5)
print(nd7)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [9]:
nd8 = np.diag([1, 2, 3])
print(nd8)

[[1 0 0]
 [0 2 0]
 [0 0 3]]


可将生成的数据保存起来，也可读取外部文件

In [10]:
nd9 = np.random.uniform(0, 10, [3, 3])
np.savetxt(X=nd9, fname='./test1.txt')
nd10 = np.loadtxt('test1.txt')
print(nd10)

[[4.10924373 5.79694297 1.39950763]
 [4.01017557 6.27317009 3.24150893]
 [2.44759277 6.94755177 5.939024  ]]


### 利用arange、linspace函数生成数组

In [11]:
print(np.arange(10))
print(np.arange(0, 10))
print(np.arange(1, 4, 0.5))
print(np.arange(9, -1, -1))

[0 1 2 3 4 5 6 7 8 9]
[0 1 2 3 4 5 6 7 8 9]
[1.  1.5 2.  2.5 3.  3.5]
[9 8 7 6 5 4 3 2 1 0]


In [12]:
print(np.linspace(0, 1, 10))    # linspace生成等分向量，默认包含起点和终点

[0.         0.11111111 0.22222222 0.33333333 0.44444444 0.55555556
 0.66666667 0.77777778 0.88888889 1.        ]


## 获取元素

In [13]:
np.random.seed(2019)
nd11 = np.random.random([10])
print(nd11)

[0.90348221 0.39308051 0.62396996 0.6378774  0.88049907 0.29917202
 0.70219827 0.90320616 0.88138193 0.4057498 ]


获取指定位置数据

In [14]:
print(nd11[3])

0.6378774010222266


截取一段数据

In [15]:
print(nd11[3:6])

[0.6378774  0.88049907 0.29917202]


按间隔截取

In [16]:
print(nd11[1:6:2])

[0.39308051 0.6378774  0.29917202]


倒序

In [17]:
print(nd11[::-2])

[0.4057498  0.90320616 0.29917202 0.6378774  0.39308051]


截取多维数据的一个区域

In [18]:
nd12 = np.arange(25).reshape([5, 5])
print(nd12[1:3, 1:3])

[[ 6  7]
 [11 12]]


按条件截取

In [19]:
print(nd12[(nd12 > 3) & (nd12 < 10)])

[4 5 6 7 8 9]


可通过random.choice来随机抽取数据

In [20]:
from numpy import random as nr

a = np.arange(1, 25, dtype=float)
c1 = nr.choice(a, size=(3, 4))
c2 = nr.choice(a, size=(3, 4), replace=False)
c3 = nr.choice(a, size=(3, 4), p=a/np.sum(a))    # p为指定抽取概率
print(f'随机可重复抽取\n{c1}')
print(f'随机不重复抽取\n{c2}')
print(f'随机按预定概率抽取\n{c3}')

随机可重复抽取
[[19.  6. 24. 22.]
 [21. 17. 16.  2.]
 [23. 15. 13. 11.]]
随机不重复抽取
[[ 5. 14. 23. 15.]
 [ 8. 24.  6. 18.]
 [13. 10. 21. 11.]]
随机按预定概率抽取
[[19. 21. 18. 11.]
 [10. 21. 23. 19.]
 [18. 19. 11. 20.]]


## Numpy的算术运算

### 对应元素相乘
np.multiply()或直接使用$*$

In [21]:
A = np.array([[1, 2], [-1, 4]])
B = np.array([[2, 0], [3, 4]])
print(A*B)

[[ 2  0]
 [-3 16]]


Numpy可将数组中每个元素对标量进行运算

In [22]:
print(A*2)
print(A/2)

[[ 2  4]
 [-2  8]]
[[ 0.5  1. ]
 [-0.5  2. ]]


故数组通过激活函数后形状不变

In [23]:
X = np.random.rand(2, 3)

def softmoid(x):
    return 1/(1+np.exp(-x))

print(X.shape == softmoid(X).shape)

True


### 点积
使用np.dot()或@

In [24]:
X1 = np.array([[1, 2], [3, 4]])
X2 = np.array([[5, 6, 7], [8, 9, 10]])
print(X1@X2)

[[21 24 27]
 [47 54 61]]


## 数组变形
### 更改数组的形状
1. reshape
<br>改变维度(不修改向量本身)

In [25]:
arr = np.arange(10)
print(arr.reshape(2, 5))
print(arr.reshape(5, -1))    # 可只指定某一维度，另一维用-1代替
print(arr)

[[0 1 2 3 4]
 [5 6 7 8 9]]
[[0 1]
 [2 3]
 [4 5]
 [6 7]
 [8 9]]
[0 1 2 3 4 5 6 7 8 9]


2. resize
<br>改变维度(修改向量本身)

In [26]:
arr = np.arange(10)
print(arr.resize(2, 5))    # 返回值为空，直接修改向量本身
print(arr)

None
[[0 1 2 3 4]
 [5 6 7 8 9]]


3. T
<br>转置

In [27]:
arr = np.arange(12).reshape(3, 4)
print(arr)
print(arr.T)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  4  8]
 [ 1  5  9]
 [ 2  6 10]
 [ 3  7 11]]


4. ravel
<br> 向量展平

In [28]:
arr = np.arange(6).reshape(2, -1)
print(arr)
print(f'行优先{arr.ravel()}')
print(f'列优先{arr.ravel("F")}')

[[0 1 2]
 [3 4 5]]
行优先[0 1 2 3 4 5]
列优先[0 3 1 4 2 5]


4. flatten
<br> 将矩阵转换为向量

In [29]:
a = np.floor(10*np.random.random((3, 4)))
print(a)
print(a.flatten())

[[9. 4. 5. 0.]
 [2. 6. 3. 7.]
 [7. 4. 3. 1.]]
[9. 4. 5. 0. 2. 6. 3. 7. 7. 4. 3. 1.]


5. squeeze
<br> 降维，将矩阵中含1的维度去掉

In [30]:
arr = np.arange(3).reshape(3, 1)
print(arr.shape)
print(arr.squeeze().shape)

arr = np.arange(6).reshape(3, 1, 2, 1)
print(arr.shape)
print(arr.squeeze().shape)

(3, 1)
(3,)
(3, 1, 2, 1)
(3, 2)


6. transpose
<br> 对高维矩阵进行轴对换

In [31]:
arr = np.arange(24).reshape(2, 3, 4)
print(arr.shape)
print(arr.transpose(1, 2, 0).shape)

(2, 3, 4)
(3, 4, 2)


### 合并数组

1. append
<br>合并一维数组

In [32]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
c = np.append(a, b)
print(c)

[1 2 3 4 5 6]


合并多维数组

In [33]:
a = np.arange(4).reshape(2, 2)
b = np.arange(4).reshape(2, 2)
print(np.append(a, b, axis=0))    # 按行合并
print(np.append(a, b, axis=1))    # 按列合并

[[0 1]
 [2 3]
 [0 1]
 [2 3]]
[[0 1 0 1]
 [2 3 2 3]]


2. concatenate
<br>沿指定轴合并数组

In [34]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6]])
print(np.concatenate([a, b], axis=0))
print(np.concatenate([a, b.T], axis=1))

[[1 2]
 [3 4]
 [5 6]]
[[1 2 5]
 [3 4 6]]


3. stack
<br>沿指定轴堆叠数组

In [35]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
print(np.stack([a, b], axis=0))

[[[1 2]
  [3 4]]

 [[5 6]
  [7 8]]]


## 批量处理
1. 得到数据集
2. 随机打乱数据
3. 定义批次大小
4. 批处理数据

In [47]:
data_train = np.random.randn(10000, 2, 3)    # 生成1000个形状为2*3的矩阵（表现为三个维度）
print(data_train.shape)
np.random.shuffle(data_train)    # 打乱数据
batch_size = 100    # 定义批次大小
for i in range(0, len(data_train), batch_size):
    x_batch_sum = np.sum(data_train[i:i+batch_size])
    print(f'第{int(i/100+1)}批次的数据和：{x_batch_sum}')

(10000, 2, 3)
第1批次的数据和：12.914549296296146
第2批次的数据和：12.250592661298244
第3批次的数据和：-11.446937686067738
第4批次的数据和：-11.245718962012484
第5批次的数据和：-66.76240518792102
第6批次的数据和：22.46611911429047
第7批次的数据和：1.9651368605344857
第8批次的数据和：8.475716745079053
第9批次的数据和：30.99407270689005
第10批次的数据和：-7.523053404233414
第11批次的数据和：-2.231163814663628
第12批次的数据和：-40.12382144963436
第13批次的数据和：31.71763284642599
第14批次的数据和：-7.428864407583934
第15批次的数据和：4.990208712358567
第16批次的数据和：25.986357085877632
第17批次的数据和：21.625215484292042
第18批次的数据和：-15.153624730186813
第19批次的数据和：-33.66280676200193
第20批次的数据和：33.62139197739925
第21批次的数据和：6.516377385490795
第22批次的数据和：35.06265697465706
第23批次的数据和：3.743734170205107
第24批次的数据和：-30.56337236767877
第25批次的数据和：-11.84043570632779
第26批次的数据和：-17.326536117732434
第27批次的数据和：1.2433217707280235
第28批次的数据和：-22.052479219855968
第29批次的数据和：26.754333871417376
第30批次的数据和：2.6402007881375837
第31批次的数据和：-31.140697022280865
第32批次的数据和：34.2450610539059
第33批次的数据和：-8.905060310630942
第34批次的数据和：14.794907685056756
第35批次的数据和：11.0

## 通用函数
sqrt,sin,cos,abs,sum,mean,median....

## 广播机制
Numpy的通用函数要求输入的数组shape一致，若不一致，会使用广播机制。
广播机制满足以下规则
1. 所有输入数组均向shape最长的数组看齐，不足的部分在前面加1补全
2. 输出的数组shape为输入数组shape的每个轴的最大值
3. 若输入数组的某个轴和输出数组的对应轴的长度相同或为1时能被计算，否则报错
4. 党输入数组的某个轴的长度为1时，沿此轴运算时复制第一组值

In [48]:
A = np.arange(0, 40, 10).reshape(4, 1)
B = np.arange(0, 3)
print(A)
print(B)
print(A+B)

[[ 0]
 [10]
 [20]
 [30]]
[0 1 2]
[[ 0  1  2]
 [10 11 12]
 [20 21 22]
 [30 31 32]]
