# 数据分析实训之 Numpy

## Numpy 简介

- NumPy 是 Python 语言的一个扩展程序库。支持高阶大量的维度数组与矩阵运算，此外也针对数组运算提供大量的数学函数库。
    - Numpy 官方网址：https://numpy.org
    - Numpy 中文文档：https://www.numpy.org.cn/
- Numpy 的 ndarray 与 Python 的 list：
    - list 列表本身是为了处理更广泛、更通用的目的而构建的
    - ndarray 对于处理数组类型结构的数据会更加方便    

![](https://vip2.loli.io/2023/11/30/VIevXzfbCwdTGKi.jpg)

在Python中，列表是一种内置的数据结构，可以容纳不同数据类型的元素。然而，列表的灵活性是以内存效率为代价的。

Python的NumPy库支持优化的数值数组和矩阵操作。

In [1]:
# importing numpy package
import numpy as np

在下面这个例子中，将创建一个包含1000个元素的Python列表和一个NumPy数组。将计算每个元素的大小以及两个容器的整体大小，并将在内存消耗方面进行比较。

In [2]:
# importing system module
import sys
 
# declaring a list of 1000 elements
S= range(1000)
 
# printing size of each element of the list
print("Size of each element of list in bytes: ",sys.getsizeof(S))
 
# printing size of the whole list
print("Size of the whole list in bytes: ",sys.getsizeof(S)*len(S))

Size of each element of list in bytes:  48
Size of the whole list in bytes:  48000


In [3]:
# declaring a Numpy array of 1000 elements
D= np.arange(1000)
 
# printing size of each element of the Numpy array
print("Size of each element of the Numpy array in bytes: ",D.itemsize)
 
# printing size of the whole Numpy array
print("Size of the whole Numpy array in bytes: ",D.size*D.itemsize)

Size of each element of the Numpy array in bytes:  8
Size of the whole Numpy array in bytes:  8000


- Numpy运算速度快：
    - 它将常用的数学函数都支持向量化运算，使得这些数学函数能够直接对数组进行操作，将本来需要在Python级别进行的循环，放到C语言的运算中，明显地提高了程序的运算速度。

在下面这个例子中，将创建两个包含1000000个元素的Python列表和两个包含1000000个元素的NumPy数组。将分别对列表和NumPy数组中的元素进行乘法运算，并分析执行这两个容器所需的时间差异，以确定哪一个执行操作所需的时间较短。

In [4]:
# importing required packages
import time

# size of arrays and lists
size = 100_0000

# declaring lists
list1 = range(size)
list2 = range(size)

# declaring arrays
array1 = np.arange(size)
array2 = np.arange(size)

In [11]:
%timeit [(a * b) for a, b in zip(list1, list2)]
# Time taken by Lists to perform multiplication

82.8 ms ± 44.5 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [12]:
%timeit array1 * array2
# Time taken by NumPy Arrays to perform multiplication

979 µs ± 2.15 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


- Numpy 要点：
    - 我们可以使用 NumPy.array() 在Python中创建一个N维数组。
    - 数组默认是同构的（Homogeneous），这意味着数组内的数据必须是相同的数据类型。（注意：你也可以创建一个结构化数组）
    - 支持逐元素（Element-wise）操作。
    - NumPy 数组具有各种函数、方法和变量，以简化矩阵计算任务。
    - 数组的元素在内存中是连续存储的。例如，二维数组的所有行必须具有相同数量的列。三维数组必须在每个轴上具有相同数量的行和列。
    
---

## Numpy的array基本操作练习

> <time>10 min</time>

通过具体操作直观了解 `ndarray` 的关键属性：维度（ndim）、形状（shape）、数值类型（dtype）等。

### 初始化

首先引入numpy模块

In [1]:
import numpy as np

### 操作练习

定义两个array：np1和np2 

In [2]:
np1 = np.array([1,2,3])
np2 = np.array([3,4,5])

将上述两个array相加，并输出结果进行查看。直观感受一下array相加操作。

In [3]:
print(np1 + np2)

[4 6 8]


In [6]:
# 基本运算

np1 + 3       # nd.array + int
np2 + 3.2       # nd.array + float
np1 + [3,4,5] # nd.array + list

array([4, 6, 8])

我们再打印输出维度(ndim)、形状(shape)、数值类型(dtype)等array的属性信息，直观感受一下。

In [9]:
print(np1.ndim, np1.shape, np1.dtype)

1 (3,) int64


接下来我们再做一个改变array维度的操作，并直观感受一下。
- 初始化一个一维矩阵（1 x 6）
- 将一维矩阵改为二维矩阵（2 x 3）
- 查看改变后矩阵的属性信息

In [14]:
np3 = np.array([1,2,3,4,5,6])
print(np3)

np3 = np3.reshape([2,3])
print(np3)

print(np3.ndim, np3.shape, np3.dtype)

[1 2 3 4 5 6]
[[1 2 3]
 [4 5 6]]
2 (2, 3) int64


## Numpy 中的数值精度

在使用Python Numpy进行数据运算时，不同数据类型的精度存在明显的区别。Python的数据类型int、float并不支持无限精度，因此在进行高精运算时容易出现误差。常用的Numpy数据类型有float32、float64、complex64等，其中float64与double精度相同，为**双精度**浮点数。

对于float64数据类型的运算，其精度约为15位有效数字，也就是说在进行超过15位有效数字的计算时，可能出现误差。同时，Numpy库中的一些函数也有精度限制，如原生实现的cos、sin等函数在小数点后10位左右开始出现精度损失。

In [15]:
format(np.float128(0.1), '.130f')

'0.1000000000000000055511151231257827021181583404541015625000000000000000000000000000000000000000000000000000000000000000000000000000'

- NumPy数值类型的固定大小可能在数值需要的内存超过数据类型可用内存时引起溢出错误。例如，对于64位整数，numpy.power正确计算 100 ** 8，但对于32位整数，结果为1874919424（错误）。

In [16]:
np.power(100, 8, dtype=np.int64)

10000000000000000

In [17]:
np.power(100, 8, dtype=np.int32)

1874919424

NumPy和Python整数类型在整数溢出方面的行为差异显著，可能会让用户感到困惑，因为他们期望NumPy整数的行为类似于Python的int。与NumPy不同，Python的int大小是灵活的。这意味着Python整数可以扩展以容纳任何整数，不会发生溢出。

NumPy提供了 `numpy.iinfo` 和 `numpy.finfo` 来验证NumPy整数和浮点数值的最小或最大值。

In [18]:
np.iinfo(int) # Bounds of the default integer on this system.

iinfo(min=-9223372036854775808, max=9223372036854775807, dtype=int64)

In [19]:
np.iinfo(np.int32) # Bounds of a 32-bit integer

iinfo(min=-2147483648, max=2147483647, dtype=int32)

In [20]:
np.iinfo(np.int64) # Bounds of a 64-bit integer

iinfo(min=-9223372036854775808, max=9223372036854775807, dtype=int64)

如果64位整数仍然太小，结果可能会转换为浮点数。浮点数提供了一个更大但不精确的可能值范围。

In [21]:
np.power(100, 100, dtype=np.int64) # Incorrect even with 64-bit int

0

In [22]:
np.power(100, 100, dtype=np.float64)

1e+200

In [23]:
np.finfo(np.float16)

finfo(resolution=0.001, min=-6.55040e+04, max=6.55040e+04, dtype=float16)

In [24]:
print(np.finfo(np.float16))

Machine parameters for float16
---------------------------------------------------------------
precision =   3   resolution = 1.00040e-03
machep =    -10   eps =        9.76562e-04
negep =     -11   epsneg =     4.88281e-04
minexp =    -14   tiny =       6.10352e-05
maxexp =     16   max =        6.55040e+04
nexp =        5   min =        -max
smallest_normal = 6.10352e-05   smallest_subnormal = 5.96046e-08
---------------------------------------------------------------



In [25]:
print(np.finfo(np.float32))

Machine parameters for float32
---------------------------------------------------------------
precision =   6   resolution = 1.0000000e-06
machep =    -23   eps =        1.1920929e-07
negep =     -24   epsneg =     5.9604645e-08
minexp =   -126   tiny =       1.1754944e-38
maxexp =    128   max =        3.4028235e+38
nexp =        8   min =        -max
smallest_normal = 1.1754944e-38   smallest_subnormal = 1.4012985e-45
---------------------------------------------------------------



In [26]:
print(np.finfo(np.float64))

Machine parameters for float64
---------------------------------------------------------------
precision =  15   resolution = 1.0000000000000001e-15
machep =    -52   eps =        2.2204460492503131e-16
negep =     -53   epsneg =     1.1102230246251565e-16
minexp =  -1022   tiny =       2.2250738585072014e-308
maxexp =   1024   max =        1.7976931348623157e+308
nexp =       11   min =        -max
smallest_normal = 2.2250738585072014e-308   smallest_subnormal = 4.9406564584124654e-324
---------------------------------------------------------------



In [27]:
print(np.finfo(np.float128))

Machine parameters for float128
---------------------------------------------------------------
precision =  18   resolution = 1e-18
machep =    -63   eps =        1.084202172485504434e-19
negep =     -64   epsneg =     5.42101086242752217e-20
minexp = -16382   tiny =       3.3621031431120935063e-4932
maxexp =  16384   max =        1.189731495357231765e+4932
nexp =       15   min =        -max
smallest_normal = 3.3621031431120935063e-4932   smallest_subnormal = 4e-4951
---------------------------------------------------------------



In [28]:
print(np.finfo(np.complex256))

Machine parameters for float128
---------------------------------------------------------------
precision =  18   resolution = 1e-18
machep =    -63   eps =        1.084202172485504434e-19
negep =     -64   epsneg =     5.42101086242752217e-20
minexp = -16382   tiny =       3.3621031431120935063e-4932
maxexp =  16384   max =        1.189731495357231765e+4932
nexp =       15   min =        -max
smallest_normal = 3.3621031431120935063e-4932   smallest_subnormal = 4e-4951
---------------------------------------------------------------



Python的浮点数通常是64位浮点数，几乎等同于np.float64。在一些不寻常的情况下，使用更高精度的浮点数可能会很有用。在NumPy中是否可以实现这一点取决于硬件和开发环境：具体而言，x86架构的机器提供80位精度的硬件浮点数，而大多数C编译器将其提供为long double类型，但MSVC（Windows版本的标准编译器）将long double定义为double（64位）。NumPy将编译器的long double提供为np.longdouble（对于复数为np.clongdouble）。您可以使用np.finfo(np.longdouble)来查看NumPy提供的内容。

NumPy不提供比C的long double更高精度的dtype；特别是，128位IEEE四倍精度数据类型（FORTRAN的REAL*16）不可用。

为了实现有效的内存对齐，np.longdouble通常使用零比特填充，填充到96位或128位。哪种填充方式更有效取决于硬件和开发环境；通常在32位系统上，它们填充到96位，而在64位系统上，它们通常填充到128位。np.longdouble填充到系统默认值；np.float96和np.float128是为那些想要特定填充的用户提供的。尽管名称中带有96和128，但np.float96和np.float128提供的精度仅与np.longdouble相同，即在大多数x86架构的机器上为80位，在标准Windows版本上为64位。

请注意，即使np.longdouble提供比Python的float更高的精度，由于Python经常强制将值转换为float，很容易失去这些额外的精度。例如，百分比格式化运算符要求其参数转换为标准Python类型，因此即使请求许多小数位，也无法保留扩展精度。可以使用值1 + np.finfo(np.longdouble).eps来测试您的代码。

See: https://numpy.org/doc/stable/user/basics.types.html

## Numpy的数据切片操作练习
> <time>10 min</time>

除了能够一次访问一个元素之外，Numpy 还提供了访问 ndarray 子集的方式，称之为切片。切片方式是在方括号里用冒号分隔起始和结束索引

### 初始化矩阵

首先初始化一个6*6的矩阵

In [29]:
a = np.array([[0,1,2,3,4,5],
              [10,11,12,13,14,15],
              [20,21,22,23,24,25],
              [30,31,32,33,34,35],
              [40,41,42,43,44,45],
              [50,51,52,53,54,55]])

print(a)

[[ 0  1  2  3  4  5]
 [10 11 12 13 14 15]
 [20 21 22 23 24 25]
 [30 31 32 33 34 35]
 [40 41 42 43 44 45]
 [50 51 52 53 54 55]]


### 进行各种不同的数据切片操作

<div class="sl-block is-focused" data-block-type="image" style="min-width: 1px; min-height: 1px; width: 599px; height: 297px; left: 340.5px; top: 377px;" data-name="image-286fe5" data-origin-id="27673e392cc92b12fb2a206b0c7bc27b"><div class="sl-block-content" style="z-index: 17;"><img style="" data-natural-width="772" data-natural-height="383" data-lazy-loaded="" src="https://i.loli.net/2019/07/27/5d3c36c102f6387120.png"></div></div>

取矩阵第1行、第4列和第5列的两个数据切片。这里需要注意索引都是从0开始，所以第1行的索引值参数是“0”，而第4列的索引值是“3”。

In [32]:
a[0,3:5]

array([3, 4])

取矩阵第5行、第5列开始到结尾的子矩阵数据切片。这里注意冒号后如果值置空，意味着取后面所有，“4:”的含义是从索引4到结尾。

In [33]:
a[4:,4:]

array([[44, 45],
       [54, 55]])

取矩阵第3列的所有数据。注意":"前后都没有值，含义为从索引0到结尾所有。

In [34]:
a[:,2]

array([ 2, 12, 22, 32, 42, 52])

取从第3行、第0列开始，行列都以2为间隔进行数据切片。这里注意的是"::"的用法，后面冒号接的数字代表“步长”，即取数的间隔。

In [None]:
a[2::2,::2]

<div class="sl-block is-focused" data-block-type="image" style="width: 809px; height: 297px; left: 235.5px; top: 375px; min-width: 1px; min-height: 1px;" data-name="image-262eee" data-origin-id="01f8f005eba62e726d05c57dfb1051f3"><div class="sl-block-content" style="z-index: 18;"><img style="" data-natural-width="1043" data-natural-height="383" data-lazy-loaded="" src="https://i.loli.net/2019/07/27/5d3c3666165ed31650.png"></div></div>

以索引列表的方式进行数据切片，例如一次取出矩阵位置索引为(0,1)(1,2)(2,3)(3,4)(4,5)的数据。

In [38]:
a[(0,1,2,3,4),(1,2,3,4,5)]

array([ 1, 12, 23, 34, 45])

行范围选择第4行开始到最后一行，列范围选择第1、3、6列的所有数据切片。

In [39]:
a[3:,[0,2,5]]

array([[30, 32, 35],
       [40, 42, 45],
       [50, 52, 55]])

使用掩码的方式进行数据切片选择，掩码值为布尔型，1表示选择，0表示忽略。

In [41]:
mask = np.array([1,0,1,0,0,1],dtype=bool)
a[mask,2]

array([ 2, 22, 52])

### 查找索引

In [45]:
a = np.array([1,2,3,4,2,4,3,3,4])
max_a = a.argmax() # 返回对应结果的第一个索引
max_a

3

In [47]:
np.where(a==max_a) # 返回全部索引的元组

(array([2, 6, 7]),)

If all the arrays are 1-D, `where(condition, [x, y], /)` is equivalent to::

    [xv if c else yv
     for c, xv, yv in zip(condition, x, y)]

In [48]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [49]:
np.where(a < 5, a, 10*a)

array([ 0,  1,  2,  3,  4, 50, 60, 70, 80, 90])

---

## Numpy 广播机制操作练习 (Broadcasting)
> <time>10 min</time>

- 更多官方说明：https://numpy.org/doc/stable/user/basics.broadcasting.html

- 前提：两个 ndarray 执行的是 element-wise（按位加，按位减） 的运算，而不是矩阵乘法的运算，矩阵乘法运算时需要维度之间严格匹配。
- 规则：
    1. 让所有输入数组都向其中shape最长的数组看齐，shape中不足的部分都通过在前面加1补齐
    2. 输出数组的shape是输入数组shape的各个轴上的最大值
    3. 如果输入数组的某个轴和输出数组的对应轴的长度相同或者其长度为1时，这个数组能够用来计算，否则出错
    4. 当输入数组的某个轴的长度为1时，沿着此轴运算时都用此轴上的第一组值
- 目的：方便不同shape的array进行数学运算

![](https://vip2.loli.io/2023/12/01/ucg1y3IMTJVdrhz.jpg)

- 简单的说，任何一个维度是1，那么另一个不为1的维度将被用作最终结果的维度。也就是说，尺寸为1的维度将延展或“逐个复制”到与另一个维度匹配



### 操作练习1：

实现对一个1-d array的每一个元素乘以2,传统做法如下：

In [51]:
a = np.array([1.,2.,3.])
b = np.array([2.,2.,2.])
a * b

array([2., 4., 6.])

如果利用广播机制，实现上述例子的做法会变得更加简单：

In [52]:
a = np.array([1.,2.,3.])
b = 2.
a * b

array([2., 4., 6.])

### 操作练习2：

ndarray 的广播机制：

In [53]:
a = np.array(range(1, 7)).reshape(3, -1)
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [54]:
b = np.array([1,2]).reshape(1,-1)
b

array([[1, 2]])

In [55]:
a + b

array([[2, 4],
       [4, 6],
       [6, 8]])

### 操作练习3：

In [61]:
a = np.ones(shape = (8,1,6,1))
print(a.shape)

b = np.ones(shape = (7,1,5))
print(b.shape)

(8, 1, 6, 1)
(7, 1, 5)


In [62]:
(a + b).shape

(8, 7, 6, 5)

简单的说，对两个阵进行操作时，Numpy 逐元素地比较他们的形状。

只有两种情况下Numpy会认为两个矩阵(向右对齐后)内的两个对应维度是兼容的：
1. 它们相等； 
2. 其中一个是1维。

举个牛逼的例子：

```shell
A      (4d array):  8 x 1 x 6 x 1
B      (3d array):      7 x 1 x 5
Result (4d array):  8 x 7 x 6 x 5
```
当任何一个维度是1，那么另一个不为1的维度将被用作最终结果的维度。也就是说，尺寸为1的维度将延展或“逐个复制”到与另一个维度匹配。

---

## 用Numpy实现线性代数与数理统计方法操作练习
> <time>10 min</time>

**线性代数**

线性代数（如矩阵乘法、矩阵分解、行列式以及其他方阵数学等）是任何数组库的重要组成部分，Numpy中实现了线性代数中常用的各种操作，并形成了numpy.linalg线性代数相关的模块。


- 矩阵的定义、矩阵的加法、矩阵的数乘、矩阵的转置与二维数组完全一致，矩阵的乘法有不同的表示：
    1. `numpy.dot(a, b[, out])`   计算两个矩阵的乘积，如果是一维数组则是它们的内积。
        注意：b.dot(c)等价于np.dot(b,c)。
    2. `numpy.diag`：以一维数组的形式返回方阵的对角线（或非对角线）元素，或将一维数组转换为方阵（非对角线元素为0）。
    3. `numpy.trace`：计算对角线元素的和。
    2. `numpy.linalg.eig`   计算方阵的特征值和特征向量。
    3. `numpy.linalg.eigvals`   计算方阵的特征值。




### 操作练习1：一维数组的矩阵乘法（内积）

In [63]:
x = np.array([1,2,3,4,5])
y = np.array([2,3,4,5,6])
z = np.dot(x,y)

print(z)

70


### 操作练习2：多维矩阵乘法

In [68]:
x = np.array([[1,2,3],[3,4,5],[6,7,8]])
y = np.array([[5,4,3],[1,7,9],[0,4,5]])
z = np.dot(x,y)

print(x)
print(y)
print(z)

[[1 2 3]
 [3 4 5]
 [6 7 8]]
[[5 4 3]
 [1 7 9]
 [0 4 5]]
[[  7  30  36]
 [ 19  60  70]
 [ 37 105 121]]


![](https://i.loli.net/2019/07/27/5d3c39341aae597111.png)

### 操作练习3：计算矩阵的特征值和特征向量

In [65]:
x = np.diag((1,2,3))

print(x)

[[1 0 0]
 [0 2 0]
 [0 0 3]]


In [66]:
np.linalg.eigvals(x)

array([1., 2., 3.])

特征值保存在a中，特征向量保存在b中

In [67]:
a,b = np.linalg.eig(x)

print(a)
print(b)

[1. 2. 3.]
[[1. 0. 0.]
 [0. 1. 0.]
 [0. 0. 1.]]


### 一些统计方法

对整个数组或某个轴向的数据进行统计计算。 

*（以下方法既可以当做数组的实例方法，也可以当做Numpy函数使用）*

- `mean`：计算算术平均数，零长度数组的 `mean` 为NaN。
- `std` 和 `var`：计算标准差和方差，自由度可调（默认为n）。
- `sum`：对数组中全部或某轴向的元素求和，零长度数组的 `sum` 为0。
- `max` 和 `min`：计算最大值和最小值。
- `argmin` 和 `argmax`：分别为最大和最小元素的索引。
- `cumsum`：计算所有元素的累加。
- `cumprod`：计算所有元素的累积。



In [70]:
# 计算均值，使用arr.mean() 或 np.mean(arr)，二者是等价的
arr = np.array([[1,2,3], [4,5,6], [7,8,9]])
arr

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [75]:
arr.mean(), np.mean(arr)

(5.0, 5.0)

- 指定计算的维度

In [76]:
# 沿着第1维求平均
# 也就是将[1, 2, 3]取平均等于2，[4, 5, 6]取平均等于5，[7, 8, 9]取平均等于8
arr.mean(axis = 1)

array([2., 5., 8.])

In [77]:
# 沿着第0维求和
# 也就是将[1, 4, 7]求和等于12，[2, 5, 8]求和等于15，[3, 6, 9]求和等于18
arr.sum(axis=0)

array([12, 15, 18])

In [78]:
# 沿着第0维求最大值
# 也就是将[1, 4, 7]求最大值等于7，[2, 5, 8]求最大值等于8，[3, 6, 9]求最大值等于9
arr.max(axis=0)

array([7, 8, 9])

In [79]:
# 沿着第1维求最小值
# 也就是将[1, 2, 3]求最小值等于1，[4, 5, 6]求最小值等于4，[7, 8, 9]求最小值等于7
arr.min(axis=1)

array([1, 4, 7])

## 随机数 `np.random`

### 创建随机ndarray数组

- 设置随机数种子

In [112]:
# 多次运行，程序输出结果一致
# 如果不设置随机数种子，多次运行输出结果不一致
np.random.seed(112)

In [113]:
a = np.random.rand(3, 3)
a

array([[0.37505713, 0.64030462, 0.95001658],
       [0.0756772 , 0.77692966, 0.83274576],
       [0.05480574, 0.81767738, 0.88535146]])

In [114]:
b = np.random.rand(3, 3)
b

array([[0.72234651, 0.00255603, 0.98119928],
       [0.34341985, 0.09475989, 0.39464259],
       [0.00494492, 0.73670683, 0.95580687]])

自然随机数：

- 白噪音
- 放射性同位素的散布

自然随机数的特点是，真随机，且无法被生成，或者说，无法被重现。

伪随机数：

- 通过数学方法生成的随机数
- 线性同余发生器

伪随机数的特点是可以被生成或重现，但是他的随机性体现在你如何去看待。


![](https://vip2.loli.io/2023/11/30/l4ebCOiXpEIQZuy.jpg)

> Randomness can be seen as the absence of any structure whatsoever.
>

> 随机性的概念通常在统计学和其他领域中用于表示一组数据中缺乏模式或结构。
>然而，值得注意的是，在数学和物理学领域，真正的随机性是一个备受争议的话题。一些人认为，如果我们知道系统的所有变量并完全了解，就能够预测结果。另一些人则认为，宇宙本质上是不可预测的，真正的随机性确实存在。

### 均匀分布

In [115]:
# 生成均匀分布随机数，随机数取值范围在[0, 1)之间
a = np.random.rand(3, 3)
a

array([[0.82060937, 0.344983  , 0.37854446],
       [0.78476361, 0.08623151, 0.54607394],
       [0.16222602, 0.29006973, 0.04500817]])

In [118]:
# 生成均匀分布随机数，指定随机数取值范围和数组形状
# 未指定形状则返回一个数字，即rand()等价于uniform(0,1)
a = np.random.uniform(low = -1.0, high = 1.0, size=(2,2))
a

array([[ 0.52706065,  0.3674649 ],
       [ 0.44391476, -0.57169582]])

### 正态分布

In [120]:
# 生成标准正态分布随机数
a = np.random.randn(3, 3)
a

array([[-1.02597417, -2.36855593, -0.07387004],
       [ 0.42762768, -0.96564862, -0.22447746],
       [-0.33519821, -2.26603543, -0.13224617]])

In [122]:
# 生成正态分布随机数，指定均值loc和方差scale
a = np.random.normal(loc = 1.0, scale = 1.0, size = (3,3))
a

array([[0.98989129, 2.50859366, 1.71465326],
       [0.2977863 , 0.92995503, 0.61703173],
       [1.34599716, 0.79889054, 0.64125484]])

### 随机打乱ndarray数组

随机打乱1维ndarray数组顺序，发现所有元素位置都被打乱了

In [123]:
# 生成一维数组
a = np.arange(0, 30)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [128]:
# 打乱一维数组顺序
np.random.shuffle(a)

In [129]:
a

array([16, 25,  2, 26, 22,  5, 27, 13, 14,  9, 11, 15,  4, 21,  6, 17, 19,
       12, 23, 20,  7,  0, 10, 29, 18,  3,  1,  8, 24, 28])

随机打乱2维ndarray数组顺序，发现只有行的顺序被打乱了，列顺序不变

In [137]:
# 生成一维数组
a = np.arange(0, 60)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33,
       34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50,
       51, 52, 53, 54, 55, 56, 57, 58, 59])

In [139]:
# 将一维数组转化成2维数组
a = a.reshape(10, 3, 2)
# a

In [144]:
# 打乱一维数组顺序
np.random.shuffle(a)

In [146]:
# a

### 随机选取元素（一维）

In [148]:
# 随机选取部分元素（30选5）
a = np.arange(30)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29])

In [150]:
b = np.random.choice(a, size=5)
b

array([15,  4, 17, 11,  5])

In [152]:
# 随机选取部分元素（30选1）
c = np.random.choice(30)
c

23

## Numpy 文件读写与保存

Numpy提供了save和load接口，直接将数组保存成文件(保存为 `.npy`格式)，或者从 `.npy` 文件中读取数组。

In [153]:
# 产生随机数组a
a = np.random.rand(3,3)
np.save('a', a)

!ls -lh a.npy
a

-rw-r--r-- 1 root root 200 Dec  1 12:00 a.npy


array([[0.67983647, 0.21504   , 0.90752074],
       [0.20109525, 0.04108355, 0.27542648],
       [0.3027903 , 0.19829481, 0.98285595]])

In [154]:
# 从本地目录中，将文件'a.npy'读入数组
b = np.load('a.npy')
b

array([[0.67983647, 0.21504   , 0.90752074],
       [0.20109525, 0.04108355, 0.27542648],
       [0.3027903 , 0.19829481, 0.98285595]])

In [155]:
!rm a.npy

In [157]:
# 检查a和b的数值是否一样

# way.1
(a == b).all()

True

In [158]:
# way.2
np.alltrue(a == b)

True

In [159]:
# way.3
np.allclose(a, b)

# absolute(`a` - `b`) <= (`atol` + `rtol` * absolute(`b`))

True