In [3]:
import numpy as np

In [4]:
# 在numpy中，最重要的也是最核心的数据结构还是ndarray，ndarray代表的是多维数组。
# NumPy是在一个连续的内存块中存储数据，独立于其他Python内置对象。NumPy的C语言编写的算法库可以操作内存，而不必进行类型检查或其它前期工作。
# 比起Python的内置序列，NumPy数组使用的内存更少。
# NumPy可以在整个数组上执行复杂的计算，而不需要Python的for循环。
my_arr = np.arange(1000000)
my_list = list(range(1000000))
%time for _ in range(10): my_arr2 = my_arr * 2

Wall time: 10 ms


In [5]:
%time for _ in range(10): my_list2 = [x * 2 for x in my_list]
# 可以看到上面的比较。基于NumPy的算法要比纯Python快10到100倍（甚至更快），并且使用的内存更少。

Wall time: 427 ms


In [7]:
###################################################################################################################
# 下面开始讲解Numpy的ndarray：一种多维数组对象
data = np.random.randn(2, 3)
data *= 10  # 这是将每个元素都乘以10
data + data  # 这是将每个元素与对应位置上的元素相加
print(data)
# 每个数组都有一个shape（一个表示各维度大小的元组）和一个dtype（一个用于说明数组数据类型的对象）：
print(data.dtype)
print(data.shape)
# 一般提到numpy数组都是指ndarray对象

[[-12.27255125  -2.20264862  -2.1183197 ]
 [ -7.39163388 -15.89991775  -3.53473759]]
float64
(2, 3)


In [27]:
# 创建ndarray
# 方法一：通过数组完成
data1 = [6, 7.5, 8, 0, 1]
arr1 = np.array(data1)
print(arr1.ndim)  # 表示是一维的
print(arr1.shape)
print(arr1.dtype) # 这边会自动为arr1推测出它可能的类型

# 还可以通过dtype来指定类型
arr2 = np.array([1,2,3],dtype = np.float64)
print(arr2)

1
(5,)
float64
[1. 2. 3.]


In [10]:
# 创建全0或者全1的数组：
x1 = np.zeros(10)
x2 = np.ones([3,2])
x3 = np.ones((3,2,3))
print(x2)
print(x3)

[[1. 1.]
 [1. 1.]
 [1. 1.]]
[[[1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]]

 [[1. 1. 1.]
  [1. 1. 1.]]]


In [17]:
# 方法二：通过arrange来创建
test1 = np.arange(15)
print(test1)

[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14]


# ![jupyter](./images/Image1.png)

In [25]:
# 如上图所示，还有很多方法可以调用
res1 = np.zeros_like(test1)
print(res1)

# eye和identity函数的参数都是一个数值，表示维度
res2 = np.eye(10)
print(res2)

res3 = np.identity(4)
print(res3)

# 可以填充自己想要的形状
a = np.full((2, 2), np.inf)
b = np.full((2, 2), 10)
print(a)
print(b)

c = np.full_like(a, 10)
print(c)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
[[1. 0. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0. 0. 1.]]
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]
[[inf inf]
 [inf inf]]
[[10 10]
 [10 10]]
[[10. 10.]
 [10. 10.]]


![jupyter](./images/Image2.png)

![jupyter](./images/Image3.png)

In [34]:
# 可以将astype将一个type转换成另一个type
arr = np.array([1, 2, 3, 4, 5])
float_arr = arr.astype(np.float64)
print(float_arr.dtype)
print(float_arr.shape)

# 如果全是字符串数字，则可以直接转成数字
numeric_strings = np.array(['1.25', '-9.6', '42'], dtype=np.string_)
# 这边比较懒，写的是float而不是np.float64；NumPy很聪明，它会将Python类型映射到等价的dtype上。
print(numeric_strings.astype(float))

# 调用astype总会创建一个新的数组（一个数据的备份），即使新的dtype与旧的dtype相同。

float64
(5,)
[ 1.25 -9.6  42.  ]


In [37]:
###################################################################################################################

# 数组与标量的算术运算会将标量值传播到各个元素：
arr = np.array([[1., 2., 3.], [4., 5., 6.]])
print(arr ** 0.5)

# 大小相同的数组之间的比较会生成布尔值数组：
arr2 = np.array([[0., 4., 1.], [7., 2., 12.]])
arr2 > arr

[[1.         1.41421356 1.73205081]
 [2.         2.23606798 2.44948974]]


array([[False,  True, False],
       [ True, False,  True]])

In [38]:
# numpy的索引和切片和列表看起来是差不多的
arr = np.arange(10)
print(arr[5:8])
arr[5:8] = 12
print(arr)
# 跟列表最重要的区别在于，数组切片是原始数组的视图。这意味着数据不会被复制，视图上的任何修改都会直接反映到源数组上。
# 注意：如果你想要得到的是ndarray切片的一份副本而非视图，就需要明确地进行复制操作，例如arr[5:8].copy()。

[5 6 7]
[ 0  1  2  3  4 12 12 12  8  9]


In [12]:
# 对于高维度数组，能做的事情更多。在一个二维数组中，各索引位置上的元素不再是标量而是一维数组：
# 因此，可以对各个元素进行递归访问，但这样需要做的事情有点多。
arr2d = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# 你可以传入一个以逗号隔开的索引列表来选取单个元素。也就是说，下面两种方式是等价的：
#######################这个很重要呀，与Python里面完全不同
print(arr2d[0][2])
arr2d[0, 2]
# 下图说明了二维数组的索引方式。轴0作为行，轴1作为列。

3


3

![jupyter](./images/Image4.png)

In [40]:
arr3d = np.array([[[1, 2, 3], [4, 5, 6]], [[7, 8, 9], [10, 11, 12]]])
print(arr3d[0]) # 它是一个2* 3的数组
# 标量值和数组都可以被赋值给arr3d[0]：
old_values = arr3d[0].copy()
arr3d[0] = 42
print(arr3d)
arr3d[0] = old_values
print(arr3d)


[[1 2 3]
 [4 5 6]]
[[[42 42 42]
  [42 42 42]]

 [[ 7  8  9]
  [10 11 12]]]
[[[ 1  2  3]
  [ 4  5  6]]

 [[ 7  8  9]
  [10 11 12]]]


In [41]:
# 注意：根据索引和切片返回的数组都是视图。即在原来的数组上直接修改的
print(arr3d[1, 0])

[7 8 9]


In [13]:
# 下面讲解多维数组的切片
# 一开始是二维数组：
print(arr2d)
# 可以看出，它是沿着第0轴（即第一个轴）切片的。也就是说，切片是沿着一个轴向选取元素的。表达式arr2d[:2]可以被认为是“选取arr2d的前两行”。
print(arr2d[:2])
print("---")
print(arr2d[:2, 1:])

# 自然，对切片表达式的赋值操作也会被扩散到整个选区：
arr2d[:2, 1:] = 0

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 2 3]
 [4 5 6]]
---
[[2 3]
 [5 6]]


![j](./images/Image5.png)

In [None]:
# 从下面开始都是numpy的函数学习
# 参考官网：https://numpy.org/doc/stable/reference

In [17]:
mu, sigma = 0, 0.1
s = np.random.normal(mu, sigma, 1000)
print(s)

[ 3.66794997e-02  4.65704779e-02  2.31557082e-02  3.26319410e-02
  6.34702358e-02  3.37756820e-02  6.43146755e-02 -4.44712636e-02
  1.40943409e-01  5.19075874e-02 -2.44550611e-01 -8.49757580e-02
 -1.54626952e-01  7.78278950e-02  8.53390137e-02 -6.67741613e-03
 -4.00493004e-02  2.91763694e-02 -2.92100998e-02 -1.60760496e-01
 -1.32411063e-01 -3.99107989e-03 -1.92821014e-01 -6.99900199e-02
  2.05881140e-01 -1.87753585e-02 -2.84906592e-02  2.07419318e-01
  3.64400165e-02  5.10421511e-02 -1.12570306e-01 -1.01463157e-01
  3.77359962e-02  6.65033613e-02  2.30031730e-01  9.12923415e-02
  4.52419362e-02 -5.13748800e-02 -5.02107008e-02 -2.90540505e-02
  6.48412758e-02 -4.26273905e-02 -4.94660081e-02 -3.47025248e-02
 -1.96768672e-02  1.14629891e-02  1.18829574e-01 -5.43120208e-02
  5.01626321e-02  1.36589025e-01  1.17816750e-01 -8.15756380e-02
 -4.14201325e-02  2.79239132e-02  1.17943393e-01 -5.09095616e-02
 -1.40924629e-02  1.51806655e-01 -5.37054506e-02  7.12296736e-03
  1.23025890e-02 -1.34226

-7.347880794884119e-16