Numpy数组是整个python数据科学工具生态系统的核心


In [4]:
import numpy
numpy.__version__

'1.26.4'

In [2]:
import numpy as np

# 2.1 理解Python中的数据类型


## 2.1.1 Python整型不仅仅是一个整型
C语言需要声明变量数据的类型，而python不需要。这在给python带来灵活性的同时，也使得python变量不会仅仅是它们的值，还包括一些额外的结构（包括引用计数、类型编码以及存储这些额外结构的内容）。C语言整型本质是直接指向某个内存位置的标签，里面存储的字节会编码成整型；python整型是一个指针，指向某个包含有python对象b所有信息的内存位置，其中包括可以转化为整型的字符和结构信息。

## 2.1.2 Python的列表不仅仅是一个列表
Numpy式的数组中数据结构信息式公用的，而python列表中数据结构信息会储存在每一个元素里，因此出现了冗余。

## 2.1.3 Python中的固定类型数组
array类，但不实用

## 2.1.4 从Python列表创建数组

In [3]:
np.array([1,2,4,5,3])

array([1, 2, 4, 5, 3])

Numpy要求数组必须包含同一类型的数据，如果类型不匹配，Numpy会向上转换：

In [4]:
np.array([3.14,4,2,13])

array([ 3.14,  4.  ,  2.  , 13.  ])

可以添加字符串

In [5]:
np.array(["here","come","the","sun"])

array(['here', 'come', 'the', 'sun'], dtype='<U4')

如果你希望设置数组的数据类型，可使用dtype关键字

In [9]:
np.array([1,2,3,4], dtype='float32')

array([1., 2., 3., 4.], dtype=float32)

Numpy数组可以被指定为多维的

In [10]:
np.array([range(i,i+3) for i in [2,4,6]])

array([[2, 3, 4],
       [4, 5, 6],
       [6, 7, 8]])

## 2.1.5 从头创建数组
面对大型数组的时候，用Numpy内置的方法从头创建数组更加高效。

In [11]:
# 创建一个长度为10的数组，数组的值都是0
np.zeros(10,dtype=int)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [12]:
# 创建一个3×5的浮点型数组，数组的值都是1
np.ones((3,5),dtype=float)

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [13]:
# 创建一个3×5的浮点型数组，数组的值都是3.14
np.full((3,5),3.14)

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [14]:
# 创建一个线性序列数组，从0开始，到20结束，步长为2
# 和内置的range函数很类似
np.arange(0,20,2)

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [16]:
# 创建一个5个元素的数组，这5个数字均匀地分配到0-1
np.linspace(0,1,5)

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [18]:
# 创建一个3×3的、在0-1均匀分布的随机数组成的数组
np.random.random((3,3))

array([[0.95464908, 0.10450787, 0.57972344],
       [0.79353896, 0.96758233, 0.45007882],
       [0.33485961, 0.82047652, 0.39190268]])

In [21]:
# 创建一个3×3的、均值为0、标准差为1的、正态分布的随机数组成的数组
np.random.normal(0,1,(3,3))

array([[-0.97349409,  1.46832745, -1.61029591],
       [-0.56376362, -0.41776367, -1.35513132],
       [-2.08106643,  0.84750271,  0.71164382]])

In [22]:
# 创建一个3×3的、[0,10)区间随机整型数组成的数组
np.random.randint(0,10,(3,3))

array([[4, 3, 3],
       [0, 4, 1],
       [8, 0, 6]])

In [23]:
# 创建一个3×3的单位矩阵
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [24]:
# 创建一个由3个整型数组成的未初始化的数组，数组的值是内存空间在的任意数值

In [25]:
np.empty(3)

array([1., 1., 1.])

## 2.1.6 Numpy的标准数据类型
略

# 2.2 Numpy数组基础
包括如下内容
1. 数组的属性
2. 数组的索引
3. 数组的切分
4. 数组的变形
5. 数组的拼接和分裂


## 2.2.1 Numpy数组的属性
定义三个数组，一个一维数组、一个二维数组和一个三维数组。设置随机数种子保证程序每次执行都能生成同样的随机数组。

In [2]:
import numpy as np
np.random.seed(0) # 设置随机数种子

x1 = np.random.randint(10,size=6) # 一维数组
x2 = np.random.randint(10,size=(3,4)) # 二维数组
x3 = np.random.randint(10,size=(3,4,5)) # 三维数组


每个数组有ndim、shape、size属性

In [3]:
print('x3 ndim',x3.ndim)
print('x3 shape',x3.shape)
print('x3 size',x3.size)


x3 ndim 3
x3 shape (3, 4, 5)
x3 size 60


此外，dtype,itemsize和nbyte也是有用的属性

In [4]:
print('x3 itemsize',x3.itemsize,'bytes')
print('x3 nbytes',x3.nbytes,'bytes')



x3 itemsize 4 bytes
x3 nbytes 240 bytes


In [5]:
print('dtype',x3.dtype)

dtype int32


## 2.2.2 数组索引：获取单个元素

对于一维数组，获取元素的方法和列表一致；对于二维列表，可以使用逗号分隔的索引元组获取元素。

In [6]:
x1

array([5, 0, 3, 3, 7, 9])

In [7]:
x1[0]

5

In [8]:
x1[4]

7

In [9]:
x1[-1]

9

In [10]:
x1[-2]

7

对于多维数组的索引元组，元组的第一个数字代表行索引，第二个编号代表列索引。

In [11]:
x2

array([[3, 5, 2, 4],
       [7, 6, 8, 8],
       [1, 6, 7, 7]])

In [12]:
x2[0,0]

3

In [13]:
x2[2,0]

1

In [14]:
x2[2,-1]

7

和列表类似，可以通过索引修改元素值，但一定要注意，输入值会自动被截断为数组所使用的整型，如下面的例子。

In [15]:
x2[0,0]=12.34

In [16]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

## 2.2.3 数组切片：获取子数组
切片形式和列表相同：x[start:stop:step]
### 1.一维子数组

In [17]:
x=np.arange(10)
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [18]:
x[:5] # 前五个元素

array([0, 1, 2, 3, 4])

In [19]:
x[5:] # 索引五之后的元素

array([5, 6, 7, 8, 9])

In [20]:
x[4:7]

array([4, 5, 6])

In [21]:
x[::2] # 每隔一个元素

array([0, 2, 4, 6, 8])

In [22]:
x[1::2] # 每隔一个元素，从索引1开始

array([1, 3, 5, 7, 9])

和列表相似，可以使用负索引，实现逆序。

In [23]:
x[::-1] # 所有元素，逆序的

array([9, 8, 7, 6, 5, 4, 3, 2, 1, 0])

In [24]:
x[5::-2] # 从索引5开始每隔一个元素逆序

array([5, 3, 1])

### 2.多维子数组
和单一元素类似，采用索引元组显示

In [25]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [26]:
x2[:2,:3] # 两行，三列

array([[12,  5,  2],
       [ 7,  6,  8]])

In [27]:
x2[:3,::2] # 所有行，每隔一列

array([[12,  2],
       [ 7,  8],
       [ 1,  7]])

In [28]:
x2[::-1,::-1] # 而欸数组也可以被逆序

array([[ 7,  7,  6,  1],
       [ 8,  8,  6,  7],
       [ 4,  2,  5, 12]])

### 3.获取数组的行和列
将索引与切片结合可以获取行和列

In [29]:
x2[:,0] # x2第一列

array([12,  7,  1])

In [30]:
x2[0,:] # x2第一行

array([12,  5,  2,  4])

In [31]:
x2[0] # 可以直接获取行

array([12,  5,  2,  4])

### 4.Numpy切片是视图
数组切片是数组数据的**视图**，而不是数值数据的**副本**。修改切片产生的视图会修改原本的数据。

In [32]:
x2

array([[12,  5,  2,  4],
       [ 7,  6,  8,  8],
       [ 1,  6,  7,  7]])

In [33]:
x2_sub = x2[:2,:2]
x2_sub

array([[12,  5],
       [ 7,  6]])

In [34]:
x2_sub[0,0]=99
print(x2_sub)
print(x2)

[[99  5]
 [ 7  6]]
[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


### 5.创建数据的副本
通过copy()方法可以获取一个副本，修改副本不会引起原本数据的修改

In [35]:
x2_sub_copy=x2[:2,:2].copy()

In [36]:
x2_sub_copy[0,0]=42
print(x2_sub_copy)
print(x2)

[[42  5]
 [ 7  6]]
[[99  5  2  4]
 [ 7  6  8  8]
 [ 1  6  7  7]]


## 2.2.4 数组的变形
通过reshape方法对数组进行变形

In [37]:
grid = np.arange(1,10).reshape((3,3)) # 注意reshape需要输入一个元组
print(grid)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


另一种常见的变形模式是将一个一维数组变为二维的行或者列的矩阵，可以通过reshape方法实现，也可以在切片操作利用newaxis关键字实现

In [39]:
x = np.array([1,2,3])
x

array([1, 2, 3])

In [43]:
# 通过变形获得行向量
print(x.reshape((1,3)))
print(x)

[[1 2 3]]
[1 2 3]


In [45]:
# 通过newaxis获得行向量,把np.newaxis加在行索引处
x[np.newaxis,:]

array([[1, 2, 3]])

In [46]:
# 通过变形获得列向量
x.reshape((3,1))

array([[1],
       [2],
       [3]])

In [47]:
# 通过newaxis获得列向量,把np.newaxis加在列索引处
x[:,np.newaxis]

array([[1],
       [2],
       [3]])

## 2.2.5 数组拼接和分裂
### 1. 数组的拼接
通过np.concatenate、np.vstack和np.hstack实现。
np.concatenate将数组元组或数组列表作为第一个参数，如下所示。

In [48]:
x=np.array([1,2,3])
y=np.array([3,2,1])
np.concatenate([x,y])

array([1, 2, 3, 3, 2, 1])

可以一次拼接多个数组

In [49]:
z=[99,99,99]
print(np.concatenate([x,y,z]))

[ 1  2  3  3  2  1 99 99 99]


np.concatenate也可以用于二维数组的拼接

In [50]:
grid=np.arange(1,7).reshape((2,3))
grid

array([[1, 2, 3],
       [4, 5, 6]])

In [53]:
# 沿着第一个轴，也就是纵轴（行向量展开的轴）拼接
np.concatenate([grid,grid])

array([[1, 2, 3],
       [4, 5, 6],
       [1, 2, 3],
       [4, 5, 6]])

In [54]:
# 沿着第二个轴，也就是横轴（列向量展开的轴）拼接
np.concatenate([grid,grid],axis=1)

array([[1, 2, 3, 1, 2, 3],
       [4, 5, 6, 4, 5, 6]])

沿着固定的维度处理数组时候，使用vstack（垂直栈）和hstack（水平栈）会更加简洁

In [55]:
x=np.array([1,2,3])
np.vstack([x,grid])

array([[1, 2, 3],
       [1, 2, 3],
       [4, 5, 6]])

In [56]:
y = np.array([[99],
              [99]])
np.hstack([grid,y])

array([[ 1,  2,  3, 99],
       [ 4,  5,  6, 99]])

### 2. 数组的分裂
可以通过np.split, np.hsplit和np.vsplit实现，向以上函数传递一个索引列表作为参数，索引列表记录了分裂点的位置。

In [57]:
x = [1,2,3,99,99,3,2,1]
x1,x2,x3 =np.split(x,[3,5])
print(x1,x2,x3)

[1 2 3] [99 99] [3 2 1]


In [58]:
grid=np.arange(16).reshape((4,4))
grid

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15]])

In [61]:
upper, lower = np.vsplit(grid,[2])
print(upper)
print(lower)

[[0 1 2 3]
 [4 5 6 7]]
[[ 8  9 10 11]
 [12 13 14 15]]


In [63]:
left,right=np.hsplit(grid,[2])
print(left)
print(right)

[[ 0  1]
 [ 4  5]
 [ 8  9]
 [12 13]]
[[ 2  3]
 [ 6  7]
 [10 11]
 [14 15]]


# 2.3 Numpy数组的计算：通用函数
Numpy提供了一个简单灵活的接口来优化数组的计算，使得数组能够高效计算的关键是利用**向量化操作**，通常在Numpy的通用函数中实现。
## 2.3.1 缓慢的循环
Python的默认实现（CPython）十分缓慢，下面介绍了一个例子——计算100万个数字的倒数。

In [66]:
import numpy as np
np.random.seed(0)

def compute_reciprocals(values):
    output=np.empty(len(values))
    for i in range (len(values)):
        output[i] =1.0/values[i]
    return output

values = np.random.randint(1,10,size=5)
compute_reciprocals(values)

array([0.16666667, 1.        , 0.25      , 0.25      , 0.125     ])

In [67]:
big_array=np.random.randint(1,100,size=100_0000)
%timeit compute_reciprocals(big_array)

1.94 s ± 4.14 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)


## 2.3.2 通用函数介绍
Numpy为很多类型的操作提供了非常方便的、静态类型的、可编译程序的接口，也被称为**向量**操作。你可以简单地对数组执行操作来实现，这里对数组的操作将会被用于数组中的每一个元素。相较于CPython，向量操作更为高效采用向量化方法计算之前的示例：

In [68]:
%timeit (1.0/big_array)

2.58 ms ± 86.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Numpy中的向量操作是通过通用函数是咸的。通用函数的主要目的是对Numpy数组中的值执行更快的重复操作。它非常灵活，除了上面的的标量和数组之间的运算之外，
也可以进行数组和数组之间的运算。

In [71]:
np.arange(5)/np.arange(1,6)

array([0.        , 0.5       , 0.66666667, 0.75      , 0.8       ])

通用函数并不仅限于一维数组的运算，也可以进行多维数组的运算。

In [72]:
x=np.arange(9).reshape((3,3))
2**x

array([[  1,   2,   4],
       [  8,  16,  32],
       [ 64, 128, 256]], dtype=int32)

向量几乎永远比循环高效，尤其是数组很大时。在编程时，要注意用向量的方式替换循环。


## 2.3.3 探索Numpy的通用函数
包括对单个元素使用的**一元通用函数**和对两个元素使用的**二元通用函数**。

### 1. 数组的运算
常见的运算符如下表所示：

|运算符|对应的通用函数|描述|
|:---:|:---:|:---:|
|+|np.add|加法运算|
|-|np.subtract|减法运算|
|-|np.negative|负数运算|
|*|np.multiply|乘法运算|
|*|np.divide|除法运算|
|//|np.floor_divide|向下整除运算|
|**|np.power|指数运算|
|%|np.mod|模/取余|

另外，Numpy还有布尔/位运算符，将在2.6进一步介绍。

### 2. 绝对值
np的绝对值函数可以计算绝对值和复数的模。

In [73]:
x=np.array([-2,-1,0,1,2])
np.absolute(x)

array([2, 1, 0, 1, 2])

In [74]:
np.abs(x)

array([2, 1, 0, 1, 2])

In [75]:
x=np.array([3-4j,4-3j,2+0j,0+1j])
np.abs(x)

array([5., 5., 2., 1.])

### 3. 三角函数
Numpy提供了大量好用的通用函数，其中三角函数是最有用的。定义一个角度数组进行展示：

In [76]:
theta=np.linspace(0,np.pi,3)

In [77]:
print("theta=", theta)
print('sin(theta)=',np.sin(theta))
print('cos(theta)=',np.cos(theta))
print('tan(theta)=',np.tan(theta))

theta= [0.         1.57079633 3.14159265]
sin(theta)= [0.0000000e+00 1.0000000e+00 1.2246468e-16]
cos(theta)= [ 1.000000e+00  6.123234e-17 -1.000000e+00]
tan(theta)= [ 0.00000000e+00  1.63312394e+16 -1.22464680e-16]


这些函数是按照机器精度来计算的，同样也可以计算逆三角函数：

In [78]:
x=[-1,0,1]
print("x=", x)
print('arcsin(x)=',np.arcsin(x))
print('cos(x)=',np.arccos(x))
print('tan(x)=',np.arctan(x))

x= [-1, 0, 1]
arcsin(x)= [-1.57079633  0.          1.57079633]
cos(x)= [3.14159265 1.57079633 0.        ]
tan(x)= [-0.78539816  0.          0.78539816]


### 4. 指数和对数
Numpy中另一个常用的通用函数运算是指数运算：

In [79]:
x=[1,2,3]
print('x=    ',x)
print('e^x=  ',np.exp(x))
print('2^x=  ',np.exp2(x))
print('3^x=  ',np.power(3,x))

x=     [1, 2, 3]
e^x=   [ 2.71828183  7.3890561  20.08553692]
2^x=   [2. 4. 8.]
3^x=   [ 3  9 27]


对数运算也能使用：

In [80]:
x=[1,2,4,10]
print('x       =',x)
print('ln(x)   =',np.log(x))
print('log2(x) =',np.log2(x))
print('log10(x)=',np.log10(x))

x       = [1, 2, 4, 10]
ln(x)   = [0.         0.69314718 1.38629436 2.30258509]
log2(x) = [0.         1.         2.         3.32192809]
log10(x)= [0.         0.30103    0.60205999 1.        ]


还有一些特殊的版本，对于非常小的输入值可以保持较好的精度

In [84]:
x=np.array([0,0.001,0.01,0.1])
print('exp(x)-1=',np.expm1(x),'normal way=',np.exp(x)-1)
print('log(1+x)=',np.log1p(x),'normal way=',np.log(1+x))


exp(x)-1= [0.         0.0010005  0.01005017 0.10517092] normal way= [0.         0.0010005  0.01005017 0.10517092]
log(1+x)= [0.         0.0009995  0.00995033 0.09531018] normal way= [0.         0.0009995  0.00995033 0.09531018]


### 5. 专用的通用函数
Numpy文档中有许多的特殊函数，scipy.special模块中则拥有一些统计学中可能用到的函数。

## 2.3.4 高级的通用函数特性
### 1. 指定输出
通用函数可以直接通过out参数将结果写入期望的位置，这对于大规模的数组计算来说十分的重要。如下面的例子：

In [86]:
x = np.arange(5)
y = np.empty(5)
np.multiply(x,10,out=y)
y

array([ 0., 10., 20., 30., 40.])

这个特性能够对于数组视图使用，例如可以指定每隔一个元素输出：

In [88]:
y = np.zeros(10)
np.power(2,x,out=y[::2])
y

array([ 1.,  0.,  2.,  0.,  4.,  0.,  8.,  0., 16.,  0.])

### 2. 聚合
二元通用函数有些非常有用的聚合功能，可以直接在对象上计算。

reduce方法可以对给定的元素和操作重复执行，直至得到单个的结果。例如，对add通用函数调用reduce会得到所有函数的和：

In [89]:
x = np.arange(1,6)
np.add.reduce(x)

15

同样的，对multiply方法调用reduce会得到所有元素的积。

In [92]:
np.multiply.reduce(x)

120

如果需要存储每次计算的中间结果，可以使用accumulate：

In [93]:
np.add.accumulate(x)

array([ 1,  3,  6, 10, 15])

In [94]:
np.multiply.accumulate(x)

array([  1,   2,   6,  24, 120])

在一些特殊情况下，Numpy提供了专用函数（sum,prod）,之后会专门介绍。

### 3.外积
任何通用函数都可以用outer方法获得两个不同输入元组的所有元素对的函数运算结果。

In [96]:
np.multiply.outer(x,x)

array([[ 1,  2,  3,  4,  5],
       [ 2,  4,  6,  8, 10],
       [ 3,  6,  9, 12, 15],
       [ 4,  8, 12, 16, 20],
       [ 5, 10, 15, 20, 25]])

In [97]:
m = np.arange(1,7).reshape((2,3))
n = np.random.randint(1,10,(3,4))
print(m)
print(n)

[[1 2 3]
 [4 5 6]]
[[3 6 4 2]
 [7 8 1 4]
 [3 8 8 7]]


In [98]:
np.add.outer(m,n)

array([[[[ 4,  7,  5,  3],
         [ 8,  9,  2,  5],
         [ 4,  9,  9,  8]],

        [[ 5,  8,  6,  4],
         [ 9, 10,  3,  6],
         [ 5, 10, 10,  9]],

        [[ 6,  9,  7,  5],
         [10, 11,  4,  7],
         [ 6, 11, 11, 10]]],


       [[[ 7, 10,  8,  6],
         [11, 12,  5,  8],
         [ 7, 12, 12, 11]],

        [[ 8, 11,  9,  7],
         [12, 13,  6,  9],
         [ 8, 13, 13, 12]],

        [[ 9, 12, 10,  8],
         [13, 14,  7, 10],
         [ 9, 14, 14, 13]]]])

2.7节将介绍非常有用的ufunc.at和ufunc.reduceat方法。

通用函数的另外一个非常有用的特性是能操作不同大小和形状的数组，一组这样的操作被称为**广播**，我们将在2.5节讨论广播。

更多和通用函数有关的信息可查询SciPy和Numpy官方文档。

## 2.4 聚合：最大值、最小值和其他值
下表列出了