<table border="0" width="100%"><tr><td width=80 bgcolor="white"><p align="left"></p></td><td align="center" bgcolor="white"><font size="7"> NumPy基础</font></td></tr></table>

<hr style="border:none;border-top:1px dotted red;">

## 学习目标
• 掌握多维数组对象 ndarray 的使用方法

• 掌握 NumPy 数组元素访问的方法

• 掌握 NumPy 数组中元素排序的方法

• 掌握 NumPy 数组中元素结构重塑的方法

• 掌握 NumPy 数组运算方法

• 熟悉 Numpy 通用函数

NumPy（numerical python）是 Python 进行数值计算最重要的三方模块。 它也是很多其他科学计算模块的基础模块。NumPy 的大部分代码是用 C 或者 Fortran 实现的，运行速 度比纯 Python 代码要快。NumPy 不需要使用 ``for`` 或者 ``while`` 循环就可以完成整个数组的运算。

在使用 NumPy 之前， 需要导入 NumPy 模块。 通常情况下， 使用``np``作为 NumPy 的简写。

In [61]:
import numpy as np

## 11.1　多维数组对象 ndarray
NumPy 中利用一种 N 维数组对象 ``ndarray`` 来存储和处理数据。该对象可以定义维度，适合做代数运算。虽然看上去和 Python 内置的列表相似，但 ``ndarray`` 是标量元素之间的运算。

<font color=#A93226><b>【例 11-1】</b></font> <font size=3 face="楷体-简">已知人民币兑 100 外币的外汇牌价汇率为：美元 680.6、欧元 800.05、英镑 882.6 和港币 87.79。现有 10 万元人民币，计算可以兑换的外币数量。</font>

In [1]:
exchange_rate = [680.6, 800.05, 882.6, 87.79]
for rate in exchange_rate:
    print(round((100000 * 100) / rate), end=' ') 

14693 12499 11330 113908 

In [2]:
import numpy as np
rate_array = np.array([680.6, 800.05, 882.6, 87.79])
np.round((100000 * 100) / rate_array)

array([ 14693.,  12499.,  11330., 113908.])

### 11.1.1　创建 ndarray 数组
常用创建 ndarray 数组的方法有：``array()``、``arange()``、``ones()``、``zeros()``、``empty()`` 和 ``full()`` 等。

#### 1. array() 方法
通过 NumPy 的 ``array()`` 方法， 可以将输入的列表、元组、数组或其他序列类型转换为 ndarray 数组。

In [3]:
int_array = np.array([1, 2, 3, 4, 5])
int_array

array([1, 2, 3, 4, 5])

In [4]:
int_array.dtype

dtype('int64')

In [6]:
float_array = np.array([1, 2, 3, 4, 5], dtype=np.float64)
float_array

array([1., 2., 3., 4., 5.])

In [7]:
float_array.dtype

dtype('float64')

#### 2. arange() 方法
在 Python 内置函数中， 可以利用 ``range()`` 函数得到产生整数的一个可迭代对象。 与该函数类似，在 NumPy 中，通过 ``arange()`` 方法可以得到一个 NumPy 数组。
<center>
    
```python
arange([start,] stop[, step,], dtype=None)
```

</center>

其中，start 是可选参数，代表起始值，默认值为0。stop 是截止值， 和 ``range()`` 函数 一样， 结果中并不包含该值。step 也是可选参数，设置的是步长。dtype 设置数据类型，默认为 None 值，NumPy 将推测数组最终的数据类型。

In [8]:
np.arange(5)

array([0, 1, 2, 3, 4])

In [9]:
np.arange(5.0)

array([0., 1., 2., 3., 4.])

In [10]:
np.arange(2, 5.0)

array([2., 3., 4.])

In [11]:
np.arange(2, 10, 2)

array([2, 4, 6, 8])

#### 3. ones()、zeros()、empty() 和 full() 方法
这些方法语法结构相似， 均可以接受一个元组作为数组的形状且 dtype 指定数据类型。

- `ones()` 方法：产生全 1 数组。
* ``zeros()`` 方法：产生全 0 数组。
* ``empty()`` 方法：产生新数组，只分配空间不填充任何值。
* ``full()`` 方法：利用指定值填充产生的数组。

In [12]:
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [13]:
np.zeros((2, 3), dtype=np.int32)

array([[0, 0, 0],
       [0, 0, 0]], dtype=int32)

In [14]:
np.empty((2, 2))

array([[1., 2.],
       [3., 4.]])

In [15]:
np.full((2, 2), 5)

array([[5, 5],
       [5, 5]])

### 11.1.2　ndarray 数组的属性
NumPy 数组有三个重要属性：dtype、ndim 和 shape。

#### 1. dtype 属性
在 NumPy 数组中， 要求所有元素的数据类型是一致的。 常用的 NumPy 数据类型如表所示。

|类型|类型代码|说明|
|--|--|--|
|int8、uint8|i1、u1|有符号、无符号 8 位整型|
|int16、uint16|i2、u2|有符号、无符号 16 位整型|
|int32、uint32|i4、u4|有符号、无符号 32 位整型|
|int64、uint64|i8、u8|有符号、无符号 64 位整型|
|float32|f4|标准单精度浮点数|
|float64|f8|标准双精度浮点数|
|bool| &nbsp; |布尔类型|
|object|&nbsp;|Python 对象类型|
|unicode_|U|固定长度 unicode 类型，如 U4|

这些类型是 NumPy 中的数据类型， 因此在使用时需要使用 NumPy 类来引用。 例如 np.int32，其中 np 是 NumPy 的别名。

In [16]:
rate_array = np.array([680.6, 800, 882.6, 87.79])
rate_array.dtype

dtype('float64')

In [17]:
rate_array.astype(np.int32)

array([680, 800, 882,  87], dtype=int32)

#### 2. ndim 属性
NumPy 数组可以是多维的。ndim 属性用来查看数组的维数。

In [18]:
n_array = np.ones((3,4))
n_array

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [19]:
n_array.ndim

2

#### 3. shape 属性
通过 shape 属性得到的是数组的形状。 例如， 上面代码中的 n_array 数组， 可以通过 shape 属性查看其形状。

In [20]:
n_array.shape

(3, 4)

## 11.2　访问数组元素
对该数组中元素的访问， 可以使用类似列表的索引和切片等方式。 在 NumPy 中， 访问方式得到了更大的扩展。

### 11.2.1　普通索引
与 Python 内置列表相似， 可以通过下标索引（整数索引）的方式获取 NumPy 数组中的元素：

In [21]:
close_price = np.array([[3.22, 3.21, 3.20, 3.19, 3.20], 
                        [3.19, 3.16, 3.17, 3.15, 3.15], 
                        [4.96, 4.93, 4.92, 4.90, 4.89], 
                        [6.21, 6.19, 6.13, 6.17, 6.20]])
close_price[0]

array([3.22, 3.21, 3.2 , 3.19, 3.2 ])

In [22]:
close_price[0][1]

3.21

NumPy 对索引进行了扩展， 可以通过将每个维度的索引值列在中括号中的方式来获取对应位置的元素：

In [23]:
close_price[0, 1]

3.21

### 11.2.2　切片
切片用于获取数组中的一小块数据， 其表示形式和 Python 内置列表的切片相似：在中括号中用冒号连接给出切片起始位置、截止位置（不包含）和步长。

In [24]:
close_price[0:2]

array([[3.22, 3.21, 3.2 , 3.19, 3.2 ],
       [3.19, 3.16, 3.17, 3.15, 3.15]])

In [25]:
close_price[:2]

array([[3.22, 3.21, 3.2 , 3.19, 3.2 ],
       [3.19, 3.16, 3.17, 3.15, 3.15]])

In [26]:
close_price[0:2, 0::2]

array([[3.22, 3.2 , 3.2 ],
       [3.19, 3.17, 3.15]])

在获取多维数据的情景下，NumPy 的切片更加强大。

In [27]:
close_price[0:3, 1:3]

array([[3.21, 3.2 ],
       [3.16, 3.17],
       [4.93, 4.92]])

整数索引和切片可以混合使用，得到低维度的切片。

In [28]:
slice_close_price = close_price[1:, -1]
slice_close_price

array([3.15, 4.89, 6.2 ])

In [33]:
slice_close_price.ndim

1

在对切片赋值时，可以将一个标量值赋给切片，这样的赋值操作会被扩散到整个切片区域：

In [31]:
close_price[:, -2] = 0
close_price

array([[3.22, 3.21, 3.2 , 0.  , 3.2 ],
       [3.19, 3.16, 3.17, 0.  , 3.15],
       [4.96, 4.93, 4.92, 0.  , 4.89],
       [6.21, 6.19, 6.13, 0.  , 6.2 ]])

当然，也可以使用数组或列表对切片赋值。数组或列表的形状与切片的形状一致或者可广播（广播指的是不同形状的 NumPy 数组之间运算的执行方式，是 NumPy 数组非常强大的功能）。

In [32]:
close_price[:,-2] = [3.19, 3.15, 4.9, 6.17]
close_price

array([[3.22, 3.21, 3.2 , 3.19, 3.2 ],
       [3.19, 3.16, 3.17, 3.15, 3.15],
       [4.96, 4.93, 4.92, 4.9 , 4.89],
       [6.21, 6.19, 6.13, 6.17, 6.2 ]])

### 11.2.3　布尔索引
NumPy 数组的比较运算是矢量化的，即数组和标量进行比较时，得到的是数组中每个元素与标量比较结果组成的布尔数组。

In [34]:
bank_array = np.array(['中国银行', '农业银行', '工商银行', '建设银行'])
bank_array == '农业银行'

array([False,  True, False, False])

可以将这个布尔型的数组用于数组索引。

In [35]:
close_price[bank_array=='农业银行']

array([[3.19, 3.16, 3.17, 3.15, 3.15]])

布尔索引可以和整数索引、切片混合使用。

In [36]:
close_price[bank_array!='农业银行', 2:]

array([[3.2 , 3.19, 3.2 ],
       [4.92, 4.9 , 4.89],
       [6.13, 6.17, 6.2 ]])

可以使用 &（和）、|（或）之类的布尔运算符组合多个条件。

In [37]:
close_price[(bank_array=='中国银行') | (bank_array=='工商银行')]
# 第一行或者第三行

array([[3.22, 3.21, 3.2 , 3.19, 3.2 ],
       [4.96, 4.93, 4.92, 4.9 , 4.89]])

布尔索引也可以用于设置数组中特定元素的值。

In [40]:
close_price[0,1] = -3.21
close_price[3,3] = -6.17
close_price

array([[ 3.22, -3.21,  3.2 ,  3.19,  3.2 ],
       [ 3.19,  3.16,  3.17,  3.15,  3.15],
       [ 4.96,  4.93,  4.92,  4.9 ,  4.89],
       [ 6.21,  6.19,  6.13, -6.17,  6.2 ]])

In [41]:
close_price[close_price < 0] = 0
close_price

array([[3.22, 0.  , 3.2 , 3.19, 3.2 ],
       [3.19, 3.16, 3.17, 3.15, 3.15],
       [4.96, 4.93, 4.92, 4.9 , 4.89],
       [6.21, 6.19, 6.13, 0.  , 6.2 ]])

### 11.2.4　花式索引
花式索引是利用整数列表对数据进行索引。只需要传入一个用于指定顺序的整数列或 ndarray 数组，就可以得到按照特定顺序选取的子集。

In [42]:
bank_array = np.array(['中国银行', '农业银行', '工商银行', '建设银行'])
bank_array[[3,2,1]]

array(['建设银行', '工商银行', '农业银行'], dtype='<U4')

## 11.3 排序
NumPy 提供了两种结果不同的排序形式，分别返回排序结果和排序后的下标索引。

### 11.3.1　sort() 排序
该方法与 Python 列表的 sort() 类似， 得到值排序后的结果。 不同之处在于， 对于多 维数组，NumPy 允许通过 axis 参数指定按照特定维度（轴）进行排序：axis=0 代表按列 对元素进行排序，axis=1 代表按行排序，不输入参数时，默认按行排序。

<font color=#A93226><b>【例 11-2】</b></font> <font size=3 face="楷体-简">利用第 11.2 节中的股票收盘价数据， 找出中国银行、农业银行、工商银行和建设银行股票在 2020 年 9 月 21 日至 9 月 25 日的最低收盘价和最高收盘价。</font>

In [43]:
close_price = np.array([[3.22, 3.21, 3.20, 3.19, 3.20], 
                        [3.19, 3.16, 3.17, 3.15, 3.15], 
                        [4.96, 4.93, 4.92, 4.90, 4.89], 
                        [6.21, 6.19, 6.13, 6.17, 6.20]])
close_price.sort()
close_price
# 对每行进行排序

array([[3.19, 3.2 , 3.2 , 3.21, 3.22],
       [3.15, 3.15, 3.16, 3.17, 3.19],
       [4.89, 4.9 , 4.92, 4.93, 4.96],
       [6.13, 6.17, 6.19, 6.2 , 6.21]])

In [44]:
close_price[:,0]  # 四家银行的最低收盘价

array([3.19, 3.15, 4.89, 6.13])

In [46]:
close_price[:,-1]  # 最高收盘价

array([3.22, 3.19, 4.96, 6.21])

### 11.3.2　argsort() 排序
NumPy 数组的 argsort() 方法返回的是按照元素排序后， 元素在原数组中的下标列表。 该方法同样可以使用 axis 参数改变排序规则。

<font color=#A93226><b>【例 11-3】</b></font> <font size=3 face="楷体-简">利用第 11.2 节中的股票收盘价数据， 将中国银行、农业银行、工商银行和建设银行按 2020 年 9 月 22 日收盘价进行排序。</font>

In [47]:
close_price = np.array([[3.22, 3.21, 3.20, 3.19, 3.20], 
                        [3.19, 3.16, 3.17, 3.15, 3.15], 
                        [4.96, 4.93, 4.92, 4.90, 4.89], 
                        [6.21, 6.19, 6.13, 6.17, 6.20]])
bank_array = np.array(['中国银行', '农业银行', '工商银行', '建设银行'])
sorted_index = close_price.argsort(axis=0)
sorted_index

array([[1, 1, 1, 1, 1],
       [0, 0, 0, 0, 0],
       [2, 2, 2, 2, 2],
       [3, 3, 3, 3, 3]])

In [48]:
bank_array[sorted_index[:,1]]

array(['农业银行', '中国银行', '工商银行', '建设银行'], dtype='<U4')

## 11.4　数组重塑
当获得的数据形状不是需要的形状时， 可以对数组进行重塑。 在 NumPy 中， 可以通过 ``resize()``、``reshape()``、``swapaxes()`` 和 ``flatten()`` 等方法改变数组形状。

### 11.4.1　resize() 和 reshape() 方法
通过传入新的形状，``resize()`` 和 ``reshape()`` 方法都可以改变数组的形状。 不同之处在于： ``resize()`` 方法是进行“就地修改”（即改变了数组本身），``reshape()`` 方法则是生成新的数组。



例如， 如果获取到的股票收盘价数据是一个由 20 个数值构成的列表， 从左往右， 每5个值是一只股票的收盘价。这样的数据可以通过resize()或者reshape()方法进行重塑，得到(4,5)形状的数组，即每行是一只股票的收盘价，每列是一个交易日的收盘价。

In [49]:
close_price_list = [3.22, 3.21, 3.20, 3.19, 3.20, 3.19, 3.16, 3.17, 3.15, 3.15, 4.96, 4.93, 4.92, 4.90, 4.89, 6.21, 6.19, 6.13, 6.17, 6.20]
close_price_array = np.array(close_price_list)
close_price_array

array([3.22, 3.21, 3.2 , 3.19, 3.2 , 3.19, 3.16, 3.17, 3.15, 3.15, 4.96,
       4.93, 4.92, 4.9 , 4.89, 6.21, 6.19, 6.13, 6.17, 6.2 ])

In [50]:
close_price_array.shape

(20,)

In [51]:
close_price_array.reshape((4,5))

array([[3.22, 3.21, 3.2 , 3.19, 3.2 ],
       [3.19, 3.16, 3.17, 3.15, 3.15],
       [4.96, 4.93, 4.92, 4.9 , 4.89],
       [6.21, 6.19, 6.13, 6.17, 6.2 ]])

In [52]:
close_price_array

array([3.22, 3.21, 3.2 , 3.19, 3.2 , 3.19, 3.16, 3.17, 3.15, 3.15, 4.96,
       4.93, 4.92, 4.9 , 4.89, 6.21, 6.19, 6.13, 6.17, 6.2 ])

In [53]:
close_price_array.resize((4,5))
close_price_array

array([[3.22, 3.21, 3.2 , 3.19, 3.2 ],
       [3.19, 3.16, 3.17, 3.15, 3.15],
       [4.96, 4.93, 4.92, 4.9 , 4.89],
       [6.21, 6.19, 6.13, 6.17, 6.2 ]])

### 11.4.2　transpose() 和 swapaxes() 方法
对于多维数组，可以使用 ``transpose()`` 和 ``swapaxes()`` 方法来转换维度，产生新的数组。 ``transpose()`` 方法不带参数是对数组进行转置， 也可以传入新的维度排序。 例如， 对于二维来说，``transpose()`` 和 ``transpose(1, 0)`` 的结果是一样的。

In [8]:
import numpy as np
close_price = np.array([[3.22, 3.21, 3.20, 3.19, 3.20], 
                        [3.19, 3.16, 3.17, 3.15, 3.15],
                        [4.96, 4.93, 4.92, 4.90, 4.89], 
                        [6.21, 6.19, 6.13, 6.17, 6.20]])
close_price.transpose()

array([[3.22, 3.19, 4.96, 6.21],
       [3.21, 3.16, 4.93, 6.19],
       [3.2 , 3.17, 4.92, 6.13],
       [3.19, 3.15, 4.9 , 6.17],
       [3.2 , 3.15, 4.89, 6.2 ]])

In [10]:
close_price.transpose(1, 0)

array([[3.22, 3.19, 4.96, 6.21],
       [3.21, 3.16, 4.93, 6.19],
       [3.2 , 3.17, 4.92, 6.13],
       [3.19, 3.15, 4.9 , 6.17],
       [3.2 , 3.15, 4.89, 6.2 ]])

swapaxes() 方法通常用于维度交换，在参数中仅传入一对需要交换的维度编号。

In [13]:
close_price.swapaxes(0, 1)

array([[3.22, 3.19, 4.96, 6.21],
       [3.21, 3.16, 4.93, 6.19],
       [3.2 , 3.17, 4.92, 6.13],
       [3.19, 3.15, 4.9 , 6.17],
       [3.2 , 3.15, 4.89, 6.2 ]])

### 11.4.3　flatten() 方法
在 NumPy 中，``flatten()`` 方法返回一个折叠成一维的数组。 看上去像是 ``reshape()`` 方法的反向操作。

In [57]:
close_price = np.array([[3.22, 3.21, 3.20, 3.19, 3.20], 
                        [3.19, 3.16, 3.17, 3.15, 3.15], 
                        [4.96, 4.93, 4.92, 4.90, 4.89], 
                        [6.21, 6.19, 6.13, 6.17, 6.20]])
close_price.flatten()

array([3.22, 3.21, 3.2 , 3.19, 3.2 , 3.19, 3.16, 3.17, 3.15, 3.15, 4.96,
       4.93, 4.92, 4.9 , 4.89, 6.21, 6.19, 6.13, 6.17, 6.2 ])

## 11.5　NumPy 数组间运算
NumPy 数组的矢量化除了比较， 更多的是应用于批量运算。 在 11.1 节中看到， 数组与标量进行除法操作时，数组中的每个元素均与标量相除。对于形状相同的数组之间的算术运算也会应用到元素级。

<font color=#A93226><b>【例 11-4】</b></font> <font size=3 face="楷体-简">股票涨跌幅是对涨跌值的描述，计算公式为： 

```python
涨跌幅 =（当前交易日收盘价 – 前一交易日收盘价）/ 前一交易日收盘价 
```
利用第 11.2 节中的股票收盘价数据，计算中国银行、农业银行、工商银行和建设银行股票 2020 年 9 月 22 日至 9 月 25 日的价格涨跌幅。</font>

In [58]:
close_price = np.array([[3.22, 3.21, 3.20, 3.19, 3.20], 
                        [3.19, 3.16, 3.17, 3.15, 3.15], 
                        [4.96, 4.93, 4.92, 4.90, 4.89], 
                        [6.21, 6.19, 6.13, 6.17, 6.20]])
close_price1 = close_price[:,1:]
close_price2 = close_price[:,:-1]
np.round((close_price1 - close_price2) / close_price2, 4)

array([[-0.0031, -0.0031, -0.0031,  0.0031],
       [-0.0094,  0.0032, -0.0063,  0.    ],
       [-0.006 , -0.002 , -0.0041, -0.002 ],
       [-0.0032, -0.0097,  0.0065,  0.0049]])

## 11.6　ufunc() 通用函数
NumPy 中有一种对 ndarray 数组中数据执行元素级运算的函数， 称为通用函数。 例 11-4 中的 ``np.round()`` 函数就是其中一个。 利用通用函数可以不需要使用循环而快速地 进行元素级的运算。 注意， 这些函数是 NumPy 模块中的函数， 因此调用时， 需要使用 ``np.函数名()``或者``NumPy数组.函数名()``的形式，其中 np 为 NumPy 的别名。

常用 ufunc() 通用函数如表所示：

|函数|说明|
|--|--|
|sum|对数组内部元素进行求和运算|
|mean|对数组内部元素进行求均值运算|
|prod|对数组内部元素进行求乘积运算|
|max、min|求数组内部元素最大值、最小值|
|abs|计算整数、浮点数的绝对值|
|sqrt|计算数组内部元素个平方根|
|exp|计算数组内部元素的指数 $e^x$ |
|ceil|计算大于等于数组内部相应元素的最小整数|
|floor|计算小于等于数组内部相应元素的最大整数|
|round()|得到每个元素的四舍五入值|

<font color=#A93226><b>【例 11-5】</b></font> <font size=3 face="楷体-简">计算第 11.2 节中每只股票收盘价的平均值。

In [5]:
# import numpy as np
close_price = np.array([[3.22, 3.21, 3.20, 3.19, 3.20], 
                        [3.19, 3.16, 3.17, 3.15, 3.15], 
                        [4.96, 4.93, 4.92, 4.90, 4.89], 
                        [6.21, 6.19, 6.13, 6.17, 6.20]])
np.mean(close_price, axis=1)

array([3.204, 3.164, 4.92 , 6.18 ])

In [60]:
close_price.mean(axis=1)

array([3.204, 3.164, 4.92 , 6.18 ])

## 小　结
本章主要介绍了利用 Python 进行数据分析处理时重要模块 NumPy 的基础知识。 首先讲述了 NumPy 的核心数据结构多维数组对象 ndarray 的创建方法和常用属性： dtype、shape 和 ndim。 接着介绍了 NumPy 数组中元素访问的普通索引、布尔索引、 花式索引和切片方式。 然后展示了 Numpy 数组 ``sort()`` 和 ``argsort()`` 排序的用法。 接着 讨论了 NumPy 数组重塑的四种方法：``resize()``、``reshape()``、``transpose()`` 和 ``flatten()``。 最 后探索了 NumPy 数组间运算方式和元素级通用函数的用法。