前面已经学习了Python的基本知识，掌握了Python的基础语法，现在我们来学习运用Python的一些基础库。众所周知，Python的优点之一在于其拥有大量的第三方库和框架，这些库和框架能够帮助开发者快速实现各种功能。其中NumPy库是Python中用于科学计算和数据分析的核心库之一。

NumPy（Numerical Python）是一个开源的Python科学计算库，它包含多维数组和矩阵数据结构的运算，提供了高性能的多维数组对象ndarray（N-dimensional array）以及处理这些数组的各种函数，提供了高效的数组操作功能，使得处理大规模数据集变得更加高效和便捷。

##  NumPy的安装和导入

要安装 NumPy，可以选择conda安装或pip安装，在终端(terminal)输入以下安装命令：

`conda install numpy` 或者 `pip install numpy`。

如果想直接在ipynb文件内的代码块进行安装，需要在终端命令前加一个感叹号，比如`!pip install numpy`。

::: {.callout-note}

在ipynb文件内进行安装时，建议将安装的代码块和其他代码分开，运行安装命令后，新开一个代码块去导入或执行其他命令，可以避免重新执行安装指令。

:::

安装好后即可导入 NumPy ，通常导入库的方式都是`import 库名`的形式，但为了方便后续调用库中的一些函数，我们会采取`import 库名 as 缩写`的形式，如下：

In [1]:
import numpy as np

使用 NumPy 缩短导入的名称np，可以提高代码的可读性。

## NumPy中的核心对象：ndarray
 
ndarray是NumPy中最重要的对象，它是N 维数组的简写，可以是一维数组、二维数组或更高维度的数组，由一对或多对中括号括起来。

In [2]:
print("这是一个一维数组，有三个元素:")
np.array((1, 2, 3))

这是一个一维数组，有三个元素:


array([1, 2, 3])

一维数组只有一行，这个数组一行有三个元素，也就是三列。

下面这个二维数组，有两行三列。两个维度，在NumPy中维度也可以称为轴，如同坐标系中的x轴和y轴，我们也可以把二维数组看作有两个轴。轴的个数可以根据数组第一个元素前面的中括号个数来判断。 

In [3]:
print("这是一个二行三列的二维数组:")
np.array([(1, 2, 3),(4, 5, 6)])

这是一个二行三列的二维数组:


array([[1, 2, 3],
       [4, 5, 6]])

相对于一维数组，二维数组多了一个维度，一维数组所有的元素处于同一个维度。

而上面示例代码中的二维数组包含两个维度，第一个维度有两个元素——两个一维子数组（也称为行）：[1,2,3]和[4,5,6]。而第二个维度中的元素就是里面的中括号括起来的一个个单个的数字元素——1，2，3，4，5，6。也就是一维子数组中的单个元素。

第一维度的元素个数对应第一个轴的轴长，也就是2，而每个一维子数组都包含3个元素，所以第二个维度的轴长为3。通常我们用`形状`来形容一个数组各个轴的轴长，也就是这个二维数组的形状为：(2, 3)。两个轴长相乘就是这个数组的单个元素总数。我们可以用表格数据中的行数和列数来理解数组的两个轴的轴长。

ndarray中的单个元素可以是任意数据类型，包括整数、浮点数、复数等。数据类型由dtype（data type）对象来描述。

## 创建NumPy数组     

要创建 NumPy 数组，可以使用函数`np.array()`将Python 列表、元组或其他序列转换为NumPy数组。

::: {.callout-note}

`np.array()`的参数传递的对象只能是一个整体，例如`((),(),...)`或`[(),(),...]`，不能是多个对象：`(),(),...`。

:::


In [4]:
a = np.array(((1, 2, 3), (4, 5, 6)))
a

array([[1, 2, 3],
       [4, 5, 6]])

创建一个元素都为0的数组，第一个参数指定各个轴长，并用括号括起来，也就是数组的形状：

In [5]:
np.zeros((2, 2))

array([[0., 0.],
       [0., 0.]])

用`np.zeros()`创建的全零元素的数组元素默认为浮点型，如果需要改变元素类型，修改dtype参数即可。

创建一个元素全为1的3x3的二维矩阵，数值类型为整型：

In [6]:
np.ones((3, 3), dtype=np.int_)

array([[1, 1, 1],
       [1, 1, 1],
       [1, 1, 1]])


::: {.callout-note}

二维数组通常也被称作二维矩阵。3x3的矩阵表示有三行三列。

:::

创建一个3x3单位矩阵（主对角线元素为1）：

In [7]:
np.eye(3, 3, dtype=np.int_)

array([[1, 0, 0],
       [0, 1, 0],
       [0, 0, 1]])

创建一个空数组，空数组不是指数组是空的，数组元素的初始内容会随机生成，同样的，`np.empty()`可以设置dtype参数：

In [8]:
np.empty((2, 3), dtype=np.float_)

array([[6.23042070e-307, 4.67296746e-307, 1.69121096e-306],
       [1.33511018e-306, 1.42419938e-306, 7.56603881e-307]])

创建一个等差数列型的一维数组：

`np.arange()`第一个参数start代表起始值，默认从0开始，第二个参数stop代表结束值，但默认取不到结束值，所以结束值不包含在数组中。而第三个参数step为步长，即相邻元素的差值，一般默认步长为1。结束值没有默认值，所以只有结束值参数是不可省略的。

In [9]:
print("创建一个从1到8,步长为2的数组:")
np.arange(1, 9, 2)

创建一个从1到8,步长为2的数组:


array([1, 3, 5, 7])

::: {.callout-note}

这里取不到8，因为步长为2，元素依次为1，3，5，7，只能取到7。

:::

In [10]:
print("只含一个参数时,默认从0开始,步长为1:")
np.arange(4)

只含一个参数时,默认从0开始,步长为1:


array([0, 1, 2, 3])

`np.linspace()`也可以用来创建一个等差数列型的数组，和`np.arange()`不同的是，它可以取到结束值：

In [11]:
print("创建一个包含6个元素,值域从0到10的整型数组:") 
np.linspace(0, 10, num=6, dtype=np.int_) 

创建一个包含6个元素,值域从0到10的整型数组:


array([ 0,  2,  4,  6,  8, 10])

创建随机数组：

In [12]:
print("2行2列的随机数组:")
np.random.random((2, 2))

2行2列的随机数组:


array([[0.52122284, 0.08509464],
       [0.02830555, 0.001575  ]])

创建随机整数型数组：

In [13]:
np.random.randint(5, size=(2, 3))

array([[1, 1, 0],
       [4, 0, 3]])

基于已有数组复制得到同样内容的新数组：

In [14]:
a = np.arange(4)
c = a.copy()
c

array([0, 1, 2, 3])

## NumPy支持的数据类型

1. 布尔类型（bool）：表示True或False的布尔值，设置`dtype = np.bool_`即可。
2. 整数类型（int）：包括有符号和无符号的整数，如int_、int8、int16、int32、int64、uint8、uint16、uint32、uint64等，u意为unsigned，无符号，表示只能为正数。
3. 浮点数类型（float）：表示浮点数，包括float16、float32、float64(简略写法`dtype=float_`)等。
4. 复数类型（complex）：表示复数，包括complex64、complex128(`dtype=complex_`)等。
5. 字符串类型（string）：表示固定长度的字符串，如S10表示长度为10的字符串。
6. Unicode类型（unicode）：表示固定长度的Unicode字符串，如U10表示长度为10的Unicode字符串。
7. 日期和时间类型（datetime）：表示日期和时间，包括datetime64、timedelta64等。

## 数组的属性

前面已经提及，在 NumPy 中，维度称为轴。以下面这个二维数组为例，它的第一个轴的长度为2（行数），第二个轴长度为3（列数），它的形状为(2, 3)，一共包含6个元素，用两个轴长相乘得到元素总数。


In [15]:
a = np.array([[1, 2, 3], [4, 5, 6]])

print(f"以此数组为例:\n{a}")

print(f"数组的维度是:{a.ndim}")

print(f"数组的形状是:{a.shape}")

print(f"数组一共包含{a.size}个元素")

print(f"数组元素的类型为: {a.dtype}")

以此数组为例:
[[1 2 3]
 [4 5 6]]
数组的维度是:2
数组的形状是:(2, 3)
数组一共包含6个元素
数组元素的类型为: int32


## 数组的形状操作

::: {.callout-note}

重塑数组的形状或添加新轴不会改变元素，只会改变数组的形状。

:::


In [16]:
a = np.arange(6)
print(f"原数组:{a}")

print(f"重塑形状:\n{a.reshape(2, 3)}")

原数组:[0 1 2 3 4 5]
重塑形状:
[[0 1 2]
 [3 4 5]]


如果元素过多，我们不能确定所有轴的个数，可以指定部分轴长，指定某一个轴为-1，-1表示根据已知的其余轴长自动计算。

下列示例表示重塑为3行的二维数组，列数自动计算。

In [17]:
print(f"转换为3行n列:\n{a.reshape(3, -1)}")

转换为3行n列:
[[0 1]
 [2 3]
 [4 5]]


### 添加新轴

`np.newaxis`是一个特殊的常量，用于扩展数组的维度。`np.expand_dims()`也能添加新轴，并且默认新轴的默认轴长为1，数组其他维度的元素个数会随之自动调整。

对于二维数组的两个轴，可以看作是行轴（第0轴）和列轴（第1轴），行轴代表第一维度，列轴代表第二维度。

添加行轴也就是在第0轴处添加新的维度，且行轴的轴长为1，说明第一维度只有一个元素，也就是只有一行。

添加列轴，则默认添加的列轴轴长为1，每个一维子数组中的单个元素个数为1，也就是只有一列，元素总数不变，行数随之自动调整。

In [18]:
row_vector = a[np.newaxis, :]
print(f"添加新的行轴:\n{row_vector}")

print(f"相当于在第0轴处添加轴:\n{np.expand_dims(a, axis=0)}")

col_vector = a[:, np.newaxis]
print(f"添加新的列轴:\n{col_vector}")

print(f"相当于在索引位置1处添加轴:\n{np.expand_dims(a, axis=1)}")

添加新的行轴:
[[0 1 2 3 4 5]]
相当于在第0轴处添加轴:
[[0 1 2 3 4 5]]
添加新的列轴:
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]]
相当于在索引位置1处添加轴:
[[0]
 [1]
 [2]
 [3]
 [4]
 [5]]


除了重塑矩阵和添加新轴，还有一种方法叫转置矩阵。

矩阵的转置是一种基本的线性代数运算，它是指将原始矩阵的行与列进行互换，从而得到一个新的矩阵。原来的第i行变成新矩阵的第i列，第j列则变成新矩阵的第j行，当m≠n时，形状会由(m, n)变为(n, m)。

In [19]:
arr = np.arange(1, 7).reshape(2, 3)
print(f"原矩阵:\n{arr}")

print(f"转置后:\n{arr.transpose()}")

print(f"也可以用.T:\n{arr.T}")

原矩阵:
[[1 2 3]
 [4 5 6]]
转置后:
[[1 4]
 [2 5]
 [3 6]]
也可以用.T:
[[1 4]
 [2 5]
 [3 6]]


## NumPy的通用函数

上面讲述了NumPy数组的一些基本概念和形状变换，现在我们介绍一些能够对NumPy数组进行元素操作的通用函数（Universal Functions，通常简称为 ufuncs），它能够对 NumPy 数组中的每个元素执行相同的操作，并返回一个新的数组作为结果。这种批量计算使得 NumPy 在数值计算和科学计算中非常高效和方便。

通用函数可以执行各种数学运算，例如加法、减法、乘法、除法、取整、取余等。此外，通用函数也支持各种数学函数，例如三角函数、指数函数、对数函数、平方根等。


### 1. 算术运算函数：

`np.add(x1, x2)`: 两个数组对应元素相加。

`np.subtract(x1, x2)`: 两个数组对应元素相减。

`np.multiply(x1, x2)`: 两个数组对应元素相乘。

`np.divide(x1, x2)`: 两个数组对应元素相除。

`np.power(x1, x2)`: 以第二个数组为指数，计算第一个数组元素的幂次方，x2也可以为单个数字。

### 2. 数学函数：

`np.sin(x)`, `np.cos(x)`, `np.tan(x)`: 计算三角函数。

`np.exp(x)`: 计算指数函数。

`np.log(x)`, `np.log10(x)`, `np.log2(x)`: 计算对数函数。

`np.sqrt(x)`: 计算平方根。

### 3. 聚合运算：

`np.sum(x)`: 对数组所有元素求和。

`np.mean(x)`: 计算数组平均值。

`np.min(x)`, `np.max(x)`: 计算数组的最小值和最大值。

`np.argmin(x)`, `np.argmax(x)`: 找到数组最小值和最大值的索引。

### 4. 舍入函数：

`np.round(x)`: 对数组元素小数位进行四舍五入。

`np.floor(x)`: 对数组元素向下取整。

`np.ceil(x)`: 对数组元素向上取整。

### 特殊值

在数据处理和科学计算中，还有一些常见的特殊值，比如缺失值，无穷小，无穷大等等。如同Python中的`None`对象，表示缺少值或空值。

`np.nan`表示缺失或未定义的数据，可以在定义数组或数据框数据时用于赋值：`arr = np.array([1, 2, np.nan, 4, 5])`

:::{.callout-note}

np.nan不等于任何值，包括自己，输入`np.nan == np.nan`得到的结果也会是False，所以判断缺失值时可以用`np.isnan()`来判断数组中有没有缺失值。

在Pandas库中，还有`isna()`和`notna()`可以用来识别数据中的缺失值。

:::
