# 使用 Python 和 Numpy 进行数值计算

本系列教程是使用 Python 编程语言进行编程和数据分析的初级入门教程。这些教程采用注重实践和编码的方法。学习材料的最佳方法是自己执行代码并进行实验。

本教程涵盖以下主题：

- 在 Python 中处理数值数据
- 从 Python 列表到 Numpy arrays
- 多维 Numpy arrays 及其优势
- array操作、广播、索引和切片
- 使用 Numpy 处理 CSV 数据文件

## 处理数值数据

**数据分析**中的 **数据**通常是指数值数据，如股票价格、销售数字、传感器测量值、体育比赛成绩、数据库表格等。[Numpy](https://numpy.org) 库为 Python 中的数值计算提供了专门的数据结构、函数和其他工具。让我们通过一个示例来了解为什么以及如何使用 Numpy 来处理数值数据。


> 假设我们想使用温度、降雨量和湿度等气候数据来判断一个地区是否适合种植苹果。一个简单的方法是将苹果年产量（吨/公顷）与平均温度（华氏度）、降雨量（毫米）和平均相对湿度（百分比）等气候条件之间的关系列成一个线性方程。
>
> 苹果产量 = w1 * 温度 + w2 * 降雨量 + w3 * 湿度

我们用温度、降雨量和湿度的加权和来表示苹果的产量。这个等式只是一个近似值，因为实际关系不一定是线性的，可能还涉及其他因素。但这样一个简单的线性模型在实践中往往很有效。

根据对历史数据的统计分析，我们可以得出权重 "w1"、"w2 "和 "w3 "的合理值。下面是一组示例值：

In [1]:
w1, w2, w3 = 0.3, 0.2, 0.5

根据某个地区的气候数据，我们现在可以预测苹果的产量。下面是一些示例数据：

<img src="./imgs/苹果产量数据.png" style="width:360px;">

首先，我们可以定义一些变量来记录一个地区的气候数据。

In [2]:
kanto_temp = 73
kanto_rainfall = 67
kanto_humidity = 43

现在我们可以将这些变量代入线性方程来预测苹果的产量。

In [3]:
kanto_yield_apples = kanto_temp * w1 + kanto_rainfall * w2 + kanto_humidity * w3
kanto_yield_apples

56.8

In [4]:
print("关东地区苹果的预期产量为每公顷{}吨。".format(kanto_yield_apples))

关东地区苹果的预期产量为每公顷56.8吨。


为了更方便地对多个地区进行上述计算，我们可以将每个地区的气候数据表示为一个矢量，即一个数字列表。

In [5]:
kanto = [73, 67, 43]
johto = [91, 88, 64]
hoenn = [87, 134, 58]
sinnoh = [102, 43, 37]
unova = [69, 96, 70]

每个向量中的三个数字分别代表温度、降雨量和湿度数据。

我们还可以用一个向量来表示公式中使用的权重集。

In [6]:
weights = [w1, w2, w3]

现在我们可以编写一个函数 "crop_yield"，根据气候数据和各自的权重计算苹果（或任何其他作物）的产量。

In [7]:
def crop_yield(region, weights):
    result = 0
    for x, w in zip(region, weights):
        result += x * w
    return result

In [8]:
crop_yield(kanto, weights)

56.8

In [9]:
crop_yield(johto, weights)

76.9

In [10]:
crop_yield(unova, weights)

74.9

## 从 Python 列表到 Numpy 数组


由 `crop_yield` 执行的计算（两个向量的元素相乘并取结果之和）也被称为 *点积*。

Numpy 库提供了一个内置函数来计算两个向量的点乘。不过，我们必须先将列表转换为 Numpy 数组。

让我们使用 `pip` 软件包管理器安装 Numpy 库。

In [11]:
!pip install numpy --upgrade --quiet

^C


In [12]:
!pip install -i https://pypi.tuna.tsinghua.edu.cn/simple numpy scipy sympy pandas matplotlib

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting scipy
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/47/78/b0c2c23880dd1e99e938ad49ccfb011ae353758a2dc5ed7ee59baff684c3/scipy-1.14.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (41.2 MB)
[?25l     [38;5;237m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/41.2 MB[0m [31m?[0m eta [36m-:--:--[0m^C
[2K     [38;5;237m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/41.2 MB[0m [31m?[0m eta [36m-:--:--[0m
[?25h

接下来，让我们导入 `numpy` 模块。通常的做法是用别名 `np` 导入 numpy。

In [13]:
import numpy as np

现在，我们可以使用 `np.array` 函数创建 Numpy array。

In [14]:
kanto = np.array([73, 67, 43])

In [15]:
kanto

array([73, 67, 43])

In [16]:
weights = np.array([w1, w2, w3])

In [17]:
weights

array([0.3, 0.2, 0.5])

Numpy array的类型是 `ndarray`。

In [18]:
type(kanto)

numpy.ndarray

In [19]:
type(weights)

numpy.ndarray

与列表一样，Numpy array也支持索引符号 `[]`。

In [20]:
weights[0]

np.float64(0.3)

In [21]:
kanto[2]

np.int64(43)

## 操作 Numpy 数组

现在我们可以使用 `np.dot` 函数计算两个向量的点积。

In [22]:
np.dot(kanto, weights)

np.float64(56.8)

我们可以通过 Numpy array支持的底层操作实现相同的结果：执行元素相乘并计算所得数字之和。

In [23]:
(kanto * weights).sum()

np.float64(56.8)

如果两个array的大小相同，`*`操作符将执行元素相乘。`sum` 方法计算数组中数字的总和。

In [24]:
arr1 = np.array([1, 2, 3])
arr2 = np.array([4, 5, 6])

In [25]:
arr1 * arr2

array([ 4, 10, 18])

In [26]:
arr2.sum()

np.int64(15)

## 使用 Numpy array的好处

与 Python 列表相比，Numpy array在处理数值数据时具有以下优势：

- **易于使用**： 您可以编写小巧、简洁、直观的数学表达式，如 `(kanto * weights).sum()` 而不是使用循环和自定义函数，如 `crop_yield`。
- **性能**： Numpy 的操作和函数是在 C++ 内部实现的，因此比使用运行时解释的 Python 语句和循环要快得多。

下面是使用 Python 循环与 Numpy array对两个各含一百万元素的向量进行点乘的比较。

In [27]:
# Python lists
arr1 = list(range(1000000))
arr2 = list(range(1000000, 2000000))

# Numpy arrays
arr1_np = np.array(arr1)
arr2_np = np.array(arr2)

In [28]:
%%time
result = 0
for x1, x2 in zip(arr1, arr2):
    result += x1*x2
result

CPU times: user 75.6 ms, sys: 3.8 ms, total: 79.4 ms
Wall time: 78.9 ms


833332333333500000

In [29]:
%%time
np.dot(arr1_np, arr2_np)

CPU times: user 1.37 ms, sys: 18 μs, total: 1.39 ms
Wall time: 877 μs


np.int64(833332333333500000)

正如你所看到的，使用 `np.dot` 比使用 `for` 循环快 100 倍。这使得 Numpy 在处理拥有数万或数百万数据点的大型数据集时特别有用。

在继续之前，先保存我们的工作。

## 多维 Numpy array

现在我们可以更进一步，用一个二维 Numpy array来表示所有地区的气候数据。

In [30]:
climate_data = np.array([[73, 67, 43],
                         [91, 88, 64],
                         [87, 134, 58],
                         [102, 43, 37],
                         [69, 96, 70]])

In [31]:
climate_data

array([[ 73,  67,  43],
       [ 91,  88,  64],
       [ 87, 134,  58],
       [102,  43,  37],
       [ 69,  96,  70]])

每行代表一个地区，列分别代表温度、降雨量和湿度。

Numpy 数组可以有任意多个维度，每个维度的长度也各不相同。我们可以使用数组的 `.shape` 属性查看每个维度的长度。

<img src="https://fgnt.github.io/python_crashkurs_doc/_images/numpy_array_t.png" width="420">



In [32]:
# 2D array (matrix)
climate_data.shape

(5, 3)

In [33]:
weights

array([0.3, 0.2, 0.5])

In [34]:
# 1D array (vector)
weights.shape

(3,)

In [35]:
# 3D array 
arr3 = np.array([
    [[11, 12, 13], 
     [13, 14, 15]],
    
    [[15, 16, 17], 
     [17, 18, 19.5]]])

In [36]:
arr3.shape

(2, 2, 3)

numpy 数组中的所有元素都具有相同的数据类型。你可以使用 `.dtype` 属性检查数组的数据类型。

In [37]:
weights.dtype

dtype('float64')

In [38]:
climate_data.dtype

dtype('int64')

如果数组中包含一个浮点数，所有其他元素也会转换为浮点数。 所以numpy的数组中的元素是同一类型的元素，不会出现不同类型的元素

In [39]:
arr3.dtype

dtype('float64')

现在，我们可以计算所有地区的苹果预测产量，只需在 "climate_data"（一个 5x3 矩阵）和 "weights"（一个长度为 3 的向量）之间进行一次矩阵乘法。下面是它的直观效果：

<img src="./imgs/矩阵的乘积.png" width="240">

我们可以使用 `np.matmul` 函数或 `@` 运算符来执行矩阵乘法。

In [40]:
weights

array([0.3, 0.2, 0.5])

In [41]:
climate_data

array([[ 73,  67,  43],
       [ 91,  88,  64],
       [ 87, 134,  58],
       [102,  43,  37],
       [ 69,  96,  70]])

In [42]:
np.matmul(climate_data, weights)  # weights是一个行向量，但是在进行乘法计算时，会将weights转换为列向量

array([56.8, 76.9, 81.9, 57.7, 74.9])

In [43]:
climate_data @ weights

array([56.8, 76.9, 81.9, 57.7, 74.9])

## 处理 CSV 数据文件

Numpy 还提供了读取和写入文件的辅助函数。让我们下载一个文件 `climate.txt`，其中包含以下格式的 10,000 个气候测量值（温度、降雨量和湿度）：


```
temperature,rainfall,humidity
25.00,76.00,99.00
39.00,65.00,70.00
59.00,45.00,77.00
84.00,63.00,38.00
66.00,50.00,52.00
41.00,94.00,77.00
91.00,57.00,96.00
49.00,96.00,99.00
67.00,20.00,28.00
...
```

这种数据存储格式被称为 ** 逗号分隔值* 或 CSV。

> **CSV**： 逗号分隔值（CSV）文件是一种使用逗号分隔数值的分隔文本文件。文件的每一行都是一条数据记录。每条记录由一个或多个字段组成，字段之间用逗号隔开。CSV 文件通常以纯文本格式存储表格数据（数字和文本），在这种情况下，每一行都有相同数量的字段。(维基百科）


要将该文件读入一个 numpy 数组，我们可以使用 `genfromtxt` 函数。

In [44]:
import urllib.request

urllib.request.urlretrieve(
    'https://gist.github.com/BirajCoder/a4ffcb76fd6fb221d76ac2ee2b8584e9/raw/4054f90adfd361b7aa4255e99c2e874664094cea/climate.csv', 
    'climate.txt')

KeyboardInterrupt: 

In [45]:
import numpy as np

In [46]:
climate_data = np.genfromtxt('./data/climate.txt', delimiter=',', skip_header=1)

FileNotFoundError: ./data/climate.txt not found.

In [47]:
climate_data

array([[ 73,  67,  43],
       [ 91,  88,  64],
       [ 87, 134,  58],
       [102,  43,  37],
       [ 69,  96,  70]])

In [48]:
climate_data.shape

(5, 3)

现在，我们可以使用 `@` 运算符执行矩阵乘法，利用给定的权重集预测整个数据集的苹果产量。

In [49]:
weights = np.array([0.3, 0.2, 0.5])  # 权重

In [50]:
yields = climate_data @ weights

In [51]:
yields

array([56.8, 76.9, 81.9, 57.7, 74.9])

In [52]:
yields.shape

(5,)

让我们使用 [`np.concatenate`](https://numpy.org/doc/stable/reference/generated/numpy.concatenate.html) 函数将 `yields` 添加到 `climate_data` 中，作为第四列。

In [53]:
climate_data

array([[ 73,  67,  43],
       [ 91,  88,  64],
       [ 87, 134,  58],
       [102,  43,  37],
       [ 69,  96,  70]])

In [54]:
yields.shape  # 可以看出来yields变量是一个 10000个元素的一维array

(5,)

In [55]:
yields.reshape(10000,1).shape   # 将yields重塑为10000行1列的二维array

ValueError: cannot reshape array of size 5 into shape (10000,1)

`reshape` : 重塑

`shape`：形状

`连接`:连接

In [56]:
climate_results = np.concatenate((climate_data, yields.reshape(10000, 1)), axis=1)

ValueError: cannot reshape array of size 5 into shape (10000,1)

In [57]:
climate_results

NameError: name 'climate_results' is not defined

这里有几个微妙之处：

* 由于我们希望添加新列，因此我们将参数 `axis=1` 传递给 `np.concatenate`。这个`axis`参数指定了连接的维度。
*  数组的维数和长度应相同，但用于连接的维数除外。我们使用 [`np.reshape`](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html) 函数将 `yields` 的形状从 `(10000,)` 改为 `(10000,1)`。

下面是`np.concatenate`沿`axis=1`的直观解释（你能猜到`axis=0`的结果吗？）

<img src="https://www.w3resource.com/w3r_images/python-numpy-image-exercise-58.png" width="300">

要了解 Numpy 函数的作用，最好的方法就是进行实验，并阅读文档了解其参数和返回值。请使用下面的单元格尝试使用 `np.concatenate` 和 `np.reshape`。

In [58]:
arr = np.array(
    [[1,2,3,4],
     [5,6,7,8],
    [9,10,11,12],
    [13,14,15,16]]
)
arr1 = np.array([100,200,300,400])

In [59]:
arr = np.concatenate((arr,arr1.reshape(4,1)),axis=1)
'''
concatenate()方法
    参数1：元组类型：要连接的多个array
    参数2：axis 指定维度

'''
# arr = np.concatenate((arr,arr1.reshape(4,1)),axis=0)
'''
all the input array dimensions except for the concatenation axis must match exactly, 
but along dimension 1, the array at index 0 has size 5 and the array at index 1 has size 1
'''


'\nall the input array dimensions except for the concatenation axis must match exactly, \nbut along dimension 1, the array at index 0 has size 5 and the array at index 1 has size 1\n'

In [60]:
print(arr)

[[  1   2   3   4 100]
 [  5   6   7   8 200]
 [  9  10  11  12 300]
 [ 13  14  15  16 400]]


让我们使用 `np.savetxt` 函数将上述计算的最终结果写回文件。

In [61]:
climate_results

NameError: name 'climate_results' is not defined

In [62]:
np.savetxt('climate_results.txt', 
           climate_results, 
           fmt='%.2f', 
           delimiter=',',
           header='temperature,rainfall,humidity,yeild_apples', 
           comments='')

NameError: name 'climate_results' is not defined

结果会以 CSV 格式写回文件 `climate_results.txt`。

```
temperature,rainfall,humidity,yeild_apples
25.00,76.00,99.00,72.20
39.00,65.00,70.00,59.70
59.00,45.00,77.00,65.20
84.00,63.00,38.00,56.80
...
```



Numpy 提供了数百个函数，用于对数组执行操作。以下是一些常用函数：


* 数学 `np.sum`、`np.exp`、`np.round`、算术运算符 
* 数组操作：`np.reshape`、`np.stack`、`np.concatenate`、`np.split`。
* 线性代数：`np.matmul`、`np.dot`、`np.transpose`、`np.eigvals`。
* 统计 `np.mean`、`np.median`、`np.std`、`np.max`。

> **如何找到所需的函数？** 为特定操作或用例找到正确函数的最简单方法是进行网络搜索。

您可以在此处找到数组函数的完整列表： https://numpy.org/doc/stable/reference/routines.html

## 算术运算、广播和比较

Numpy 数组支持`+`、`-`、`*`等算术运算符。你可以对一个数字（也称为标量）或另一个相同形状的数组执行算术运算。通过运算符，可以轻松编写多维数组的数学表达式。|

In [63]:
arr2 = np.array([[1, 2, 3, 4], 
                 [5, 6, 7, 8], 
                 [9, 1, 2, 3]])

In [64]:
arr3 = np.array([[11, 12, 13, 14], 
                 [15, 16, 17, 18], 
                 [19, 11, 12, 13]])

In [65]:
# 添加标量
arr2 + 3

array([[ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12,  4,  5,  6]])

In [66]:
# 矩阵减法
arr3 - arr2

array([[10, 10, 10, 10],
       [10, 10, 10, 10],
       [10, 10, 10, 10]])

In [67]:
# 除以标量
print(arr2 / 2)
(arr2 / 2).dtype

[[0.5 1.  1.5 2. ]
 [2.5 3.  3.5 4. ]
 [4.5 0.5 1.  1.5]]


dtype('float64')

In [68]:
# 矩阵乘法
arr2 * arr3

array([[ 11,  24,  39,  56],
       [ 75,  96, 119, 144],
       [171,  11,  24,  39]])

In [69]:
# 矩阵除法
arr2 % 4

array([[1, 2, 3, 0],
       [1, 2, 3, 0],
       [1, 1, 2, 3]])

### 数组广播

Numpy 数组还支持**广播**，允许在两个维数不同但形状兼容的数组之间进行算术运算。让我们看一个例子来了解它是如何工作的。

In [70]:
arr2 = np.array([[1, 2, 3, 4], 
                 [5, 6, 7, 8], 
                 [9, 1, 2, 3]])

In [71]:
arr2.shape

(3, 4)

In [72]:
arr4 = np.array([4, 5, 6, 7])

In [73]:
arr4.shape

(4,)

In [74]:
arr2 + arr4  # array的广播 会将[4,5,6,7] 复制3份 变成一个二维数组 [[4,5,6,7],[4,5,6,7],[4,5,6,7]],跟arr2一致后即可相加

array([[ 5,  7,  9, 11],
       [ 9, 11, 13, 15],
       [13,  6,  8, 10]])

当计算表达式 `arr2 + arr4` 时，`arr4`（形状为 `(4,)`）会被复制三次，以匹配 `arr2` 的形状 `(3,4)`。Numpy 在执行复制时不会实际创建三个维度较小的数组副本，从而提高了性能并降低了内存使用量。

<img src="https://jakevdp.github.io/PythonDataScienceHandbook/figures/02.05-broadcasting.png" width="360">

只有当其中一个数组可以复制以匹配另一个数组的形状时，广播才会起作用。

In [75]:
arr5 = np.array([7, 8])

In [76]:
arr2

array([[1, 2, 3, 4],
       [5, 6, 7, 8],
       [9, 1, 2, 3]])

In [77]:
arr5.shape

(2,)

In [78]:
arr2 + arr5  # 操作数不能与形状（3,4）（2,）一起广播。

ValueError: operands could not be broadcast together with shapes (3,4) (2,) 

在上例中，即使 `arr5` 被复制三次，它也不会与 `arr2` 的形状相匹配。因此，`arr2 + arr5` 无法成功求值。点击此处了解有关广播的更多信息： https://numpy.org/doc/stable/user/basics.broadcasting.html 。

### 数组比较

Numpy 数组还支持`==`、`！=`、`>`等比较操作。结果是布尔数组。

In [79]:
arr1 = np.array([[1, 2, 3], [3, 4, 5]])
arr2 = np.array([[2, 2, 3], [1, 2, 5]])

In [80]:
arr1 == arr2

array([[False,  True,  True],
       [False, False,  True]])

In [81]:
arr1 != arr2

array([[ True, False, False],
       [ True,  True, False]])

In [82]:
arr1 >= arr2

array([[False,  True,  True],
       [ True,  True,  True]])

In [83]:
arr1 < arr2

array([[ True, False, False],
       [False, False, False]])

数组比较经常用于使用 `sum` 方法计算两个数组中相等元素的数目。请记住，在算术运算中使用布尔时，`True`的值为 `1`，而 `False`的值为 `0`。

In [84]:
(arr1 == arr2).sum()

np.int64(3)

## 数组索引和切分

Numpy 以直观的方式将 Python 的列表索引符号"[]"扩展到了多个维度。你可以提供一个以逗号分隔的索引或范围列表，以便从 Numpy 数组中选择特定元素或子数组（也称为切片）。

In [85]:
arr3 = np.array([
    [[11, 12, 13, 14], 
     [13, 14, 15, 19]], 
    
    [[15, 16, 17, 21], 
     [63, 92, 36, 18]], 
    
    [[98, 32, 81, 23],      
     [17, 18, 19.5, 43]]])

In [86]:
arr3.shape

(3, 2, 4)

In [87]:
# 单一的元素
arr3[1, 1, 2]

np.float64(36.0)

In [88]:
# 使用范围的子数组
arr3[1:, 0:1, :2]

array([[[15., 16.]],

       [[98., 32.]]])

In [89]:
# 混合指数和范围
arr3[1:, 1, 3]

array([18., 43.])

In [90]:
arr3[1:, 1, :3]

array([[63. , 92. , 36. ],
       [17. , 18. , 19.5]])

In [91]:
# 使用更少的索引
arr3[1]

array([[15., 16., 17., 21.],
       [63., 92., 36., 18.]])

In [92]:
arr3[:2, 1]

array([[13., 14., 15., 19.],
       [63., 92., 36., 18.]])

In [93]:
arr3[1,3,2,1]  # 数组的索引太多：数组是三维的，但是有4个索引

IndexError: too many indices for array: array is 3-dimensional, but 4 were indexed

这些符号及其结果一开始可能会让人感到困惑，因此请慢慢尝试并适应它。请使用下面的单元格，以不同的索引和范围组合，尝试一些数组索引和切分的示例。下面是一些更直观的示例：

<img src="https://scipy-lectures.org/_images/numpy_indexing.png" width="360">

In [94]:
arr = np.array([[0,1,2,3,4,5],
      [10,11,12,13,14,15],
      [20,21,22,23,24,25],
      [30,31,32,33,34,35],
      [40,41,42,43,44,45],
      [50,51,52,53,54,55]])

# red
print(arr[0, 3:5])

[3 4]


In [95]:
# bule
print(arr[:, 2])

[ 2 12 22 32 42 52]


In [96]:
# green
print(arr[-2:,-2:])

[[44 45]
 [54 55]]


In [97]:
# purple
print(arr[2::2,::2])

[[20 22 24]
 [40 42 44]]


## 创建 Numpy 数组的其他方法

Numpy 还提供了一些方便的函数，可以用固定值或随机值创建所需形状的数组。查看 [official documentation](https://numpy.org/doc/stable/reference/routines.array-creation.html) 或使用 `help` 功能了解更多信息。

In [98]:
# 全部为0
np.zeros((3, 2))

array([[0., 0.],
       [0., 0.],
       [0., 0.]])

In [99]:
# 全部为0
np.ones([2, 2, 3])

array([[[1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.]]])

In [100]:
# 对角为1
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [101]:
# 随机数
np.random.rand(5)

array([0.6730685 , 0.91163492, 0.61590366, 0.51276375, 0.80948506])

In [102]:
# 随机数矩阵
np.random.randn(2, 3) # rand vs. randn - what's the difference?

array([[ 0.13203224, -1.73692471,  0.2299411 ],
       [-0.67612145, -0.35895807,  0.38408234]])

In [103]:
# 指定的值
np.full([2, 3], 42)  # 指定类型

array([[42, 42, 42],
       [42, 42, 42]])

In [104]:
# start, end, step
np.arange(10, 90, 3)

array([10, 13, 16, 19, 22, 25, 28, 31, 34, 37, 40, 43, 46, 49, 52, 55, 58,
       61, 64, 67, 70, 73, 76, 79, 82, 85, 88])

In [105]:
# 范围内等间隔的数字
np.linspace(3, 27, 9)

array([ 3.,  6.,  9., 12., 15., 18., 21., 24., 27.])

## 总结和进一步阅读

至此，我们完成了对 Numpy 数值计算的讨论。本教程涵盖了以下主题：

- 从 Python 列表到 Numpy 数组
- 操作 Numpy 数组
- 使用 Numpy 数组而非列表的好处
- 多维 Numpy 数组
- 处理 CSV 数据文件
- 算术运算和广播
- 数组索引和切片
- 创建 Numpy 数组的其他方法


查看以下资源，了解有关 Numpy 的更多信息：

- 官方教程：https://numpy.org/devdocs/user/quickstart.html

## 复习提问

试着回答下列问题，以测试你对本笔记本所涉及主题的理解：

1. 什么是矢量？
2. 如何使用 Python 列表来表示向量？举例说明。
3. 什么是两个向量的点积？
4. 编写一个函数来计算两个向量的点积。
5. 什么是 Numpy？
6. 如何安装 Numpy？
7. 如何导入 `numpy` 模块？
8. 用别名导入模块是什么意思？举例说明。
9. 常用的 `numpy` 别名是什么？
10. 什么是 Numpy 数组？
11. 如何创建 Numpy 数组？举例说明。
12. Numpy 数组的类型是什么？
13. 如何访问 Numpy 数组的元素？
14. 如何使用 Numpy 计算两个向量的点积？
15. 如果尝试计算两个大小不同的向量的点积，会发生什么情况？
16. 如何计算两个 Numpy 数组的元素乘积？
17. 如何计算一个 Numpy 数组中所有元素的和？
18. 使用 Numpy 数组操作数值数据比使用 Python 列表有什么好处？
19. 为什么与 Python 函数和循环相比，Numpy 数组操作有更好的性能？
20. 举例说明 Numpy 数组操作与 Python 循环的性能差异。
21. 什么是多维 Numpy 数组？
22. 举例说明 2 维、3 维和 4 维 Numpy 数组的创建。
23. 如何查看 Numpy 数组的维数和每个维的长度？
24. Numpy 数组的元素可以有不同的数据类型吗？
25. 如何检查 Numpy 数组元素的数据类型？
26. Numpy 数组的数据类型是什么？
27. 矩阵和二维 Numpy 数组有什么区别？
28. 如何使用 Numpy 执行矩阵乘法？
29. Numpy 中的 `@` 运算符是用来做什么的？
30. CSV 文件格式是什么？
31. 如何使用 Numpy 从 CSV 文件中读取数据？
32. 如何连接两个 Numpy 数组？
33. np.concatenate "中的 "axis "参数有什么作用？
34. 什么时候两个 Numpy 数组可以兼容连接？
35. 举例说明两个可以连接的 Numpy 数组。
36. 举例说明两个不能连接的 Numpy 数组。
37. np.reshape "函数的作用是什么？
38. 重塑 "一个 Numpy 数组是什么意思？
39. 如何将一个 numpy 数组写入 CSV 文件？
40. 举例说明用于执行数学运算的 Numpy 函数。
41. 举例说明执行数组操作的 Numpy 函数。
42. 举例说明执行线性代数的 Numpy 函数。
43. 举例说明执行统计运算的 Numpy 函数。
44. 如何为特定操作或用例找到合适的 Numpy 函数？
45. 在哪里可以看到所有 Numpy 数组函数和操作的列表？
46. Numpy 数组支持哪些算术运算符？请举例说明。
47. 什么是数组广播？有何作用？举例说明。
48. 举例说明与广播兼容的数组？
49. 举例说明与广播不兼容的数组？
50. Numpy 数组支持哪些比较运算符？举例说明。
51. 如何访问 Numpy 数组中的特定子数组或片段？
52. 举例说明多维 Numpy 数组中的数组索引和分片。
53. 如何创建一个给定形状、包含所有零的 Numpy 数组？
54. 如何创建包含所有 1 的给定形状的 Numpy 数组？
55. 如何创建给定形状的标识矩阵？
56. 如何创建给定长度的随机向量？
57. 如何创建一个给定形状的 Numpy 数组，且每个元素都有一个固定值？
58. 如何创建一个具有给定形状、包含随机初始化元素的 Numpy 数组？
59. np.random.rand`和 `np.random.randn`有什么区别？请举例说明。
60. np.arange`和 `np.linspace`有什么区别？请举例说明。
