# 多维数组

* 前面所展示脚本的主要目的，是对工作目录的概念、数据处理常用的三个模块，以及面对复杂任务如何优化代码有一个大概的印象。  
  现在让我们重新来过。
* 多维数组是数据处理、机器学习等场景经常会用到的一种数据结构。  
  对于NumPy，它是ndarray；对于PyTorch，它是Tensor。
* 下面将从最简单的列表开始，一步步对多维数组建立起一个直观的概念。

## 列表（List）

* 列表是Python自带的一种数据结构，主要用于存储有序的元素集合。
* 元素可以是不同的数据类型，包括整数、浮点数、字符串，甚至是其他列表。  
  考虑到本次的重点在于展示“数”组，因此以下列表都只包含有整数或浮点数。

### 创建列表

* 最简单的创建列表方式就是用方括号将整体包裹起来，再用逗号分隔各个元素。

In [1]:
lst = [0, 1, 2]

* 另一种常见且更快的方法是使用列表推导式（List Comprehension）。
* 例如我想生成一个包含20以内所有偶数的列表，一种“笨笨”的方法就是创建一个空列表，再在for循环里挨个添加元素。  
  而使用列表推导式就能较为简洁地完成这项工作。  
  在运行程序方面也能比使用for循环要更快。

In [None]:
[index * 2 for index in range(11)]

[0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20]

### 添加元素

* 使用`append`在列表末尾添加元素。

In [None]:
lst = [0, 1, 2]
lst.append(3)
lst

[0, 1, 2, 3]

* 使用`insert`在列表指定索引位置添加元素。

In [4]:
lst = [0, 1, 2]
# 使列表的第0个元素是-1
lst.insert(0, -1)
lst

[-1, 0, 1, 2]

* 使用`extend`在列表末尾添加另一个列表里面的所有元素。

In [5]:
lst = [0, 1, 2]
lst.extend([3, 4, 5])
lst

[0, 1, 2, 3, 4, 5]

### 索引与切片

* 列表中的每个元素都对应一个索引。
* 索引从左往右数是以0开始，依次加1；从右往左数则是以-1开始，依次减1。
* 可以通过索引来访问列表中的指定元素。

In [6]:
lst = [1, 2, 3]
print(lst[0], lst[1], lst[2])
print(lst[-1], lst[-2], lst[-3])

1 2 3
3 2 1


* 借助索引也可以修改指定元素的值。

In [None]:
lst = [1, 2, 3]
lst[1] = 1.5
lst

[1, 1.5, 3]

* 基于索引的切片操作可以得到指定范围内的所有元素。
* 起始或结束的索引缺省时表示切片到底。
* 切片可以指定步长（默认是1），即相邻两个元素之间索引的差值。
* 步长是负数时表示从右往左取，元素索引的差值此时则对应步长的绝对值。

In [8]:
lst = [1, 2, 3, 4, 5]
# 表示左闭右开的第[0,5)个元素
print(lst[0:5])
# 表示左闭右开的第[0,5)个元素，步长为2进行切片
print(lst[0:5:2])
# 表示从右往左进行切片，步长为2
# 起始索引为-1，对应最右边的元素；结束索引为0，对应最左边的元素
# 但由于切片操作的范围是左闭右开的，因此最左边的元素并没有输出出来
print(lst[-1:0:-2])
# 结束索引缺省，此时就能一直切到列表的最左端
print(lst[-1::-2])

[1, 2, 3, 4, 5]
[1, 3, 5]
[5, 3]
[5, 3, 1]


## 字典（Dictionary）

* 字典是一种无序的键值对（Key-Value Pair）数据结构。
* 字典的键最好尽量简单（因为需要使用键来对值进行索引），一般常用字符串或者整数作为字典的键。  
  键与键之间不能重复。
* 字典的值可以是任意的数据类型。  
  同样考虑到本次重点在“数”组，因此以下字典的值都是只包含了整数或浮点数的列表。

### 创建字典

* 创建字典首先使用花括号将整体包裹起来，再在键与值之间用冒号分隔、在不同键值对之间用逗号分隔。

In [9]:
dic = {"x": [0, 1, 2], "y": [0, 2, 4]}

### 基于键的简单操作

In [10]:
dic = {"x": [0, 1, 2], "y": [0, 2, 4]}
# 取值
print(dic["x"])
# 修改或添加键值对
dic["y"] = [0, 0, 0]
dic["z"] = [1, 1, 1]
print(dic)

[0, 1, 2]
{'x': [0, 1, 2], 'y': [0, 0, 0], 'z': [1, 1, 1]}


### 几种遍历

* 使用`keys()`可以得到字典里所有键所组成的列表。  
  （原本是这样的，但Ruff提示不用`keys()`也行）。  
  基于此也可以判断字典是否包含某个指定的键。
* 使用`values()`可以得到字典里所有值所组成的列表。
* 使用`items()`可以得到字典里所有键值对（元组形式）所组成的列表。

In [11]:
dic = {"x": [0, 1, 2], "y": [0, 2, 4]}

print("keys():")
for key in dic:
    print(f"    {key}")

print("values():")
for value in dic.values():
    print(f"    {value}")

print("items():")
for key, value in dic.items():
    print(f"    {key}, {value}")

keys():
    x
    y
values():
    [0, 1, 2]
    [0, 2, 4]
items():
    x, [0, 1, 2]
    y, [0, 2, 4]


## DataFrame

* 基于上一段所展示的字典，Pandas提供了一个类似于表格的数据类型，即DataFrame。
* DataFrame的操作方法并非本次重点，因此这里只简单展示一种创建过程。

### 创建DataFrame

* 可以在一个字典对象的基础上创建DataFrame。  
  此时各个值一般是列表或类似于列表的一维有序元素集合。  
  元素的数据类型可以是任意的，这里同样只展示了整数或浮点数的情形。
* 这样得到的DataFrame将会以字典的键作为列名（即表头），以字典的值作为每列的数据。
* 可以看到输出出来的DataFrame默认在最左边多出来了没有表头的一列。  
  这是它的行索引（或行号），标示着右边的数据是第几行。

In [12]:
import pandas as pd

dic = {"x": [0, 1, 2], "y": [0, 2, 4]}
pd.DataFrame(dic)

Unnamed: 0,x,y
0,0,0
1,1,2
2,2,4


## 多维数组（N-Dimensional Array）

* 让我们为前面的DataFrame换个表头。
* 然后假想这里的行索引和列索引实际对应着的是某个变量的值。  
  例如最上面的列索引表示`x`的值，最左边的行索引表示`y`的值。  
  此时DataFrame内的数据就可以看作是`x * y`，即：
  <table>
    <tr>
      <td align="center">xy</td>
      <td align="center">x=1</td>
      <td align="center">x=2</td>
    </tr>
    <tr>
      <td align="center">y=0</td>
      <td align="center"> 0 </td>
      <td align="center"> 0 </td>
    </tr>
    <tr>
      <td align="center">y=1</td>
      <td align="center"> 1 </td>
      <td align="center"> 2 </td>
    </tr>
    <tr>
      <td align="center">y=2</td>
      <td align="center"> 2 </td>
      <td align="center"> 4 </td>
    </tr>
  </table>

In [13]:
import pandas as pd

dic = {1: [0, 1, 2], 2: [0, 2, 4]}
pd.DataFrame(dic)

Unnamed: 0,1,2
0,0,0
1,1,2
2,2,4


* 事实上，当我们把行索引和列索引都去掉，自然而然就能得到一个最简单的多维数组。

In [14]:
import pandas as pd

dic = {1: [0, 1, 2], 2: [0, 2, 4]}
pd.DataFrame(dic).to_numpy()

array([[0, 0],
       [1, 2],
       [2, 4]])

* 在列表中放入列表同样能得到相同的效果。
* 当然这种做法并不直观，一般仅用来创建一维的数组，很少像这样创建多维数组。

In [15]:
import numpy as np

np.array([[0, 0], [1, 2], [2, 4]])

array([[0, 0],
       [1, 2],
       [2, 4]])

* 相比类似表格的DataFrmae，多维数组方便的点在于不要求显式地给出各个轴的值，即上面的行索引和列索引，也即`x`和`y`。
* 事实上，在实际应用中`x`和`y`的值一方面可能会很多（几十、几百，甚至上千），另一方面也并不总像上面只包含整数（浮点数才是常态）。
* 下面将以前面的`x * y`为例，一点点创建越来越复杂的多维数组。

In [16]:
import numpy as np

# 1行2列的x
x = np.array([1, 2])
# 先创建1行3列的y，再转置成3行1列
# 这里的-1代表缺省，最后的具体值由NumPy自动算出来
y = np.array([0, 1, 2]).reshape(-1, 1)
# 1行2列的x能与3行1列的y直接相乘
# 这是NumPy的一大优势，即允许行列数量不同的数组之间直接进行运算
# 这一机制称为广播（Broadcasting）
# 详见https://numpy.org/doc/stable/user/basics.broadcasting.html
# 原理在于NumPy在计算前会自动将合适的数组扩展成相同的行列数，对应这里就是3行2列
print(f"{x = }")
print(f"{y = }")
print(f"{x * y = }")
print("----------分隔线----------")
# 操作与上面类似
# 区别在于创建了更长的、包含浮点数的x与y
x = np.arange(5)
y = np.linspace(0, 1, 6).reshape(-1, 1)
print(f"{x = }")
print(f"{y = }")
print(f"{x * y = }")

x = array([1, 2])
y = array([[0],
       [1],
       [2]])
x * y = array([[0, 0],
       [1, 2],
       [2, 4]])
----------分隔线----------
x = array([0, 1, 2, 3, 4])
y = array([[0. ],
       [0.2],
       [0.4],
       [0.6],
       [0.8],
       [1. ]])
x * y = array([[0. , 0. , 0. , 0. , 0. ],
       [0. , 0.2, 0.4, 0.6, 0.8],
       [0. , 0.4, 0.8, 1.2, 1.6],
       [0. , 0.6, 1.2, 1.8, 2.4],
       [0. , 0.8, 1.6, 2.4, 3.2],
       [0. , 1. , 2. , 3. , 4. ]])


* 让我们再进一步尝试计算出一个三维的数组。
* 为了检验计算出来的确实是一个三维数组，可以查看内置的shape属性。  
  以较为简单的二维数组为例，m行n列数组的shape就是(m, n)，简记为m×n。
* 下面展示了将一维数组、2行1列的二维数组、3层1行1列的三维数组相乘的结果。  
  最终所得到的是一个3层2行1列的三维数组。

In [17]:
import numpy as np

# 一维数组
x = np.arange(1, 2)
# 2行1列的二维数组
y = np.arange(1, 3).reshape(-1, 1)
# 3层1行1列的三维数组
z = np.arange(1, 4).reshape(-1, 1, 1)
print(f"{x = }")
print(f"{y = }")
print(f"{z = }")
print(f"{x * y * z = }")
print("----------分隔线----------")
print(f"{x.shape = }")
print(f"{y.shape = }")
print(f"{z.shape = }")
print(f"{(x * y * z).shape = }")

x = array([1])
y = array([[1],
       [2]])
z = array([[[1]],

       [[2]],

       [[3]]])
x * y * z = array([[[1],
        [2]],

       [[2],
        [4]],

       [[3],
        [6]]])
----------分隔线----------
x.shape = (1,)
y.shape = (2, 1)
z.shape = (3, 1, 1)
(x * y * z).shape = (3, 2, 1)


* 当我们对多维数组有了一个大概印象后，就可以从头开始，对相关方法进行系统性的介绍了。

### 创建多维数组

* `np.array()`可以将列表转换为数组。

In [None]:
import numpy as np

lst = [[1, 2, 3], [4, 5, 6]]
np.array(lst)

array([[1, 2, 3],
       [4, 5, 6]])

* 创建指定shape的、所有元素都相同的数组：
  <table>
    <tr>
      <td align="center"></td>
      <td align="center">所有元素都是0</td>
      <td align="center">所有元素都是1</td>
    </tr>
    <tr>
      <td align="center">给定<code>shape</code></td>
      <td align="center"><code>np.zeros(shape)</code></td>
      <td align="center"><code>np.ones(shape)</code></td>
    </tr>
    <tr>
      <td align="center">与给定数组（<code>arr</code>）的<code>shape</code>相同</td>
      <td align="center"><code>np.zeros_like(arr)</code></td>
      <td align="center"><code>np.ones_like(arr)</code></td>
    </tr>
  </table>

In [19]:
import numpy as np

shape = (2, 3)
print(f"{np.zeros(shape) = }")
print(f"{np.ones(shape) = }")
print("----------分隔线----------")
lst = [[1, 2], [3, 4]]
arr = np.array(lst)
print(f"{np.zeros_like(arr) = }")
print(f"{np.ones_like(arr) = }")

np.zeros(shape) = array([[0., 0., 0.],
       [0., 0., 0.]])
np.ones(shape) = array([[1., 1., 1.],
       [1., 1., 1.]])
----------分隔线----------
np.zeros_like(arr) = array([[0, 0],
       [0, 0]])
np.ones_like(arr) = array([[1, 1],
       [1, 1]])


* 创建一定范围内均匀间隔的一维数组：
  <table>
    <tr>
      <td align="center"></td>
      <td align="center"><code>np.arange(start, stop, step)</code></td>
      <td align="center"><code>np.linspace(start, stop, num)</code></td>
    </tr>
    <tr>
      <td align="center">范围</code></td>
      <td align="center">左闭右开：[start, stop)，start默认为0</code></td>
      <td align="center">闭区间：[start, stop]</td>
    </tr>
    <tr>
      <td align="center">不同参数</td>
      <td align="center"><code>step</code>：步长，默认为1</td>
      <td align="center"><code>num</code>：元素数量，默认为50</td>
    </tr>
  </table>

In [20]:
import numpy as np

print(f"{np.arange(3) = }")
print(f"{np.linspace(1, 3, 9) = }")

np.arange(3) = array([0, 1, 2])
np.linspace(1, 3, 9) = array([1.  , 1.25, 1.5 , 1.75, 2.  , 2.25, 2.5 , 2.75, 3.  ])


### 修改shape

* `arr.reshape(shape)`可以将`arr`转换成给定`shape`。
* `arr.T`可以将`arr`转置。

In [21]:
import numpy as np

arr = np.arange(6)
print(f"{arr = }")
print(f"{arr.reshape(2, 3) = }")
print(f"{arr.reshape(2, 3).T = }")

arr = array([0, 1, 2, 3, 4, 5])
arr.reshape(2, 3) = array([[0, 1, 2],
       [3, 4, 5]])
arr.reshape(2, 3).T = array([[0, 3],
       [1, 4],
       [2, 5]])


### 索引与切片

* 多维数组可以使用与列表类似的方法进行索引和切片，或基于此修改数组内元素的值。

In [22]:
import numpy as np

arr = np.arange(6).reshape(3, 2)
print(f"{arr = }")
print("----------分隔线----------")
# 索引得到单个元素
print(f"{arr[0, 0] = }")
# 索引得到给定范围内的元素
print(f"{arr[0:2, :] = }")
# 上下两行代码等效
print(f"{arr[0:2] = }")
print("----------分隔线----------")
# 修改单个元素
arr[0, 0] = 1
print(f"{arr = }")
# 修改给定范围内的元素
arr[0:2] = 1
print(f"{arr = }")

arr = array([[0, 1],
       [2, 3],
       [4, 5]])
----------分隔线----------
arr[0, 0] = 0
arr[0:2, :] = array([[0, 1],
       [2, 3]])
arr[0:2] = array([[0, 1],
       [2, 3]])
----------分隔线----------
arr = array([[1, 1],
       [2, 3],
       [4, 5]])
arr = array([[1, 1],
       [1, 1],
       [4, 5]])
