# 数据操作

In [1]:
from jax import numpy as jnp

## 入门

In [2]:
# 创建一个行向量
x = jnp.arange(12)
x

Array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11], dtype=int32)

In [3]:
# 张量的维度
x.shape

(12,)

In [4]:
# 张量中元素的总数
x.size

12

In [5]:
# 改变张量的形状
X = x.reshape(3, 4)
X

Array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]], dtype=int32)

In [6]:
# 创建全 0 的张量
jnp.zeros((2, 3, 4))

Array([[[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]],

       [[0., 0., 0., 0.],
        [0., 0., 0., 0.],
        [0., 0., 0., 0.]]], dtype=float32)

In [7]:
# 创建全 1 的张量
jnp.ones((2, 3, 4))

Array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]], dtype=float32)

In [8]:
from jax import random

# 随机数种子
key = random.PRNGKey(0)
# 创建均值为 0， 标准差为 1 的标准高斯分布的随机张量
x = random.normal(key, (3, 4))
x 

Array([[ 1.6226422 ,  2.0252647 , -0.43359444, -0.07861735],
       [ 0.1760909 , -0.97208923, -0.49529874,  0.4943786 ],
       [ 0.6643493 , -0.9501635 ,  2.1795304 , -1.9551506 ]],      dtype=float32)

In [9]:
# 使用 Python 列表初始化张量
jnp.array([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])

Array([[2, 1, 4, 3],
       [1, 2, 3, 4],
       [4, 3, 2, 1]], dtype=int32)

## 运算符

In [10]:
x = jnp.array([1, 2, 4, 8])
y = jnp.array([2, 2, 2, 2])
# 加，减，乘，除，幂
x + y, x - y, x * y, x / y, x ** y

(Array([ 3,  4,  6, 10], dtype=int32),
 Array([-1,  0,  2,  6], dtype=int32),
 Array([ 2,  4,  8, 16], dtype=int32),
 Array([0.5, 1. , 2. , 4. ], dtype=float32),
 Array([ 1,  4, 16, 64], dtype=int32))

In [11]:
# 按元素进行运算
jnp.exp(x)

Array([2.7182817e+00, 7.3890562e+00, 5.4598152e+01, 2.9809580e+03],      dtype=float32)

In [12]:
# 连结张量
X = jnp.arange(12).reshape(3, 4)
Y = jnp.array([[2, 1, 4, 3], [1, 2, 3, 4], [4, 3, 2, 1]])
# 按行连结， 按列连结
jnp.concatenate([X, Y], axis=0), jnp.concatenate([X, Y], axis=1)

(Array([[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [ 2,  1,  4,  3],
        [ 1,  2,  3,  4],
        [ 4,  3,  2,  1]], dtype=int32),
 Array([[ 0,  1,  2,  3,  2,  1,  4,  3],
        [ 4,  5,  6,  7,  1,  2,  3,  4],
        [ 8,  9, 10, 11,  4,  3,  2,  1]], dtype=int32))

In [13]:
# 逻辑运算符创建二元张量
X == Y # 对应位置的值相等为 True, 否则为 False

Array([[False,  True, False,  True],
       [False, False, False, False],
       [False, False, False, False]], dtype=bool)

In [14]:
# 对所有的元素进行求和
jnp.sum(X)

Array(66, dtype=int32)

## 广播机制

In [15]:
a = jnp.arange(3).reshape(3, 1)
b = jnp.arange(2).reshape(1, 2)
a, b

(Array([[0],
        [1],
        [2]], dtype=int32),
 Array([[0, 1]], dtype=int32))

In [16]:
a + b # 矩阵 a 将复制列， 矩阵 b 将复制行， 然后按照元素相加

Array([[0, 1],
       [1, 2],
       [2, 3]], dtype=int32)

## 索引和切片

In [17]:
# -1 选择最后一个元素， 1:3 选择第二个和第三个元素
X[-1], X[1:3]

(Array([ 8,  9, 10, 11], dtype=int32),
 Array([[ 4,  5,  6,  7],
        [ 8,  9, 10, 11]], dtype=int32))

In [18]:
# 将矩阵中的第二行第三列的元素修改为9
X.at[1, 2].set(9)


Array([[ 0,  1,  2,  3],
       [ 4,  5,  9,  7],
       [ 8,  9, 10, 11]], dtype=int32)

In [19]:
# 将第一行和第二行所有元素都修改为12
X.at[0:2, :].set(12)

Array([[12, 12, 12, 12],
       [12, 12, 12, 12],
       [ 8,  9, 10, 11]], dtype=int32)

## 节省内存

In [20]:
before = id(Y)
# 此时 Y 会重新开辟一块内存
Y = Y + X
id(Y) == before

False

In [21]:
Z = jnp.zeros_like(Y) # 申请一块和 Y 矩阵形状一样的内存空间，并初始化为 0
print('id(Z): ', id(Z))
Z.at[:].set(X + Y)
print('id(Z):', id(Z))

id(Z):  358168256
id(Z): 358168256


In [22]:
# 如果在后续计算中没有重复使用X， 可以使用该方法来减少操作的内存开销。
before = id(X)
X.at[:].add(Y)
id(X) == before

True

## 转换为其他 Python 对象

In [23]:
import numpy as np

A = np.array(X)
B = jnp.array(A)
type(A), type(B)

(numpy.ndarray, jaxlib.xla_extension.ArrayImpl)

In [24]:
a = jnp.array(3.5)
a, a.item(), float(a), int(a) # 转换为 Python 标量

(Array(3.5, dtype=float32, weak_type=True), 3.5, 3.5, 3)

## 练习

### 1. 运行本节中的代码。将本节中的条件语句X == Y更改为X < Y或X > Y，然后看看你可以得到什么样的张量。

In [25]:
X < Y, X > Y

(Array([[ True,  True,  True,  True],
        [ True,  True,  True,  True],
        [ True,  True,  True,  True]], dtype=bool),
 Array([[False, False, False, False],
        [False, False, False, False],
        [False, False, False, False]], dtype=bool))

### 2. 用其他形状（例如三维张量）替换广播机制中按元素操作的两个张量。结果是否与预期相同？

In [26]:
a = jnp.arange(6).reshape(3, 2, 1)
b = jnp.arange(6).reshape(1, 2, 3)
a, b, a + b

(Array([[[0],
         [1]],
 
        [[2],
         [3]],
 
        [[4],
         [5]]], dtype=int32),
 Array([[[0, 1, 2],
         [3, 4, 5]]], dtype=int32),
 Array([[[ 0,  1,  2],
         [ 4,  5,  6]],
 
        [[ 2,  3,  4],
         [ 6,  7,  8]],
 
        [[ 4,  5,  6],
         [ 8,  9, 10]]], dtype=int32))

# 数据预处理

In [27]:
import os

# 创建数据集, 写入 CSV 文件中
os.makedirs(os.path.join('.', 'data'), exist_ok=True)
data_file = os.path.join('.', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')
    f.write('NA,Pave,127500\n')
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [28]:
import pandas as pd

# 读取 CSV 文件
data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


In [29]:
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# 将 inputs 中 NumRooms 的 NaN 替换为 NumRooms 的平均值
inputs = inputs.fillna(inputs.mean(numeric_only=True))
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


In [30]:
inputs = pd.get_dummies(inputs, dummy_na=True, dtype=float)
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0         1.0        0.0
1       2.0         0.0        1.0
2       4.0         0.0        1.0
3       3.0         0.0        1.0


In [31]:
# 转换为张量格式
X = jnp.array(inputs.to_numpy())
Y = jnp.array(outputs.to_numpy())
X, Y

(Array([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]], dtype=float32),
 Array([127500, 106000, 178100, 140000], dtype=int32))

## 练习

In [42]:
data_file = os.path.join('.', 'data', 'house_more.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Name,Price\n')
    f.write('NA,Pave,NA,127500\n')
    f.write('2,NA,Dive,106000\n')
    f.write('4,NA,NA,178100\n')
    f.write('NA,NA,NA,140000\n')

# 读取 CSV 文件
data = pd.read_csv(data_file)

inputs, outputs = data.iloc[:, 0:3], data.iloc[:, 3]
# 将 inputs 中 NumRooms 的 NaN 替换为 NumRooms 的平均值
inputs = inputs.fillna(inputs.mean(numeric_only=True))

inputs = pd.get_dummies(inputs, dummy_na=True, dtype=float)
print(inputs)

# 转换为张量格式
X = jnp.array(inputs.to_numpy())
Y = jnp.array(outputs.to_numpy())
X, Y

   NumRooms  Alley_Pave  Alley_nan  Name_Dive  Name_nan
0       3.0         1.0        0.0        0.0       1.0
1       2.0         0.0        1.0        1.0       0.0
2       4.0         0.0        1.0        0.0       1.0
3       3.0         0.0        1.0        0.0       1.0


(Array([[3., 1., 0., 0., 1.],
        [2., 0., 1., 1., 0.],
        [4., 0., 1., 0., 1.],
        [3., 0., 1., 0., 1.]], dtype=float32),
 Array([127500, 106000, 178100, 140000], dtype=int32))