在Python中，我们通常使用pandas软件包。pandas可以与张量兼容。将原始数据转换为张量格式的步骤。

## 读取数据集

首先创建以一个人工数据集，并存储在CSV文件中。其他格式存储的数据也可以通过类似的方式进行处理。

In [1]:
import os

os.makedirs(os.path.join('..','data'), exist_ok=True)
data_file = os.path.join('..','data','house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n') #列名
    f.write('NA,Pave,127500\n') #每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

从创建的CSV文件中加载原始数据集，我们倒入pandas包并调用read_csv。

In [3]:
import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


## 处理缺失值

插值法和删除法

In [10]:
# 拆分输入输出
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]

# 处理数值缺失
numeric_cols = inputs.select_dtypes(include='number').columns
inputs[numeric_cols] = inputs[numeric_cols].fillna(inputs[numeric_cols].mean())

# 类别值转换为 one-hot，包含 NaN 处理
inputs = pd.get_dummies(inputs, dummy_na=True).astype(int)

print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0         3           1          0
1         2           0          1
2         4           0          1
3         3           0          1


## 转换为张量格式

inputs和outputs都是数值类型。他们可以转换为张量格式。

In [11]:
import torch

X = torch.tensor(inputs.to_numpy(dtype=float))
y = torch.tensor(outputs.to_numpy(dtype=float))

X,y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500., 106000., 178100., 140000.], dtype=torch.float64))