In [None]:
import os
#1.创建一个人工数据集，并存储在./data/house_tiny.csv（逗号分隔值）文件
os.makedirs(os.path.join('.','data'),exist_ok=True)
data_file=os.path.join('.','data','house_tiny.csv')
# with open：代码执行完，系统会自动调用f.close()，可以省略文件关闭步骤
with open(data_file,'w') as f:
    f.write('NumRooms,Alley,Price\n')    #列名
    f.write('NA,Pave,127500\n')    #每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [None]:
#2.从创建的./data/house_tiny.csv文件中加载原始数据集
#如果没有安装pandas，只需取消对以下行的注释：
# %pip install pandas
import pandas as pd

data=pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


In [None]:
#3.将data原始数据集作分片iloc：index location，并分离输入和输出；输入inputs为前两列，输出outputs为第三列
inputs,outputs=data.iloc[:,0:2],data.iloc[:,2]
#对于inputs中的纯数值型数据，处理缺失的数据的典型方法：插值、删除；在这里选择使用插值；outputs本来就全为纯数值型数据且无缺失值，因此不需要处理
inputs=inputs.fillna(inputs.mean(numeric_only=True))  #用均值填充缺失值（第0、3行），mean(numeric_only=True)只计算数值列的均值
print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


In [18]:
#4.对于inputs中的类别型或离散型数据，将"NaN"视为一个类别
inputs=pd.get_dummies(inputs, dummy_na=True,dtype=int)  #get_dummies：将类别值转换为独热编码，dummy_na=True表示将NaN视为一个类别
#独热编码（One-Hot Encoding）用于将类别型数据（Categorical Data）转换为数值型数据，以便机器学习算法能够理解和处理
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


In [None]:
#5.现在inputs和outputs的所有条目都是数值类型的，可以将它们转换为张量格式（./data/house_tiny.csv文件转成4行3列的张量）
#torch.tensor()：将NumPy数组转换为张量，传统的Python一般默认浮点数为float64，而PyTorch默认是float32
#dtype=torch.float64使PyTorch默认的float32转为float64
import torch
x,y=torch.tensor(inputs.values),torch.tensor(outputs.values)  #将DataFrame转换为NumPy数组，然后转换为张量
x,y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))