In [8]:
# 创建一个人工数据集，并存储在csv（逗号分隔）文件中

import os  #导入Python内置的os模块，用于处理操作系统相关功能，如文件路径、目录操作等

# os.path.join('.', 'data')：创建一个路径字符串 './data'
# . 表示当前目录（..表示上一级目录）
# 'data' 是要创建的目录名
# os.path.join() 会正确拼接路径（自动处理不同操作系统的路径分隔符）
# os.makedirs(..., exist_ok=True)：创建目录
# exist_ok=True：如果目录已存在，不会报错；如果为False，目录已存在时会抛出FileExistsError
os.makedirs(os.path.join('.', 'data'), exist_ok=True) 

# 定义文件路径
data_file = os.path.join('.', 'data', 'house_tiny.csv') # 创建路径字符串 './data/house_tiny.csv'

# open(data_file, 'w')：以写入模式打开文件
#'w' 表示写入模式，会创建新文件或覆盖已存在文件
# with ... as f:：使用上下文管理器，确保文件操作完成后自动关闭文件
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')        # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [9]:
# 从创建的csv文件中加载原始数据集

import pandas as pd

data = pd.read_csv(data_file)
print(data)

   NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000


In [20]:
# 为了处理缺失的数据，典型的方法包括插值和删除，这里考虑插值
a = data.iloc[:, 0]
b = data.iloc[:, 1]
c = data.iloc[:, 2]
print('a\n', a)
print('b\n', b)
print('c\n', c)
a = a.fillna(a.mean())
b = pd.get_dummies(b, dummy_na=True)
print("==============")
print('a\n', a)
print('b\n', b)

a
 0    NaN
1    2.0
2    4.0
3    NaN
Name: NumRooms, dtype: float64
b
 0    Pave
1     NaN
2     NaN
3     NaN
Name: Alley, dtype: object
c
 0    127500
1    106000
2    178100
3    140000
Name: Price, dtype: int64
a
 0    3.0
1    2.0
2    4.0
3    3.0
Name: NumRooms, dtype: float64
b
     Pave    NaN
0   True  False
1  False   True
2  False   True
3  False   True


In [21]:
# 现在 a b c 中所有条目都是数值类型，它们可以转换为张量格式
import torch
x, y, z = torch.tensor(a.values), torch.tensor(b.values), torch.tensor(c.values)
x, y, z

(tensor([3., 2., 4., 3.], dtype=torch.float64),
 tensor([[ True, False],
         [False,  True],
         [False,  True],
         [False,  True]]),
 tensor([127500, 106000, 178100, 140000]))