In [18]:
import os

import os  # 导入os模块，用于文件和目录的操作
import pandas as pd  # 一般读取文件使用该库
import torch
import numpy as np

# 创建一个名为 'data' 的文件夹（如果不存在）
# os.makedirs() 用于递归创建多层目录，exist_ok=True 确保如果目录已存在，不会抛出异常
os.makedirs(
    os.path.join(  # os.path.join用于拼接路径，确保跨平台兼容
        "./",  # 当前工作目录
        "data",  # 'data' 目录
    ),
    exist_ok=True,  # 如果目录已存在，不抛出异常
)

# 设置数据文件的路径，文件名为 '01_house_tiny_cvs'
# 并且并没有创建文件或写入数据。是简单地拼接出文件的完整路径
data_file = os.path.join(  # 拼接出完整的文件路径
    "../../DS/数据集/17_数据集/200_李沐数据集",  # 当前工作目录
    "01_Data",  # '01_Data' 文件夹
    "01_house_tiny.csv",  # 数据文件名
)

# 打开文件并写入数据
# with，可以自动管理文件的打开和关闭，避免潜在的资源泄漏问题。
with open(data_file, "w") as f:  # 使用 'w' 模式打开文件，若文件不存在则创建
    # 写入文件头（列名）
    f.write("NumRooms,Alley,Prince\n")  # 这行表示列名，包含三列：房间数、巷道类型、价格
    # 写入数据行
    f.write("NA,Pave,125700\n")  # 'NA' 表示缺失值，'Pave' 表示铺设的巷道，价格为 125700
    f.write("2,NA,106000\n")  # 2 个房间，巷道类型缺失，价格为 106000
    f.write("4,NA,178100\n")  # 4 个房间，巷道类型缺失，价格为 178100
    f.write("NA,NA,140000\n")  # 房间数缺失，巷道类型缺失，价格为 140000

data = pd.read_csv(data_file)

# print(data)
# print(type(data))  # 返回的是DataFram类的数组
# 用来访问Series中的元素，loc是基于标签的索引，iloc是基于位置的索引。
# 用来访问Series中的元素，loc是基于标签的索引，iloc是基于位置的索引。
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]

# 填充缺失值：数值型列使用均值填充，类别型列使用众数填充
inputs["NumRooms"] = inputs["NumRooms"].fillna(
    inputs["NumRooms"].mean()
)  # 填充数值型列
inputs["Alley"] = inputs["Alley"].fillna(inputs["Alley"].mode()[0])  # 填充类别型列

# 对类别型数据进行独热编码，并为缺失值创建一个新的列
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

# fillna()：这是 Pandas 库中用于处理缺失值的函数。
# 它会用给定的值来填充 NaN（缺失值）的位置，避免因缺失值导致算法无法正常运行。
# fillna() 会自动检测缺失值，填充 缺失值（NaN）部分
# inputs = inputs.fillna(
#     inputs.mean(
#         numeric_only=True,  # 只处理数字元素
#     )
# )
# 确保 `inputs` 中所有列都是数值型
# 将所有列转换为 float32 类型
inputs = inputs.astype(np.float32)
x = torch.tensor(inputs.values, dtype=torch.float32)
y = torch.tensor(outputs.values, dtype=torch.float32)
print(x)
print(y)

   NumRooms  Alley_Pave  Alley_nan
0       3.0        True      False
1       2.0        True      False
2       4.0        True      False
3       3.0        True      False
tensor([[3., 1., 0.],
        [2., 1., 0.],
        [4., 1., 0.],
        [3., 1., 0.]])
tensor([125700., 106000., 178100., 140000.])
