# 数据预处理

In [None]:
import os
# 创建data目录
os.makedirs(os.path.join("..", 'data'), exist_ok=True) 
# 生成csv文件
data_file = os.path.join("..", 'data', 'house_tiny.csv')
# 打开csv文件写入数据
with open(data_file, 'w') as fp:
    fp.write('NumRooms,Alley,price\n') # 写入表头
    fp.write('NA,Pave,127500\n') # 写入第一行数据
    fp.write('2,NA,106000\n') 
    fp.write('4,NA,178100\n')
    fp.write('NA,NA,140000\n') # 写入最后一行数据

***exist_ok=True***表示:
- 如果指定路径的目录已经存在,不抛出错误。
- 如果目录不存在,将正常创建该目录。

In [None]:
import pandas as pd
# 读取csv文件
data = pd.read_csv(data_file)
data

In [None]:
# 处理缺失值
# 取出前两列作为输入特征 | 取出第三列作为标签
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# 使用fillna以均值填充输入特征中的缺失值 | numeric_only=True表示只对数值列计算均值，不影响非数值的列,比如字符串列
inputs = inputs.fillna(inputs.mean(numeric_only = True))
print(inputs)

In [None]:
# 使用get_dummies进行一热编码 | dummy_na=True表示将NaN作为一个类别处理，为缺失值额外创建一列指示特征
inputs = pd.get_dummies(inputs, dummy_na=True)
print(inputs)

***get_dummies***的主要逻辑:

对每个分类特征,创建对应的onehot编码
- 比如性别列[男,女,未知]会创建三列[男,女,未知]
- 每个样本在对应分类上的一列为1,其余为0

***dummy_na=True***意味着:
- 将NaN作为一种分类处理
- 对NaN额外创建一列,标记该样本在该特征为NaN
这样可以保留原始的缺失值信息。

In [None]:
import torch
# 转换为张量格式
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

In [None]:
# reshape会在源上操作,两者共享数据内存
a = torch.arange(12)
b = a.reshape((3,4))
b[:] = 2
print(b.ndim)  # 打印张量维度,输出2
print(b.shape)  # 打印张量形状,输出torch.Size([3, 4])

In [None]:
a = torch.arange(20, dtype=torch.float32).reshape((5,4))
# 使用clone()复制Tensor,两者不共享内存
b = a.clone()
print(id(a))
print(id(b))

In [None]:
# 创建形状为(2,5,4)的张量,元素初始化为1
a = torch.ones((2,5,4))
print(a.shape)
print(a)


In [None]:
# 求全部元素的和,返回一个scalar
print(a.sum().shape)
# axis=1表示在第1维(行)上求和 | keepdims=True表示保留维度,输出仍为3D
b = a.sum(axis=1, keepdims=True)
print(b.shape)
print(b)