In [1]:
import os

os.makedirs(os.path.join('.','data'),exist_ok=True)
# “./”：代表目前所在的目录。
# “../”：代表上一层目录。
# ”/”开头：代表根目录。
data_file = os.path.join('.','data','house_tiny.csv')  # 生成csv文件
with open(data_file,'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名：房间数量、巷子类型和房屋价格
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [2]:
# 从创建的CSV文件中加载原始数据集
import pandas as pd

data = pd.read_csv(data_file)
data
# NaN = Not_a_Number

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178100
3,,,140000


In [3]:
# 通过位置索引iloc，我们将data分成inputs和outputs， 
# 其中前者为data的前两列，而后者为data的最后一列。（iloc=index_location）
inputs, outputs = data.iloc[:, 0:2], data.iloc[:, 2]
# 对于inputs中缺少的数值，我们用同一列的均值（.mean()）替换“NaN”项。
inputs = inputs.fillna(inputs.mean(numeric_only=True))
inputs

Unnamed: 0,NumRooms,Alley
0,3.0,Pave
1,2.0,
2,4.0,
3,3.0,


In [4]:
inputs = pd.get_dummies(inputs, dummy_na=True)  
# dummy_na=True -> 添加一列以指示NaN
inputs

Unnamed: 0,NumRooms,Alley_Pave,Alley_nan
0,3.0,1,0
1,2.0,0,1
2,4.0,0,1
3,3.0,0,1


In [5]:
# 将数据换为张量格式
import torch

X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X, y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

In [6]:
practice_file = os.path.join('.','data','2.2_practice.csv')  # 生成csv文件
with open(data_file,'w') as f:
    f.write('Name,YearOld,Gender,id\n')  # 列名：房间数量、巷子类型和房屋价格
    f.write('XiaoZhi,10,m,127500\n')  # 每行表示一个数据样本
    f.write('PiKaChao,NA,NA,106000\n')
    f.write('XiaoXia,NA,w,178100\n')
    f.write('XiaoGang,NA,m,140000\n')
data1 = pd.read_csv(practice_file)
data1

Unnamed: 0,Name,YearOld,Gender,id
0,XiaoZhi,10.0,m,127500
1,PiKaChao,,,106000
2,XiaoXia,,w,178100
3,XiaoGang,,m,140000


In [7]:
# # 知道每列的nan数
nan_numer = data1.isnull().sum(axis=0)
# # 找到nan_numer(series)中最大数的索引
nan_max_id = nan_numer.idxmax()
# # 删除nan最大的列
data1 = data1.drop([nan_max_id], axis=1)
data1

Unnamed: 0,Name,Gender,id
0,XiaoZhi,m,127500
1,PiKaChao,,106000
2,XiaoXia,w,178100
3,XiaoGang,m,140000
