In [1]:
import os

curr_dir = os.getcwd()
os.makedirs(os.path.join(curr_dir, 'LIMU_BILIBILI'), exist_ok=True)
data_file = os.path.join(curr_dir, 'LIMU_BILIBILI', 'housing.csv')
#在 Python 中，当你使用 open() 函数以写入模式（'w'）打开一个文件时，如果指定的文件不存在，则会自动创建一个新文件。
with open(data_file, 'w') as f:
    f.write('num_rooms,alley,price\n')
    f.write('NA,NA,15000\n')
    f.write('2,NA,14000\n')
    f.write('1,NA,13000\n')
    f.write('NA,alley,12000\n')
    f.write('NA,gang_hood,12000\n')
    f.write('NA,chill_hood,12000\n')



In [2]:
# 读取csv一般用Pandas的库：
import pandas as pd
data = pd.read_csv(data_file)
data

Unnamed: 0,num_rooms,alley,price
0,,,15000
1,2.0,,14000
2,1.0,,13000
3,,alley,12000
4,,gang_hood,12000
5,,chill_hood,12000


In [3]:
import torch
print(torch.__version__)

ModuleNotFoundError: No module named 'torch'

In [20]:
# index location的意思，表示取部分数据。
inputs, outputs = data.iloc[:,0:2], data.iloc[:,2]
inputs, outputs

# 处理缺失数据
# 把缺失数据填入平均值,但是注意这里的取mean操作，只能针对数字型的变量
inputs.iloc[:,0] = inputs.iloc[:,0].fillna(inputs.iloc[:,0].mean())
inputs

Unnamed: 0,num_rooms,alley
0,1.5,
1,2.0,
2,1.0,
3,1.5,alley
4,1.5,gang_hood
5,1.5,chill_hood


In [30]:
# 对于字符类的数据，处理办法可以如下：
# pd.get_dummies(inputs)会把所有的分类值的取值做成一个新的列，如果属于这个分类的行回事True
# 另外一个参数dummy_na=True表示NaN会被单独分到一个新的列中
# 加上astype(int)把数据类型转换成了int类型
inputs = pd.get_dummies(inputs, dummy_na=True).astype(int)
print(inputs)

   num_rooms  alley_alley  alley_chill_hood  alley_gang_hood  alley_nan
0          1            0                 0                0          1
1          2            0                 0                0          1
2          1            0                 0                0          1
3          1            1                 0                0          0
4          1            0                 0                1          0
5          1            0                 1                0          0


In [31]:
import torch
# 数据类型转换：
# 默认的浮点数是64位，但是在深度学习中一般会用32，为了提高效率
inputs = inputs.astype({'num_rooms': 'float'})
print(inputs.values.dtype)

# Pandas数据向torch转换
X, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
X,y

float64


(tensor([[1., 0., 0., 0., 1.],
         [2., 0., 0., 0., 1.],
         [1., 0., 0., 0., 1.],
         [1., 1., 0., 0., 0.],
         [1., 0., 0., 1., 0.],
         [1., 0., 1., 0., 0.]], dtype=torch.float64),
 tensor([15000, 14000, 13000, 12000, 12000, 12000]))