## 1.创建一个csv文件数据集

In [24]:
# 数据处理：创建一个人工数据集
import os

# 1.创建文件夹
# 参数：
#   第一个参数：目录名
#   第二个参数：如果目录名已经存在不会抛出错误
os.makedirs(os.path.join('..', 'data'),exist_ok=True)

# 2.创建csv文件
data_file = os.path.join('..', 'data', 'house_tiny.csv')

with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n') # 列名
    f.write('NA,Pave,127500\n') # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

## 2.读取csv数据集

In [25]:
import pandas as pd
# 根据文件读取数据
data = pd.read_csv(data_file) 

#数据展示
# print(data)
data

Unnamed: 0,NumRooms,Alley,Price
0,,Pave,127500
1,2.0,,106000
2,4.0,,178100
3,,,140000


## 3.数据缺失的处理，典型的方法包括插值和删除，这里采用插值

In [26]:
# inputs:data里所有行的0-1列
# outputs:data里所有行的2列
inputs,outputs = data.iloc[:,0:2],data.iloc[:,2]

# 填充inputs中的残缺值成均值
inputs = inputs.fillna(inputs.mean(numeric_only=True))

print(inputs)

   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN


## 4.对于inputs中的类别值或者离散值，我们可以将NaN视为一个类别

In [28]:
# 
inputs = pd.get_dummies(inputs,dummy_na=True)*1
print(inputs)

   NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1


## 5.现在inputs和outputs中所有条目都是数值类型，都可以转为张量格式

In [29]:
import torch

x,y = torch.tensor(inputs.values),torch.tensor(outputs.values)

x,y

(tensor([[3., 1., 0.],
         [2., 0., 1.],
         [4., 0., 1.],
         [3., 0., 1.]], dtype=torch.float64),
 tensor([127500, 106000, 178100, 140000]))

## 6.转换为Numpy张量

In [31]:
A = x.numpy()
B = torch.tensor(A)
type(A),type(B)

(numpy.ndarray, torch.Tensor)

## 7.大小为1的张量转换为python标量

In [32]:
a = torch.tensor([3.5])
a,a.item(),float(a),int(a)

(tensor([3.5000]), 3.5, 3.5, 3)