In [3]:
#数据预处理
#1、创建一个人工数据集
import os
os.makedirs(os.path.join('..', 'data_04'), exist_ok=True)  # 在上级目录创建data_04文件夹
datafile = os.path.join('..', 'data_04', 'house_01.csv')  # 创建文件
with open(datafile, 'w') as f:  # 往文件中写数据
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 第1行的值
    f.write('2,NA,106000\n')  # 第2行的值
    f.write('4,NA,178100\n')  # 第3行的值
    f.write('NA,NA,140000\n')  # 第4行的值

#2、加载原始数据集
import pandas as pd
data_01 = pd.read_csv(datafile)  # 可以看到原始表格中的空值NA被识别成了NaN
print('1.原始数据:\n', data_01)

#3、使用均值插入
inputs, outputs = data_01.iloc[:, 0: 2], data_01.iloc[:, 2]
inputs = inputs.fillna(inputs.mean())  # 用均值填充NaN
print(inputs)

# 4、利用pandas中的get_dummies函数来处理离散值或者类别值。
# [对于 inputs 中的类别值或离散值，我们将 “NaN” 视为一个类别。] 由于 “Alley”列只接受两种类型的类别值 “Pave” 和 “NaN”
inputs = pd.get_dummies(inputs, dummy_na=True)
print('利用pandas中的get_dummies函数处理:\n', inputs)

#5、转换为张量
import torch
x, y = torch.tensor(inputs.values), torch.tensor(outputs.values)
print('转换为张量：')
print(x)
print(y)

#一些数据查看操作
data_01.head() #显示前五行数据
data_01.tail() #显示末尾五行数据
data_01.info() #查看各字段的信息
data_01.shape #查看数据集有几行几列,data.shape[0]是行数,data.shape[1]是列数
data_01.describe() #查看数据的大体情况，均值，最值，分位数值...
data_01.columns.tolist()   #得到列名的list

print(data_01.isnull().sum())  #统计每列有几个缺失值

#pandas的fillna()用法1
import numpy as np
import pandas as pd
 
a = np.arange(100,dtype=float).reshape((10,10))
for i in range(len(a)):
    a[i,:i] = np.nan
a[6,0] = 100.0
 
d = pd.DataFrame(data=a)
print(d)

# 用0填补空值
print(d.fillna(value=0))

# 用前一行的值填补空值
print(d.fillna(method='pad',axis=0))

# 用后一列的值填补空值
print(d.fillna(method='backfill', axis=1))

# 连续空值，最多填补3个
print(d.fillna(method='ffill',axis=0, limit=3))

# 每条轴上，最多填补3个
print(d.fillna(value=-1,axis=0, limit=3))

1.原始数据:
    NumRooms Alley   Price
0       NaN  Pave  127500
1       2.0   NaN  106000
2       4.0   NaN  178100
3       NaN   NaN  140000
   NumRooms Alley
0       3.0  Pave
1       2.0   NaN
2       4.0   NaN
3       3.0   NaN
2.利用pandas中的get_dummies函数处理:
    NumRooms  Alley_Pave  Alley_nan
0       3.0           1          0
1       2.0           0          1
2       4.0           0          1
3       3.0           0          1
3.转换为张量：
tensor([[3., 1., 0.],
        [2., 0., 1.],
        [4., 0., 1.],
        [3., 0., 1.]], dtype=torch.float64)
tensor([127500, 106000, 178100, 140000])
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   NumRooms  2 non-null      float64
 1   Alley     1 non-null      object 
 2   Price     4 non-null      int64  
dtypes: float64(1), int64(1), object(1)
memory usage: 224.0+ bytes
NumRooms    2
Alley       3
Price       0
dt

  inputs = inputs.fillna(inputs.mean())  # 用均值填充NaN
