In [2]:
import torch
import os
import pandas as pd

# 1.读取数据集

In [14]:
os.makedirs(os.path.join('..','data'),exist_ok=True)
data_file=os.path.join('..','data','test_house.csv')
# 写数据集
with open(data_file,'w') as f:
    f.write('numRooms,Alley,Price\n')
    f.write(',Pave,123324\n')
    f.write('2,,10600\n')
    f.write('3,Pave,353453\n')
    f.write('4,,123342\n')
    f.write('1,,123342\n')

In [23]:
#读数据集
data=pd.read_csv(data_file)
# 删除numRooms 为空的行数据
data=data.dropna(subset=['numRooms'])
print(data)

   numRooms Alley   Price
1       2.0   NaN   10600
2       3.0  Pave  353453
3       4.0   NaN  123342
4       1.0   NaN  123342


# 2.处理缺失值

In [24]:
# 处理缺失值,典型的方法包括插值法和删除法， 其中插值法用一个替代值弥补缺失值，而删除法则直接忽略缺失值.
# 通过位置缩影iloc，将data分为inputs和outpus
inputs,outputs=data.iloc[:,0:2],data.iloc[:,2]
print(inputs)

   numRooms Alley
1       2.0   NaN
2       3.0  Pave
3       4.0   NaN
4       1.0   NaN


In [25]:
# 对于inputs中的类别值或离散值，我们将“NaN”视为一个类别。
# 由于“巷子类型”（“Alley”）列只接受两种类型的类别值“Pave”和“NaN”
# ， pandas可以自动将此列转换为两列“Alley_Pave”和“Alley_nan”。 
# 巷子类型为“Pave”的行会将“Alley_Pave”的值设置为1，“Alley_nan”的值
# 设置为0。 

# 将输入中的分类变量转换为哑变量（或称为“独热编码”），并为缺失值（NaN）创建单独的列。
inputs=pd.get_dummies(inputs,dummy_na=True)
print(inputs)

   numRooms  Alley_Pave  Alley_nan
1       2.0           0          1
2       3.0           1          0
3       4.0           0          1
4       1.0           0          1


# 3.转为张量格式

In [27]:
X=torch.tensor(inputs.to_numpy(dtype=float))
Y=torch.tensor(outputs.to_numpy(dtype=float))
print(X)
print(Y)

tensor([[2., 0., 1.],
        [3., 1., 0.],
        [4., 0., 1.],
        [1., 0., 1.]], dtype=torch.float64)
tensor([ 10600., 353453., 123342., 123342.], dtype=torch.float64)


# 4.练习

### 1.删除缺失值最多的列

In [38]:
data_file2=os.path.join('..','data','test_house.csv')
dataset=pd.read_csv(data_file2)
print(dataset)
nan_counts=dataset.isnull().sum()
print(nan_counts)
column_most_missing_index=nan_counts.idxmax()
print(column_most_missing_index)
dataset=dataset.drop(columns=[column_most_missing_index])
print(dataset)

   numRooms Alley   Price
0       NaN  Pave  123324
1       2.0   NaN   10600
2       3.0  Pave  353453
3       4.0   NaN  123342
4       1.0   NaN  123342
numRooms    1
Alley       3
Price       0
dtype: int64
Alley
   numRooms   Price
0       NaN  123324
1       2.0   10600
2       3.0  353453
3       4.0  123342
4       1.0  123342
