## 练习：
### 创建包含更多行和列的原始数据集。
### 删除缺失值最多的列。
### 将预处理后的数据集转换为张量格式

# 创建更大的数据集：

In [14]:
import os

In [15]:
os.makedirs(os.path.join('..', 'data'), exist_ok=True)
data_file = os.path.join('..', 'data', 'house_tiny.csv')
with open(data_file, 'w') as f:
    f.write('NumRooms,Alley,Price\n')  # 列名
    f.write('NA,Pave,127500\n')  # 每行表示一个数据样本
    f.write('2,NA,106000\n')
    f.write('4,NA,178100\n')
    f.write('NA,NA,140000\n')

In [16]:
import pandas as pd
import numpy as np

data = pd.read_csv(data_file)

# 添加更多的行和列
# 为了演示，我们使用随机数填充新列
additional_data = pd.DataFrame(np.random.rand(10, 5), columns=['A', 'B', 'C', 'D', 'E'])
data = pd.concat([data, additional_data], axis=0)

print(data)

   NumRooms Alley     Price         A         B         C         D         E
0       NaN  Pave  127500.0       NaN       NaN       NaN       NaN       NaN
1       2.0   NaN  106000.0       NaN       NaN       NaN       NaN       NaN
2       4.0   NaN  178100.0       NaN       NaN       NaN       NaN       NaN
3       NaN   NaN  140000.0       NaN       NaN       NaN       NaN       NaN
0       NaN   NaN       NaN  0.794112  0.971615  0.971912  0.196960  0.218427
1       NaN   NaN       NaN  0.149058  0.436776  0.018542  0.773761  0.096223
2       NaN   NaN       NaN  0.312132  0.919810  0.051403  0.760027  0.798478
3       NaN   NaN       NaN  0.842144  0.721521  0.946694  0.849967  0.736572
4       NaN   NaN       NaN  0.125328  0.998212  0.478494  0.063539  0.092507
5       NaN   NaN       NaN  0.724749  0.549715  0.553334  0.388400  0.650917
6       NaN   NaN       NaN  0.085853  0.666890  0.127075  0.230079  0.787188
7       NaN   NaN       NaN  0.262705  0.793772  0.039791  0.574

# 删除缺失值最多的列：

In [19]:
# 计算每列的缺失值数量
missing_counts = data.isnull().sum()

# 找到缺失值最多的列
max_missing = missing_counts.idxmax()

# 删除该列
data = data.drop(max_missing, axis=1)

print(data)

          A         B         C         D         E
0       NaN       NaN       NaN       NaN       NaN
1       NaN       NaN       NaN       NaN       NaN
2       NaN       NaN       NaN       NaN       NaN
3       NaN       NaN       NaN       NaN       NaN
0  0.794112  0.971615  0.971912  0.196960  0.218427
1  0.149058  0.436776  0.018542  0.773761  0.096223
2  0.312132  0.919810  0.051403  0.760027  0.798478
3  0.842144  0.721521  0.946694  0.849967  0.736572
4  0.125328  0.998212  0.478494  0.063539  0.092507
5  0.724749  0.549715  0.553334  0.388400  0.650917
6  0.085853  0.666890  0.127075  0.230079  0.787188
7  0.262705  0.793772  0.039791  0.574616  0.131317
8  0.778198  0.376550  0.239199  0.126734  0.633765
9  0.307880  0.994660  0.796287  0.083348  0.801976


# 将预处理后的数据集转换为张量：

In [22]:
import torch

# 假设所有剩余的数据都是数值型，直接转换为张量
tensor_data = torch.tensor(data.values)

tensor_data

tensor([[   nan,    nan,    nan,    nan,    nan],
        [   nan,    nan,    nan,    nan,    nan],
        [   nan,    nan,    nan,    nan,    nan],
        [   nan,    nan,    nan,    nan,    nan],
        [0.7941, 0.9716, 0.9719, 0.1970, 0.2184],
        [0.1491, 0.4368, 0.0185, 0.7738, 0.0962],
        [0.3121, 0.9198, 0.0514, 0.7600, 0.7985],
        [0.8421, 0.7215, 0.9467, 0.8500, 0.7366],
        [0.1253, 0.9982, 0.4785, 0.0635, 0.0925],
        [0.7247, 0.5497, 0.5533, 0.3884, 0.6509],
        [0.0859, 0.6669, 0.1271, 0.2301, 0.7872],
        [0.2627, 0.7938, 0.0398, 0.5746, 0.1313],
        [0.7782, 0.3766, 0.2392, 0.1267, 0.6338],
        [0.3079, 0.9947, 0.7963, 0.0833, 0.8020]], dtype=torch.float64)