In [179]:
import pandas as pd
import numpy as np

# 生成模拟数据
np.random.seed(42)
num_samples = 100

data = {
    '房屋ID': range(1, num_samples+1),
    '地区': np.random.choice(['朝阳', '海淀', '西城', '东城', '丰台', '昌平'], size=num_samples),
    '房龄': np.random.randint(1, 30, size=num_samples),
    '建筑面积': np.random.normal(90, 20, size=num_samples).round(1),
    '卧室数量': np.random.randint(1, 5, size=num_samples),
    '是否有电梯': np.random.choice(['有', '无', np.nan], size=num_samples, p=[0.6, 0.3, 0.1]),
    '楼层': np.random.choice(['低层', '中层', '高层', np.nan], size=num_samples),
    '地铁距离(米)': np.random.randint(200, 3000, size=num_samples),
    '学校评分': np.random.choice([7.0, 8.0, 8.5, 9.0, 9.5, np.nan], size=num_samples),
    '单价(元/平米)': np.random.normal(60000, 15000, size=num_samples).round(0),
    '上次交易日期': pd.to_datetime('2020-01-01') + pd.to_timedelta(np.random.randint(0, 1000, size=num_samples), unit='D')
}

df = pd.DataFrame(data)
# 故意添加一些缺失值和异常值
# 添加缺失值
df.loc[10:15, '建筑面积'] = np.nan
df.loc[20:25, '卧室数量'] = np.nan
df.loc[30:35, '单价(元/平米)'] = np.nan

# 添加一些异常值
df.loc[5, '建筑面积'] = 500  # 异常大的面积
df.loc[6, '房龄'] = 100     # 异常大的房龄
df.loc[7, '单价(元/平米)'] = 1000  # 异常低的单价
df.loc[8, '单价(元/平米)'] = 200000 # 异常高的单价

# 添加一些不一致的数据
df.loc[50:55, '是否有电梯'] = 'Yes'  # 应该是'有'而不是'Yes'
df.loc[60:65, '地区'] = 'Chaoyang'  # 拼音而不是中文

# 添加一些重复数据
df = pd.concat([df, df.sample(5)], ignore_index=True)

print("生成的数据集前5行:")
print(df.head())#生成前5行

# 可以保存到CSV供练习使用
df.to_csv('house_price_raw_data.csv', index=False, encoding='utf-8-sig')

生成的数据集前5行:
   房屋ID  地区  房龄   建筑面积  卧室数量 是否有电梯   楼层  地铁距离(米)  学校评分  单价(元/平米)     上次交易日期
0     1  东城  15  107.0   4.0     有  nan     1565   7.0   55779.0 2022-03-15
1     2  丰台  13   63.8   1.0     有  nan      699   NaN   35030.0 2022-06-12
2     3  西城   1   72.6   1.0     无   高层     1880   7.0   59907.0 2020-05-18
3     4  丰台  25   79.9   4.0     有   中层      710   8.0   66047.0 2021-05-25
4     5  丰台   7   63.8   1.0   nan  nan      416   7.0   76840.0 2022-05-17


In [181]:
# 查看每列缺失值数量和比例
missing_data = df.isnull().sum()#所有缺失值相加
missing_percent = (df.isnull().sum() / len(df)) * 100#百分比
missing_info = pd.concat([missing_data, missing_percent], axis=1, keys=['缺失数量', '缺失比例'])#纵轴是两个
print(missing_info)

          缺失数量       缺失比例
房屋ID         0   0.000000
地区           0   0.000000
房龄           0   0.000000
建筑面积         6   5.714286
卧室数量         6   5.714286
是否有电梯        0   0.000000
楼层           0   0.000000
地铁距离(米)      0   0.000000
学校评分        18  17.142857
单价(元/平米)     8   7.619048
上次交易日期       0   0.000000


In [183]:
#填充用fillan()
# 对建筑面积用中位数填充 median()
median_area = df['建筑面积'].median()
df['建筑面积'] = df['建筑面积'].fillna(median_area)
# 对卧室数量用众数填充 mode()[0]
bedroom_mode = df['卧室数量'].mode()[0]
df['卧室数量'] = df['卧室数量'].fillna(bedroom_mode)

# 对单价用均值填充 mean()
mean_price = df['单价(元/平米)'].mean()
df['单价(元/平米)'] = df['单价(元/平米)'].fillna(mean_price)

In [213]:
# 对是否有电梯用众数填充
elevator_mode = df['是否有电梯'].mode()[0]
df['是否有电梯'] = df['是否有电梯'].fillna(elevator_mode)

# 对楼层用"未知"填充
df['楼层'] = df['楼层'].fillna('未知')

# 对学校评分用中位数填充
school_median = df['学校评分'].median()
df['学校评分'] = df['学校评分'].fillna(school_median)

In [187]:
# 对是否有电梯用众数填充
elevator_mode = df['是否有电梯'].mode()[0]
df['是否有电梯'] = df['是否有电梯'].fillna(elevator_mode)

# 对楼层用"未知"填充
df['楼层'] = df['楼层'].fillna('未知')

# 对学校评分用中位数填充
school_median = df['学校评分'].median()
df['学校评分'] = df['学校评分'].fillna(school_median)

In [189]:
# 定义识别异常值的函数 判断方法用3σ原则 x-μ/σ
#当使用布尔 Series 筛选 DataFrame 时 True：保留该行 False：过滤掉该行
def detect_outliers(series, threshold=2.5):
    z_scores = (series - series.mean()) / series.std()
    return np.abs(z_scores) > threshold

In [191]:
# 检查建筑面积异常值
area_outliers = detect_outliers(df['建筑面积'])
print("建筑面积异常值:\n", df[area_outliers]['建筑面积'])

# 检查房龄异常值
age_outliers = detect_outliers(df['房龄'])
print("房龄异常值:\n", df[age_outliers]['房龄'])

# 检查单价异常值
price_outliers = detect_outliers(df['单价(元/平米)'])
print("单价异常值:\n", df[price_outliers]['单价(元/平米)'])

建筑面积异常值:
 5    500.0
Name: 建筑面积, dtype: float64
房龄异常值:
 6    100
Name: 房龄, dtype: int32
单价异常值:
 7      1000.0
8    200000.0
Name: 单价(元/平米), dtype: float64


In [193]:
# 方法1: 用上下限替换异常值
def cap_outliers(series, threshold=2.5):
    mean = series.mean()#计算均值
    std = series.std()#计算标准差
    upper = mean + threshold * std#计算上限μ+3σ
    lower = mean - threshold * std#计算下限μ-3σ
    return series.clip(lower, upper) # 将超出上下限的值替换为边界值进行 裁剪小于lower的变为lower 大于upper的变为upper

df['建筑面积'] = cap_outliers(df['建筑面积'])
df['房龄'] = cap_outliers(df['房龄'])
df['单价(元/平米)'] = cap_outliers(df['单价(元/平米)'])

# 方法2: 删除异常值行
# df = df[~area_outliers]
# df = df[~age_outliers]
# df = df[~price_outliers]

In [195]:
#统一英文转为汉字
df['是否有电梯'] = df['是否有电梯'].replace({'Yes': '有', 'yes': '有', 'No': '无', 'no': '无'})
df['是否有电梯'] = df['是否有电梯'].str.replace(' ', '')  # 去除空格
df['地区'] = df['地区'].replace({
    'Chaoyang': '朝阳',
    'Haidian': '海淀',
    'Xicheng': '西城',
    'Dongcheng': '东城',
    'Fengtai': '丰台',
    'Changping': '昌平'
})

In [197]:
# 检查完全重复的行
duplicates = df[df.duplicated(keep=False)]
#默认 keep='first'：标记除第一次出现外的重复行。
#keep=False：标记所有重复行（包括第一次出现的行）
#是一个用于标识数据帧中重复行的方法。它返回一个布尔序列，指示每一行是否为重复行
print("重复行:\n", duplicates)

重复行:
      房屋ID  地区    房龄   建筑面积  卧室数量 是否有电梯   楼层  地铁距离(米)  学校评分      单价(元/平米)  \
2       3  西城   1.0   72.6   1.0     无   高层     1880   7.0  59907.000000   
31     32  海淀  16.0  118.0   4.0     有  nan      389   8.0  58843.731959   
33     34  东城  23.0   94.3   4.0     有   高层     1414   8.5  58843.731959   
48     49  朝阳   1.0  115.0   2.0     有  nan      402   9.0  44081.000000   
68     69  海淀   5.0  101.3   4.0     有   低层     1231   9.5  60415.000000   
100    49  朝阳   1.0  115.0   2.0     有  nan      402   9.0  44081.000000   
101    34  东城  23.0   94.3   4.0     有   高层     1414   8.5  58843.731959   
102     3  西城   1.0   72.6   1.0     无   高层     1880   7.0  59907.000000   
103    32  海淀  16.0  118.0   4.0     有  nan      389   8.0  58843.731959   
104    69  海淀   5.0  101.3   4.0     有   低层     1231   9.5  60415.000000   

        上次交易日期  
2   2020-05-18  
31  2021-08-28  
33  2022-03-27  
48  2021-05-27  
68  2020-03-18  
100 2021-05-27  
101 2022-03-27  
102 2020-05-18  
103 

In [199]:
# 删除重复行，保留第一个出现的
df = df.drop_duplicates(keep='first')

# 检查基于关键列的重复(如房屋ID)
df = df.drop_duplicates(subset=['房屋ID'], keep='first')

In [201]:
# 转换卧室数量为整数
df['卧室数量'] = df['卧室数量'].astype(int)
pd.to_datetime(df['上次交易日期'])#将该列转换为 Datetime 类型
# 处理日期列  year quater month dayofweek
df['上次交易日期'] = pd.to_datetime(df['上次交易日期'])
df['交易年份'] = df['上次交易日期'].dt.year
df['交易季度'] = df['上次交易日期'].dt.quarter
# 已在上一步添加了年份和季度
df['交易月份'] = df['上次交易日期'].dt.month
df['交易星期'] = df['上次交易日期'].dt.dayofweek  # 周一=0, 周日=6

In [203]:
#编码方式	优点	                  缺点	              适用场景
#One-Hot	无顺序假设，信息保留完整	 维度膨胀（类别多时）	 无序分类（如城市）
#有序编码	保留顺序关系，维度不变	 需手动定义映射规则	 有序分类（如楼层）
#二进制编码	简洁，直接转换为 0/1	     仅适用于二分类	     是否类变量（如电梯）

In [205]:
# 对地区进行one-hot编码 将地区列中的每个类别转换为“独立”的二进制列
df = pd.get_dummies(df, columns=['地区'], prefix='地区')

# 对楼层进行有序编码
floor_mapping = {'低层': 1, '中层': 2, '高层': 3, '未知': 2}
df['楼层编码'] = df['楼层'].map(floor_mapping)

# 对是否有电梯进行二进制编码
df['是否有电梯'] = df['是否有电梯'].map({'有': 1, '无': 0})

In [207]:
#创建新变量
# 计算总价 .round(2)为保留两位小数
df['总价(万元)'] = (df['建筑面积'] * df['单价(元/平米)'] / 10000).round(2)

# 创建房龄分段
#定义分段边界：bins 指定区间分割点（左开右闭）
#定义标签：labels 对应每个区间的文字描述
#pd.cut() 将连续房龄值映射到分段  将一维连续数据划分为离散的区间（分箱），每个区间用一个标签表示。
bins = [0, 5, 10, 20, 30, 100]
labels = ['0-5年', '6-10年', '11-20年', '21-30年', '30年以上']
df['房龄分段'] = pd.cut(df['房龄'], bins=bins, labels=labels)

# 创建地铁距离分段
bins=[0, 500, 1000, 1500, 2000, 3000]
labels=['0-500m', '501-1000m', '1001-1500m', '1501-2000m', '2001-3000m']
df['地铁距离分段'] = pd.cut(df['地铁距离(米)'],bins=bins,labels=labels)

In [209]:
# 检查清洗后的数据
print(df.info())
print(df.describe())

<class 'pandas.core.frame.DataFrame'>
Index: 100 entries, 0 to 99
Data columns (total 24 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   房屋ID      100 non-null    int64         
 1   房龄        100 non-null    float64       
 2   建筑面积      100 non-null    float64       
 3   卧室数量      100 non-null    int32         
 4   是否有电梯     90 non-null     float64       
 5   楼层        100 non-null    object        
 6   地铁距离(米)   100 non-null    int32         
 7   学校评分      100 non-null    float64       
 8   单价(元/平米)  100 non-null    float64       
 9   上次交易日期    100 non-null    datetime64[ns]
 10  交易年份      100 non-null    int32         
 11  交易季度      100 non-null    int32         
 12  交易月份      100 non-null    int32         
 13  交易星期      100 non-null    int32         
 14  地区_东城     100 non-null    bool          
 15  地区_丰台     100 non-null    bool          
 16  地区_昌平     100 non-null    bool          
 17  地区_朝阳     100 non-null

In [211]:
# 保存清洗后的数据
df.to_csv('house_price_cleaned.csv', index=False, encoding='utf-8-sig')