In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

def load_data():
    # 加载数据
    train = pd.read_csv("train.csv")
    details = pd.read_csv("details.csv")
    rent = pd.read_csv("rent.csv")
    test= pd.read_csv("test.csv")
    
    return train, details, test

def analyze_train_data(train):
    print("=" * 50)
    print("训练集基本信息：")
    print(f"训练集行数: {train.shape[0]}, 列数: {train.shape[1]}")
    
    # 基本描述性统计
    print("\n训练集数值型特征描述性统计：")
    print(train.describe().T)
    
    # 非数值列的缺失值情况
    print("\n训练集列缺失值情况：")
    missing_values = train.isnull().sum()
    missing_percent = (missing_values / len(train)) * 100
    missing_df = pd.DataFrame({
        '缺失值数量': missing_values,
        '缺失比例(%)': missing_percent.round(2)
    })
    print(missing_df[missing_df['缺失值数量'] > 0].sort_values('缺失比例(%)', ascending=False))
    
    # 城市、区域、板块的分布
    print("\n城市分布：")
    print(train['城市'].value_counts())
    
    print("\n区域分布：")
    print(train['区域'].value_counts().head(10))
    
    print("\n板块分布：")
    print(train['板块'].value_counts().head(10))
    
    # 分析价格分布
    print("\n价格基本统计量：")
    price_stats = train['价格'].describe()
    print(price_stats)
    
    # 分析楼层情况
    if '所在楼层' in train.columns:
        print("\n所在楼层示例：")
        print(train['所在楼层'].value_counts().head(10))
    
    # 分析装修情况
    if '装修情况' in train.columns:
        print("\n装修情况分布：")
        print(train['装修情况'].value_counts())
    
    # 分析房屋朝向
    if '房屋朝向' in train.columns:
        print("\n房屋朝向分布：")
        print(train['房屋朝向'].value_counts().head(10))
    
    # 分析房屋户型
    if '房屋户型' in train.columns:
        print("\n房屋户型分布：")
        print(train['房屋户型'].value_counts().head(10))
    
    # 分析环线
    if '环线' in train.columns:
        print("\n环线分布：")
        print(train['环线'].value_counts())
    
    # 分析交易权属
    if '交易权属' in train.columns:
        print("\n交易权属分布：")
        print(train['交易权属'].value_counts())
    
    # 分析房屋用途
    if '房屋用途' in train.columns:
        print("\n房屋用途分布：")
        print(train['房屋用途'].value_counts())
    
    # 分析建筑结构
    if '建筑结构' in train.columns:
        print("\n建筑结构分布：")
        print(train['建筑结构'].value_counts())
    
    # 分析电梯情况
    if '配备电梯' in train.columns:
        print("\n配备电梯分布：")
        print(train['配备电梯'].value_counts())
    
    # 分析梯户比例
    if '梯户比例' in train.columns:
        print("\n梯户比例示例：")
        print(train['梯户比例'].value_counts().head(10))
    
    return

def analyze_details_data(details):
    print("=" * 50)
    print("小区详情基本信息：")
    print(f"小区详情行数: {details.shape[0]}, 列数: {details.shape[1]}")
    
    # 基本描述性统计
    print("\n小区详情数值型特征描述性统计：")
    print(details.describe().T)
    
    # 非数值列的缺失值情况
    print("\n小区详情列缺失值情况：")
    missing_values = details.isnull().sum()
    missing_percent = (missing_values / len(details)) * 100
    missing_df = pd.DataFrame({
        '缺失值数量': missing_values,
        '缺失比例(%)': missing_percent.round(2)
    })
    print(missing_df[missing_df['缺失值数量'] > 0].sort_values('缺失比例(%)', ascending=False))
    
    # 分析建筑年代
    if '建筑年代' in details.columns:
        print("\n建筑年代分布：")
        print(details['建筑年代'].describe())
        print(details['建筑年代'].value_counts().head(10))
    
    # 分析物业类别
    if '物业类别' in details.columns:
        print("\n物业类别分布：")
        print(details['物业类别'].value_counts())
    
    # 分析绿化率
    if '绿 化 率' in details.columns:
        print("\n绿化率分布：")
        print(details['绿 化 率'].describe())
    
    # 分析容积率
    if '容 积 率' in details.columns:
        print("\n容积率分布：")
        print(details['容 积 率'].describe())
    
    # 分析物业费
    if '物 业 费' in details.columns:
        print("\n物业费分布：")
        print(details['物 业 费'].describe())
    
    # 分析供暖
    if '供暖' in details.columns:
        print("\n供暖分布：")
        print(details['供暖'].value_counts())
    
    # 分析停车位
    if '停车位' in details.columns:
        print("\n停车位分布：")
        print(details['停车位'].describe())
    
    return

def analyze_merged_data(train, details):
    print("=" * 50)
    print("合并数据分析：")
    
    # 合并数据
    merged = pd.merge(
        train,
        details,
        left_on=['小区名称', '区域', '城市'],
        right_on=['名称', '区县', '城市'],
        how='left',
        suffixes=('', '_detail')
    )
    
    print(f"合并后行数: {merged.shape[0]}, 列数: {merged.shape[1]}")
    
    # 检查合并后的匹配情况
    print("\n合并匹配情况：")
    match_percent = (merged['名称'].notnull().sum() / len(merged)) * 100
    print(f"匹配成功率: {match_percent:.2f}%")
    
    # 分析合并后可能有用的特征
    if '建筑年代' in merged.columns:
        print("\n建筑年代与价格关系：")
        # 计算建筑年代的分组平均价格
        age_price = merged.groupby('建筑年代')['价格'].agg(['mean', 'count']).reset_index()
        age_price = age_price.sort_values('建筑年代')
        age_price.columns = ['建筑年代', '平均价格', '数量']
        print(age_price.head(10))
    
    # 分析容积率与价格的关系
    if '容 积 率' in merged.columns:
        print("\n容积率与价格关系：")
        # 创建容积率区间
        merged['容积率区间'] = pd.cut(merged['容 积 率'], bins=[0, 1, 2, 3, 4, float('inf')], labels=['0-1', '1-2', '2-3', '3-4', '4+'])
        volume_price = merged.groupby('容积率区间')['价格'].agg(['mean', 'count']).reset_index()
        volume_price.columns = ['容积率区间', '平均价格', '数量']
        print(volume_price)
    
    # 分析物业类别与价格的关系
    if '物业类别' in merged.columns:
        print("\n物业类别与价格关系：")
        property_price = merged.groupby('物业类别')['价格'].agg(['mean', 'count']).reset_index()
        property_price = property_price.sort_values('mean', ascending=False)
        property_price.columns = ['物业类别', '平均价格', '数量']
        print(property_price)
    
    return merged

def main():
    # 加载数据
    train, details, test = load_data()
    
    # 分析训练集
    analyze_train_data(train)
    
    # 分析小区详情
    analyze_details_data(details)
    
    # 分析合并后的数据
    merged = analyze_merged_data(train, details)
    
    print("\n分析完成!")
    return train, details, merged

if __name__ == "__main__":
    train, details, merged = main()

训练集基本信息：
训练集行数: 84133, 列数: 31

训练集数值型特征描述性统计：
        count          mean           std           min            25%  \
城市    84133.0  2.894845e+00  2.146294e+00      0.000000       1.000000   
区域    84133.0  5.440079e+01  2.787097e+01      2.000000      35.000000   
板块    84133.0  4.344203e+02  2.254875e+02      0.000000     244.000000   
价格    84133.0  1.971953e+06  2.639962e+06  78280.000000  697400.000000   
抵押信息      0.0           NaN           NaN           NaN            NaN   
lon   84133.0  1.133685e+02  6.714156e+00    106.197420     106.581097   
lat   84133.0  3.524738e+01  5.582976e+00     29.258156      29.675878   
年份    84133.0  2.021071e+03  8.828583e-01   2015.000000    2021.000000   

               50%           75%           max  
城市    2.000000e+00  5.000000e+00  6.000000e+00  
区域    5.900000e+01  7.400000e+01  1.020000e+02  
板块    4.350000e+02  6.280000e+02  8.100000e+02  
价格    1.146500e+06  2.176000e+06  7.995000e+07  
抵押信息           NaN           NaN          

In [3]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from sklearn.impute import SimpleImputer

def clean_numeric_column(df, col):
    """统一数值列清洗函数"""
    if col in df.columns:
        # 移除非数字字符（保留小数点和数字）
        df[col] = df[col].astype(str).str.replace(r'[^0-9.]', '', regex=True)
        # 转换为数值类型并排除无效值
        df[col] = pd.to_numeric(df[col], errors='coerce')
        # 填充极端异常值（超过3倍标准差视为异常）
        mean_val = df[col].mean()
        std_val = df[col].std()
        upper_bound = mean_val + 3 * std_val
        lower_bound = mean_val - 3 * std_val
        df[col] = np.where(
            (df[col] > upper_bound) | (df[col] < lower_bound),
            mean_val,
            df[col]
        )
    return df

def extract_year(year_str):
    """从建筑年代字符串中提取年份"""
    if pd.isna(year_str):
        return np.nan
    
    # 尝试提取数字部分
    import re
    match = re.search(r'(\d{4})', str(year_str))
    if match:
        return int(match.group(1))
    
    return np.nan

def get_floor_info(floor_str):
    """从楼层信息中提取楼层和总楼层"""
    if pd.isna(floor_str):
        return np.nan, np.nan, "未知"
    
    floor_str = str(floor_str)
    
    # 提取总楼层
    import re
    total_floor_match = re.search(r'共(\d+)层', floor_str)
    total_floor = int(total_floor_match.group(1)) if total_floor_match else np.nan
    
    # 提取楼层类型
    floor_type = "未知"
    if "高楼层" in floor_str:
        floor_type = "高楼层"
        relative_floor = 0.85 if total_floor else np.nan
    elif "中楼层" in floor_str:
        floor_type = "中楼层"
        relative_floor = 0.5 if total_floor else np.nan
    elif "低楼层" in floor_str:
        floor_type = "低楼层"
        relative_floor = 0.15 if total_floor else np.nan
    else:
        # 尝试直接提取楼层数字
        floor_match = re.search(r'^(\d+)/', floor_str)
        if floor_match and total_floor:
            current_floor = int(floor_match.group(1))
            relative_floor = current_floor / total_floor
        else:
            relative_floor = np.nan
    
    return relative_floor, total_floor, floor_type

def load_data():
    # 加载数据
    train = pd.read_csv('train.csv')
    details = pd.read_csv('details.csv')
    test = pd.read_csv('test.csv')

    # 合并数据
    train = pd.merge(
        train,
        details,
        left_on=['小区名称', '区域', '城市'],
        right_on=['名称', '区县', '城市'],
        how='left',
        suffixes=('', '_detail')
    ).drop(columns=['名称', '区县', '城市_detail'], errors='ignore')
    
    test = pd.merge(
        test,
        details,
        left_on=['小区名称', '区域', '城市'],
        right_on=['名称', '区县', '城市'],
        how='left',
        suffixes=('', '_detail')
    ).drop(columns=['名称', '区县', '城市_detail'], errors='ignore')
    
    return train, test

def feature_engineering(df):
    """增强的特征工程函数"""
    # 确保关键字段存在
    required_columns = ['所在楼层', '建筑面积', '建筑年代', '装修情况', '房屋朝向', '房屋户型', '环线', '交易权属', '房屋用途', '建筑结构', '配备电梯', '梯户比例']
    for col in required_columns:
        if col not in df.columns:
            df[col] = np.nan  # 填充空值防止后续报错
    
    # ==== 1. 区域相关特征 ====
    # 城市、区域、板块是重要分类特征，直接保留
    if '城市' in df.columns:
        df['城市'] = df['城市'].fillna(-1).astype('category')
    
    if '区域' in df.columns:
        df['区域'] = df['区域'].fillna(-1).astype('category')
        
        # 根据数据分析，创建高价值区域标记
        high_value_districts = [93.0, 65.0, 45.0, 59.0, 53.0]  # 前5大区域
        df['高价值区域'] = df['区域'].isin(high_value_districts).astype(int)
    
    if '板块' in df.columns:
        df['板块'] = df['板块'].fillna(-1).astype('category')
        
        # 根据数据分析，创建热门板块标记
        hot_areas = [407.0, 250.0, 597.0, 438.0, 674.0]  # 前5大板块
        df['热门板块'] = df['板块'].isin(hot_areas).astype(int)
    
    # ==== 2. 面积相关特征 ====
    # 建筑面积处理
    df = clean_numeric_column(df, '建筑面积')
    
    if '建筑面积' in df.columns and pd.api.types.is_numeric_dtype(df['建筑面积']):
        # 对数变换(对高度偏斜的价格数据很有用)
        df['建筑面积_对数'] = np.log1p(df['建筑面积'])
        
        # 面积分段(基于数据分布创建分段)
        area_bins = [0, 50, 70, 90, 110, 130, 150, 200, 300, float('inf')]
        area_labels = ['极小', '小户型', '中小户型', '中户型', '中大户型', '大户型', '超大户型', '豪宅', '别墅级']
        df['面积等级'] = pd.cut(df['建筑面积'], bins=area_bins, labels=area_labels)
    
    # 如果有套内面积，计算公摊比例
    if '套内面积' in df.columns and '建筑面积' in df.columns:
        df = clean_numeric_column(df, '套内面积')
        # 计算公摊比例
        df['公摊比例'] = np.where(
            (df['建筑面积'] > 0) & (df['套内面积'] > 0),
            1 - (df['套内面积'] / df['建筑面积']),
            np.nan
        )
        # 填充缺失值为平均水平
        df['公摊比例'] = df['公摊比例'].fillna(0.2)  # 一般公摊比例约为20%
    
    # ==== 3. 楼层特征 ====
    if '所在楼层' in df.columns:
        # 提取楼层信息
        floor_info = df['所在楼层'].apply(lambda x: pd.Series(get_floor_info(x), index=['相对楼层', '总楼层', '楼层类型']))
        df = pd.concat([df, floor_info], axis=1)
        
        # 填充缺失值
        df['总楼层'] = df['总楼层'].fillna(df['总楼层'].median())
        df['相对楼层'] = df['相对楼层'].fillna(0.5)  # 默认中楼层
        
        # 创建高层建筑标记
        df['高层建筑'] = (df['总楼层'] > 12).astype(int)
        
        # 创建顶层标记(相对楼层接近1)
        df['顶层'] = (df['相对楼层'] > 0.8).astype(int)
        
        # 创建底层标记
        df['底层'] = (df['相对楼层'] < 0.2).astype(int)
    
    # ==== 4. 建筑年代特征 ====
    if '建筑年代' in df.columns:
        # 提取年份数字
        df['建筑年份'] = df['建筑年代'].apply(extract_year)
        
        # 计算房龄
        current_year = 2025  # 当前年份
        df['房龄'] = current_year - df['建筑年份']
        
        # 处理极端值和缺失值
        df['房龄'] = df['房龄'].clip(lower=0, upper=100)
        df['房龄'] = df['房龄'].fillna(df['房龄'].median())
        
        # 创建房龄分段
        df['新房'] = (df['房龄'] <= 5).astype(int)
        df['次新房'] = ((df['房龄'] > 5) & (df['房龄'] <= 15)).astype(int)
        df['老房'] = (df['房龄'] > 15).astype(int)
    
    # ==== 5. 装修情况特征 ====
    if '装修情况' in df.columns:
        df['装修情况'] = df['装修情况'].fillna('未知')
        
        # 创建装修等级
        def classify_decoration(dec):
            if pd.isna(dec) or dec == '未知':
                return '未知'
            elif '精装' in dec or '豪装' in dec or '豪华' in dec:
                return '高级装修'
            elif '简装' in dec or '中装' in dec:
                return '中级装修'
            elif '毛坯' in dec:
                return '毛坯'
            else:
                return '其他装修'
        
        df['装修等级'] = df['装修情况'].apply(classify_decoration)
        
        # 装修等级的数值映射(用于计算)
        decoration_map = {
            '高级装修': 1.0, 
            '中级装修': 0.6, 
            '其他装修': 0.4, 
            '毛坯': 0.2, 
            '未知': 0.5
        }
        df['装修分'] = df['装修等级'].map(decoration_map)
    
    # ==== 6. 朝向特征 ====
    if '房屋朝向' in df.columns:
        df['房屋朝向'] = df['房屋朝向'].fillna('未知')
        
        # 南北通透标记
        df['南北通透'] = df['房屋朝向'].str.contains('南.*北|北.*南', na=False).astype(int)
        
        # 朝南标记(最受欢迎的朝向)
        df['朝南'] = df['房屋朝向'].str.contains('南', na=False).astype(int)
        
        # 全朝南(仅朝南，没有其他朝向)
        df['全朝南'] = ((df['房屋朝向'] == '南') | (df['房屋朝向'].str.count(' ') == 0 & df['房屋朝向'].str.contains('南'))).astype(int)
        
        # 朝东标记
        df['朝东'] = df['房屋朝向'].str.contains('东', na=False).astype(int)
        
        # 朝西标记
        df['朝西'] = df['房屋朝向'].str.contains('西', na=False).astype(int)
        
        # 朝北标记(通常较不受欢迎)
        df['朝北'] = df['房屋朝向'].str.contains('北', na=False).astype(int) & ~df['南北通透'].astype(bool)
    
    # ==== 7. 户型特征 ====
    if '房屋户型' in df.columns:
        df['房屋户型'] = df['房屋户型'].fillna('未知')
        
        # 提取卧室数量
        df['卧室数量'] = df['房屋户型'].str.extract(r'(\d+)室').astype(float)
        df['卧室数量'] = df['卧室数量'].fillna(2)  # 设置默认值为2
        
        # 提取客厅数量
        df['客厅数量'] = df['房屋户型'].str.extract(r'(\d+)厅').astype(float)
        df['客厅数量'] = df['客厅数量'].fillna(1)  # 设置默认值为1
        
        # 提取厨房数量
        df['厨房数量'] = df['房屋户型'].str.extract(r'(\d+)厨').astype(float)
        df['厨房数量'] = df['厨房数量'].fillna(1)  # 设置默认值为1
        
        # 提取卫生间数量
        df['卫生间数量'] = df['房屋户型'].str.extract(r'(\d+)卫').astype(float)
        df['卫生间数量'] = df['卫生间数量'].fillna(1)  # 设置默认值为1
        
        # 计算房间总数
        df['房间总数'] = df['卧室数量'] + df['客厅数量'] + df['厨房数量'] + df['卫生间数量']
        
        # 户型结构合理性指标
        df['卧卫比'] = df['卧室数量'] / df['卫生间数量']
        df['卧卫比'] = df['卧卫比'].replace([np.inf, -np.inf], 2)  # 处理除零情况
        
        # 主流户型标记(根据数据分析，2室1厅、3室2厅、2室2厅是主流户型)
        popular_types = ['2室1厅1厨1卫', '3室2厅1厨2卫', '2室2厅1厨1卫', '1室1厅1厨1卫', '3室2厅1厨1卫']
        df['主流户型'] = df['房屋户型'].isin(popular_types).astype(int)
        
        # 大户型标记(3室以上)
        df['大户型'] = (df['卧室数量'] >= 3).astype(int)
        
        # 小户型标记(1室)
        df['小户型'] = (df['卧室数量'] <= 1).astype(int)
    
    # ==== 8. 环线特征 ====
    if '环线' in df.columns:
        df['环线'] = df['环线'].fillna('未知')
        
        # 提取环线数字
        def extract_ring_number(ring_text):
            if pd.isna(ring_text) or ring_text == '未知':
                return 5  # 默认值
            
            # 中文数字映射
            cn_nums = {'一': 1, '二': 2, '三': 3, '四': 4, '五': 5, '六': 6, '七': 7, '八': 8, '九': 9}
            
            for cn, num in cn_nums.items():
                if cn in ring_text:
                    return num
            
            # 匹配阿拉伯数字
            import re
            match = re.search(r'(\d+)', ring_text)
            if match:
                return int(match.group(1))
            
            # 特殊情况处理
            if '内环内' in ring_text:
                return 0
            elif '外环外' in ring_text:
                return 10
            
            return 5  # 默认值
        
        df['环线数值'] = df['环线'].apply(extract_ring_number)
        
        # 核心区域标记(内环内、一环内等)
        core_rings = ['内环内', '一环内', '二环内']
        df['核心区域'] = df['环线'].isin(core_rings).astype(int)
        
        # 远郊区域标记
        far_rings = ['六环外', '外环外']
        df['远郊区域'] = df['环线'].isin(far_rings).astype(int)
    
    # ==== 9. 交易权属特征 ====
    if '交易权属' in df.columns:
        df['交易权属'] = df['交易权属'].fillna('未知')
        
        # 商品房标记(流通性最好)
        df['商品房'] = df['交易权属'].str.contains('商品房', na=False).astype(int)
        
        # 公房标记(可能价格较低)
        df['公房'] = df['交易权属'].str.contains('公房|房改', na=False).astype(int)
        
        # 政策房标记(经济适用房等，价格可能较低)
        df['政策房'] = df['交易权属'].str.contains('经济适用房|限价|安置', na=False).astype(int)
    
    # ==== 10. 房屋用途特征 ====
    if '房屋用途' in df.columns:
        df['房屋用途'] = df['房屋用途'].fillna('未知')
        
        # 普通住宅标记(可能享受税收优惠)
        df['普通住宅'] = df['房屋用途'].str.contains('普通住宅', na=False).astype(int)
        
        # 商用标记
        df['商用'] = df['房屋用途'].str.contains('商业|办公|写字楼', na=False).astype(int)
        
        # 商住两用标记
        df['商住两用'] = df['房屋用途'].str.contains('商住两用', na=False).astype(int)
        
        # 别墅标记
        df['别墅'] = df['房屋用途'].str.contains('别墅', na=False).astype(int)
    
    # ==== 11. 建筑结构特征 ====
    if '建筑结构' in df.columns:
        df['建筑结构'] = df['建筑结构'].fillna('未知')
        
        # 钢混结构标记(最坚固耐用的结构)
        df['钢混'] = df['建筑结构'].str.contains('钢混', na=False).astype(int)
        
        # 砖混结构标记
        df['砖混'] = df['建筑结构'].str.contains('砖混', na=False).astype(int)
        
        # 框架结构标记
        df['框架'] = df['建筑结构'].str.contains('框架', na=False).astype(int)
    
    # ==== 12. 电梯特征 ====
    if '配备电梯' in df.columns:
        df['配备电梯'] = df['配备电梯'].fillna('未知')
        
        # 有电梯标记
        df['有电梯'] = (df['配备电梯'] == '有').astype(int)
        
        # 高层无电梯(不便因素)
        if '总楼层' in df.columns:
            df['高层无电梯'] = ((df['总楼层'] > 6) & (df['有电梯'] == 0)).astype(int)
    
    # ==== 13. 梯户比例特征 ====
    if '梯户比例' in df.columns:
        # 提取电梯数和户数
        df['电梯数'] = df['梯户比例'].str.extract(r'(\d+)梯').astype(float)
        df['户数'] = df['梯户比例'].str.extract(r'梯(\d+)户').astype(float)
        
        # 计算每户专享的电梯比例
        df['梯户比'] = df['电梯数'] / df['户数']
        df['梯户比'] = df['梯户比'].fillna(0.5)  # 默认值
        
        # 电梯充足标记
        df['电梯充足'] = (df['梯户比'] >= 0.5).astype(int)
    
    # ==== 14. 容积率特征 ====
    if '容 积 率' in df.columns:
        df = clean_numeric_column(df, '容 积 率')
        
        # 低容积率(居住环境好)
        df['低容积率'] = (df['容 积 率'] < 1.5).astype(int)
        
        # 高容积率(居住密度大)
        df['高容积率'] = (df['容 积 率'] > 3.0).astype(int)
    
    # ==== 15. 绿化率特征 ====
    if '绿 化 率' in df.columns:
        # 提取绿化率百分比
        df['绿化率'] = df['绿 化 率'].str.extract(r'(\d+)').astype(float) / 100
        df['绿化率'] = df['绿化率'].fillna(0.3)  # 默认30%
        
        # 高绿化率标记
        df['高绿化率'] = (df['绿化率'] > 0.35).astype(int)
    
    # ==== 16. 物业费特征 ====
    if '物 业 费' in df.columns:
        # 提取物业费数值
        df['物业费'] = df['物 业 费'].str.extract(r'([\d\.]+)').astype(float)
        df['物业费'] = df['物业费'].fillna(df['物业费'].median())
        
        # 高物业费标记(通常意味着更好的物业服务)
        df['高物业费'] = (df['物业费'] > df['物业费'].median()).astype(int)
    
    # ==== 17. 供暖方式特征 ====
    if '供暖' in df.columns:
        df['供暖'] = df['供暖'].fillna('未知')
        
        # 集中供暖标记
        df['集中供暖'] = df['供暖'].str.contains('集中供暖', na=False).astype(int)
    
    # ==== 18. 停车位特征 ====
    if '停车位' in df.columns:
        df = clean_numeric_column(df, '停车位')
        
        # 停车位充足标记
        if '房间总数' in df.columns:
            df['停车比'] = df['停车位'] / df['房间总数']
            df['停车充足'] = (df['停车比'] > 0.5).astype(int)
    
    # ==== 19. 物业类别特征 ====
    if '物业类别' in df.columns:
        df['物业类别'] = df['物业类别'].fillna('未知')
        
        # 纯住宅标记
        df['纯住宅'] = df['物业类别'].str.contains('普通住宅$', na=False).astype(int)
        
        # 综合体标记(住宅混合其他业态)
        df['综合体'] = (~df['物业类别'].str.contains('普通住宅$', na=False) & df['物业类别'].str.contains('普通住宅', na=False)).astype(int)
    
    # ==== 20. 复合特征和交互项 ====
    
    # 户型与装修的交互
    if '大户型' in df.columns and '装修分' in df.columns:
        df['大户型豪装'] = df['大户型'] * df['装修分']
    
    # 楼层与电梯的交互
    if '相对楼层' in df.columns and '有电梯' in df.columns:
        df['楼层电梯'] = df['相对楼层'] * df['有电梯']
    
    # 房龄与装修的交互
    if '房龄' in df.columns and '装修分' in df.columns:
        df['房龄装修'] = (1 / (df['房龄'] + 1)) * df['装修分']
    
    # 区位与面积的交互
    if '核心区域' in df.columns and '建筑面积' in df.columns:
        df['核心区小户'] = df['核心区域'] * (1 / np.log1p(df['建筑面积']))
    
    # 朝向与楼层的交互
    if '南北通透' in df.columns and '高层建筑' in df.columns:
        df['高层南北通透'] = df['南北通透'] * df['高层建筑']
    
    # 新房豪装(特别受欢迎)
    if '新房' in df.columns and '装修等级' in df.columns:
        df['新房豪装'] = (df['新房'] == 1) & (df['装修等级'] == '高级装修')
        df['新房豪装'] = df['新房豪装'].astype(int)
    
    # 老房毛坯(特别不受欢迎)
    if '老房' in df.columns and '装修等级' in df.columns:
        df['老房毛坯'] = (df['老房'] == 1) & (df['装修等级'] == '毛坯')
        df['老房毛坯'] = df['老房毛坯'].astype(int)
    
    # 电梯洋房(受欢迎的产品)
    if '有电梯' in df.columns and '总楼层' in df.columns:
        df['电梯洋房'] = (df['有电梯'] == 1) & (df['总楼层'] <= 12) & (df['总楼层'] > 3)
        df['电梯洋房'] = df['电梯洋房'].astype(int)
    
    # ==== 21. 特殊高端组合 ====
    # 高端小区标记
    high_end_conditions = []
    
    if '高绿化率' in df.columns:
        high_end_conditions.append(df['高绿化率'] == 1)
    
    if '低容积率' in df.columns:
        high_end_conditions.append(df['低容积率'] == 1)
    
    if '高物业费' in df.columns:
        high_end_conditions.append(df['高物业费'] == 1)
    
    if '停车充足' in df.columns:
        high_end_conditions.append(df['停车充足'] == 1)
    
    if high_end_conditions:
        df['高端小区'] = np.where(sum(high_end_conditions) >= 2, 1, 0)
    
    # 经济适用房标记
    if '政策房' in df.columns and '房龄' in df.columns:
        df['老旧政策房'] = (df['政策房'] == 1) & (df['房龄'] > 10)
        df['老旧政策房'] = df['老旧政策房'].astype(int)
    
    # 学区房特征(如果有相关信息)
    if '户型介绍' in df.columns:
        df['学区房'] = df['户型介绍'].str.contains('学区|名校|学校', na=False).astype(int)
    
    # ==== 22. 地理位置特征 ====
    # 使用经纬度信息
    if 'lon' in df.columns and 'lat' in df.columns:
        # 清洗经纬度数据
        df = clean_numeric_column(df, 'lon')
        df = clean_numeric_column(df, 'lat')
        
        # 计算到城市中心的距离(根据数据分析，可以使用城市均值)
        city_centers = {}
        
        if '城市' in df.columns:
            # 为每个城市计算中心点(使用经纬度的均值)
            for city in df['城市'].unique():
                if pd.notna(city):
                    city_subset = df[df['城市'] == city]
                    city_centers[city] = (city_subset['lon'].median(), city_subset['lat'].median())
            
            # 计算到中心的距离
            def distance_to_center(row):
                if pd.isna(row['lon']) or pd.isna(row['lat']) or pd.isna(row['城市']):
                    return np.nan
                
                # 获取中心点
                center = city_centers.get(row['城市'], (row['lon'], row['lat']))
                
                # 计算欧氏距离(简化版，不考虑地球曲率)
                return np.sqrt((row['lon'] - center[0])**2 + (row['lat'] - center[1])**2)
            
            df['中心距离'] = df.apply(distance_to_center, axis=1)
            
            # 距离区间
            df['近中心'] = (df['中心距离'] < df['中心距离'].quantile(0.25)).astype(int)
            df['远郊'] = (df['中心距离'] > df['中心距离'].quantile(0.75)).astype(int)
    
    # ==== 23. 基于文本描述的特征 ====
    # 周边配套
    if '周边配套' in df.columns:
        df['周边配套'] = df['周边配套'].fillna('')
        
        # 教育配套
        df['教育配套'] = df['周边配套'].str.contains('学校|幼儿园|学区|教育|大学|小学|中学', na=False).astype(int)
        
        # 交通配套
        df['交通配套'] = df['周边配套'].str.contains('地铁|公交|车站|高铁|机场|交通|便利', na=False).astype(int)
        
        # 生活配套
        df['生活配套'] = df['周边配套'].str.contains('商场|超市|医院|公园|购物|餐厅|市场', na=False).astype(int)
    
    # 交通出行
    if '交通出行' in df.columns:
        df['交通出行'] = df['交通出行'].fillna('')
        
        # 地铁便利度
        df['临近地铁'] = df['交通出行'].str.contains('地铁', na=False).astype(int)
        
        # 公交便利度
        df['公交便利'] = df['交通出行'].str.contains('公交', na=False).astype(int)
    
    # 核心卖点
    if '核心卖点' in df.columns:
        df['核心卖点'] = df['核心卖点'].fillna('')
        
        # 采光好
        df['采光好'] = df['核心卖点'].str.contains('采光|阳光|明亮|通透', na=False).astype(int)
        
        # 户型方正
        df['户型方正'] = df['核心卖点'].str.contains('方正|实用|户型好', na=False).astype(int)
        
        # 精装修
        df['精装关键词'] = df['核心卖点'].str.contains('精装|豪装|装修好', na=False).astype(int)
    
    # 房屋年限(税费影响)
    if '房屋年限' in df.columns:
        df['房屋年限'] = df['房屋年限'].fillna('未知')
        
        # 满二标记
        df['满二'] = df['房屋年限'].str.contains('满二|2年', na=False).astype(int)
        
        # 满五标记
        df['满五'] = df['房屋年限'].str.contains('满五|5年', na=False).astype(int)
        
        # 唯一住房(结合产权所属)
        if '产权所属' in df.columns:
            df['唯一住房'] = df['产权所属'].str.contains('唯一', na=False).astype(int)
            
            # 满五唯一(最大税费优惠)
            df['满五唯一'] = (df['满五'] & df['唯一住房']).astype(int)
    
    # ==== 24. 价格相关特征(仅用于训练模型，不应用于测试集) ====
    # 这部分代码只应用于训练集，不能用于测试集预测
    if '价格' in df.columns and not df['价格'].isna().all():
        # 对数变换价格(使其更接近正态分布)
        df['价格对数'] = np.log1p(df['价格'])
        
        # 单价计算(每平米价格)
        if '建筑面积' in df.columns:
            df['单价'] = df['价格'] / df['建筑面积']
    
    # ==== 25. 容积率与物业费的交互 ====
    if '容 积 率' in df.columns and '物业费' in df.columns:
        df['容积率物业比'] = df['容 积 率'] / df['物业费']
        df['容积率物业比'] = df['容积率物业比'].replace([np.inf, -np.inf], df['容积率物业比'].median())
        df['容积率物业比'] = df['容积率物业比'].fillna(df['容积率物业比'].median())
    
    # ==== 26. 房龄与建筑结构的交互 ====
    if '房龄' in df.columns and '钢混' in df.columns:
        # 新建筑+钢混结构(高品质)
        df['新建筑钢混'] = (df['房龄'] < 10) & (df['钢混'] == 1)
        df['新建筑钢混'] = df['新建筑钢混'].astype(int)
    
    # ==== 27. 最终特征选择 ====
    # 根据数据分析和模型需求选择最终特征集
    selected_features = [
        # 基础区域特征
        '城市', '区域', '板块', '高价值区域', '热门板块',
        
        # 面积特征
        '建筑面积', '建筑面积_对数', 
        
        # 楼层特征
        '相对楼层', '总楼层', '高层建筑', '顶层', '底层',
        
        # 房龄特征
        '房龄', '新房', '次新房', '老房', 
        
        # 装修特征
        '装修等级', '装修分',
        
        # 朝向特征
        '南北通透', '朝南', '全朝南', '朝东', '朝西', '朝北',
        
        # 户型特征
        '卧室数量', '客厅数量', '卫生间数量', '房间总数', '卧卫比', '主流户型', '大户型', '小户型',
        
        # 环线特征
        '环线数值', '核心区域', '远郊区域',
        
        # 交易权属特征
        '商品房', '公房', '政策房',
        
        # 房屋用途特征
        '普通住宅', '商用', '商住两用', '别墅',
        
        # 建筑结构特征
        '钢混', '砖混', '框架',
        
        # 电梯特征
        '有电梯', '高层无电梯', '电梯充足',
        
        # 小区品质特征
        '低容积率', '高容积率', '高绿化率', '高物业费', '集中供暖', '停车充足', '高端小区',
        
        # 地理位置特征
        '中心距离', '近中心', '远郊',
        
        # 配套特征
        '教育配套', '交通配套', '生活配套', '临近地铁', '公交便利',
        
        # 优势特征
        '采光好', '户型方正', '精装关键词',
        
        # 税费特征
        '满二', '满五', '唯一住房', '满五唯一',
        
        # 复合特征
        '大户型豪装', '楼层电梯', '房龄装修', '核心区小户', '高层南北通透', '新房豪装', '老房毛坯', '电梯洋房',
        '新建筑钢混', '老旧政策房'
    ]
    
    # 添加价格相关特征(仅用于训练)
    if '价格' in df.columns and not df['价格'].isna().all():
        selected_features.extend(['价格', '价格对数'])
    
    # 确保只保留存在的列
    existing_columns = [col for col in selected_features if col in df.columns]
    
    return df[existing_columns].copy().reset_index(drop=True)

def preprocess_data(train, test):
    """
    预处理数据，为模型训练准备特征
    """
    from sklearn.preprocessing import OneHotEncoder, StandardScaler
    from sklearn.compose import ColumnTransformer
    from sklearn.pipeline import Pipeline
    from sklearn.impute import SimpleImputer
    
    # 分离出目标变量
    if '价格' in train.columns:
        y_train = np.log(train['价格'])  # 对数变换目标变量
        X_train = train.drop(columns=['价格', '价格对数'], errors='ignore')
    else:
        X_train = train.copy()
        y_train = None
    
    X_test = test.copy()
    
    # 识别数值特征和分类特征
    numeric_features = []
    categorical_features = []
    
    for col in X_train.columns:
        if X_train[col].dtype == 'object' or X_train[col].dtype == 'category':
            categorical_features.append(col)
        else:
            numeric_features.append(col)
    
    # 对数值特征的处理：填充缺失值并进行标准化
    numeric_transformer = Pipeline(steps=[
        ('imputer', SimpleImputer(strategy='median')),  # 填充缺失值
        ('scaler', StandardScaler())])  # 标准化
    
    # 对分类特征的处理：填充缺失值并进行独热编码
    categorical_transformer = Pipeline(steps=[
        ('imputer', SimpleImputer(strategy='most_frequent')),  # 填充缺失值
        ('onehot', OneHotEncoder(handle_unknown='ignore'))])  # 独热编码
    
    # 使用ColumnTransformer将数值特征和分类特征进行转换
    preprocessor = ColumnTransformer(transformers=[
        ('num', numeric_transformer, numeric_features),
        ('cat', categorical_transformer, categorical_features)])
    
    # 对训练集进行拟合和转换
    preprocessor.fit(X_train)
    X_train_processed = preprocessor.transform(X_train)
    
    # 对测试集进行相同的转换
    X_test_processed = preprocessor.transform(X_test)
    
    return X_train_processed, X_test_processed, y_train, preprocessor


def tune_models_cv(X_train, y_train):
    """
    使用交叉验证对模型进行超参数调优
    """
    from sklearn.model_selection import KFold, GridSearchCV
    from sklearn.linear_model import LinearRegression, Lasso, Ridge, ElasticNet
    from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
    import numpy as np
    
    # 设置KFold交叉验证
    kf = KFold(n_splits=6, shuffle=True, random_state=42)
    
    # 线性回归模型（OLS）
    ols = LinearRegression()
    
    # Lasso回归模型及参数网格
    lasso_params = {
        'alpha': [0.0001, 0.001, 0.01, 0.1, 1.0, 10.0]
    }
    lasso = GridSearchCV(
        Lasso(max_iter=10000, random_state=42),
        lasso_params,
        cv=kf,
        scoring='neg_mean_squared_error',
        verbose=0
    )
    
    # Ridge回归模型及参数网格
    ridge_params = {
        'alpha': [0.01, 0.1, 1.0, 10.0, 100.0]
    }
    ridge = GridSearchCV(
        Ridge(random_state=42),
        ridge_params,
        cv=kf,
        scoring='neg_mean_squared_error',
        verbose=0
    )
    
    # ElasticNet回归模型及参数网格
    elasticnet_params = {
        'alpha': [0.001, 0.01, 0.1, 1.0],
        'l1_ratio': [0.1, 0.3, 0.5, 0.7, 0.9]
    }
    elasticnet = GridSearchCV(
        ElasticNet(max_iter=10000, random_state=42),
        elasticnet_params,
        cv=kf,
        scoring='neg_mean_squared_error',
        verbose=0
    )
    
    # 定义模型字典
    models = {
        'OLS': ols,
        'Lasso': lasso,
        'Ridge': ridge,
        'ElasticNet': elasticnet
    }
    
    # 用于存储结果的字典
    results = {}
    best_params = {}
    
    # 训练并评估每个模型
    for name, model in models.items():
        print(f"训练 {name} 模型...")
        
        # 训练模型
        model.fit(X_train, y_train)
        
        # 存储最佳参数（如果是GridSearchCV）
        if hasattr(model, 'best_params_'):
            best_params[name] = model.best_params_
            print(f"{name} 最佳参数: {model.best_params_}")
            # 使用最佳模型
            best_model = model.best_estimator_
        else:
            best_model = model
        
        # 计算训练集指标
        y_train_pred = best_model.predict(X_train)
        
        # 计算原始价格空间中的指标（从对数空间转换回来）
        train_mae, train_rmse, train_r2 = calculate_metrics(y_train, y_train_pred)
        
        # 进行交叉验证
        cv_results = cross_validate(X_train, y_train, best_model, kf)
        
        # 存储结果
        results[name] = {
            'In_sample_MAE': train_mae,
            'In_sample_RMSE': train_rmse,
            'In_sample_R2': train_r2,
            'CV_MAE': cv_results['cv_mae'],
            'CV_RMSE': cv_results['cv_rmse'],
            'CV_R2': cv_results['cv_r2'],
            'model': best_model
        }
    
    return results, best_params


def cross_validate(X_train, y_train, model, kf):
    """
    进行交叉验证并返回各项指标的平均值
    """
    from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
    import numpy as np
    
    cv_mae = []
    cv_rmse = []
    cv_r2 = []
    
    for train_idx, val_idx in kf.split(X_train):
        # 分割数据
        X_fold_train, X_fold_val = X_train[train_idx], X_train[val_idx]
        y_fold_train, y_fold_val = y_train.iloc[train_idx], y_train.iloc[val_idx]
        
        # 训练模型
        model.fit(X_fold_train, y_fold_train)
        
        # 预测
        y_fold_val_pred = model.predict(X_fold_val)
        
        # 计算指标
        fold_mae, fold_rmse, fold_r2 = calculate_metrics(y_fold_val, y_fold_val_pred)
        
        cv_mae.append(fold_mae)
        cv_rmse.append(fold_rmse)
        cv_r2.append(fold_r2)
    
    return {
        'cv_mae': np.mean(cv_mae),
        'cv_rmse': np.mean(cv_rmse),
        'cv_r2': np.mean(cv_r2)
    }


def calculate_metrics(y_true_log, y_pred_log):
    """
    计算原始价格空间中的性能指标
    """
    from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
    import numpy as np
    
    # 将对数预测转换回原始价格空间
    y_true = np.exp(y_true_log)
    y_pred = np.exp(y_pred_log)
    
    # 计算指标
    mae = mean_absolute_error(y_true, y_pred)
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    r2 = r2_score(y_true, y_pred)
    
    return mae, rmse, r2


def select_best_model(results):
    """
    根据交叉验证结果选择最佳模型
    """
    # 使用RMSE作为主要指标（越低越好）
    best_model_name = min(results, key=lambda x: results[x]['CV_RMSE'])
    best_model = results[best_model_name]['model']
    
    print(f"最佳模型: {best_model_name}")
    print(f"交叉验证 RMSE: {results[best_model_name]['CV_RMSE']:.4f}")
    
    return best_model


def predict_with_model(model, X_test, log_transform=True):
    """
    使用模型进行预测并还原对数变换
    """
    import numpy as np
    
    # 预测
    log_prediction = model.predict(X_test)
    
    # 如果使用了对数变换，则需要还原
    if log_transform:
        prediction = np.exp(log_prediction)
    else:
        prediction = log_prediction
    
    return prediction


def create_submission(prediction, test_ids=None):
    """
    创建提交文件
    """
    import pandas as pd
    
    if test_ids is None:
        # 使用索引加1作为ID
        test_ids = range(1, len(prediction) + 1)
    
    submission = pd.DataFrame({
        'ID': test_ids,
        'price': prediction
    })
    
    return submission


def load_data_with_ids():
    """
    加载数据并保留测试集ID
    """
    train = pd.read_csv('train.csv')
    details = pd.read_csv('details.csv')
    test = pd.read_csv('test.csv')
    
    # 保存测试集ID（如果有）
    if 'ID' in test.columns:
        test_ids = test['ID'].values
    else:
        test_ids = None
    
    # 合并数据
    train = pd.merge(
        train,
        details,
        left_on=['小区名称', '区域', '城市'],
        right_on=['名称', '区县', '城市'],
        how='left',
        suffixes=('', '_detail')
    ).drop(columns=['名称', '区县', '城市_detail'], errors='ignore')
    
    test = pd.merge(
        test,
        details,
        left_on=['小区名称', '区域', '城市'],
        right_on=['名称', '区县', '城市'],
        how='left',
        suffixes=('', '_detail')
    ).drop(columns=['名称', '区县', '城市_detail'], errors='ignore')
    
    return train, test, test_ids


def main():
    """
    主函数：运行整个流程
    """
    # 加载数据
    train, test, test_ids = load_data_with_ids()
    print("数据加载完成，开始特征工程...")
    
    # 特征工程
    train_processed = feature_engineering(train)
    test_processed = feature_engineering(test)
    print(f"特征工程完成，训练集形状: {train_processed.shape}, 测试集形状: {test_processed.shape}")
    
    # 数据预处理
    X_train, X_test, y_train, preprocessor = preprocess_data(train_processed, test_processed)
    print(f"预处理完成，训练特征形状: {X_train.shape}, 测试特征形状: {X_test.shape}")
    
    # 模型调参和训练
    print("开始模型调参和训练...")
    results, best_params = tune_models_cv(X_train, y_train)
    
    # 打印结果
    print("\n模型性能报告：")
    for model, metrics in results.items():
        print(f"\n{model}模型表现：")
        print(f"训练MAE：{metrics['In_sample_MAE']:.4f}")
        print(f"训练RMSE：{metrics['In_sample_RMSE']:.4f}")
        print(f"训练R²：{metrics['In_sample_R2']:.4f}")
        print(f"交叉验证MAE：{metrics['CV_MAE']:.4f}")
        print(f"交叉验证RMSE：{metrics['CV_RMSE']:.4f}")
        print(f"交叉验证R²：{metrics['CV_R2']:.4f}")
    
    # 选择最佳模型
    best_model = select_best_model(results)
    
    # 生成最终预测
    print("生成最终预测...")
    prediction = predict_with_model(best_model, X_test)
    
    # 创建提交文件
    submission = create_submission(prediction, test_ids)
    submission.to_csv('final_prediction.csv', index=False)
    print("预测完成，结果已保存至final_prediction.csv")
    
    return submission, results, best_model, X_train, X_test, y_train


if __name__ == "__main__":
    submission, results, best_model, X_train, X_test, y_train = main()

数据加载完成，开始特征工程...


  df['中心距离'] = df.apply(distance_to_center, axis=1)
  df['近中心'] = (df['中心距离'] < df['中心距离'].quantile(0.25)).astype(int)
  df['远郊'] = (df['中心距离'] > df['中心距离'].quantile(0.75)).astype(int)
  df['教育配套'] = df['周边配套'].str.contains('学校|幼儿园|学区|教育|大学|小学|中学', na=False).astype(int)
  df['交通配套'] = df['周边配套'].str.contains('地铁|公交|车站|高铁|机场|交通|便利', na=False).astype(int)
  df['生活配套'] = df['周边配套'].str.contains('商场|超市|医院|公园|购物|餐厅|市场', na=False).astype(int)
  df['临近地铁'] = df['交通出行'].str.contains('地铁', na=False).astype(int)
  df['公交便利'] = df['交通出行'].str.contains('公交', na=False).astype(int)
  df['采光好'] = df['核心卖点'].str.contains('采光|阳光|明亮|通透', na=False).astype(int)
  df['户型方正'] = df['核心卖点'].str.contains('方正|实用|户型好', na=False).astype(int)
  df['精装关键词'] = df['核心卖点'].str.contains('精装|豪装|装修好', na=False).astype(int)
  df['满二'] = df['房屋年限'].str.contains('满二|2年', na=False).astype(int)
  df['满五'] = df['房屋年限'].str.contains('满五|5年', na=False).astype(int)
  df['唯一住房'] = df['产权所属'].str.contains('唯一', na=False).astype(int

特征工程完成，训练集形状: (84133, 82), 测试集形状: (14786, 80)
预处理完成，训练特征形状: (84133, 839), 测试特征形状: (14786, 839)
开始模型调参和训练...
训练 OLS 模型...
训练 Lasso 模型...
Lasso 最佳参数: {'alpha': 0.0001}
训练 Ridge 模型...
Ridge 最佳参数: {'alpha': 0.1}
训练 ElasticNet 模型...
ElasticNet 最佳参数: {'alpha': 0.001, 'l1_ratio': 0.1}

模型性能报告：

OLS模型表现：
训练MAE：305284.7771
训练RMSE：1007004.3343
训练R²：0.8545
交叉验证MAE：310164.2114
交叉验证RMSE：1021077.9306
交叉验证R²：0.8495

Lasso模型表现：
训练MAE：338482.6636
训练RMSE：1073296.8693
训练R²：0.8347
交叉验证MAE：340422.8198
交叉验证RMSE：1077763.6927
交叉验证R²：0.8323

Ridge模型表现：
训练MAE：305662.5893
训练RMSE：1007098.9490
训练R²：0.8545
交叉验证MAE：310383.9112
交叉验证RMSE：1021199.5000
交叉验证R²：0.8494

ElasticNet模型表现：
训练MAE：357025.5084
训练RMSE：1122555.1747
训练R²：0.8192
交叉验证MAE：358516.8405
交叉验证RMSE：1125494.4537
交叉验证R²：0.8173
最佳模型: OLS
交叉验证 RMSE: 1021077.9306
生成最终预测...
预测完成，结果已保存至final_prediction.csv
