<a href="https://colab.research.google.com/github/NZLouislu/nzlouis-property-ai-engine/blob/main/notebooks/Wellington_Property_Prediction_Simple.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a># Wellington房产预测模型 - 基于真实数据

这个notebook使用real_estate表中的真实数据进行训练，预测房产是否适合出售。

## 1. 环境设置和依赖安装

In [None]:
# 安装必要的包
!pip install pandas numpy scikit-learn matplotlib seaborn supabase python-dotenv

import pandas as pd
import numpy as np
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report
import matplotlib.pyplot as plt
import seaborn as sns
import os
import json
from supabase import create_client

# 上传wellington_real_data_predictor.py文件
from google.colab import files
print("请上传wellington_real_data_predictor.py文件")
uploaded = files.upload()

## 2. 导入wellington_real_data_predictor.py

In [None]:
# 导入上传的模块
import wellington_real_data_predictor as wrp

# 检查模块是否正确导入
print("模块导入成功，可用函数:")
for func in dir(wrp):
    if not func.startswith('_'):
        print(f"- {func}")

## 3. 设置Supabase凭据

In [None]:
# 设置Supabase凭据
# 方法1: 使用Colab的secrets功能（推荐）
try:
    from google.colab import userdata
    os.environ['SUPABASE_URL'] = userdata.get('SUPABASE_URL').strip()
    os.environ['SUPABASE_KEY'] = userdata.get('SUPABASE_KEY').strip()
    print("✅ 从Colab secrets加载数据库配置")
except:
    print("⚠️ 未找到Colab secrets，请手动设置SUPABASE_URL和SUPABASE_KEY")
    
    # 方法2: 直接设置（不推荐用于生产环境）
    # os.environ['SUPABASE_URL'] = 'your_supabase_url_here'
    # os.environ['SUPABASE_KEY'] = 'your_supabase_key_here'

# 创建Supabase客户端
supabase_client = wrp.create_supabase_client()
if supabase_client:
    print("✅ 数据库连接成功")
else:
    print("❌ 数据库连接失败")

## 4. 从real_estate表获取数据

In [None]:
# 从real_estate表获取数据
print("🔄 从real_estate表获取数据...")
try:
    response = supabase_client.table('real_estate').select('*').execute()
    
    if response.data:
        df = pd.DataFrame(response.data)
        print(f"✅ 成功获取 {len(df)} 条记录")
        print(f"📋 数据列: {list(df.columns)}")
        
        # 显示前5行数据
        display(df.head())
    else:
        print("⚠️ real_estate表中没有数据")
except Exception as e:
    print(f"❌ 获取数据时发生错误: {e}")

## 5. 数据预处理

In [None]:
# 数据预处理
print("🔄 开始数据预处理...")
try:
    # 使用wellington_real_data_predictor.py中的函数处理数据
    processed_data = wrp.process_real_estate_data(df)
    
    if processed_data is not None:
        print(f"✅ 成功处理 {len(processed_data)} 条记录")
        
        # 显示处理后的数据
        display(processed_data.head())
        
        # 检查目标变量分布
        print(f"📊 目标变量分布: {processed_data['target'].value_counts().to_dict()}")
    else:
        print("❌ 数据处理失败，将使用模拟数据")
        processed_data = wrp.create_mock_training_data(500)
except Exception as e:
    print(f"❌ 数据预处理时发生错误: {e}")
    print("⚠️ 将使用模拟数据")
    processed_data = wrp.create_mock_training_data(500)

## 6. 特征工程

In [None]:
# 特征工程
print("🔄 开始特征工程...")

# 处理类别型特征
if 'suburb' in processed_data.columns:
    suburb_dummies = pd.get_dummies(processed_data['suburb'], prefix='suburb')
    processed_data = pd.concat([processed_data, suburb_dummies], axis=1)
    processed_data.drop('suburb', axis=1, inplace=True)
    print(f"✅ 对suburb进行独热编码，新增 {len(suburb_dummies.columns)} 个特征")

# 添加新特征
if 'year_built' in processed_data.columns:
    processed_data['property_age'] = 2025 - processed_data['year_built']
    print("✅ 添加特征: property_age (房产年龄)")

if 'bedrooms' in processed_data.columns and 'bathrooms' in processed_data.columns:
    processed_data['bedroom_bathroom_ratio'] = processed_data['bedrooms'] / processed_data['bathrooms'].replace(0, 1)
    print("✅ 添加特征: bedroom_bathroom_ratio (卧室与浴室比例)")

if 'last_sold_price' in processed_data.columns and 'floor_size' in processed_data.columns:
    processed_data['price_per_sqm'] = processed_data['last_sold_price'] / processed_data['floor_size'].replace(0, 1)
    print("✅ 添加特征: price_per_sqm (每平方米价格)")

# 准备特征和目标变量
X = processed_data.drop('target', axis=1)
y = processed_data['target']

# 检查并删除非数值型特征
non_numeric_cols = X.select_dtypes(exclude=['int64', 'float64']).columns
if len(non_numeric_cols) > 0:
    print(f"⚠️ 删除非数值型特征: {list(non_numeric_cols)}")
    X = X.drop(non_numeric_cols, axis=1)

# 标准化特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

print(f"✅ 特征工程完成，最终特征数量: {X.shape[1]}")

## 7. 模型训练和评估

In [None]:
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled, y, test_size=0.2, random_state=42)
print(f"✅ 训练集大小: {X_train.shape[0]}，测试集大小: {X_test.shape[0]}")

# 训练随机森林模型
print("🔄 训练随机森林模型...")
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# 评估模型
train_score = model.score(X_train, y_train)
test_score = model.score(X_test, y_test)

print(f"✅ 训练集准确率: {train_score:.4f}")
print(f"✅ 测试集准确率: {test_score:.4f}")

# 详细评估
y_pred = model.predict(X_test)
print("\n📊 分类报告:")
print(classification_report(y_test, y_pred))

## 8. 特征重要性分析

In [None]:
# 分析特征重要性
print("🔄 分析特征重要性...")

# 获取特征重要性
importances = model.feature_importances_
indices = np.argsort(importances)[::-1]

# 打印特征重要性
print("\n📊 特征重要性排名:")
feature_names = X.columns
for i, idx in enumerate(indices[:15]):
    if i < len(feature_names):
        print(f"{i+1}. {feature_names[idx]}: {importances[idx]:.4f}")

# 可视化特征重要性
plt.figure(figsize=(12, 8))
plt.title('特征重要性')
plt.bar(range(min(15, len(feature_names))), importances[indices[:15]], align='center')
plt.xticks(range(min(15, len(feature_names))), [feature_names[i] for i in indices[:15]], rotation=90)
plt.tight_layout()
plt.show()

## 9. 预测样本房产

In [None]:
# 创建样本房产
sample_properties = [
    {
        'suburb': 'Wellington Central',
        'year_built': 2020,
        'bedrooms': 2,
        'bathrooms': 2,
        'car_spaces': 1,
        'floor_size': 85,
        'land_area': 0,
        'last_sold_price': 850000,
        'capital_value': 900000,
        'land_value': 0,
        'improvement_value': 900000,
        'has_rental_history': False,
        'is_currently_rented': False,
        'description': '市中心现代公寓，2卧2卫，带车位'
    },
    {
        'suburb': 'Thorndon',
        'year_built': 1920,
        'bedrooms': 4,
        'bathrooms': 2,
        'car_spaces': 2,
        'floor_size': 180,
        'land_area': 500,
        'last_sold_price': 1500000,
        'capital_value': 1600000,
        'land_value': 900000,
        'improvement_value': 700000,
        'has_rental_history': True,
        'is_currently_rented': False,
        'description': 'Thorndon历史别墅，4卧2卫，带花园'
    }
]

# 创建DataFrame
sample_df = pd.DataFrame(sample_properties)

# 预处理样本数据
# 这里需要对样本数据进行与训练数据相同的预处理
# 由于预处理步骤复杂，这里简化处理
print("⚠️ 注意：实际应用中需要对样本数据进行与训练数据相同的预处理")

# 预测
# 这里仅作为示例，实际应用中需要完整的预处理流程
print("\n📊 样本房产预测结果:")
for i, prop in enumerate(sample_properties):
    print(f"\n{i+1}. {prop['description']}")
    print(f"   特征: {prop['bedrooms']}卧{prop['bathrooms']}卫, {prop['floor_size']}平米, {2025-prop['year_built']}年房龄")
    print(f"   价格: ${prop['last_sold_price']:,}")

## 10. 总结

本notebook成功实现了以下功能：

1. 从real_estate表获取真实数据
2. 对数据进行预处理和特征工程
3. 训练随机森林模型预测房产是否适合出售
4. 分析特征重要性
5. 对样本房产进行预测

模型可以根据房产特征预测其是否适合出售，为房产投资决策提供数据支持。