In [1]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns
import warnings
import xgboost as xgb
import copy
from sklearn.model_selection import train_test_split,GridSearchCV
from sklearn.feature_extraction import DictVectorizer
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor
from sklearn.metrics import mean_squared_error
warnings.filterwarnings('ignore')#忽略一些警告

In [2]:
data=pd.read_excel("E://IT//毕设//result/data_eleven.xlsx")

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12869 entries, 0 to 12868
Data columns (total 49 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   租金          12869 non-null  int64  
 1   面积(平方米)     12869 non-null  float64
 2   押金          12869 non-null  int64  
 3   判断押金        12869 non-null  int64  
 4   服务费         12869 non-null  float64
 5   中介费         12869 non-null  int64  
 6   A地铁线        12869 non-null  int64  
 7   B地铁线        12869 non-null  int64  
 8   C地铁线        12869 non-null  int64  
 9   大区标签        12869 non-null  int64  
 10  品牌标签        12869 non-null  int64  
 11  租赁方式标签      12869 non-null  int64  
 12  户型标签        12869 non-null  int64  
 13  装修标签        12869 non-null  int64  
 14  朝向标签        12869 non-null  int64  
 15  电梯_标签       12869 non-null  int64  
 16  车位_标签       12869 non-null  int64  
 17  用水_标签       12869 non-null  int64  
 18  用电_标签       12869 non-null  int64  
 19  燃气_标签       12869 non-nul

In [4]:
data.columns

Index(['租金', '面积(平方米)', '押金', '判断押金', '服务费', '中介费', 'A地铁线', 'B地铁线', 'C地铁线',
       '大区标签', '品牌标签', '租赁方式标签', '户型标签', '装修标签', '朝向标签', '电梯_标签', '车位_标签',
       '用水_标签', '用电_标签', '燃气_标签', '采暖_标签', 'A付款方式标签', 'B付款方式标签', 'C付款方式标签',
       '楼层标签', '卧室', '客厅', '卫生间', '房+卫+厅', '房/总', '卫/总', '厅/总', '卧室面积', '户型',
       '是否地铁', '平均值特征1', '大区+街道平均值特征', '朝向标签平均值特征', 'A地铁线平均值特征', '大区英文平均值特征',
       '房屋配置聚类标签', '平均值特征2', '房屋装修聚类标签', '平均值特征3', '房屋费用聚类标签', '平均值特征4',
       '房屋便利聚类标签', '平均值特征5', '小区_标签'],
      dtype='object')

In [5]:
#将离散特征转换成字符串类型
colunms = [ '大区标签', '品牌标签', '租赁方式标签', '户型标签', '装修标签', '朝向标签', '电梯_标签', '车位_标签',
       '用水_标签', '用电_标签', '燃气_标签', '采暖_标签', 'A付款方式标签', 'B付款方式标签', 'C付款方式标签','房屋配置聚类标签', '房屋装修聚类标签',
       '楼层标签','房屋费用聚类标签','房屋便利聚类标签','小区_标签','是否地铁',]
for col in colunms:
    data[col] = data[col].astype(str)

In [6]:
x_columns=[ '面积(平方米)', '押金', '判断押金', '服务费', '中介费', 'A地铁线', 'B地铁线', 'C地铁线',
       '大区标签', '品牌标签', '租赁方式标签', '户型标签', '装修标签', '朝向标签', '电梯_标签', '车位_标签',
       '用水_标签', '用电_标签', '燃气_标签', '采暖_标签', 'A付款方式标签', 'B付款方式标签', 'C付款方式标签',
       '楼层标签', '卧室', '客厅', '卫生间', '房+卫+厅', '房/总', '卫/总', '厅/总', '卧室面积', '户型',
       '是否地铁', '平均值特征1', '大区+街道平均值特征', '朝向标签平均值特征', 'A地铁线平均值特征', '大区英文平均值特征',
       '房屋配置聚类标签', '平均值特征2', '房屋装修聚类标签', '平均值特征3', '房屋费用聚类标签', '平均值特征4',
       '房屋便利聚类标签', '平均值特征5', '小区_标签']
y_label='租金'
x=data[x_columns]
y=data[y_label]
y.isnull().sum()

0

In [7]:
### 构建训练函数

In [8]:
def feature_transformer(x,y,test_size=0.3,random_state=12):
    """
    负责分割数据集并转换onehot特征，返回转换后的稀疏矩阵和特征名
    """
    #1.重新命名列名
    #原列名
    cols=[ '面积(平方米)', '押金', '判断押金', '服务费', '中介费', 'A地铁线', 'B地铁线', 'C地铁线',
       '大区标签', '品牌标签', '租赁方式标签', '户型标签', '装修标签', '朝向标签', '电梯_标签', '车位_标签',
       '用水_标签', '用电_标签', '燃气_标签', '采暖_标签', 'A付款方式标签', 'B付款方式标签', 'C付款方式标签',
       '楼层标签', '卧室', '客厅', '卫生间', '房+卫+厅', '房/总', '卫/总', '厅/总', '卧室面积', '户型',
       '是否地铁', '平均值特征1', '大区+街道平均值特征', '朝向标签平均值特征', 'A地铁线平均值特征', '大区英文平均值特征',
       '房屋配置聚类标签', '平均值特征2', '房屋装修聚类标签', '平均值特征3', '房屋费用聚类标签', '平均值特征4',
       '房屋便利聚类标签', '平均值特征5', '小区_标签']
    #新列名
    new_cols=[chr(65+s)+str(i) for s in range(len(cols)//10+1) for i in range(10)]
    new_cols=new_cols[:len(cols)]
    #特征名映射字典
    cols_map={k:v for k,v in zip(cols,new_cols)}
    #重新命名列
    x.columns=[cols_map[k] for k in x.columns]
    
    #2.分割数据集
    train_x,test_x,train_y,test_y=train_test_split(x,y,test_size=test_size,random_state=random_state)
    
    #3.转换onehot特征
    #返回稀疏矩阵，有两个优点：
    #1.占用内存大幅减小，让并行成为可能，不然并行的话，内存爆掉
    #2.可以加速xgboost训练
    vector=DictVectorizer(sparse=True)
    x_train=vector.fit_transform(train_x.to_dict(orient='records'))
    x_test=vector.transform(test_x.to_dict(orient='records'))
    features=vector.get_feature_names()
    
    #4.构建原始特征对应的新下标字典  
    #原始特征名
    
    #离散列特征下标字典
    feature_map={k:[] for k in cols}
    for i in range(len(features)):
        for col in cols:
            if features[i].startswith(cols_map[col]):#如果新特征以老特征开头
                feature_map[col].append(i)
                break
    return (x_train,x_test,train_y,test_y),feature_map,cols_map


def train(cols,data,feature_map,num_round = 500):
    """
    负责完成一次xgboost训练，返回测试集rmse
    """
    #1.获取数据集
    train_x,test_x,train_y,test_y=data
    #获取原始特征对应的新特征下标
    index=[]
    for col in cols:
        index.extend(feature_map[col])
    x_train=train_x[:,index]
    x_test=test_x[:,index]
    #3.构建数据格式
    #构建DMatrix数据，可以有效利用硬盘缓存，减少内存占用
    dtrain = xgb.DMatrix(x_train,train_y)
    dtest = xgb.DMatrix(x_test,test_y)
    
    #4.设置训练参数
    param = {'max_depth':5, 
             'eta':0.01, 
             'verbosity':1, 
             'objective':'reg:linear',
             'silent': 1,
             'gamma': 0.01,
             'min_child_weight': 1,
             
            }
    #5.模型训练
    bst = xgb.train(param, dtrain, num_round)
    
    #6.模型预测
    preds = bst.predict(dtest)
    preds=np.exp(preds)-1#转换成真实的租金
    y_true=np.exp(test_y)-1
    
    #7.模型评估
    return np.sqrt(mean_squared_error(y_true,preds))

In [9]:
#完成特征分割和转换
d,f_map,c_map=feature_transformer(x,y)

In [10]:
#构造筛选特征函数
def select_features(cols,min_score):
    include_features=cols
    exclude_features=[]
    cols=np.array(cols)
    for i in range(cols.shape[0]):
        #选中的特征
        features=list(cols[list(set(range(cols.shape[0]))-set([i]))])
        print("开始第{}次训练:".format(i))
        print("未选中特征：",cols[i])
        rmse=train(features,d,f_map,2500)
        print("开始第{}次训练测试集成绩{}：".format(i,rmse))
        print("-"*10)
        if rmse<=min_score:
            exclude_features=cols[i]
            include_features=features
            min_score=rmse
    return min_score,include_features,exclude_features  

In [11]:
min_score=train(x_columns,d,f_map)#模型出现预测值无穷大的问题

ValueError: Input contains infinity or a value too large for dtype('float64').