
# 基于机器学习模型的深圳市房屋租金预测

## 相关包导入

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
pd.set_option('mode.chained_assignment',None) 
#不再弹出settingwithcopywarining警告
import seaborn as sns
plt.rcParams['font.sans-serif']=['SimHei']
plt.rcParams['axes.unicode_minus']=False

## 数据导入

In [2]:
data = pd.read_excel('E:\IT\毕设\深圳租房数据\深圳市房屋租金最最新数据.xlsx')

In [3]:
#数据列名
data.columns

Index(['标题', '标题链接', '大区', '街道', '小区', '租金(每月)', '品牌', '租赁方式', '户型', '装修',
       '面积(平方米)', '朝向', '楼层', '总层级', '电梯', '车位', '用水', '用电', '燃气', '采暖', '租期',
       '有无洗衣机', '有无空调', '有无衣柜', '有无电视', '有无冰箱', '有无热水器', '有无床', '有无暖气', '有无宽带',
       '有无天然气', 'A付款方式', 'B付款方式', 'C付款方式', '租金', '押金', '服务费', '中介费', 'A地铁线',
       'A地铁站名字', 'B地铁线', 'B地铁站名字', 'C地铁线', 'C地铁站名字', '是否有地铁'],
      dtype='object')

In [4]:
#数据概况
data.describe()

Unnamed: 0,租金(每月),租金,押金
count,12869.0,12849.0,12849.0
mean,7579.531354,4442.196825,14861.625807
std,10678.86057,2287.659853,21490.515086
min,960.0,960.0,960.0
25%,3500.0,2500.0,7000.0
50%,5300.0,4200.0,10400.0
75%,8000.0,6000.0,15800.0
max,500000.0,9900.0,1000000.0


In [5]:
#数据展示
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12869 entries, 0 to 12868
Data columns (total 45 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   标题       12869 non-null  object 
 1   标题链接     12869 non-null  object 
 2   大区       12869 non-null  object 
 3   街道       12865 non-null  object 
 4   小区       12869 non-null  object 
 5   租金(每月)   12869 non-null  int64  
 6   品牌       12869 non-null  object 
 7   租赁方式     12849 non-null  object 
 8   户型       12849 non-null  object 
 9   装修       12869 non-null  object 
 10  面积(平方米)  12869 non-null  object 
 11  朝向       12869 non-null  object 
 12  楼层       12850 non-null  object 
 13  总层级      12803 non-null  object 
 14  电梯       12849 non-null  object 
 15  车位       12849 non-null  object 
 16  用水       12849 non-null  object 
 17  用电       12849 non-null  object 
 18  燃气       12849 non-null  object 
 19  采暖       12849 non-null  object 
 20  租期       12849 non-null  object 
 21  有无洗衣机    128

## 数据探索

### 基本信息

In [6]:
data.head()

Unnamed: 0,标题,标题链接,大区,街道,小区,租金(每月),品牌,租赁方式,户型,装修,...,押金,服务费,中介费,A地铁线,A地铁站名字,B地铁线,B地铁站名字,C地铁线,C地铁站名字,是否有地铁
0,整租·花好园 2室1厅 北,https://sz.lianjia.com/zufang/SZ17482968699617...,福田区,上下沙,花好园,6700,贝壳优选,整租,2室1厅1卫,普通装修,...,13400.0,需咨询,0,9号线(梅林线),下沙,7号线(西丽线),上沙,"1号线(罗宝线),11号线,7号线(西丽线),9号线(梅林线)",车公庙,是
1,整租·泰华阳光海小区 2室2厅 南,https://sz.lianjia.com/zufang/SZ18217614954914...,宝安区,碧海,泰华阳光海小区,6400,贝壳优选,整租,2室2厅1卫,精装修,...,12800.0,需咨询,0,11号线,碧海湾,1号线(罗宝线),西乡,无,,是
2,整租·佳兆业时代大厦 1室0厅 东,https://sz.lianjia.com/zufang/SZ18257542193914...,龙岗区,大运新城,佳兆业时代大厦,2580,贝壳优选,整租,1室0厅1卫,精装修,...,5160.0,需咨询,0,16号线,龙城公园,无,,无,,是
3,整租·金地•峰境瑞府 4室2厅 东南,https://sz.lianjia.com/zufang/SZ18214780903463...,光明区,光明,金地•峰境瑞府,5000,未知,整租,4室2厅2卫,精装修,...,10000.0,0,需咨询,6号线,光明大街,无,,无,,是
4,整租·会展湾水岸 1室0厅 东,https://sz.lianjia.com/zufang/SZ18247234581734...,宝安区,福永,会展湾水岸,2300,未知,整租,1室0厅1卫,精装修,...,4600.0,0,需咨询,"20号线,12号线",国展,"20号线,12号线",国展北,无,,是


### 缺失值比例

In [7]:
# 每列的缺失值个数/总行数
train_missing = (data.isnull().sum()/len(data))*100
#去掉缺失比例为0的列
train_missing = train_missing.drop(train_missing[train_missing==0].index).sort_values(ascending=False)
miss_data = pd.DataFrame({'缺失百分比':train_missing})
miss_data

Unnamed: 0,缺失百分比
C地铁站名字,73.307949
B地铁站名字,49.351154
A地铁站名字,22.550315
总层级,0.51286
采暖,0.155412
中介费,0.155412
服务费,0.155412
押金,0.155412
租金,0.155412
租期,0.155412


#### 缺失值填充

In [8]:
#大区 、街道 、小区 如果出现缺失就填充为"异常"
#租金、押金、服务费、中介费出现异常 就填充为“未知”
#品牌出现异常 就填充为未知
#租赁方式出现异常就填充为未知
#户型出现异常 填充为未知
#总层级出现异常 填充为未知
#车位、电梯 出现异常 填充为未知
#用水用电出现异常 填充为未知
#燃气、采暖出现异常 填充为未知
#租期出现异常，填充为未知
#付款方式 出现异常 填充为未知
#地铁站出现异常 填充为未知

In [9]:
data_first=pd.DataFrame(data)

In [10]:
#填充地铁站名字
columns_to_fill = ["A地铁站名字", "B地铁站名字", "C地铁站名字"]
#循环遍历三个地铁站
for column in columns_to_fill:
    data_first[column].fillna("未知", inplace=True)

In [11]:
#查询是否还有缺失值
for column in columns_to_fill:
    if data_first[column].isnull().any():
        print(f"列 {column} 仍然有缺失值。")
    else:
        print(f"列 {column} 已经填充成功，没有缺失值了。")

列 A地铁站名字 已经填充成功，没有缺失值了。
列 B地铁站名字 已经填充成功，没有缺失值了。
列 C地铁站名字 已经填充成功，没有缺失值了。


In [12]:
#填充总层级
data_first["总层级"].fillna("未知", inplace=True)

In [13]:
#用水，用电，采暖，燃气
columns_four = ["用水","用电","采暖","燃气"]
#循环遍历三个地铁站
for column in columns_four:
    data_first[column].fillna("未知", inplace=True)

In [14]:
#中介费，服务费，押金，租金
columns_jin = ["中介费","服务费","押金","租金"]
#循环遍历三个地铁站
for column in columns_jin:
    data_first[column].fillna("未知", inplace=True)

In [15]:
#租赁方式、车位、电梯、户型、楼层
columns_peizhi= ["租赁方式","车位","电梯","户型","楼层"]
#循环遍历三个地铁站
for column in columns_peizhi:
    data_first[column].fillna("未知", inplace=True)

In [16]:
#街道
data_first["街道"].fillna("未知", inplace=True)

In [17]:
#缺失值比例

In [32]:
# 保存 DataFrame 到 Excel 文件
data_first.to_excel("E:\\IT\\毕设\\result\\data_first.xlsx", index=False)

## 数据脱敏处理

In [46]:
data_first.head()

Unnamed: 0,标题,标题链接,大区,街道,小区,租金(每月),品牌,租赁方式,户型,装修,...,押金,服务费,中介费,A地铁线,A地铁站名字,B地铁线,B地铁站名字,C地铁线,C地铁站名字,是否有地铁
0,整租·花好园 2室1厅 北,https://sz.lianjia.com/zufang/SZ17482968699617...,福田区,上下沙,花好园,6700,贝壳优选,整租,2室1厅1卫,普通装修,...,13400.0,需咨询,0,9号线(梅林线),下沙,7号线(西丽线),上沙,"1号线(罗宝线),11号线,7号线(西丽线),9号线(梅林线)",车公庙,是
1,整租·泰华阳光海小区 2室2厅 南,https://sz.lianjia.com/zufang/SZ18217614954914...,宝安区,碧海,泰华阳光海小区,6400,贝壳优选,整租,2室2厅1卫,精装修,...,12800.0,需咨询,0,11号线,碧海湾,1号线(罗宝线),西乡,无,未知,是
2,整租·佳兆业时代大厦 1室0厅 东,https://sz.lianjia.com/zufang/SZ18257542193914...,龙岗区,大运新城,佳兆业时代大厦,2580,贝壳优选,整租,1室0厅1卫,精装修,...,5160.0,需咨询,0,16号线,龙城公园,无,未知,无,未知,是
3,整租·金地•峰境瑞府 4室2厅 东南,https://sz.lianjia.com/zufang/SZ18214780903463...,光明区,光明,金地•峰境瑞府,5000,未知,整租,4室2厅2卫,精装修,...,10000.0,0,需咨询,6号线,光明大街,无,未知,无,未知,是
4,整租·会展湾水岸 1室0厅 东,https://sz.lianjia.com/zufang/SZ18247234581734...,宝安区,福永,会展湾水岸,2300,未知,整租,1室0厅1卫,精装修,...,4600.0,0,需咨询,"20号线,12号线",国展,"20号线,12号线",国展北,无,未知,是


In [47]:
data_first.columns

Index(['标题', '标题链接', '大区', '街道', '小区', '租金(每月)', '品牌', '租赁方式', '户型', '装修',
       '面积(平方米)', '朝向', '楼层', '总层级', '电梯', '车位', '用水', '用电', '燃气', '采暖', '租期',
       '有无洗衣机', '有无空调', '有无衣柜', '有无电视', '有无冰箱', '有无热水器', '有无床', '有无暖气', '有无宽带',
       '有无天然气', 'A付款方式', 'B付款方式', 'C付款方式', '租金', '押金', '服务费', '中介费', 'A地铁线',
       'A地铁站名字', 'B地铁线', 'B地铁站名字', 'C地铁线', 'C地铁站名字', '是否有地铁'],
      dtype='object')

In [48]:
data_second=pd.DataFrame(data_first)

### 处理大区、街道、小区

In [49]:
#处理大区、街道、小区
#大区有十个 我们从1到10划分
#宝安区 1 大鹏新区 2福田区 3光明区 4龙岗区 5 龙华区 6罗湖区 7南山区8 坪山区 9 盐田区 10
# 定义区域到数字标签的映射字典
region_mapping = {
    "宝安区": 1,
    "大鹏新区": 2,
    "福田区": 3,
    "光明区": 4,
    "龙岗区": 5,
    "龙华区": 6,
    "罗湖区": 7,
    "南山区": 8,
    "坪山区": 9,
    "盐田区": 10
}

# 将大区列映射为数字标签
data_second['大区标签'] = data_second['大区'].map(region_mapping)

# 查看映射结果
print(data_second[['大区', '大区标签']].head())


    大区  大区标签
0  福田区     3
1  宝安区     1
2  龙岗区     5
3  光明区     4
4  宝安区     1


In [50]:
# 品牌 处理
#贝壳优选 1 
# 未知 2
# 自如 3
# 链家 4 
# 正诚租房 5
# 自友家公寓 6
# 铂瑞斯公寓 7
# 深圳享家公寓 8 
# 亿家物业 9
# casa家舍 10
# 希美公寓 11 
# 家乐居物业 12 
# 森美物业  13
# 深圳蓝山里公寓  14
# 梦公寓 15 
# 青壳公寓  16


In [51]:
# 定义品牌到数字标签的映射字典
brand_mapping = {
    "贝壳优选": 1,
    "未知": 2,
    "自如": 3,
    "链家": 4,
    "正诚租房": 5,
    "自友家公寓": 6,
    "铂瑞斯公寓": 7,
    "深圳享家公寓": 8,
    "亿家物业": 9,
    "casa家舍": 10,
    "希美公寓": 11,
    "家乐居物业": 12,
    "森美物业": 13,
    "深圳蓝山里公寓": 14,
    "梦公寓": 15,
    "青壳公寓": 16
}

# 将品牌列映射为数字标签
data_second['品牌标签'] = data_second['品牌'].map(brand_mapping)

# 查看映射结果
print(data_second[['品牌', '品牌标签']].head())


     品牌  品牌标签
0  贝壳优选     1
1  贝壳优选     1
2  贝壳优选     1
3    未知     2
4    未知     2


In [52]:
#租赁方式  合租 2 整租 1  未知
# 使用 pd.factorize() 函数将品牌名字映射为数字标签
data_second['租赁方式标签'] = pd.factorize(data_second['租赁方式'])[0] + 1

# 查看映射结果
print(data_second[['租赁方式', '租赁方式标签']].head())

  租赁方式  租赁方式标签
0   整租       1
1   整租       1
2   整租       1
3   整租       1
4   整租       1


In [53]:
# print(data_seconda[data_seconda["租赁方式标签"]="未知"])

In [54]:
# #户型
# 未知：0
# 1室0厅0卫：1
# 1室0厅1卫：2
# 1室0厅2卫：3
# 1室1厅0卫：4
# 1室1厅1卫：5
# 1室1厅2卫：6
# 1室1厅4卫：7
# 1室2厅1卫：8
# 1室2厅2卫：9
# 2室0厅0卫：10
# 2室0厅1卫：11
# 2室0厅2卫：12
# 2室1厅0卫：13
# 2室1厅1卫：14
# 2室1厅2卫：15
# 2室1厅3卫：16
# 2室2厅0卫：17
# 2室2厅1卫：18
# 2室2厅2卫：19
# 2室2厅3卫：20
# 3室0厅0卫：21
# 3室0厅1卫：22
# 3室0厅2卫：23
# 3室1厅0卫：24
# 3室1厅1卫：25
# 3室1厅2卫：26
# 3室1厅3卫：27
# 3室2厅0卫：28
# 3室2厅1卫：29
# 3室2厅2卫：30
# 3室2厅3卫：31
# 3室3厅1卫：32
# 3室3厅2卫：33
# 3室3厅3卫：34
# 4室0厅0卫：35
# 4室0厅1卫：36
# 4室0厅2卫：37
# 4室0厅4卫：38
# 4室1厅0卫：39
# 4室1厅1卫：40
# 4室1厅2卫：41
# 4室1厅3卫：42
# 4室1厅4卫：43
# 4室2厅0卫：44
# 4室2厅1卫：45
# 4室2厅2卫：46
# 4室2厅3卫：47
# 4室2厅4卫：48
# 4室3厅2卫：49
# 4室3厅3卫：50
# 4室3厅4卫：51
# 4室5厅5卫：52
# 5室0厅0卫：53
# 5室0厅1卫：54
# 5室0厅2卫：55
# 5室0厅4卫：56
# 5室0厅5卫：57
# 5室1厅0卫：58
# 5室1厅1卫：59
# 5室1厅2卫：60
# 5室1厅3卫：61
# 5室1厅4卫：62
# 5室1厅5卫：63
# 5室1厅8卫：64
# 5室2厅0卫：65
# 5室2厅1卫：66
# 5室2厅2卫：67
# 5室2厅3卫：68
# 5室2厅4卫：69
# 5室2厅5卫：70
# 5室3厅1卫：71
# 5室3厅2卫：72
# 5室3厅3卫：73
# 5室3厅4卫：74
# 5室3厅5卫：75
# 5室3厅8卫：76
# 5室4厅3卫：77
# 5室4厅5卫：78
# 5室5厅2卫：79
# 6室0厅2卫：80
# 6室0厅6卫：81
# 6室1厅2卫：82
# 6室1厅4卫：83
# 6室1厅6卫：84
# 6室2厅0卫：85
# 6室2厅2卫：86
# 6室2厅3卫：87
# 6室2厅4卫：88
# 6室2厅5卫：89
# 6室3厅3卫：90
# 6室3厅4卫：91
# 6室3厅5卫：92
# 6室3厅6卫：93
# 6室4厅6卫：94
# 7室0厅7卫：95
# 7室1厅1卫：96
# 7室1厅6卫：97
# 7室1厅7卫：98
# 7室2厅2卫：99
# 7室2厅3卫：100
# 7室2厅4卫：101
# 7室2厅7卫：102
# 7室3厅3卫：103
# 7室3厅4卫：104
# 7室3厅5卫：105
# 7室4厅4卫：106
# 8室0厅0卫：107
# 8室0厅1卫：108
# 8室0厅8卫：109
# 8室1厅1卫：110
# 8室1厅3卫：111
# 8室1厅5卫：112
# 8室1厅8卫：113
# 8室2厅2卫：114
# 8室2厅4卫：115
# 8室2厅5卫：116
# 8室2厅8卫：117
# 8室3厅4卫：118
# 8室3厅5卫：119
# 8室4厅1卫：120
# 8室4厅5卫：121
# 8室4厅6卫：122
# 8室4厅7卫：123
# 9室0厅2卫：124
# 9室1厅2卫：125
# 9室1厅6卫：126
# 9室2厅2卫：127
# 9室2厅4卫：128
# 9室3厅6卫：129
# 9室3厅8卫：130
# 10室0厅9卫：131
# 10室1厅3卫：132
# 10室4厅9卫：133
# 11室0厅1卫：134
# 11室2厅5卫：135
# 12室0厅1卫：136
# 15室6厅9卫：137

In [55]:
huxin_mapping = {
    "未知": 0,
    "1室0厅0卫": 1,
    "1室0厅1卫": 2,
    "1室0厅2卫": 3,
    "1室1厅0卫": 4,
    "1室1厅1卫": 5,
    "1室1厅2卫": 6,
    "1室1厅4卫": 7,
    "1室2厅1卫": 8,
    "1室2厅2卫": 9,
    "2室0厅0卫": 10,
    "2室0厅1卫": 11,
    "2室0厅2卫": 12,
    "2室1厅0卫": 13,
    "2室1厅1卫": 14,
    "2室1厅2卫": 15,
    "2室1厅3卫": 16,
    "2室2厅0卫": 17,
    "2室2厅1卫": 18,
    "2室2厅2卫": 19,
    "2室2厅3卫": 20,
    "3室0厅0卫": 21,
    "3室0厅1卫": 22,
    "3室0厅2卫": 23,
    "3室1厅0卫": 24,
    "3室1厅1卫": 25,
    "3室1厅2卫": 26,
    "3室1厅3卫": 27,
    "3室2厅0卫": 28,
    "3室2厅1卫": 29,
    "3室2厅2卫": 30,
    "3室2厅3卫": 31,
    "3室3厅1卫": 32,
    "3室3厅2卫": 33,
    "3室3厅3卫": 34,
    "4室0厅0卫": 35,
    "4室0厅1卫": 36,
    "4室0厅2卫": 37,
    "4室0厅4卫": 38,
    "4室1厅0卫": 39,
    "4室1厅1卫": 40,
    "4室1厅2卫": 41,
    "4室1厅3卫": 42,
    "4室1厅4卫": 43,
    "4室2厅0卫": 44,
    "4室2厅1卫": 45,
    "4室2厅2卫": 46,
    "4室2厅3卫": 47,
    "4室2厅4卫": 48,
    "4室3厅2卫": 49,
    "4室3厅3卫": 50,
    "4室3厅4卫": 51,
    "4室5厅5卫": 52,
    "5室0厅0卫": 53,
    "5室0厅1卫": 54,
    "5室0厅2卫": 55,
    "5室0厅4卫": 56,
    "5室0厅5卫": 57,
    "5室1厅0卫": 58,
    "5室1厅1卫": 59,
    "5室1厅2卫": 60,
    "5室1厅3卫": 61,
    "5室1厅4卫": 62,
    "5室1厅5卫": 63,
    "5室1厅8卫": 64,
    "5室2厅0卫": 65,
    "5室2厅1卫": 66,
    "5室2厅2卫": 67,
    "5室2厅3卫": 68,
    "5室2厅4卫": 69,
    "5室2厅5卫": 70,
    "5室3厅1卫": 71,
    "5室3厅2卫": 72,
    "5室3厅3卫": 73,
    "5室3厅4卫": 74,
    "5室3厅5卫": 75,
    "5室3厅8卫": 76,
    "5室4厅3卫": 77,
    "5室4厅5卫": 78,
    "5室5厅2卫": 79,
    "6室0厅2卫": 80,
    "6室0厅6卫": 81,
    "6室1厅2卫": 82,
    "6室1厅4卫": 83,
    "6室1厅6卫": 84,
    "6室2厅0卫": 85,
    "6室2厅2卫": 86,
    "6室2厅3卫": 87,
    "6室2厅4卫": 88,
    "6室2厅5卫": 89,
    "6室3厅3卫": 90,
    "6室3厅4卫": 91,
    "6室3厅5卫": 92,
    "6室3厅6卫": 93,
    "6室4厅6卫": 94,
    "7室0厅7卫": 95,
    "7室1厅1卫": 96,
    "7室1厅6卫": 97,
    "7室1厅7卫": 98,
    "7室2厅2卫": 99,
    "7室2厅3卫": 100,
    "7室2厅4卫": 101,
    "7室2厅7卫": 102,
    "7室3厅3卫": 103,
    "7室3厅4卫": 104,
    "7室3厅5卫": 105,
    "7室4厅4卫": 106,
    "8室0厅0卫": 107,
    "8室0厅1卫": 108,
    "8室0厅8卫": 109,
    "8室1厅1卫": 110,
    "8室1厅3卫": 111,
    "8室1厅5卫": 112,
    "8室1厅8卫": 113,
    "8室2厅2卫": 114,
    "8室2厅4卫": 115,
    "8室2厅5卫": 116,
    "8室2厅8卫": 117,
    "8室3厅4卫": 118,
    "8室3厅5卫": 119,
    "8室4厅1卫": 120,
    "8室4厅5卫": 121,
    "8室4厅6卫": 122,
    "8室4厅7卫": 123,
    "9室0厅2卫": 124,
    "9室1厅2卫": 125,
    "9室1厅6卫": 126,
    "9室2厅2卫": 127,
    "9室2厅4卫": 128,
    "9室3厅6卫": 129,
    "9室3厅8卫": 130,
    "10室0厅9卫": 131,
    "10室1厅3卫": 132,
    "10室4厅9卫": 133,
    "11室0厅1卫": 134,
    "11室2厅5卫": 135,
    "12室0厅1卫": 136,
    "15室6厅9卫": 137
}
# 将品牌列映射为数字标签
data_second['户型标签'] = data_second['户型'].map(huxin_mapping)

# 查看映射结果
print(data_second[['户型', '户型标签']].head())

       户型  户型标签
0  2室1厅1卫  14.0
1  2室2厅1卫  18.0
2  1室0厅1卫   2.0
3  4室2厅2卫  46.0
4  1室0厅1卫   2.0


In [56]:
##装修  合租 2 整租 1  未知
# 使用 pd.factorize() 函数将品牌名字映射为数字标签
data_second['装修标签'] = pd.factorize(data_second['装修'])[0] + 1

# 查看映射结果
print(data_second[['装修', '装修标签']].head())

     装修  装修标签
0  普通装修     1
1   精装修     2
2   精装修     2
3   精装修     2
4   精装修     2


In [57]:
data_second=pd.DataFrame(data_second)

In [58]:
data_second

Unnamed: 0,标题,标题链接,大区,街道,小区,租金(每月),品牌,租赁方式,户型,装修,...,B地铁线,B地铁站名字,C地铁线,C地铁站名字,是否有地铁,大区标签,品牌标签,租赁方式标签,户型标签,装修标签
0,整租·花好园 2室1厅 北,https://sz.lianjia.com/zufang/SZ17482968699617...,福田区,上下沙,花好园,6700,贝壳优选,整租,2室1厅1卫,普通装修,...,7号线(西丽线),上沙,"1号线(罗宝线),11号线,7号线(西丽线),9号线(梅林线)",车公庙,是,3,1,1,14.0,1
1,整租·泰华阳光海小区 2室2厅 南,https://sz.lianjia.com/zufang/SZ18217614954914...,宝安区,碧海,泰华阳光海小区,6400,贝壳优选,整租,2室2厅1卫,精装修,...,1号线(罗宝线),西乡,无,未知,是,1,1,1,18.0,2
2,整租·佳兆业时代大厦 1室0厅 东,https://sz.lianjia.com/zufang/SZ18257542193914...,龙岗区,大运新城,佳兆业时代大厦,2580,贝壳优选,整租,1室0厅1卫,精装修,...,无,未知,无,未知,是,5,1,1,2.0,2
3,整租·金地•峰境瑞府 4室2厅 东南,https://sz.lianjia.com/zufang/SZ18214780903463...,光明区,光明,金地•峰境瑞府,5000,未知,整租,4室2厅2卫,精装修,...,无,未知,无,未知,是,4,2,1,46.0,2
4,整租·会展湾水岸 1室0厅 东,https://sz.lianjia.com/zufang/SZ18247234581734...,宝安区,福永,会展湾水岸,2300,未知,整租,1室0厅1卫,精装修,...,"20号线,12号线",国展北,无,未知,是,1,2,1,2.0,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12864,整租·光纤小区 1室0厅 南,https://sz.lianjia.com/zufang/SZ18765113359702...,福田区,八卦岭,光纤小区,2600,未知,整租,1室0厅1卫,精装修,...,无,未知,无,未知,否,3,2,1,2.0,2
12865,整租·香山里花园一期 4室2厅 东南,https://sz.lianjia.com/zufang/SZ18765110742037...,南山区,华侨城,香山里花园一期,25000,链家,整租,4室2厅2卫,精装修,...,无,未知,无,未知,否,8,4,1,46.0,2
12866,整租·深业东岭一期 1室1厅 西,https://sz.lianjia.com/zufang/SZ18765432456352...,罗湖区,黄贝岭,深业东岭一期,4500,未知,整租,1室1厅1卫,精装修,...,2号线(8号线),新秀,5号线(环中线),怡景,是,7,2,1,5.0,2
12867,整租·润科华府 3室2厅 南,https://sz.lianjia.com/zufang/SZ18512474955233...,宝安区,曦城,润科华府,6500,未知,整租,3室2厅2卫,精装修,...,无,未知,无,未知,是,1,2,1,30.0,2


In [59]:
#朝向
# 定义品牌到数字标签的映射字典
direction_mapping = {
    "东": 1,
    "南": 2,
    "西": 3,
    "北": 4,
    "东南": 5,
    "西南": 6,
    "西北": 7,
    "东北": 8,
    "未知": -1
     # 如果需要将"未知"映射为特定的数字，可以在这里指定
}

# 将品牌列映射为数字标签
data_second['朝向标签'] = data_second['朝向'].apply(lambda x: direction_mapping.get(x, -1))

# 查看映射结果
print(data_second[['朝向', '朝向标签']].head())

   朝向  朝向标签
0   北     4
1   南     2
2   东     1
3  东南     5
4   东     1


In [60]:
data_second

Unnamed: 0,标题,标题链接,大区,街道,小区,租金(每月),品牌,租赁方式,户型,装修,...,B地铁站名字,C地铁线,C地铁站名字,是否有地铁,大区标签,品牌标签,租赁方式标签,户型标签,装修标签,朝向标签
0,整租·花好园 2室1厅 北,https://sz.lianjia.com/zufang/SZ17482968699617...,福田区,上下沙,花好园,6700,贝壳优选,整租,2室1厅1卫,普通装修,...,上沙,"1号线(罗宝线),11号线,7号线(西丽线),9号线(梅林线)",车公庙,是,3,1,1,14.0,1,4
1,整租·泰华阳光海小区 2室2厅 南,https://sz.lianjia.com/zufang/SZ18217614954914...,宝安区,碧海,泰华阳光海小区,6400,贝壳优选,整租,2室2厅1卫,精装修,...,西乡,无,未知,是,1,1,1,18.0,2,2
2,整租·佳兆业时代大厦 1室0厅 东,https://sz.lianjia.com/zufang/SZ18257542193914...,龙岗区,大运新城,佳兆业时代大厦,2580,贝壳优选,整租,1室0厅1卫,精装修,...,未知,无,未知,是,5,1,1,2.0,2,1
3,整租·金地•峰境瑞府 4室2厅 东南,https://sz.lianjia.com/zufang/SZ18214780903463...,光明区,光明,金地•峰境瑞府,5000,未知,整租,4室2厅2卫,精装修,...,未知,无,未知,是,4,2,1,46.0,2,5
4,整租·会展湾水岸 1室0厅 东,https://sz.lianjia.com/zufang/SZ18247234581734...,宝安区,福永,会展湾水岸,2300,未知,整租,1室0厅1卫,精装修,...,国展北,无,未知,是,1,2,1,2.0,2,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12864,整租·光纤小区 1室0厅 南,https://sz.lianjia.com/zufang/SZ18765113359702...,福田区,八卦岭,光纤小区,2600,未知,整租,1室0厅1卫,精装修,...,未知,无,未知,否,3,2,1,2.0,2,2
12865,整租·香山里花园一期 4室2厅 东南,https://sz.lianjia.com/zufang/SZ18765110742037...,南山区,华侨城,香山里花园一期,25000,链家,整租,4室2厅2卫,精装修,...,未知,无,未知,否,8,4,1,46.0,2,5
12866,整租·深业东岭一期 1室1厅 西,https://sz.lianjia.com/zufang/SZ18765432456352...,罗湖区,黄贝岭,深业东岭一期,4500,未知,整租,1室1厅1卫,精装修,...,新秀,5号线(环中线),怡景,是,7,2,1,5.0,2,3
12867,整租·润科华府 3室2厅 南,https://sz.lianjia.com/zufang/SZ18512474955233...,宝安区,曦城,润科华府,6500,未知,整租,3室2厅2卫,精装修,...,未知,无,未知,是,1,2,1,30.0,2,2


In [61]:
# 假设 data_second 是一个 DataFrame 对象，'朝向' 是你要打印的列名,查看唯一值
unique_directions = data_second['朝向'].unique()
print(unique_directions)

['北' '南' '东' '东南' '西北' '西' '东北' '西南' '未知']


In [None]:
#楼层 暂无能判断aa

In [None]:
#电梯、车位、用水、用电、燃气、采暖
#电梯 有 无  未知
#车位  免费使用 租用车位 暂无数据 未知 
#用水  民水 商水 暂无数据 未知
#用电 民电 商电 暂无数据 未知
# 燃气 有 无 暂无数据 未知
#采暖 自采暖 集中供暖  暂无数据 未知
# 使用 pd.factorize() 函数将品牌名字映射为数字标签
data_second['电梯标签'] = pd.factorize(data_second['电梯'])[0] + 1

# 查看映射结果
print(data_second[['电梯', '电梯标签']].head())

In [62]:
# 假设你有一个包含列名的列表
six_columns = ['电梯', '车位', '用水', '用电', '燃气', '采暖']

# 创建一个空字典用于存储映射关系
mapping = {}

# 遍历每个列名，为每个列创建映射关系并添加到字典中
for column in six_columns:
    # 使用pd.factorize()函数将列转换为数字标签
    data_second[column + '_标签'] = pd.factorize(data_second[column])[0] + 1
    # 将映射关系存储到字典中
    mapping[column] = column + '_标签'

# 打印映射结果
for column, mapped_column in mapping.items():
    print(data_second[[column, mapped_column]].head())

  电梯  电梯_标签
0  有      1
1  有      1
2  有      1
3  有      1
4  有      1
     车位  车位_标签
0  暂无数据      1
1  暂无数据      1
2  暂无数据      1
3  暂无数据      1
4  暂无数据      1
     用水  用水_标签
0    民水      1
1    民水      1
2  暂无数据      2
3  暂无数据      2
4  暂无数据      2
     用电  用电_标签
0    民电      1
1    民电      1
2  暂无数据      2
3  暂无数据      2
4  暂无数据      2
  燃气  燃气_标签
0  有      1
1  有      1
2  有      1
3  有      1
4  有      1
     采暖  采暖_标签
0  暂无数据      1
1  暂无数据      1
2  暂无数据      1
3  暂无数据      1
4  暂无数据      1


In [71]:
#付款方式
# 定义A付款方式到数字标签的映射字典
paymentA_mapping = {
    "月付": 1,
    "季付": 2,
    "双月": 3,
    "年付": 4,
    "需咨询": 5,
    "未知": -1
}

# 将付款方式列映射为数字标签
data_second['A付款方式标签'] = data_second['A付款方式'].apply(lambda x: paymentA_mapping.get(x, -1))

# 查看映射结果
print(data_second[['A付款方式', 'A付款方式标签']].head())

  A付款方式  A付款方式标签
0    月付        1
1    月付        1
2    月付        1
3    月付        1
4    月付        1


In [69]:
# 定义B付款方式到数字标签的映射字典
paymentB_mapping = {
    "半年付": 1,
    "无": -1
}

# 将付款方式列映射为数字标签
data_second['B付款方式标签'] = data_second['B付款方式'].apply(lambda x: paymentB_mapping.get(x, -1))

# 查看映射结果
print(data_second[['B付款方式', 'B付款方式标签']].head())

  B付款方式  B付款方式标签
0     无       -1
1     无       -1
2     无       -1
3     无       -1
4     无       -1


In [70]:
# 定义C付款方式到数字标签的映射字典
paymentC_mapping = {
    "年付": 1,
    "无": -1
}

# 将付款方式列映射为数字标签
data_second['C付款方式标签'] = data_second['C付款方式'].apply(lambda x: paymentC_mapping.get(x, -1))

# 查看映射结果
print(data_second[['C付款方式', 'C付款方式标签']].head())

  C付款方式  C付款方式标签
0     无       -1
1     无       -1
2     无       -1
3     无       -1
4     无       -1


In [72]:
# 租金，押金，服务费，中介费
# 未知定义为-1


0        6700.0
1        6400.0
2        2580.0
3        5000.0
4        2300.0
          ...  
12864    2600.0
12865    2500.0
12866    4500.0
12867    6500.0
12868    5000.0
Name: 租金, Length: 12869, dtype: object


In [73]:
#循环替换值未知换为-1的值
columns_to_replace = ['租金', '押金', '服务费', '中介费']
value_to_replace = '未知'
replacement_value = -1

for column in columns_to_replace:
    data_second[column] = data_second[column].replace(value_to_replace, replacement_value)

# 查看替换后的结果
for column in columns_to_replace:
    print(column + ':')
    print(data_second[column])
    print('\n')


租金:
0        6700.0
1        6400.0
2        2580.0
3        5000.0
4        2300.0
          ...  
12864    2600.0
12865    2500.0
12866    4500.0
12867    6500.0
12868    5000.0
Name: 租金, Length: 12869, dtype: float64


押金:
0        13400.0
1        12800.0
2         5160.0
3        10000.0
4         4600.0
          ...   
12864     5200.0
12865    50000.0
12866     9000.0
12867    13000.0
12868    10000.0
Name: 押金, Length: 12869, dtype: float64


服务费:
0        需咨询
1        需咨询
2        需咨询
3          0
4          0
        ... 
12864      0
12865      0
12866      0
12867      0
12868      0
Name: 服务费, Length: 12869, dtype: object


中介费:
0          0
1          0
2          0
3        需咨询
4        需咨询
        ... 
12864    需咨询
12865    需咨询
12866    需咨询
12867    需咨询
12868    需咨询
Name: 中介费, Length: 12869, dtype: object




In [74]:
data_second['服务费'] = data_second['服务费'].replace("需咨询", -1)
data_second['中介费'] = data_second['中介费'].replace("需咨询", -1)
# 查看替换后的结果
print(data_second['服务费'])

0       -1.0
1       -1.0
2       -1.0
3        0.0
4        0.0
        ... 
12864    0.0
12865    0.0
12866    0.0
12867    0.0
12868    0.0
Name: 服务费, Length: 12869, dtype: float64


In [76]:
#保存
data_second.to_excel("E:\\IT\\毕设\\result\\data_second.xlsx", index=False)

In [77]:
#导入第三次处理数据
data_thirt = pd.read_excel('E:\\IT\\毕设\\result\\data_thirt.xlsx')

In [78]:
data_thirt_1=pd.DataFrame(data_thirt)

In [79]:
data_thirt_1

Unnamed: 0,标题,标题链接,大区,街道,小区,租金(每月),品牌,租赁方式,户型,装修,...,朝向标签,电梯_标签,车位_标签,用水_标签,用电_标签,燃气_标签,采暖_标签,A付款方式标签,B付款方式标签,C付款方式标签
0,整租·花好园 2室1厅 北,https://sz.lianjia.com/zufang/SZ17482968699617...,福田区,上下沙,花好园,6700,贝壳优选,整租,2室1厅1卫,普通装修,...,4,1,1,1,1,1,1,1,-1,-1
1,整租·泰华阳光海小区 2室2厅 南,https://sz.lianjia.com/zufang/SZ18217614954914...,宝安区,碧海,泰华阳光海小区,6400,贝壳优选,整租,2室2厅1卫,精装修,...,2,1,1,1,1,1,1,1,-1,-1
2,整租·佳兆业时代大厦 1室0厅 东,https://sz.lianjia.com/zufang/SZ18257542193914...,龙岗区,大运新城,佳兆业时代大厦,2580,贝壳优选,整租,1室0厅1卫,精装修,...,1,1,1,2,2,1,1,1,-1,-1
3,整租·金地•峰境瑞府 4室2厅 东南,https://sz.lianjia.com/zufang/SZ18214780903463...,光明区,光明,金地•峰境瑞府,5000,未知,整租,4室2厅2卫,精装修,...,5,1,1,2,2,1,1,1,-1,-1
4,整租·会展湾水岸 1室0厅 东,https://sz.lianjia.com/zufang/SZ18247234581734...,宝安区,福永,会展湾水岸,2300,未知,整租,1室0厅1卫,精装修,...,1,1,1,2,2,1,1,1,-1,-1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12864,合租·新德家园 3居室 北卧,https://sz.lianjia.com/zufang/SZ18704487653792...,南山区,前海,新德家园,2130,自如,合租,3室1厅1卫,精装修,...,4,1,1,1,1,1,1,2,1,1
12865,合租·泰华阳光海小区 5居室 东北卧,https://sz.lianjia.com/zufang/SZ17772909059050...,宝安区,碧海,泰华阳光海小区,1790,自如,合租,5室1厅2卫,精装修,...,8,1,2,1,1,1,1,2,1,1
12866,合租·阳光海景豪苑 3居室 西卧,https://sz.lianjia.com/zufang/SZ17842307973062...,南山区,科技园,阳光海景豪苑,2130,自如,合租,3室1厅1卫,精装修,...,3,1,1,1,1,1,1,2,1,1
12867,合租·阳光粤海 5居室 东卧,https://sz.lianjia.com/zufang/SZ18157289167157...,南山区,科技园,阳光粤海,3730,自如,合租,5室1厅1卫,精装修,...,1,1,2,1,1,1,1,2,1,-1


In [80]:
data_thirt_1.columns

Index(['标题', '标题链接', '大区', '街道', '小区', '租金(每月)', '品牌', '租赁方式', '户型', '装修',
       '面积(平方米)', '朝向', '楼层', '总楼层', '电梯', '车位', '用水', '用电', '燃气', '采暖', '租期',
       '有无洗衣机', '有无空调', '有无衣柜', '有无电视', '有无冰箱', '有无热水器', '有无床', '有无暖气', '有无宽带',
       '有无天然气', 'A付款方式', 'B付款方式', 'C付款方式', '租金', '押金', '服务费', '中介费', 'A地铁线',
       'A地铁站名字', 'B地铁线', 'B地铁站名字', 'C地铁线', 'C地铁站名字', '是否有地铁', '大区标签', '品牌标签',
       '租赁方式标签', '户型标签', '装修标签', '朝向标签', '电梯_标签', '车位_标签', '用水_标签', '用电_标签',
       '燃气_标签', '采暖_标签', 'A付款方式标签', 'B付款方式标签', 'C付款方式标签'],
      dtype='object')

In [82]:
#楼层
#楼层有  低 中 高  地下室 未知
#低 1 中 2 高 3 地下室 4 未知 5
# 定义区域到数字标签的映射字典
floor_mapping = {
    "低": 1,
    "中": 2,
    "高": 3,
    "地下室": 4,
    "未知": 5
}

# 将大区列映射为数字标签
data_thirt_1['楼层标签'] = data_thirt_1['楼层'].map(floor_mapping)

# 查看映射结果
print(data_thirt_1[['楼层', '楼层标签']].head())

  楼层  楼层标签
0  低     1
1  高     3
2  低     1
3  低     1
4  低     1


In [87]:
#将面积列的值转换为-1，
data_thirt_1['面积(平方米)'] = data_thirt_1['面积(平方米)'].replace('未知', -1)

# 查看转换后的结果
print(data_thirt_1['面积(平方米)'])

0         60.00
1         80.48
2         36.00
3        118.00
4         34.00
          ...  
12864      7.10
12865      9.90
12866     12.50
12867     15.80
12868     28.04
Name: 面积(平方米), Length: 12869, dtype: float64


In [88]:
#将租金，面积，押金，服务费，中介费，转换为 int64类型
# 将租金、押金、服务费列的值转换为 int64 类型
columns_to_convert = ['面积(平方米)','租金', '押金', '服务费', '中介费',"A地铁线","B地铁线","C地铁线"]
data_thirt_1[columns_to_convert] = data_thirt_1[columns_to_convert].astype('float64')

# 检查转换后的结果
print(data_thirt_1.dtypes)


标题         object
标题链接       object
大区         object
街道         object
小区         object
            ...  
采暖_标签       int64
A付款方式标签     int64
B付款方式标签     int64
C付款方式标签     int64
楼层标签        int64
Length: 61, dtype: object


In [90]:
data_thirt_1.to_excel("E:\\IT\\毕设\\result\\data_four.xlsx",index=False)