# 1.数据基本情况

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('house_bj.csv')

In [3]:
data.head()

Unnamed: 0,所在区,小区名称,户型,面积(平米),朝向,装修,所在楼层,建造年份,所在位置,总价(万元),单价(元/平米),有无电梯
0,东城区,法华南里,2室1厅,80.85,南北,精装,高楼层(共6层),1993年,崇文门,865,106989,无电梯
1,东城区,和平里一区,2室1厅,39.46,南北,精装,底层(共11层),1990年,和平里,595,150786,有电梯
2,东城区,新景家园西区,2室1厅,73.85,南北,精装,中楼层(共18层),2004年,崇文门,935,126608,有电梯
3,东城区,和平新城一期,2室2厅,132.32,东,简装,高楼层(共21层),2003年,和平里,1350,102026,有电梯
4,东城区,金鱼池西区,4室2厅,149.92,西北,简装,中楼层(共7层),2002年,天坛,1030,68704,无电梯


In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8418 entries, 0 to 8417
Data columns (total 12 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   所在区       8418 non-null   object 
 1   小区名称      8418 non-null   object 
 2   户型        8418 non-null   object 
 3   面积(平米)    8418 non-null   float64
 4   朝向        8418 non-null   object 
 5   装修        8418 non-null   object 
 6   所在楼层      8418 non-null   object 
 7   建造年份      8418 non-null   object 
 8   所在位置      8418 non-null   object 
 9   总价(万元)    8418 non-null   int64  
 10  单价(元/平米)  8418 non-null   int64  
 11  有无电梯      8418 non-null   object 
dtypes: float64(1), int64(2), object(9)
memory usage: 789.3+ KB


In [5]:
data.describe()

Unnamed: 0,面积(平米),总价(万元),单价(元/平米)
count,8418.0,8418.0,8418.0
mean,96.135518,583.014136,63268.518651
std,54.361255,438.039566,33389.20488
min,16.3,51.0,9916.0
25%,63.23,312.0,39745.0
50%,85.335,468.0,51897.5
75%,107.9375,699.0,78889.0
max,768.79,6000.0,179932.0


# 2.房价影响因素可视化分析

## （1）所在区对房价的影响

In [6]:
from pyecharts import Bar, Line, Overlap

zone_price = pd.merge(
    data.groupby(['所在区'])['单价(元/平米)'].mean().round(0).sort_values(
        ascending=False).to_frame().reset_index(),
    data.groupby(['所在区'])['总价(万元)'].mean().round(0).to_frame().reset_index(),
    on=['所在区'])
bar = Bar("北京各区二手房价格")
bar.add(
    "单价(元/平米)",
    zone_price['所在区'],
    zone_price['单价(元/平米)'],
    is_label_show=True,
    label_pos='inside',
    label_text_color='#000',
    is_toolbox_show=False,
)
line = Line()
line.add(
    "总价(万元)",
    zone_price['所在区'],
    zone_price['总价(万元)'],
    is_label_show=True,
    is_toolbox_show=False,
)

overlap = Overlap(height=400, width=900)
overlap.add(bar)
overlap.add(
    line,
    yaxis_index=1,
    is_add_yaxis=True,
)
overlap

## （2）户型对房价的影响

In [7]:
#分析户型与二手房价格
from pyecharts import Pie, Bar

layout_price = pd.merge(data.groupby(
    ['户型'])['单价(元/平米)'].mean().round(0).sort_values(
        ascending=False).to_frame().reset_index(),
                        data.groupby(['户型']).size().to_frame().reset_index(),
                        on='户型')
layout_price.columns = ['户型', '单价(元/平米)', '计数']
print(layout_price)
#进行户型统计，发现存在‘3室0厅’和‘3室3厅’的户型，且数量较少，因此删除
layout_price = layout_price[(layout_price['户型'] != '3室0厅')
                            & (layout_price['户型'] != '3室3厅')]
print(layout_price)

       户型  单价(元/平米)    计数
0    8室3厅   94778.0     1
1    2室0厅   93201.0    13
2    3室0厅   92571.0    10
3    6室4厅   91293.0     1
4    3室3厅   88700.0     7
5    2室3厅   86689.0     1
6    1室0厅   72720.0   152
7    1室1厅   71084.0  1017
8    4室4厅   69293.0     2
9    4室3厅   66413.0    24
10   3室1厅   65276.0  1337
11   8室2厅   64754.0     2
12   2室1厅   64028.0  3790
13   7室5厅   62436.0     1
14   4室1厅   60186.0   106
15   1室2厅   58903.0    13
16   4室2厅   58161.0   285
17   3室2厅   57314.0   847
18   2室2厅   56801.0   520
19   5室1厅   51902.0    16
20   5室5厅   51719.0     1
21   8室4厅   51038.0     1
22   5室2厅   50855.0   114
23   6室3厅   50150.0    17
24   5室3厅   47182.0    25
25   6室2厅   44962.0    29
26   9室1厅   41916.0     1
27   7室3厅   39085.0     5
28   8室6厅   37401.0     1
29  2房间2卫   36944.0     6
30   5室4厅   35930.0     3
31   5室0厅   35765.0     2
32   6室1厅   34677.0     4
33  12室2厅   34167.0     1
34   7室2厅   33310.0     4
35  3房间2卫   31897.0     3
36  3房间1卫   28097.0    13
37  5房间2卫   

In [8]:
pie = Pie(
    "北京二手房各户型房源数量统计",
    width=700,
    height=400,
)
pie.add("",
        layout_price['户型'],
        layout_price['计数'],
        is_label_show=True,
        legend_orient="vertical",
        legend_pos="right",
        is_toolbox_show=False,
        label_formatter='{b}:{c},{d}%')
pie

In [9]:
bar = Bar("北京二手房各户型平均房价(元/平米)", width=600, height=400)
bar.add("",
        layout_price['户型'],
        layout_price['单价(元/平米)'],
        is_label_show=True,
        bar_category_gap='40%',
        is_toolbox_show=False)
bar

## （3）所在位置对房价的影响

In [10]:
##分析北京二手房位置和单价
from pyecharts import Bar
#print (data.ix[:,['小区名称','所在区']])
pos_perprice = data.groupby(['所在位置',
                             '所在区'])['单价(元/平米)'].mean().round(0).sort_values(
                                 ascending=False).to_frame().reset_index()
pos_perprice.columns = ['所在位置', '所在区', '单价(元/平米)']
top10_pos = pos_perprice.head(10).sort_values(
    ['单价(元/平米)'],
    ascending=True)  #.merge(data.ix[:,['小区名称','所在区']],on='小区名称',how = 'left')
top10_pos

Unnamed: 0,所在位置,所在区,单价(元/平米)
9,官园,西城区,142179.0
8,西单,西城区,143914.0
7,万柳,海淀区,144334.0
6,月坛,西城区,145453.0
5,马甸,西城区,152459.0
4,德胜门,西城区,154319.0
3,六铺炕,西城区,155015.0
2,交道口,东城区,156073.0
1,金融街,西城区,156687.0
0,西四,西城区,158446.0


In [11]:
bar = Bar('北京二手房平均单价TOP10位置(元/平米)', width=500)
bar.add('',
        top10_pos['所在位置'],
        top10_pos['单价(元/平米)'],
        is_label_show=True,
        label_text_color='#000',
        label_pos='inside',
        label_formatter='{b}:{c}',
        is_yaxis_show=False,
        is_convert=True)
bar

In [12]:
##筛选各区域内平均单价排名top5的位置
from pyecharts import Bar

pos_zone = data.groupby(['所在区',
                         '所在位置'])['单价(元/平米)'].mean().round(0).sort_values(
                             ascending=False).to_frame().reset_index()
pos_zone.columns = ['所在区', '所在位置', '单价(元/平米)']

top5_pos_zone=pos_zone.assign(rn=pos_zone.sort_values(['单价(元/平米)'], ascending=False)
          .groupby(['所在区'])
          .cumcount()+1)\
    .query('rn < =5').sort_values(['所在区','单价(元/平米)'],ascending=False)
print(top5_pos_zone)

      所在区      所在位置  单价(元/平米)  rn
189   顺义区     中央别墅区   49199.0   1
192   顺义区        天竺   48614.0   2
206   顺义区       后沙峪   44747.0   3
227   顺义区       顺义城   37503.0   4
230   顺义区      首都机场   35753.0   5
176   通州区      武夷花园   51751.0   1
198   通州区       临河里   47399.0   2
200   通州区        玉桥   46682.0   3
203   通州区  九棵树(家乐福)   45177.0   4
205   通州区      通州北苑   44800.0   5
0     西城区        西四  158446.0   1
1     西城区       金融街  156687.0   2
3     西城区       六铺炕  155015.0   3
4     西城区       德胜门  154319.0   4
5     西城区        马甸  152459.0   5
131  石景山区       玉泉路   69019.0   1
161  石景山区        鲁谷   57555.0   2
169  石景山区        老山   53317.0   3
170  石景山区        古城   52926.0   4
175  石景山区        八角   51787.0   5
7     海淀区        万柳  144334.0   1
19    海淀区       双榆树  125358.0   2
22    海淀区       圆明园  121230.0   3
24    海淀区       魏公村  117951.0   4
26    海淀区       五道口  115960.0   5
14    朝阳区       太阳宫  133663.0   1
51    朝阳区       三里屯  104958.0   2
71    朝阳区       东大桥   96031.0   3
73    朝阳区     

## （4）所在小区对房价的影响

In [13]:
##分析北京二手房所在小区和单价
from pyecharts import Bar
#print (data.ix[:,['小区名称','所在区']])
house_perprice = data.groupby(['小区名称', '所在区', '所在位置'
                               ])['单价(元/平米)'].mean().round(0).sort_values(
                                   ascending=False).to_frame().reset_index()
house_perprice.columns = ['小区名称', '所在区', '所在位置', '单价(元/平米)']
top10_house = house_perprice.head(10).sort_values(
    ['单价(元/平米)'],
    ascending=False)  #.merge(data.ix[:,['小区名称','所在区']],on='小区名称',how = 'left')
top10_house

Unnamed: 0,小区名称,所在区,所在位置,单价(元/平米)
0,龙湖唐宁one,海淀区,五道口,179932.0
1,五路通北街3号院,西城区,六铺炕,179844.0
2,京畿道,西城区,金融街,179798.0
3,大井胡同,西城区,六铺炕,179737.0
4,新外大街乙8号院,西城区,马甸,179723.0
5,金融世家,西城区,木樨地,179266.0
6,一瓶,西城区,陶然亭,177928.0
7,丰汇园小区,西城区,金融街,177866.0
8,南沙沟小区,西城区,月坛,177676.0
9,金龙公寓,西城区,金融街,177505.0


In [14]:
bar = Bar('北京二手房平均单价TOP10小区(元/平米)', width=500)
bar.add('',
        top10_house['小区名称'],
        top10_house['单价(元/平米)'],
        is_label_show=True,
        label_text_color='#000',
        label_pos='inside',
        label_formatter='{b}:{c}',
        is_yaxis_show=False,
        is_convert=True)
bar

In [15]:
##筛选各区域内平均单价排名前五的小区
from pyecharts import Bar

house_zone = data.groupby(['所在区',
                           '小区名称'])['单价(元/平米)'].mean().round(0).sort_values(
                               ascending=False).to_frame().reset_index()
house_zone.columns = ['所在区', '小区名称', '单价(元/平米)']

top5_hosue_zone=house_zone.assign(rn=house_zone.sort_values(['单价(元/平米)'], ascending=False)
          .groupby(['所在区'])
          .cumcount()+1)\
    .query('rn < =5').sort_values(['所在区','单价(元/平米)'],ascending=False)
print(top5_hosue_zone)

       所在区          小区名称  单价(元/平米)  rn
260    顺义区       金地中央世家   121714.0   1
489    顺义区       棕榈滩金棕榈   107397.0   2
832    顺义区        龙湖滟澜山    86913.0   3
1024   顺义区         龙湾别墅    76194.0   4
1176   顺义区         嘉浩别墅    69808.0   5
1079   通州区          百合湾    73980.0   1
1098   通州区      金隅花石匠一期    73425.0   2
1173   通州区       京贸国际公馆    69860.0   3
1223   通州区        台湖银河湾    67794.0   4
1263   通州区    通州万国城MOMA    66469.0   5
1      西城区     五路通北街3号院   179844.0   1
2      西城区          京畿道   179798.0   2
3      西城区         大井胡同   179737.0   3
4      西城区     新外大街乙8号院   179723.0   4
5      西城区         金融世家   179266.0   5
426   石景山区       远洋天著春秋   110303.0   1
705   石景山区        远洋沁山水    94693.0   2
763   石景山区         天和景园    90734.0   3
854   石景山区       玉泉新城B区    85411.0   4
941   石景山区    中海寰宇天下御山府    81334.0   5
0      海淀区      龙湖唐宁one   179932.0   1
30     海淀区         康桥水郡   165030.0   2
69     海淀区         蜂鸟家园   156148.0   3
104    海淀区      知春路82号院   147758.0   4
108    海淀区         锋尚国际  

## （5）电梯对房价的影响

In [16]:
from pyecharts import Bar, Pie

house_loft = data.groupby(['有无电梯',
                           '所在区'])['单价(元/平米)'].agg(['size', 'mean', 'sum'
                                                    ]).round(0).reset_index()
house_loft.columns = ['有无电梯', '所在区', '数量', '单价', '总价之和']
print(house_loft)

   有无电梯   所在区   数量        单价      总价之和
0   无电梯   东城区  157  102075.0  16025778
1   无电梯   丰台区  159   56517.0   8986164
2   无电梯   大兴区  337   40329.0  13590940
3   无电梯   房山区  268   25028.0   6707595
4   无电梯   昌平区  395   44281.0  17490829
5   无电梯   朝阳区  229   66947.0  15330952
6   无电梯   海淀区  218   96801.0  21102584
7   无电梯  石景山区  508   48874.0  24827944
8   无电梯   西城区  396  132289.0  52386363
9   无电梯   通州区  250   40210.0  10052624
10  无电梯   顺义区  393   36965.0  14527145
11  有电梯   东城区  406  105450.0  42812723
12  有电梯   丰台区  508   63178.0  32094488
13  有电梯   大兴区  540   46609.0  25168725
14  有电梯   房山区  484   34401.0  16650231
15  有电梯   昌平区  418   50812.0  21239511
16  有电梯   朝阳区  638   73548.0  46923440
17  有电梯   海淀区  362   97727.0  35377277
18  有电梯  石景山区  396   57916.0  22934774
19  有电梯   西城区  365  127465.0  46524660
20  有电梯   通州区  552   45038.0  24860957
21  有电梯   顺义区  439   38676.0  16978686


In [17]:
pie = Pie(
    "北京二手房有无电梯房源数量(套)",
    width=700,
    height=400,
)
pie.add("", ['有电梯', '无电梯'], [
    house_loft[house_loft['有无电梯'] == '有电梯']['数量'].sum(),
    house_loft[house_loft['有无电梯'] == '无电梯']['数量'].sum()
],
        is_label_show=True,
        is_toolbox_show=False,
        label_formatter='{b}:{c},{d}%')
pie

In [18]:
bar = Bar('北京各区二手房有无电梯房源数量(套)', width=900)
bar.add('有电梯',
        house_loft[house_loft['有无电梯'] == '有电梯']['所在区'],
        house_loft[house_loft['有无电梯'] == '有电梯']['数量'],
        is_label_show=True,
        label_text_color='#000',
        label_pos='inside',
        is_stack=True)
bar.add('无电梯',
        house_loft[house_loft['有无电梯'] == '无电梯']['所在区'],
        house_loft[house_loft['有无电梯'] == '无电梯']['数量'],
        is_label_show=True,
        is_stack=True)
bar

In [19]:
bar = Bar('北京各区有无电梯二手房平均单价(元/平米)', width=900)
bar.add('有电梯',
        house_loft[house_loft['有无电梯'] == '有电梯']['所在区'],
        house_loft[house_loft['有无电梯'] == '有电梯']['单价'],
        is_label_show=True,
        mark_line=['average'],
        is_toolbox_show=False)
bar.add('无电梯',
        house_loft[house_loft['有无电梯'] == '无电梯']['所在区'],
        house_loft[house_loft['有无电梯'] == '无电梯']['单价'],
        is_label_show=True,
        mark_line=['average'],
        is_toolbox_show=False)
bar

## （6）装修类型对房价的影响



In [20]:
from pyecharts import Bar, Pie
fit_up_price = pd.merge(data.groupby(
    ['装修'])['单价(元/平米)'].mean().round(0).sort_values(
        ascending=False).to_frame().reset_index(),
                        data.groupby(['装修']).size().to_frame().reset_index(),
                        on='装修')
fit_up_price.columns = ['装修', '单价(元/平米)', '计数']
print(fit_up_price)

   装修  单价(元/平米)    计数
0  精装   65471.0  4444
1  其他   61811.0   415
2  简装   61468.0  3335
3  毛坯   49078.0   224


In [21]:
pie = Pie(
    "北京二手房各装修类型房源数量统计",
    width=700,
    height=400,
)
pie.add("",
        fit_up_price['装修'],
        fit_up_price['计数'],
        is_label_show=True,
        legend_orient="vertical",
        legend_pos="right",
        is_toolbox_show=False,
        label_formatter='{b}:{c},{d}%')
pie

In [22]:
##统计各装修类型房屋数量及房价
house_fitup = data.groupby(['所在区',
                            '装修'])['单价(元/平米)'].agg(['size', 'mean', 'sum'
                                                    ]).round(0).reset_index()
house_fitup.columns = ['所在区', '装修', '数量', '单价', '总价之和']
print(house_fitup)

     所在区  装修   数量        单价      总价之和
0    东城区  其他   36  107250.0   3860983
1    东城区  毛坯    9   97862.0    880757
2    东城区  简装  216   98858.0  21353280
3    东城区  精装  302  108422.0  32743481
4    丰台区  其他    6   67694.0    406166
5    丰台区  毛坯   11   55170.0    606873
6    丰台区  简装  320   59180.0  18937593
7    丰台区  精装  330   64030.0  21130020
8    大兴区  其他   60   40103.0   2406196
9    大兴区  毛坯   13   39902.0    518724
10   大兴区  简装  398   41448.0  16496422
11   大兴区  精装  406   47631.0  19338323
12   房山区  其他   32   31133.0    996245
13   房山区  毛坯   57   28768.0   1639785
14   房山区  简装  212   28710.0   6086460
15   房山区  精装  451   32451.0  14635336
16   昌平区  其他   34   44544.0   1514500
17   昌平区  毛坯   16   42456.0    679297
18   昌平区  简装  324   46272.0  14991987
19   昌平区  精装  439   49076.0  21544556
20   朝阳区  其他   10   79306.0    793063
21   朝阳区  毛坯   14   67003.0    938044
22   朝阳区  简装  291   66693.0  19407613
23   朝阳区  精装  552   74485.0  41115672
24   海淀区  其他    7   95936.0    671550
25   海淀区  毛坯

In [23]:
bar = Bar('北京各区二手房精/简装修房源数量(套)', width=900)
bar.add('精装',
        house_fitup[house_fitup['装修'] == '精装']['所在区'],
        house_fitup[house_fitup['装修'] == '精装']['数量'],
        is_label_show=True,
        label_text_color='#000',
        label_pos='inside',
        is_stack=True)
bar.add('简装',
        house_fitup[house_fitup['装修'] == '简装']['所在区'],
        house_fitup[house_fitup['装修'] == '简装']['数量'],
        is_label_show=True,
        label_text_color='#000',
        label_pos='inside',
        is_stack=True)
#bar.add('毛坯',house_fitup[house_fitup['装修']=='毛坯']['所在区'],house_fitup[house_fitup['装修']=='毛坯']['数量'],is_label_show=True,is_stack=True)
bar

In [24]:
bar = Bar("北京各区二手房精/简装修房源单价(元/平米)", width=900)
bar.add('精装',
        house_fitup[house_fitup['装修'] == '精装']['所在区'],
        house_fitup[house_fitup['装修'] == '精装']['单价'],
        is_label_show=True,
        label_text_color='#000',
        bar_category_gap='30%',
        mark_line=['average'],
        is_toolbox_show=False)
bar.add('简装',
        house_fitup[house_fitup['装修'] == '简装']['所在区'],
        house_fitup[house_fitup['装修'] == '简装']['单价'],
        is_label_show=True,
        label_text_color='#000',
        label_pos='inside',
        bar_category_gap='30%',
        mark_line=['average'],
        is_toolbox_show=False)
#bar.add('毛坯',house_fitup[house_fitup['装修']=='毛坯']['所在区'],house_fitup[house_fitup['装修']=='毛坯']['单价'],is_label_show=True,label_text_color='#000',bar_category_gap='30%')
bar

## （7）房屋面积对房价的影响



In [25]:
from pyecharts import Scatter
area = set(data['所在区'].values.tolist())
for i in area:
    cor = round(
        data[data['所在区'] == i]['面积(平米)'].corr(
            data[data['所在区'] == i]['单价(元/平米)']), 2)
    print(i, cor)

print(data['面积(平米)'].corr(data['单价(元/平米)']))

朝阳区 0.24
昌平区 -0.21
丰台区 0.19
石景山区 0.38
通州区 0.08
东城区 -0.23
海淀区 -0.02
大兴区 0.06
西城区 -0.19
顺义区 0.16
房山区 -0.07
-0.13894266409375727


In [26]:
#修改所在区名称，画各个区房屋面积与房价的散点图
#v1 = data[data['所在区']=='大兴区']['面积(平米)']
#v2 = data[data['所在区']=='大兴区']['单价(元/平米)']/10000

v1 = data['面积(平米)']
v2 = data['单价(元/平米)'] / 10000
scatter = Scatter(width=500, height=300)
scatter.add("房屋面积与单价关系",
            v1,
            v2,
            legend_pos="40%",
            yaxis_name='单价(万元/平米)',
            yaxis_name_pos='end',
            xaxis_name='面积')
scatter

# 3.北京二手房房价预测

## - 将除面积之外的其他属性，如所在区、户型等类别属性进行编码；并划分训练集和验证集。

In [27]:
from sklearn import preprocessing
from sklearn.model_selection import train_test_split

le = preprocessing.LabelEncoder()

X1 = le.fit(data['所在区'].unique()).transform(data['所在区'])  #X1表示房屋所在区
X2 = le.fit(data['户型'].unique()).transform(data['户型'])  #X2表示房屋的户型
X3 = data['面积(平米)']  #X3表示房屋的面积
X4 = le.fit(data['装修'].unique()).transform(data['装修'])  #X4表示房屋的装修
X5 = le.fit(data['有无电梯'].unique()).transform(data['有无电梯'])  #X5表示房屋有无电梯
X6 = le.fit(data['小区名称'].unique()).transform(data['小区名称'])  #X5表示房屋所在小区
X7 = le.fit(data['所在位置'].unique()).transform(data['所在位置'])  #X5表示房屋所在位置

X = np.mat([X1, X2, X3, X4, X5, X6, X7]).T
Y = data['单价(元/平米)']
print(np.array(X).shape)

#划分训练集和验证集
X_train, X_test, Y_train, Y_test = train_test_split(X,
                                                    Y,
                                                    test_size=0.1,
                                                    random_state=0)
print(X_train.shape, Y_train.shape)
print(X_test.shape, Y_test.shape)

(8418, 7)
(7576, 7) (7576,)
(842, 7) (842,)


## 利用RandomizedSearchCV进行模型调参

In [28]:
#随机森林模型调参
##参数选择
from sklearn.model_selection import RandomizedSearchCV
from sklearn.ensemble import RandomForestRegressor

criterion = ['mse', 'mae']
n_estimators = [int(x) for x in np.linspace(start=200, stop=1200, num=50)]
max_features = ['auto', 'sqrt']
max_depth = [int(x) for x in np.linspace(10, 100, num=10)]
max_depth.append(None)
min_samples_split = [2, 5, 10]
min_samples_leaf = [1, 2, 4]
bootstrap = [True, False]
random_grid = {
    'criterion': criterion,
    'n_estimators': n_estimators,
    'max_features': max_features,
    'max_depth': max_depth,
    'min_samples_split': min_samples_split,
    'min_samples_leaf': min_samples_leaf,
    'bootstrap': bootstrap
}
#构建模型
clf = RandomForestRegressor()
clf_random = RandomizedSearchCV(estimator=clf,
                                param_distributions=random_grid,
                                n_iter=10,
                                cv=3,
                                verbose=2,
                                random_state=42,
                                n_jobs=10)
#回归
clf_random.fit(X_train, Y_train)
print(clf_random.best_params_)

Fitting 3 folds for each of 10 candidates, totalling 30 fits


[Parallel(n_jobs=10)]: Using backend LokyBackend with 10 concurrent workers.
[Parallel(n_jobs=10)]: Done  27 out of  30 | elapsed:  3.6min remaining:   23.8s
[Parallel(n_jobs=10)]: Done  30 out of  30 | elapsed: 11.8min finished


{'n_estimators': 1118, 'min_samples_split': 2, 'min_samples_leaf': 1, 'max_features': 'sqrt', 'max_depth': 70, 'criterion': 'mae', 'bootstrap': True}


## 模型训练及评估

In [29]:
##构建随机森林模型
##模型训练、验证、评估
from sklearn.ensemble import RandomForestRegressor
from pyecharts import Bar

#{'n_estimators': 506, 'min_samples_split': 10, 'min_samples_leaf': 4, 'max_features': 'sqrt', 'max_depth': 70, 'criterion': 'mse', 'bootstrap': True}
rf = RandomForestRegressor(criterion='mse',
                           bootstrap=True,
                           max_features='sqrt',
                           max_depth=70,
                           min_samples_split=10,
                           n_estimators=506,
                           min_samples_leaf=4)

rf.fit(X_train, Y_train)
Y_train_pred = rf.predict(X_train)
Y_test_pred = rf.predict(X_test)
#变量重要性
print("变量重要性：", rf.feature_importances_)
feature = ['所在区', '户型', '面积', '装修', '有无电梯', '小区名称', '所在位置']
bar = Bar()
bar.add('指标重要性',
        feature,
        rf.feature_importances_.round(2),
        is_label_show=True,
        label_text_color='#000')
bar.render('指标重要性.html')
bar

变量重要性： [0.56431002 0.02732864 0.10233487 0.01361559 0.01910392 0.07470644
 0.19860051]


In [30]:
#模型评估
from sklearn.metrics import mean_squared_error, explained_variance_score, mean_absolute_error, r2_score
print("决策树模型评估--训练集：")
print('训练r^2:', rf.score(X_train, Y_train))
print('均方差', mean_squared_error(Y_train, Y_train_pred))
print('绝对差', mean_absolute_error(Y_train, Y_train_pred))
print('解释度', explained_variance_score(Y_train, Y_train_pred))

print("决策树模型评估--验证集：")
print('验证r^2:', rf.score(X_test, Y_test))
print('均方差', mean_squared_error(Y_test, Y_test_pred))
print('绝对差', mean_absolute_error(Y_test, Y_test_pred))

决策树模型评估--训练集：
训练r^2: 0.8964673403834912
均方差 115335301.96236002
绝对差 7317.426608781318
解释度 0.8964673730463697
决策树模型评估--验证集：
验证r^2: 0.8195673521223061
均方差 202277553.95551667
绝对差 9542.345562101254


## 房价预测

In [31]:
from sklearn import preprocessing

data_pre = pd.read_csv('house_bj_new.csv')
data_pre.head()

Unnamed: 0,所在区,小区名称,户型,面积(平米),朝向,装修,所在楼层,建造年份,所在位置,总价(万元),单价(元/平米),有无电梯
0,东城区,和平里中街3号院,2室1厅,77.73,东南,精装,高楼层(共20层),2007年,和平里,959,123376,有电梯
1,东城区,忠实里,2室1厅,67.95,东南,简装,中楼层(共16层),1980年,广渠门,705,103753,有电梯
2,东城区,竹杆胡同,2室1厅,68.25,南北,精装,中楼层(共6层),2005年,朝阳门内,820,120147,无电梯
3,东城区,新景家园西区,1室1厅,59.18,南,简装,高楼层(共14层),2004年,崇文门,712,120311,有电梯
4,东城区,水上华城,1室1厅,66.1,西南,简装,高楼层(共23层),2006年,广渠门,850,128594,有电梯


In [32]:
##对类别属性进行编码
le = preprocessing.LabelEncoder()

x1 = le.fit(data_pre['所在区'].unique()).transform(data_pre['所在区'])  #X1表示房屋所在区
x2 = le.fit(data_pre['户型'].unique()).transform(data_pre['户型'])  #X2表示房屋的户型
x3 = data_pre['面积(平米)']  #X3表示房屋的面积
x4 = le.fit(data_pre['装修'].unique()).transform(data_pre['装修'])  #X4表示房屋的装修
x5 = le.fit(data_pre['有无电梯'].unique()).transform(data_pre['有无电梯'])  #X5表示房屋有无电梯
x6 = le.fit(data_pre['小区名称'].unique()).transform(data_pre['小区名称'])  #X5表示房屋所在小区
x7 = le.fit(data_pre['所在位置'].unique()).transform(data_pre['所在位置'])  #X5表示房屋所在位置

x = np.mat([x1, x2, x3, x4, x5, x6, x7]).T
print(np.array(x).shape)

#对房价进行预测并保存到house_pre.csv文件中
y_pred = rf.predict(x)
print('######')
result = pd.DataFrame()
result['所在区'] = data_pre['所在区']
result['小区名称'] = data_pre['小区名称']
result['所在位置'] = data_pre['所在位置']
result['真实值'] = data_pre['单价(元/平米)']
result['预测值'] = y_pred.round(2)
result.head()
result.to_csv("house_pre.csv")

(1100, 7)
######


## 可视化预测的房价

In [33]:
##调用百度地图，获取每个位置经纬度
# -*- coding: utf-8 -*-
import json
from urllib.request import urlopen, quote
import pandas as pd
import numpy as np

ak = 'z3YjMSWj2eZhsopS7uoP6Qn9zw0CvHR5'  # ak是申请的调用百度地图的key值


##根据地址名称获取经纬度函数
def getlnglat(address):
    url = 'http://api.map.baidu.com/geocoder/v2/'
    output = 'json'
    add = quote(address)  #由于本文城市变量为中文，为防止乱码，先用quote进行编码
    uri = url + '?' + 'address=' + add + '&output=' + output + '&ak=' + ak
    req = urlopen(uri)
    res = req.read().decode()  #将其他编码的字符串解码成unicode
    temp = json.loads(res)  #对json数据进行解析
    return temp


data = pd.read_csv('house_pre.csv')
print(data.head())

#将预测值按小区名称分组统计
df = data.groupby(['所在位置', '所在区'])['真实值', '预测值'].mean().round(2).reset_index()
add = []
for i in range(len(df)):
    df.iloc[i, 0]
    add.append('北京市' + df.iloc[i, 1] + df.iloc[i, 0])
df['地址'] = add

lat = []
lng = []
for addr in df[u'地址'].values:
    res = getlnglat(addr)
    lat.append(res['result']['location']['lat'])
    lng.append(res['result']['location']['lng'])
df[u'维度'] = lat
df[u'经度'] = lng
print(df.head())
df.to_csv('house_add.csv', index=False)
df.head()

   Unnamed: 0  所在区       小区名称  所在位置     真实值        预测值
0           0  东城区  和平里中街3号院    和平里  123376   99680.55
1           1  东城区       忠实里    广渠门  103753  102533.44
2           2  东城区      竹杆胡同   朝阳门内  120147  104050.60
3           3  东城区    新景家园西区    崇文门  120311  101143.00
4           4  东城区      水上华城    广渠门  128594   99795.06


  df = data.groupby(['所在位置', '所在区'])['真实值', '预测值'].mean().round(2).reset_index()


  所在位置  所在区        真实值       预测值         地址         维度          经度
0  七里庄  丰台区   65124.57  58708.40  北京市丰台区七里庄  39.870409  116.296380
1   万柳  海淀区  153240.33  91216.27   北京市海淀区万柳  39.977845  116.302908
2   万源  大兴区   39216.00  57175.67   北京市大兴区万源  39.732555  116.348625
3   万达  通州区   42766.50  51531.49   北京市通州区万达  39.911427  116.648130
4  三元桥  朝阳区  120721.00  84599.56  北京市朝阳区三元桥  39.962914  116.458335


Unnamed: 0,所在位置,所在区,真实值,预测值,地址,维度,经度
0,七里庄,丰台区,65124.57,58708.4,北京市丰台区七里庄,39.870409,116.29638
1,万柳,海淀区,153240.33,91216.27,北京市海淀区万柳,39.977845,116.302908
2,万源,大兴区,39216.0,57175.67,北京市大兴区万源,39.732555,116.348625
3,万达,通州区,42766.5,51531.49,北京市通州区万达,39.911427,116.64813
4,三元桥,朝阳区,120721.0,84599.56,北京市朝阳区三元桥,39.962914,116.458335


In [34]:
from pyecharts import Geo
import pandas as pd

df = pd.read_csv('house_add.csv')

geo_cities_coords = {
    df.iloc[i]['地址']: [df.iloc[i]['经度'], df.iloc[i]['维度']]
    for i in range(len(df))
}
attr = list(df['地址'])
value = list(df['预测值'])

geo = Geo("北京市各区二手房房价量",
          "预测值",
          title_color="#fff",
          title_pos="left",
          width=1000,
          height=600,
          background_color='#404a59')

##自定义坐标点
for i in range(len(df)):
    geo.add_coordinate(df.iloc[i]['地址'], df.iloc[i]['经度'], df.iloc[i]['维度'])

geo.add("",
        attr,
        value,
        maptype='北京',
        visual_range=[min(value), max(value)],
        visual_text_color="#fff",
        symbol_size=15,
        is_visualmap=True,
        is_geo_effect_show=True,
        type='effectScatter',
        border_color='#eef')
geo  #直接在notebook中显示