# 2019杭州市链家在售房源数据可视化

探索地理位置、单价、面积、房屋朝向、户型、楼层位置等因素对购房者关注热度的影响。

## 数据查看

该数据一共有30771行，14列，包含在售房源的信息

## 一、导入库

In [1]:
import numpy as np 
import matplotlib.pyplot as plt
import pandas as pd
import datetime
import calendar

## 二、读取数据

In [19]:
path=r'F:\Data\lianjia\house.csv'
df=pd.read_csv(path)

## 三、查看数据

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30771 entries, 0 to 30770
Data columns (total 14 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   产权      30771 non-null  object 
 1   关注      30771 non-null  int64  
 2   区域      30770 non-null  object 
 3   单价      30771 non-null  object 
 4   小区      30770 non-null  object 
 5   年限      30771 non-null  object 
 6   总价/万元   30771 non-null  float64
 7   户型      30771 non-null  object 
 8   房屋编码    30771 non-null  int64  
 9   挂牌时间    30771 non-null  object 
 10  朝向      30771 non-null  object 
 11  楼层      30771 non-null  object 
 12  装修情况    30771 non-null  object 
 13  面积      30771 non-null  object 
dtypes: float64(1), int64(2), object(11)
memory usage: 3.3+ MB


In [5]:
df.head()

Unnamed: 0,产权,关注,区域,单价,小区,年限,总价/万元,户型,房屋编码,挂牌时间,朝向,楼层,装修情况,面积
0,70年,0,余杭临平,21015元/平米,众安理想湾,2015年建/板楼,210.0,3室2厅,103105013026,2019-06-12,南 北,低楼层/共33层,平层/精装,99.93平米
1,70年,4,余杭临平,28416元/平米,众安理想湾,2016年建/板塔结合,780.0,6室2厅,103104324906,2019-04-04,南,联排/共3层,毛坯,274.5平米
2,70年,2,余杭临平,17323元/平米,众安理想湾,2015年建/板楼,220.0,3室2厅,103102855120,2018-09-07,南,高楼层/共33层,精装,127平米
3,70年,4,余杭临平,18249元/平米,众安理想湾,2015年建/塔楼,250.0,3室2厅,103102737121,2018-08-15,南,中楼层/共33层,简装,137平米
4,70年,1,余杭临平,24112元/平米,众安理想湾,2015年建/板楼,215.0,3室2厅,103104498162,2019-04-21,南,高楼层/共34层,精装,89.17平米


## 四、数据清洗

### 去除空值

In [20]:
# 查看空值
df.isnull().sum()

产权       0
关注       0
区域       1
单价       0
小区       1
年限       0
总价/万元    0
户型       0
房屋编码     0
挂牌时间     0
朝向       0
楼层       0
装修情况     0
面积       0
dtype: int64

In [21]:
# 去除空值
df=df.dropna()
df.isnull().sum()

产权       0
关注       0
区域       0
单价       0
小区       0
年限       0
总价/万元    0
户型       0
房屋编码     0
挂牌时间     0
朝向       0
楼层       0
装修情况     0
面积       0
dtype: int64

### 处理产权变量

In [22]:
df['产权'].value_counts()

70年    26384
40年     3229
50年     1150
未知         7
Name: 产权, dtype: int64

将未知量去除

In [23]:
df=df[df['产权']!='未知']

### 处理区域变量

In [24]:
df['区域'].value_counts()

余杭临平       2084
临安临安       1719
余杭闲林       1683
余杭未来科技城     855
江干丁桥        787
           ... 
上城四季青        13
钱塘新区大江东      13
萧山西兴         11
萧山大江东        11
钱塘新区九堡        6
Name: 区域, Length: 116, dtype: int64

In [25]:
# 选取有代表性的区域进行地区汇总
def location(x):
    if "临安" in x: return "临安市"
    elif "上城" in x: return "上城区"
    elif "下城" in x: return "下城区"
    elif "江干" in x: return "江干区"
    elif "拱墅" in x: return "拱墅区"
    elif "西湖" in x: return "西湖区"
    elif "滨江" in x: return "滨江区"
    elif "萧山" in x: return "萧山区"
    elif "余杭" in x: return "余杭区"
    elif "富阳" in x: return "富阳区"
    elif "钱塘" in x: return "钱塘新区"
    else: return "其他"
    
df['区域']=df['区域'].apply(location)

In [26]:
# 查看区域数据
df['区域'].value_counts()

余杭区     8142
西湖区     4104
江干区     3576
拱墅区     2563
萧山区     2558
下城区     2388
钱塘新区    2237
滨江区     2005
临安市     1719
上城区     1399
富阳区       72
Name: 区域, dtype: int64

### 处理单价变量

In [27]:
df['单价']

0        21015元/平米
1        28416元/平米
2        17323元/平米
3        18249元/平米
4        24112元/平米
           ...    
30766    19566元/平米
30767    17557元/平米
30768    19613元/平米
30769    22314元/平米
30770    14946元/平米
Name: 单价, Length: 30763, dtype: object

单价应该是float类型，需要进行类型转换

In [29]:
df['单价']=df['单价'].str[:-4].astype('float32')

In [30]:
df['单价']

0        21015.0
1        28416.0
2        17323.0
3        18249.0
4        24112.0
          ...   
30766    19566.0
30767    17557.0
30768    19613.0
30769    22314.0
30770    14946.0
Name: 单价, Length: 30763, dtype: float32

In [31]:
# 查看单价变量
df['单价'].describe()

count     30763.000000
mean      34640.843750
std       13683.420898
min        7494.000000
25%       24264.500000
50%       32623.000000
75%       42842.500000
max      145650.000000
Name: 单价, dtype: float64

### 处理年限变量

In [32]:
df['年限']

0          2015年建/板楼
1        2016年建/板塔结合
2          2015年建/板楼
3          2015年建/塔楼
4          2015年建/板楼
            ...     
30766      2013年建/板楼
30767        未知年建/板楼
30768      2013年建/板楼
30769      2013年建/板楼
30770        未知年建/板楼
Name: 年限, Length: 30763, dtype: object

将“年限”变量划分为“起建时间”和“建筑类型”两个变量

In [33]:
df['起建时间']=df['年限'].str.split('/').str[0]
df['建筑类型']=df['年限'].str.split('/').str[1]

In [35]:
# 查看起建时间数据
df['起建时间'].value_counts()

未知年建      2931
2016年建    2615
2014年建    1831
2015年建    1701
2010年建    1700
2013年建    1670
2017年建    1657
2012年建    1590
2000年建    1280
2007年建    1228
2008年建    1206
2006年建    1164
2011年建    1087
2009年建    1084
2005年建     932
1998年建     925
2003年建     642
2004年建     642
2018年建     589
1996年建     535
1995年建     474
1999年建     396
1997年建     366
2002年建     353
1988年建     352
1989年建     328
1990年建     216
1993年建     209
2001年建     180
1994年建     157
1985年建     153
1986年建     134
1992年建      93
1991年建      85
1987年建      67
2019年建      50
1984年建      41
1982年建      37
1983年建      32
1980年建      16
1981年建       9
1973年建       2
1978年建       2
1964年建       1
1977年建       1
Name: 起建时间, dtype: int64

In [36]:
# 筛选掉未知年份建的书籍
df=df[df['起建时间']!='未知年建']

In [37]:
# 查看建筑类型数据
df['建筑类型'].value_counts()

板楼      23038
塔楼       2481
板塔结合     2010
暂无数据      252
平房         51
Name: 建筑类型, dtype: int64

In [38]:
# 筛选掉未知年份建的书籍
df=df[df['建筑类型']!='暂无数据']

In [40]:
# 创建楼龄变量
df['楼龄']=2020-df['起建时间'].str[:4].astype('int32')

In [41]:
df['楼龄']

0        5
1        4
2        5
3        5
4        5
        ..
30762    7
30765    7
30766    7
30768    7
30769    7
Name: 楼龄, Length: 27580, dtype: int32

In [42]:
# 舍弃起建时间和年限数据
df=df.drop(['起建时间','年限'],axis=1)

### 处理户型变量

In [43]:
# 查看数据
df['户型']

0        3室2厅
1        6室2厅
2        3室2厅
3        3室2厅
4        3室2厅
         ... 
30762    3室2厅
30765    3室2厅
30766    2室2厅
30768    5室2厅
30769    5室3厅
Name: 户型, Length: 27580, dtype: object

In [44]:
df['室数']=df['户型'].str[0].astype('int32')
df['厅数']=df['户型'].str[2].astype('int32')

In [45]:
# 去除房屋编码数据
df=df.drop(['房屋编码'],axis=1)

### 处理挂牌时间变量

In [46]:
df['挂牌时间']

0        2019-06-12
1        2019-04-04
2        2018-09-07
3        2018-08-15
4        2019-04-21
            ...    
30762    2018-11-06
30765    2018-07-02
30766    2018-07-07
30768    2019-04-14
30769    2019-05-08
Name: 挂牌时间, Length: 27580, dtype: object

In [47]:
df['Date']=pd.to_datetime(df['挂牌时间'],format='%Y-%M-%d')
df.set_index(df.Date,inplace=True)

### 处理朝向变量

In [49]:
df['朝向']

Date
2019-01-12 00:06:00    南 北
2019-01-04 00:04:00      南
2018-01-07 00:09:00      南
2018-01-15 00:08:00      南
2019-01-21 00:04:00      南
                      ... 
2018-01-06 00:11:00      南
2018-01-02 00:07:00      南
2018-01-07 00:07:00      南
2019-01-14 00:04:00      南
2019-01-08 00:05:00      南
Name: 朝向, Length: 27580, dtype: object

In [51]:
# 去除首段末端的空格
df['朝向']=df['朝向'].str.strip()

In [52]:
# 查看字数的统计数据
df['朝向'].str.len().value_counts()

1     19162
3      6441
2      1139
5       517
4       267
6        36
7        13
8         4
11        1
Name: 朝向, dtype: int64

In [53]:
# 利用窗户变量重新统计窗户朝向数据
def orientation(x):
    if "东南" in x:
        if x.count("南") > 1:
            if ("西南" in x) & ("南" not in x):
                return "东南"
            else:
                return "南"
        else:
            return "东南"
    elif "西南" in x:
        if x.count("南") >1:
            return "南"
        else:
            return "西南"
    elif "南" in x:
        return "南"
    elif "东" in x:
        return "东"
    elif "西" in x:
        return "西"        
    else:
        return "北"

df['窗户']=df['朝向'].apply(orientation)

In [54]:
df['窗户']

Date
2019-01-12 00:06:00    南
2019-01-04 00:04:00    南
2018-01-07 00:09:00    南
2018-01-15 00:08:00    南
2019-01-21 00:04:00    南
                      ..
2018-01-06 00:11:00    南
2018-01-02 00:07:00    南
2018-01-07 00:07:00    南
2019-01-14 00:04:00    南
2019-01-08 00:05:00    南
Name: 窗户, Length: 27580, dtype: object

In [55]:
# 舍弃朝向变量
df.drop('朝向',axis=1,inplace=True)

### 处理楼层变量

In [56]:
df['楼层']

Date
2019-01-12 00:06:00    低楼层/共33层
2019-01-04 00:04:00      联排/共3层
2018-01-07 00:09:00    高楼层/共33层
2018-01-15 00:08:00    中楼层/共33层
2019-01-21 00:04:00    高楼层/共34层
                         ...   
2018-01-06 00:11:00     高楼层/共6层
2018-01-02 00:07:00    低楼层/共11层
2018-01-07 00:07:00    低楼层/共11层
2019-01-14 00:04:00      联排/共3层
2019-01-08 00:05:00         共3层
Name: 楼层, Length: 27580, dtype: object

In [57]:
df=df[df['楼层'].str.contains('/')]

In [59]:
# 引入楼层位置变量
df['楼层位置']=df['楼层'].str.split('/').str[0]
df=df[df['楼层位置'].isin(['低楼层','中楼层','高楼层'])]

In [60]:
# 引入层数变量
df['层数']=df['楼层'].str.split('/').str[1]
df['层数']=df['层数'].str[1:-1].astype('int32')

In [61]:
# 去除楼层变量
df=df.drop('楼层',axis=1)

### 处理装修情况变量

In [62]:
def build(x):
    if '精装' in x:
        return '精装'
    elif '简装' in x:
        return '简装'
    elif '毛坯' in x:
        return '毛坯'
    else:
        return '其他'

df['装修情况']=df['装修情况'].apply(build)

### 处理面积变量

In [63]:
df['面积']

Date
2019-01-12 00:06:00    99.93平米
2018-01-07 00:09:00      127平米
2018-01-15 00:08:00      137平米
2019-01-21 00:04:00    89.17平米
2019-01-03 00:06:00    88.42平米
                        ...   
2019-01-01 00:04:00      129平米
2019-01-26 00:04:00      149平米
2018-01-06 00:11:00       97平米
2018-01-02 00:07:00    93.56平米
2018-01-07 00:07:00       92平米
Name: 面积, Length: 27326, dtype: object

In [64]:
df['面积']=df['面积'].str[:-2].astype('float32')

所有变量均处理完毕

### 查看数据

In [65]:
df.describe()

Unnamed: 0,关注,单价,总价/万元,面积,楼龄,室数,厅数,层数
count,27326.0,27326.0,27326.0,27326.0,27326.0,27326.0,27326.0,27326.0
mean,17.293823,35703.492188,345.421174,96.356651,12.221657,2.585377,1.569933,16.239442
std,31.649551,13341.21582,234.976597,46.116638,8.061199,0.990168,0.556681,9.280645
min,0.0,8807.0,35.0,16.0,1.0,0.0,0.0,1.0
25%,2.0,25540.0,210.0,63.16,6.0,2.0,1.0,7.0
50%,7.0,34074.0,296.0,88.660004,10.0,3.0,2.0,16.0
75%,20.0,43530.0,420.0,123.0,17.0,3.0,2.0,23.0
max,904.0,141831.0,7000.0,1396.51001,56.0,9.0,5.0,60.0


In [67]:
# 去除0室0厅的数据
# 保留房子总价大于50万和小于3000万的数据
df=df[df['户型']!='0室0厅']
df=df[(df['总价/万元']>50)&(df['总价/万元']<3000)]

### 保存数据

In [None]:
df.to_csv('F:\Data\lianjia\lianjia.csv')

## 数据可视化

1. 杭州市各区房源数量对比图

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5h3PY7tqNSeINDhELiAjHpbS.orE5.2A7mMThOk8eyCbbrPmfCEV0OF2hUzPQdMRt54FdkkiQ01uHc8pSKLiWPY!/b&bo=zwL7Ac8C.wEDCSw!&rf=viewer_4)

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5uCkxMBDK.fhjLvEdgciA5nVLZ9Xy7xE.bOnUmMH6eBr7H9YNdJmE3ja0OrxLT2tJMCW7XQjBXwSiCnFblIU*8E!/b&bo=WAT7AVgE.wEDCSw!&rf=viewer_4)

2. 杭州市各城区房源平均总价对比图

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5uCkxMBDK.fhjLvEdgciA5kHBADlY8HAQv333yPYCDafoqOj4E3Je*HLWjyUb1umSpJ5JbappJuTV8aOy5IhYfs!/b&bo=zwL7Ac8C.wEDCSw!&rf=viewer_4)

3. 杭州市各城区房源每平米单价对比图

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5uCkxMBDK.fhjLvEdgciA5nwqmE2zsJ4JBGBNu8P0YUi.hAzzisCesruiD96WQI9WefWNpjAIbEwiDBYxWb34is!/b&bo=zwL7Ac8C.wEDCSw!&rf=viewer_4)

4. 杭州市各城区房源关注热度对比图

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5uCkxMBDK.fhjLvEdgciA5m8YuVK91azyZQsKgtzKGatURf4*8x.PheiX*gkRHDYTdGVmyYC.ub4oQma7sW2dBI!/b&bo=yAL7AcgC.wEDCSw!&rf=viewer_4)

5. 关注度户型最高TOP10

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5h3PY7tqNSeINDhELiAjHpbZ6ciZUMD7Bkm7cyIU99nWgm1Bf3IN6AeBwhGUjOANcpdfAQTiZBFNL.MuNM.boEc!/b&bo=zAP7AcwD.wEDCSw!&rf=viewer_4)

6. 不同朝向的关注度对比

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5sOX8d*JXbt.TNNgILdS5JNm2uT4mj5ZNpZX7qextlUIBD6vBS91Cv*XLaFpYcbtVXNA8bwS4sAiJb.jWp9ExlU!/b&bo=wwMkAsMDJAIDCSw!&rf=viewer_4)

7. 不同产权的关注度对比

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5sOX8d*JXbt.TNNgILdS5JNHIFivRxwP35XFx3dS0ITrUuz7bfROSZQCSIi7XU75e2t4S9LCFEVwaa9iu.I4.Qo!/b&bo=wwMkAsMDJAIDCSw!&rf=viewer_4)

8. 不同楼层的关注度对比

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5sOX8d*JXbt.TNNgILdS5JMT6HO77Prn0XBd*Px7GNFM*AipWVBFbAc1UzduAVNoN5NHlyWX78oD69u*iqrEDzc!/b&bo=zAP7AcwD.wEDCSw!&rf=viewer_4)

9. 不同装修情况的关注度对比

![](http://m.qpic.cn/psc?/V509KgjP2rVc1x3xXZE72dVD4k46B5pi/ruAMsa53pVQWN7FLK88i5sOX8d*JXbt.TNNgILdS5JOg7ZTJ2g58KuGhTCQULEFDjlfcMnc*cfpToRvWlJMjrMbeAujqdH7Sct3L9BPeEZU!/b&bo=zAP7AcwD.wEDCSw!&rf=viewer_4)