In [1]:
# 基于大数据的房产估价
# 一、实验目的与要求
#
# 1、掌握使用numpy和pandas库处理数据的基本方法。
# 2、掌握使用Sklearn库对多元线性回归算法的实现及其评价方法。
# 3、掌握使用matplotlib结合pandas库对数据分析可视化处理的基本方法。
# 二、实验内容
#
# 1、利用python中pandas等库完成对数据的预处理，最后将处理好的文件进行保存。
# 2、利用pandas、matplotlib等库完成对预处理数据的可视化。
# 3、结合pandas、matplotlib库对聚类完成的结果进行可视化处理。
# 三、实验步骤



In [2]:

# 1.数据预处理

# （1）导入所需要使用的包
import numpy as np
import pandas as pd
import re
import os
import matplotlib.pyplot as plt
import matplotlib as mpl
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression as LR
from sklearn.metrics import r2_score

# （2）读取文件
input_dir = 'E:\python大数据\lab1_data\data/'
files = os.listdir(input_dir)
data = []
for i in files:
    data.append(pd.read_excel(input_dir+i))
data = pd.concat(data)
data.head()

Unnamed: 0,描述,位置信息,区域,房屋信息,关注信息,总价,单价
0,康河郦景二期 3室1厅 273万,康河郦景二期,武侯,3室1厅 | 151.44平米 | 东南 | 精装 | 中楼层(共18层) | 2006年建...,36人关注 / 6天以前发布,273万,单价18027元/平米
1,双楠二环内，精装三居室，首付二十多万，随时看房,双楠三区,武侯,3室2厅 | 79.71平米 | 东南 | 精装 | 高楼层(共7层) | 1999年建 | 板楼,89人关注 / 3个月以前发布,87.7万,单价11003元/平米
2,溢阳绿城，精装修标准套三，楼层好，配套完善,溢阳绿城,武侯,3室1厅 | 127.8平米 | 南 | 精装 | 中楼层(共6层) | 2002年建 | 板楼,20人关注 / 1个月以前发布,240万,单价18780元/平米
3,一环内标准套三，明厨明卫，采光好,华西美庐,武侯,3室2厅 | 177.11平米 | 西北 | 简装 | 中楼层(共28层) | 塔楼,41人关注 / 1个月以前发布,248万,单价14003元/平米
4,棕北套二低楼层，精装修保养好，配套成熟,锦绣街9号,武侯,2室1厅 | 63.03平米 | 西 | 精装 | 低楼层(共7层) | 1996年建 | 板楼,28人关注 / 22天以前发布,103万,单价16342元/平米


In [3]:
# （3）查看数据的基本统计信息
data.describe()

Unnamed: 0,描述,位置信息,区域,房屋信息,关注信息,总价,单价
count,35662,35662,35662,35662,35662,35662,35662
unique,35180,5707,17,35310,3332,1554,17140
top,此房电梯清水，物管费底适合居住居家,恒大御景半岛,武侯,1室1厅 | 30平米 | 东南 | 其他 | 高楼层(共22层) | 塔楼,0人关注 / 1个月以前发布,120万,单价10000元/平米
freq,8,202,3000,5,730,637,78


In [4]:
 #（4）删除csv文件中索引列，并重置 # #
data=data.reset_index()
data.head()
data=data.drop('index',axis=1)
data.head()

Unnamed: 0,描述,位置信息,区域,房屋信息,关注信息,总价,单价
0,康河郦景二期 3室1厅 273万,康河郦景二期,武侯,3室1厅 | 151.44平米 | 东南 | 精装 | 中楼层(共18层) | 2006年建...,36人关注 / 6天以前发布,273万,单价18027元/平米
1,双楠二环内，精装三居室，首付二十多万，随时看房,双楠三区,武侯,3室2厅 | 79.71平米 | 东南 | 精装 | 高楼层(共7层) | 1999年建 | 板楼,89人关注 / 3个月以前发布,87.7万,单价11003元/平米
2,溢阳绿城，精装修标准套三，楼层好，配套完善,溢阳绿城,武侯,3室1厅 | 127.8平米 | 南 | 精装 | 中楼层(共6层) | 2002年建 | 板楼,20人关注 / 1个月以前发布,240万,单价18780元/平米
3,一环内标准套三，明厨明卫，采光好,华西美庐,武侯,3室2厅 | 177.11平米 | 西北 | 简装 | 中楼层(共28层) | 塔楼,41人关注 / 1个月以前发布,248万,单价14003元/平米
4,棕北套二低楼层，精装修保养好，配套成熟,锦绣街9号,武侯,2室1厅 | 63.03平米 | 西 | 精装 | 低楼层(共7层) | 1996年建 | 板楼,28人关注 / 22天以前发布,103万,单价16342元/平米


In [5]:
# # （5）处理空值 # #
#data.isnull().any()
data=data.dropna()
data.head()

Unnamed: 0,描述,位置信息,区域,房屋信息,关注信息,总价,单价
0,康河郦景二期 3室1厅 273万,康河郦景二期,武侯,3室1厅 | 151.44平米 | 东南 | 精装 | 中楼层(共18层) | 2006年建...,36人关注 / 6天以前发布,273万,单价18027元/平米
1,双楠二环内，精装三居室，首付二十多万，随时看房,双楠三区,武侯,3室2厅 | 79.71平米 | 东南 | 精装 | 高楼层(共7层) | 1999年建 | 板楼,89人关注 / 3个月以前发布,87.7万,单价11003元/平米
2,溢阳绿城，精装修标准套三，楼层好，配套完善,溢阳绿城,武侯,3室1厅 | 127.8平米 | 南 | 精装 | 中楼层(共6层) | 2002年建 | 板楼,20人关注 / 1个月以前发布,240万,单价18780元/平米
3,一环内标准套三，明厨明卫，采光好,华西美庐,武侯,3室2厅 | 177.11平米 | 西北 | 简装 | 中楼层(共28层) | 塔楼,41人关注 / 1个月以前发布,248万,单价14003元/平米
4,棕北套二低楼层，精装修保养好，配套成熟,锦绣街9号,武侯,2室1厅 | 63.03平米 | 西 | 精装 | 低楼层(共7层) | 1996年建 | 板楼,28人关注 / 22天以前发布,103万,单价16342元/平米


In [6]:
# （6）删除部分数据的中文字符，将数据类型转换为float型 #
#总价处理
data.总价=data.总价.map(lambda x:re.findall(r"\d+\.?\d*",x)[0] )
data.总价=data.总价.map(lambda x:float(x))

#单价处理
data.单价=data.单价.map(lambda x:re.findall(r"\d+\.?\d*",x)[0] )
data.单价=data.单价.map(lambda x:float(x))

#关注信息处理
data.loc[:,'关注人数']=data.关注信息.map(lambda  x: x.split('/')[0])
data.loc[:,'发布时间']=data.关注信息.map(lambda  x: x.split('/')[1])
data=data.drop('关注信息',axis=1)
data.关注人数 = data.关注人数.map(lambda x : re.sub('[\u4e00-\u9fa5]','',x))
data.关注人数 = data.关注人数.map(lambda x : int(x))
data.head()
#房屋信息处理
msg=data.房屋信息.map(lambda  x: len(x.split('|')))
msg.value_counts()
data=data[msg==7]
data.loc[:,'房型']=data.房屋信息.map(lambda  x: x.split('|')[0])
data.loc[:,'面积']=data.房屋信息.map(lambda  x: x.split('|')[1])
data.loc[:,'朝向']=data.房屋信息.map(lambda  x: x.split('|')[2])
data.loc[:,'类型']=data.房屋信息.map(lambda  x: x.split('|')[3])
data.loc[:,'楼层']=data.房屋信息.map(lambda  x: x.split('|')[4])
data.loc[:,'建成时间']=data.房屋信息.map(lambda  x: x.split('|')[5])
data.loc[:,'结构']=data.房屋信息.map(lambda  x: x.split('|')[6])
data=data.drop('房屋信息',axis=1)
data

Unnamed: 0,描述,位置信息,区域,总价,单价,关注人数,发布时间,房型,面积,朝向,类型,楼层,建成时间,结构
0,康河郦景二期 3室1厅 273万,康河郦景二期,武侯,273.0,18027.0,36,6天以前发布,3室1厅,151.44平米,东南,精装,中楼层(共18层),2006年建,板塔结合
1,双楠二环内，精装三居室，首付二十多万，随时看房,双楠三区,武侯,87.7,11003.0,89,3个月以前发布,3室2厅,79.71平米,东南,精装,高楼层(共7层),1999年建,板楼
2,溢阳绿城，精装修标准套三，楼层好，配套完善,溢阳绿城,武侯,240.0,18780.0,20,1个月以前发布,3室1厅,127.8平米,南,精装,中楼层(共6层),2002年建,板楼
4,棕北套二低楼层，精装修保养好，配套成熟,锦绣街9号,武侯,103.0,16342.0,28,22天以前发布,2室1厅,63.03平米,西,精装,低楼层(共7层),1996年建,板楼
5,中间楼层 错层户型 采光好 诚心出售,中央花园二期,武侯,115.0,9931.0,111,2个月以前发布,3室1厅,115.8平米,南,精装,中楼层(共7层),1998年建,板塔结合
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
35657,蓝光SOFA 朝南对中庭 不临街,蓝光SOFA社区,青羊,178.0,22803.0,15,一年前发布,2室2厅,78.06平米,南,精装,低楼层(共20层),2011年建,塔楼
35658,中鹏花园A区 套四有装修 对中庭,中鹏花园A区,青羊,115.0,9831.0,65,一年前发布,4室2厅,116.98平米,南,简装,中楼层(共7层),1998年建,板楼
35659,地铁口 蓝光SOFA 房东自住精装1室 拎包入住,蓝光SOFA社区,青羊,93.0,18857.0,17,一年前发布,1室2厅,49.32平米,西,精装,高楼层(共20层),2011年建,塔楼
35660,蓝光SOFA社区 装修小套二 不临马路,蓝光SOFA社区,青羊,170.0,21959.0,6,一年前发布,2室1厅,77.42平米,东,简装,低楼层(共20层),2011年建,塔楼


In [7]:
# # （7）对部分数据进行独热码编码 # #

In [8]:
# （8）对数据进行标准化处理 # #

In [9]:
# （9）存储预处理后的文件 #

In [10]:
# 2、数据分析
#
# （1）读取预处理后的文件
#
#
# （2）利用二八原则，划分训练集和测试集
#
#
# （3）建立多元回归模型
#
#
# （4）训练回归模型
#
# （5）计算估计值
#
#
# （6）判断模型拟合的好坏程度

In [11]:
# 3、数据可视化

# （1）将训练集真实值与模型预测值用折线图的形式表现出来


# （2）将测试集真实值与模型预测值用折线图的形式表现出来
