In [None]:
import pandas as  pd
import numpy as np
import random
from matplotlib import pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import  Lasso
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.neighbors import KNeighborsRegressor
import numpy as np

# 一、导入数据
df=pd.read_csv('/Users/workspace/pyspace/pyjupyter/Xiangmu/house.csv', encoding='gbk')

# 查看数据情况
## 数据总体情况
print(f'样本量总共有 {df.shape[0]} 个')

## 判断是否有重复项
df.duplicated().sum()

In [None]:
## 判断是否有缺失值
df.isnull().sum()

In [None]:
## 查看数据类型
df.dtypes

In [None]:
## 唯一标签值
print(df['朝向'].unique())
print(df['楼层'].unique())
print(df['装修'].unique())
print(df['产权性质'].unique())
print(df['住宅类别'].unique())
print(df['建筑结构'].unique())
print(df['建筑类别'].unique())
print(df['区域'].unique())
print(df['建筑年代'].unique())

In [None]:
# 二、数据清洗
## 1.数据格式转换
df.replace('暂无',np.nan,inplace=True)
df['建筑面积']=df['建筑面积'].map(lambda x: x.replace('平米','')).astype('float')
df['单价']=df['单价'].map(lambda x: x.replace('元/平米','')).astype('float')
def process_year(year):
    if year is not None:
        year = str(year)[:4]
    return year
df['建筑年代'] = df['建筑年代'].map(process_year)
floor = {'低楼层':'低','中楼层':'中','高楼层':'高','低层':'低','中层':'中','高层':'高'}
df['楼层'] = df['楼层'].map(floor)
def process_area(area):
    if area != '新区':
        area = area.replace('区','').replace('县','')
    return area
df['区域'] = df['区域'].map(process_area)
df.replace('nan',np.nan,inplace=True)

## 2.重复值处理
df.drop_duplicates(inplace=True)
df.reset_index(drop=True, inplace=True)

## 3.缺失值处理
df.info()
# 户型、朝向、楼层处理，缺失值数量不多，考虑直接删除即可
df.dropna(subset=['户型','朝向','楼层'], inplace=True)
# 建筑年代、建筑类别、建筑结构、住宅类别、产权性质、装修 这些离散型变量很难处理，得根据实际情况填充，为了得到更加真实的结果暂不处理
# 电梯处理（底层无，高层有，中层随机处理）
df.loc[(df['楼层'] == '高') & (df['电梯'].isnull()),'电梯'] = '有 '
df.loc[(df['楼层'] == '低') & (df['电梯'].isnull()),'电梯'] = '无 '
df.loc[(df['楼层'] == '中') & (df['电梯'].isnull()),'电梯'] = random.choice(['有 ','无 '])
df.reset_index(drop=True, inplace=True)

## 4.异常值处理
# 箱线图分析
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
fig,ax = plt.subplots(1,2,figsize=(16,6))
df.boxplot(column=['建筑面积'], flierprops={'markeredgecolor':'red', 'markersize':4}, ax=ax[0])
df.boxplot(column=['总价'], flierprops={'markeredgecolor':'red', 'markersize':4}, ax=ax[1])

In [None]:
## 5.描述性分析
df.describe()

# 将高于房价200万的删除
df.drop(index = df[df['总价'] > 200].index, inplace=True)
# 另存为新文件
df.to_excel('house.xlsx',encoding='utf8',index=False)

In [None]:
# 三、数据分析
## 1.探究单价、数量、总价和行政区域之间的关系
fig,ax = plt.subplots(3,1,figsize=(8,18))
x = df['区域'].unique()
# 各区单价对比
y1 = round(df.groupby(by=['区域'])['单价'].mean().sort_values(ascending=False),2)
sns.barplot(x,y1,ax=ax[0],palette='Blues_r')
ax[0].set_title('兰州各县\区二手房平均单价对比')

# 各区总价对比
y2 = round(df.groupby(by=['区域'])['总价'].mean().sort_values(ascending=False),2)
sns.barplot(x,y2,ax=ax[1],palette='BuGn_r')
ax[1].set_title('兰州各县\区二手房平均总价对比')

# 各区房子数量对比
y3 = round(df.groupby(by=['区域']).size().sort_values(ascending=False),2)
sns.barplot(x,y3,ax=ax[2],palette='Oranges_d')
ax[2].set_title('兰州各县\区二手房数量对比')
ax[2].set_ylabel('数量')

In [None]:
## 2.探究面积和总价的关系
plt.figure(figsize=(8,7))
sns.scatterplot(x='建筑面积',y='总价',data=df,s=14)

In [None]:
## 3.探究朝向和总价的关系
plt.figure(figsize=(10,8))
my_order = df.groupby(by=["朝向"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='朝向',y='总价',data=df,width=0.5,notch=True,order=my_order)

In [None]:
## 4.探究装修和总价的关系
plt.figure(figsize=(10,8))
my_order = df.groupby(by=["装修"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='装修',y='总价',data=df,width=0.4,notch=True,order=my_order)

In [None]:
## 5.探究楼层和总价的关系
plt.figure(figsize=(10,8))
my_order = df.groupby(by=["楼层"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='楼层',y='总价',data=df,width=0.3,notch=True,order=my_order)

In [None]:
## 6.探究电梯和总价的关系
plt.figure(figsize=(10,8))
my_order = df.groupby(by=["电梯"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='电梯',y='总价',data=df,width=0.2,notch=True,order=my_order)

In [None]:
## 7.探究学区房和总价的关系
plt.figure(figsize=(10,8))
my_order = df.groupby(by=["学校"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='学校',y='总价',data=df,width=0.2,notch=True,order=my_order)

In [None]:
## 8.建筑年代情况分析以及和总价的关系
plt.figure(figsize=(16,8))
order = sorted(df['建筑年代'].value_counts().index)
sns.countplot(x=df['建筑年代'],order=order)

In [None]:
plt.figure(figsize=(13,8))
my_order = df.groupby(by=["建筑年代"])["总价"].size().sort_values(ascending=False).index[:20]
sns.boxplot(x='建筑年代',y='总价',data=df,width=0.2,notch=True,order=my_order)

In [None]:
## 9.产权性质、住宅类别、建筑结构、建筑类别与总价的关系
plt.figure(figsize=(10,8))
my_order = df.groupby(by=["产权性质"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='产权性质',y='总价',data=df,width=0.2,order=my_order)

In [None]:
plt.figure(figsize=(10,8))
my_order = df.groupby(by=["住宅类别"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='住宅类别',y='总价',data=df,width=0.2,order=my_order)

In [None]:
plt.figure(figsize=(10,8))
my_order = df.groupby(by=["建筑结构"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='建筑结构',y='总价',data=df,width=0.2,order=my_order)

In [None]:
plt.figure(figsize=(10,8))
my_order = df.groupby(by=["建筑类别"])["总价"].median().sort_values(ascending=False).index
sns.boxplot(x='建筑类别',y='总价',data=df,width=0.2,order=my_order)

In [None]:
## 9.户型和总价的关系
plt.figure(figsize=(15,15))
my_order = df.groupby(by=["户型"])["总价"].median().sort_values().index
sns.boxplot(y='户型',x='总价',data=df,width=0.2,order=my_order)

In [None]:
plt.figure(figsize=(15,15))

order = df['户型'].value_counts(ascending=False).index
sns.countplot(y=df['户型'],order=order)

In [None]:
# 四、模型建立
# 删除所有缺失值
d1 = df.dropna().reset_index(drop=True)
# 分解户型
def apart_room(x):
    room = x.split('室')[0]
    return int(room)
def apart_hall(x):
    hall = x.split('厅')[0].split('室')[1]
    return int(hall)
def apart_wc(x):
    wc = x.split('卫')[0].split('厅')[1]
    return int(wc)
d1['室'] = d1['户型'].map(apart_room)
d1['厅'] = d1['户型'].map(apart_hall)
d1['卫'] = d1['户型'].map(apart_wc)
# 删除楼层、户型、单价
d1.drop(columns=['户型','楼层','单价'],inplace=True)
# 编码-有序多分类（根据上面可视化的结果，按照对价格的影响程度排序，越大影响越高）
# 无序多分类无法直接引入，必须“哑元”化变量
# 等级变量（有序多分类）可以直接引入模型
map1 = {'南':5, '南北':6, '北':1, '西南':10, '东西':4, '东':2, '东北':8, '东南':9, '西':3, '西北':7}
d1['朝向'] = d1['朝向'].map(map1)
map2 = {'毛坯':1, '简装修':2, '精装修':3, '中装修':4, '豪华装修':5}
d1['装修'] = d1['装修'].map(map2)
map3 = {'有 ':1, '无 ':0}
d1['电梯'] = d1['电梯'].map(map3)
map4 = {'商品房':6, '个人产权':5, '商品房(免税)':7, '普通商品房':4, '经济适用房':2, '房改房':3, '限价房':8, '房本房':1}
d1['产权性质'] = d1['产权性质'].map(map4)
map5 = {'普通住宅':4, '经济适用房':3, '公寓':1, '商住楼':2, '酒店式公寓':5}
d1['住宅类别'] = d1['住宅类别'].map(map5)
map6 = {'平层':4, '开间':2, '跃层':5, '错层':1, '复式':3}
d1['建筑结构'] = d1['建筑结构'].map(map6)
map7 = {'板楼':4, '钢混':5, '塔板结合':3, '平房':6, '砖混':1, '塔楼':7, '砖楼':2}
d1['建筑类别'] = d1['建筑类别'].map(map7)
map8 = {'城关':6, '安宁':5, '七里河':4, '西固':3,'榆中':2, '永登':1}
d1['区域'] = d1['区域'].map(map8)
# 删除超过2019年的房子，年代转变为房龄
d1['建筑年代'] = d1['建筑年代'].astype('int32')
d1.drop(index=d1[d1['建筑年代']>2019].index,inplace=True)
d1['房龄'] = d1['建筑年代'].map(lambda x: 2020-x)
d1.drop(columns=['建筑年代'],inplace=True)

In [None]:
X = d1.drop(columns=['总价'])
y = d1['总价']
X_train, X_test, y_train, y_test = train_test_split(X, y,random_state=33)
poly = PolynomialFeatures(degree=2)
x_train = poly.fit_transform(X_train.values)
x_test = poly.fit_transform(X_test)

In [None]:
# 套索回归
la = Lasso(alpha=0.1,max_iter=100000)
la.fit(x_train,y_train)
print(f'训练集得分：{round(la.score(x_train,y_train),2)}')
print(f'测试集得分：{round(la.score(x_test,y_test),2)}')

In [None]:
# 随机森林
rf = RandomForestRegressor()
rf.fit(x_train,y_train)
print(f'训练集得分：{round(rf.score(x_train,y_train),2)}')
print(f'测试集得分：{round(rf.score(x_test,y_test),2)}')

In [None]:
# 决策树
dt = DecisionTreeRegressor(max_depth = 6)
dt.fit(x_train,y_train)
print(f'训练集得分：{round(dt.score(x_train,y_train),2)}')
print(f'测试集得分：{round(dt.score(x_test,y_test),2)}')

In [None]:

# k近邻
kn = KNeighborsRegressor(n_neighbors=20)
kn.fit(x_train,y_train)
print(f'训练集得分：{round(kn.score(x_train,y_train),2)}')
print(f'测试集得分：{round(kn.score(x_test,y_test),2)}')

In [None]:
# 五、案例模拟
'''
一家三口，孩子即将上学，大人城关区工作，需要购买房子，假设要求如下：
3室1厅1卫（3、1、1）
面积大概再95㎡左右（95）
学区房（1）
东南（10）
中装修 （4）
无电梯 （0）
个人产权（5）
普通住宅（4）
平层（4）
钢混（5）
城关（6）
房龄 （10）
'''
apply = np.array([95,10,4,0,5,4,4,5,6,1,3,1,1,10]).reshape(1,-1)
poly_apply = poly.fit_transform(apply)
print('------------总价预测结果-------------')
print(f'线性回归：{round(la.predict(poly_apply)[0],2)}万元')
print(f'随机森林回归：{round(rf.predict(poly_apply)[0],2)}万元')
print(f'决策树回归：{round(dt.predict(poly_apply)[0],2)}万元')
print(f'K近邻回归：{round(kn.predict(poly_apply)[0],2)}万元')
print('------------综合预测结果-------------')
print(round(((la.predict(poly_apply)+rf.predict(poly_apply)+dt.predict(poly_apply)+kn.predict(poly_apply))/4.0)[0],2),'万元')
