In [1]:
%config Completer.use_jedi = False
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
from sklearn.preprocessing import StandardScaler
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
#支持中文
matplotlib.rcParams['font.sans-serif'] = ['SimHei']
# 读入训练数据
data_train = pd.read_csv('../input/house-prices-advanced-regression-techniques/train.csv')
# 读入预测数据
data_test=pd.read_csv('../input/house-prices-advanced-regression-techniques/test.csv')

In [2]:
# 查看样本数据的相关信息。
data_train.info()

In [3]:
# 查看训练数据(前5行数据)
data_train.head()

In [4]:
# 绘制训练数据的saleP密度曲线
sns.distplot(data_train['SalePrice'])
plt.show()


In [5]:
# 计算房价的峰度和偏度
skew = data_train['SalePrice'].skew()
kurt = data_train['SalePrice'].kurt()
print('峰度：',skew)
print('偏度：',kurt)
# 峰度越大相比正太分布越陡峭；偏度>0，长尾在右边,<0长尾在左边

In [6]:
# 计算相关系数矩阵,并用热力图可视化
# 红、蓝颜色越深,相关系数绝对值越大。红代表正相关，蓝代表负相关。
f, ax = plt.subplots(figsize=(30, 25))
corrmat = data_train.corr('pearson') # 计算相关系数矩阵
mask = np.triu(np.ones_like(corrmat, dtype=bool))# 返回与相关系数矩阵相同size的上三角矩阵。
cmap = sns.diverging_palette(230, 20, as_cmap=True) # 下面为绘制热力图的方法，不再详细介绍。
sns.heatmap(corrmat, mask=mask, cmap=cmap, vmax=1, center=0, annot = True,
            square=True, linewidths=.5, cbar_kws={"shrink": .5})
plt.title('corrMat heat-map',size=36)
plt.show()

In [7]:
# 查看'SalePrice'相关系数，绝对值越大，越有相关性。
corrmat['SalePrice']

In [8]:
# 用箱形图来直观查看各个属性的值和saleprice之间的关系
# 第一个属性：OverallQual
var = 'OverallQual'
data_ = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)

sns.boxplot(x=var, y="SalePrice", data=data_)
plt.show()

In [9]:
# 第二个属性：GarageCars
var = 'HouseStyle'
data_ = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)

fig = sns.boxplot(x=var, y="SalePrice", data=data_)
fig.axis(ymin=0, ymax=800000);

In [10]:
# 第三个属性：CentralAir
var = 'Condition1'
data_ = pd.concat([data_train['SalePrice'], data_train[var]], axis=1)

fig = sns.boxplot(x=var, y="SalePrice", data=data_)
fig.axis(ymin=0, ymax=800000);

In [11]:
# 第四个属性我们用散点图来查看
# 属性名称为GrLivArea：地上（地面）生活区平方英尺
# 与saleprice的相关系数为0.71,是除了'OverallQual'之外与saleprice相关系数最高的一个属性。
# 还有一些相关系数较高的连续值属性如：'TotalBsmtSF'[地下室面积的总平方英尺，corr=0.63]、'YearBuilt'[原始建造日期,corr=0.56]；若要查看改变var即可。
var='GrLivArea'
corr=0.71  # 相关系数
plt.figure(figsize = (12,6))
# regplot绘图结果为散点图+回归直线即置信区间。另外，还可通过logistic参数设置是否启用逻辑回归；
sns.regplot(data=data_train, x = var, y='SalePrice', scatter_kws={'alpha':0.2})
plt.title(var+' and SalePrice', fontsize = 16)
plt.legend(['$corr=$ {:.2f}'.format(corr)], loc = 'best')
plt.show()