# Kaggle房价预测练习

## 特征名称及其解释

- MSSubClass: 建筑的等级，类型：类别型
- MSZoning: 区域分类，类型：类别型
- LotFrontage: 距离街道的直线距离，类型：数值型，单位：英尺
- LotArea: 地皮面积，类型：数值型，单位：平方英尺
- Street: 街道类型，类型：类别型
- Alley: 巷子类型，类型：类别型
- LotShape: 房子整体形状，类型：类别型
- LandContour: 平整度级别，类型：类别型
- Utilities: 公共设施类型，类型：类别型
- LotConfig: 房屋配置，类型：类别型
- LandSlope: 倾斜度，类型：类别型
- Neighborhood: 市区物理位置，类型：类别型
- Condition1: 主干道或者铁路便利程度，类型：类别型
- Condition2: 主干道或者铁路便利程度，类型：类别型
- BldgType: 住宅类型，类型：类别型
- HouseStyle: 住宅风格，类型：类别型
- OverallQual: 整体材料和饰面质量，类型：数值型
- OverallCond: 总体状况评价，类型：数值型
- YearBuilt: 建筑年份，类型：数值型
- YearRemodAdd: 改建年份，类型：数值型
- RoofStyle: 屋顶类型，类型：类别型
- RoofMatl: 屋顶材料，类型：类别型
- Exterior1st: 住宅外墙，类型：类别型
- Exterior2nd: 住宅外墙，类型：类别型
- MasVnrType: 砌体饰面类型，类型：类别型
- MasVnrArea: 砌体饰面面积，类型：数值型，单位：平方英尺
- ExterQual: 外部材料质量，类型：类别型
- ExterCond: 外部材料的现状，类型：类别型
- Foundation: 地基类型，类型：类别型
- BsmtQual: 地下室高度，类型：类别型
- BsmtCond: 地下室概况，类型：类别型
- BsmtExposure: 花园地下室墙，类型：类别型
- BsmtFinType1: 地下室装饰质量，类型：类别型
- BsmtFinSF1: 地下室装饰面积，类型：类别型
- BsmtFinType2: 地下室装饰质量，类型：类别型
- BsmtFinSF2: 地下室装饰面积，类型：类别型
- BsmtUnfSF: 未装饰的地下室面积，类型：数值型，单位：平方英尺
- TotalBsmtSF: 地下室总面积，类型：数值型，单位：平方英尺
- Heating: 供暖类型，类型：类别型
- HeatingQC: 供暖质量和条件，类型：类别型
- CentralAir: 中央空调状况，类型：类别型
- Electrical: 电力系统，类型：类别型
- 1stFlrSF: 首层面积，类型：数值型，单位：平方英尺
- 2ndFlrSF: 二层面积，类型：数值型，单位：平方英尺
- LowQualFinSF: 低质装饰面积，类型：数值型，单位：平方英尺
- GrLivArea: 地面以上居住面积，类型：数值型，单位：平方英尺
- BsmtFullBath: 地下室全浴室，类型：数值
- BsmtHalfBath: 地下室半浴室，类型：数值
- FullBath: 高档全浴室，类型：数值
- HalfBath: 高档半浴室，类型：数值
- BedroomAbvGr: 地下室以上的卧室数量，类型：数值
- KitchenAbvGr: 厨房数量，类型：数值
- KitchenQual: 厨房质量，类型：类别型
- TotRmsAbvGrd: 地上除卧室以外的房间数，类型：数值
- Functional: 房屋功用性评级，类型：类别型
- Fireplaces: 壁炉数量，类型：数值
- FireplaceQu: 壁炉质量，类型：类别型
- GarageType: 车库位置，类型：类别型
- GarageYrBlt: 车库建造年份，类别：数值型
- GarageFinish: 车库内饰，类型：类别型
- GarageCars: 车库车容量大小，类别：数值型
- GarageArea: 车库面积，类别：数值型，单位：平方英尺
- GarageQual: 车库质量，类型：类别型
- GarageCond: 车库条件，类型：类别型
- PavedDrive: 铺的车道情况，类型：类别型
- WoodDeckSF: 木地板面积，类型：数值型，单位：平方英尺
- OpenPorchSF: 开放式门廊区面积，类型：数值型，单位：平方英尺
- EnclosedPorch: 封闭式门廊区面积，类型：数值型，单位：平方英尺
- 3SsnPorch: 三个季节门廊面积，类型：数值型，单位：平方英尺
- ScreenPorch: 纱门门廊面积，类型：数值型，单位：平方英尺
- PoolArea: 泳池面积，类型：数值型，单位：平方英尺
- PoolQC:泳池质量，类型：类别型
- Fence: 围墙质量，类型：类别型
- MiscFeature: 其他特征，类型：类别型
- MiscVal: 其他杂项特征值，类型：类别型
- MoSold: 卖出月份，类别：数值型
- YrSold: 卖出年份，类别：数值型
- SaleType: 交易类型，类型：类别型
- SaleCondition: 交易条件，类型：类别型

## 测试数据，训练数据的读取与数据分布

In [2]:
import pandas as pd
import numpy as np
from matplotlib import pyplot as plt
%matplotlib inline
import warnings
warnings.filterwarnings('ignore')

In [10]:
train_data = pd.read_csv('../data/train_july.csv')
test_data = pd.read_csv('../data/test_july.csv')
house_data = pd.concat([train_data, test_data], axis=0)

In [12]:
house_data.head()

Unnamed: 0,1stFlrSF,2ndFlrSF,3SsnPorch,Alley,BedroomAbvGr,BldgType,BsmtCond,BsmtExposure,BsmtFinSF1,BsmtFinSF2,...,ScreenPorch,Street,TotRmsAbvGrd,TotalBsmtSF,Utilities,WoodDeckSF,YearBuilt,YearRemodAdd,YrSold,index
0,856,854,0,,3,1Fam,TA,No,706,0,...,0,Pave,8,856,AllPub,0,2003,2003,2008,
1,1262,0,0,,3,1Fam,TA,Gd,978,0,...,0,Pave,6,1262,AllPub,298,1976,1976,2007,
2,920,866,0,,3,1Fam,TA,Mn,486,0,...,0,Pave,6,920,AllPub,0,2001,2002,2008,
3,961,756,0,,3,1Fam,Gd,No,216,0,...,0,Pave,7,756,AllPub,0,1915,1970,2006,
4,1145,1053,0,,4,1Fam,TA,Av,655,0,...,0,Pave,9,1145,AllPub,192,2000,2000,2008,
