本文档来源于《机器学习实战：基于sklearn、keras和tensorflow》第二章，使用回归模型预测房价。

In [None]:
import numpy as np
import pandas as pd
import tensorflow as tf
import matplotlib as mpl
import os
import tarfile
import urllib
print(tf.__version__)


## 1、下载数据


In [None]:
DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"
HOUSING_PATH = 'datasets/housing'
#HOUSING_PATH = os.path.join("datasets","housing")

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    os.makedirs(housing_path, exist_ok=True)
    tgz_path=os.path.join(housing_path, "housing.tgz")
    print(tgz_path)
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
   
fetch_housing_data()
print("finish")

## 2、使用pandas加载数据

In [None]:
def load_data(housing_path=HOUSING_PATH):
    csv_path = os.path.join(housing_path, 'housing.csv')
    return pd.read_csv(csv_path)
    
housing_pd = load_data()

## 3、分析数据

### 3.1 head()
查看数据的前几行

In [None]:
housing_pd.head()

### 3.2 info()
查看各个字段的非空数值数量：

In [None]:
housing_pd.info()

### 3.3 describe()
查看各个字段的详细信息，包括数量、均值、方差、最大最小值、各分位数的数值：

In [None]:
housing_pd.describe()

### 3.4 hist()
以直方图的形式，直观的看各个字段的分布：

In [None]:
housing_pd.hist()

### 3.5 某个属性的详情
某个字段的详细信息（这里只举了一个例子，还有其他函数待补充):

In [None]:
housing_pd['ocean_proximity'].value_counts()

### 3.6 LBS可视化
将LBS数据可视化：

In [None]:
housing_pd.plot(kind='scatter' ,x='longitude', y ='latitude', alpha=0.1)

更复杂形象的展示：

In [None]:
housing_pd.plot(kind="scatter", x="longitude", y="latitude", alpha=0.4,
    s=housing["population"]/100, label="population", figsize=(10,7),
    c="median_house_value", cmap=plt.get_cmap("jet"), colorbar=True,
    sharex=False)
plt.legend()
save_fig("housing_prices_scatterplot")


### 3.7 相关性
查看数据的相关性：

corr()函数可以方便的计算出每对属性之间的标准相关系数（皮尔逊相关系数）：

In [None]:
corr_matrix = housing_pd.corr()
corr_matrix['median_house_value'].sort_values(ascending=False)

从上面可以看出，除自身外，房价中位数和收入中位数的相关性最高。

我们再从图例的方式看看：

In [None]:
from pandas.plotting import scatter_matrix
attributes = ['median_house_value', 'median_income', 'total_rooms', 'housing_median_age'] 
scatter_matrix(housing_pd[attributes], figsize=(12,8))

从上图可以看到，房价中位数和收入中位数呈正相关关系。