# 全局设置

In [1]:
# 导入包并且确保包的版本符合要求
import sys
import sklearn
import numpy as np
import os
import matplotlib as mpl
import matplotlib.pyplot as plt

assert sys.version_info >= (3, 5)
assert sklearn.__version__ >= "0.20"

# 配置全局绘图设置
%matplotlib widget
mpl.rc('axes', labelsize=14)
mpl.rc('xtick', labelsize=12)
mpl.rc('ytick', labelsize=12)

# 保存图片的位置
PROJECT_ROOT_DIR = "."
CHAPTER_ID = "end_to_end_project"
IMAGES_PATH = os.path.join(PROJECT_ROOT_DIR, "images", CHAPTER_ID)
# 如果项目文件夹不存在，就创建一个
os.makedirs(IMAGES_PATH, exist_ok = True)

# 将图片保存到指定位置
def save_fig(fig, fig_id, tight_layout=True, fig_extension="png", dpi=300):
    '''
    将图片保存到指定位置
    
    :param fig: 当前图片的Figure对象；
    :param fig_id: 保存的文件名；
    :param tight_layout: 是否使用tight layout，默认是True
    :param fig_extension: 图片的扩展名，默认是'png'
    :param resolution: 图片的像素点个数
    :return:
    '''
    path = os.path.join(IMAGES_PATH, fig_id + "." + fig_extension)
    fig.set_tight_layout(tight_layout)
    fig.savefig(path, format=fig_extension, dpi=dpi)
    print('图片已保存', fig_id)

# 获取数据

## 下载数据

In [2]:
import tarfile
import urllib.request

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

# 将线上数据文件保存到本地，记得连vpn
def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    '''
    将线上数据文件保存到本地
    在本地创建一个housing_path文件夹，其中放置了housing_url指向的housing.tgz文件
    然后将其中内容解压到housing_path文件夹中
    
    :param housing_url: 线上数据压缩包地址
    :param housing_path: 用来存放压缩包和解压后数据的本地地址；
    :return:
    '''
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    
    # 将线上数据压缩包下载到本地文件夹中
    tgz_path = os.path.join(housing_path, "housing.tgz")
    print(housing_url)
    urllib.request.urlretrieve(housing_url, tgz_path)
    # 将数据压缩包解压，可以获得housing.csv文件
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()
    
fetch_housing_data()

https://raw.githubusercontent.com/ageron/handson-ml2/master/datasets/housing/housing.tgz
