In [1]:
print("Welcome to Machine Learning!")

Welcome to Machine Learning!


In [3]:
# This project requires Python 3.7 or above:

import sys

assert sys.version_info >= (3, 7)

In [5]:
# It also requires Scikit-Learn ≥ 1.0.1:

from packaging import version
import sklearn

assert version.parse(sklearn.__version__) >= version.parse("1.0.1")

### Get the Data
- Welcome to Machine Learning Housing Corp.! 
- Your task is to predict median house values in Californian districts, given a number of features from these districts.

### Download the Data

In [7]:
from pathlib import Path
import pandas as pd
import tarfile
import urllib.request

def load_housing_data():
    tarball_path = Path("datasets/housing.tgz")
    if not tarball_path.is_file():
        Path("datasets").mkdir(parents=True, exist_ok=True)
        url = "https://github.com/ageron/data/raw/main/housing.tgz"
        urllib.request.urlretrieve(url, tarball_path)
        with tarfile.open(tarball_path) as housing_tarball:
            housing_tarball.extractall(path="datasets")
    return pd.read_csv(Path("datasets/housing/housing.csv"))

housing = load_housing_data()

这段代码定义了一个名为 `load_housing_data` 的函数，旨在从一个在线源下载和提取一个名为 `housing.tgz` 的数据集，并最终以 Pandas DataFrame 的形式加载这个数据集。下面是详细解释：

1. **定义函数**:
   ```python
   def load_housing_data():
   ```
   这行代码定义了一个名为 `load_housing_data` 的函数，它不接受任何参数。

2. **设置压缩文件的路径**:
   ```python
   tarball_path = Path("datasets/housing.tgz")
   ```
   使用 `Path` 类（来自 Python 的 `pathlib` 模块）来创建一个 `Path` 对象，这个对象指向名为 `housing.tgz` 的文件。这个文件预期存放在 `datasets` 目录中。

3. **检查文件是否存在**:
   ```python
   if not tarball_path.is_file():
   ```
   如果 `housing.tgz` 文件不存在，以下代码块将被执行。

4. **创建目录**:
   ```python
   Path("datasets").mkdir(parents=True, exist_ok=True)
   ```
   如果 `datasets` 目录不存在，这行代码将创建它。`parents=True` 表示如果需要，将创建父目录；`exist_ok=True` 意味着如果目录已经存在，不会引发错误。

5. **下载数据集**:
   ```python
   url = "https://github.com/ageron/data/raw/main/housing.tgz"
   urllib.request.urlretrieve(url, tarball_path)
   ```
   从给定的 URL 下载 `housing.tgz` 文件，并将其保存在先前定义的 `tarball_path`。

6. **解压数据集**:
   ```python
   with tarfile.open(tarball_path) as housing_tarball:
       housing_tarball.extractall(path="datasets")
   ```
   使用 `tarfile` 模块打开下载的 `.tgz` 文件，并将其内容解压到 `datasets` 目录中。

7. **加载并返回数据**:
   ```python
   return pd.read_csv(Path("datasets/housing/housing.csv"))
   ```
   最后，函数使用 Pandas 的 `read_csv` 方法加载解压后的 `housing.csv` 文件，并返回这个文件的内容作为一个 DataFrame。这个 CSV 文件预期包含房屋数据集的数据。

总的来说，这个函数处理从在线源下载、解压并加载房屋数据集的整个流程，使得用户可以直接以 DataFrame 的形式使用这些数据。