# 附录1：部署 Spark 环境

虽然我们没有大公司那样的 Hadoop, Hive, Spark 基础设施，但在单机上运行 Spark 应用也并不困难。

使用 [Docker](https://docs.docker.com/guides/) 是一个比较容易的方法。

限于篇幅，我无法详述如何使用 Docker，假设你对 Docker 有一些基础的了解。

> 对新手而言，一种常见情况是打开 Docker 的应用，却发现 Docker 不可用。
>
> 这是因为 Docker 是 客户端 / 服务端分离的。打开 Docker 桌面应用只是打开了 **客户端**，你还需要确保 **服务端** 也是开启的。来到命令行界面，运行：
>
> ```bash
> docker --version
> ```
>
> 来检查 Docker 服务端是否是已经启动。

## 1. Docker

### 1.1 Docker 镜像

把 [Dockerfile](https://github.com/jupyter/docker-stacks/blob/main/images/all-spark-notebook/Dockerfile) 复制到本地。然后，打开 Terminal 来到 Dockerfile 所在目录，运行以下代码构建镜像：

```bash
docker build -t spark-notebook-image .
```

注意，在中国大陆下载 Docker 镜像需要特殊的网络技巧。

构建完成后，镜像信息可以在 Docker 桌面应用中查看。

![docker-app](./img/docker-app.png)

### 1.2 Docker 容器

一旦镜像构建完成，你可以通过以下命令来启动一个容器：

```bash
# docker run -it --name <container-name> <image-name>
# 运行选项：
# -it: 用交互模式运行，这意味着你可以进入容器中
# -d: 后台运行
# -p <local-port>:<container-port>: 映射指定端口

docker run -d --name spark-notebook-container -p 9999:8888 spark-notebook-image
```

Docker 镜像是可复制的，你可以在网络上把别人做好的 Docker 镜像复制到本地。

但镜像无法直接被使用。要使用镜像，你需要先创建容器。容器就像镜像的 **实例**。一个镜像可以创建多个容器。

```bash
# 查看所有 Docker 镜像
docker images

# 查看所有 Docker 容器
docker docker ps -a

# 删除 Docker 镜像
docker rmi <image-name>

# 删除 Docker 容器
docker stop <container-name>
docker rm <container-name>
```

## 2. 启动 Jupyter Lab

由于我们在启动 docker 时，已经配置了端口映射。

在本地机器打开 [http://localhost:9999](http://localhost:9999) 可以直接访问容器的 Jupyter Lab。

进入 Jupyter Lab 需要输入 token，这个 token 可以在 Docker 桌面应用的容器日志中找到。

检查 Spark 是否已安装：

```bash
echo $SPARK_HOME
```

打开 Jupyter Lab 的 Terminal，输入 `pyspark` 回车，尝试启动 Spark：

![pyspark-cmd](./img/pyspark-cmd.png)

现在我们可以使用 pyspark 了。

如果想要一个有 Hadoop 和 Spark 的环境，可以尝试 [Marcel-Jan/docker-hadoop-spark](https://github.com/Marcel-Jan/docker-hadoop-spark/blob/master/docker-compose.yml)