# 附录1：部署 Spark 环境

运行 Spark 不需要大公司那样的 Hadoop, Hive, Spark 基建，在单机上也能运行。使用 Docker 是一个好方法。

如果你不了解 Docker，请访问以下资源：

- 下载：[Docker](https://www.docker.com/)
- 文档：[Guides](https://docs.docker.com/guides/)

## 1. 使用 Docker 安装 Spark 环境

新手常见的一个问题是，打开 Docker 却发现 Docker 无法使用。

这大概率是因为 Docker 服务端没打开。Docker 是 客户端 / 服务端分离的。打开 Docker 应用只打开了 **客户端**，你还需要确保 **服务端** 也是开启状态。

在命令行运行以下代码，以检查 Docker 服务端是否启用：

```bash
docker --version
```

### 1.1 下载 Docker 镜像

把 [Dockerfile](https://github.com/jupyter/docker-stacks/blob/main/images/all-spark-notebook/Dockerfile) 复制到本地。然后打开命令行，来到 Dockerfile 所在目录，运行以下代码构建镜像：

```bash
docker build -t spark-notebook-image .
```

镜像构建完成后，你可以在客户端中查看镜像信息：

![docker-app](./img/docker-app.png)

> 注意，中国大陆无法直接下载 Docker 镜像，你需要一些特殊的网络技巧。

### 1.2 启动一个 Docker 容器

一旦镜像构建完成，你可以通过以下命令来启动一个容器：

```bash
# docker run -it --name <container-name> <image-name>
# 运行选项：
# -it: 用交互模式运行，这意味着你可以进入容器中
# -d: 后台运行
# -p <local-port>:<container-port>: 映射指定端口

docker run -d --name spark-notebook-container -p 9999:8888 spark-notebook-image
```

> Docker 镜像与容器：
> 
> - 镜像是可复制的，你可以在网上把别人的 Docker 镜像下载到本地
> - 容器就像镜像的 **实例**。你可以用镜像来创建容器

### 1.3 Docker 常用命令

```bash
# 查看所有 Docker 镜像
docker images

# 查看所有 Docker 容器
docker ps -a

# 删除 Docker 镜像
docker rmi <image-name>

# 删除 Docker 容器
docker stop <container-name>
docker rm <container-name>

# 启动 Docker 容器
docker start <container-name>

# 重启 Docker 容器
docker restart <container-name>
```


## 2. 在 Docker 中使用 Spark

### 2.1 在本地浏览器访问 Jupyter Lab 

由于我们在启动容器时已经配置了端口映射，因此可以通过 [http://localhost:9999](http://localhost:9999)，访问 Docker 容器中的 Jupyter Lab 应用。

> 注意：进入 Jupyter Lab 需要 token，token 可以在 Docker 客户端的容器日志查看。

### 2.2 检查 Spark 是否已安装

打开 Jupyter Lab 的命令行界面，运行以下命令，检查 Spark 是否已安装：

```bash
echo $SPARK_HOME
```

### 2.3 启动 PySpark

在命令行输入 `pyspark` 并回车，启动 pyspark。

```bash
pyspark
```

如果一切运行正常，你会看到以下界面：

![pyspark-cmd](./img/pyspark-cmd.png)

现在可以开始愉快地使用 Spark 啦！

> 如果你想要一个既有 Hadoop 又有 Spark 的环境，可以参考：
> 
> - [使用 Docker 快速部署 Spark + Hadoop 大数据集群](https://s1mple.cc/2021/10/12/使用-Docker-快速部署-Spark-Hadoop-大数据集群/)
> - [bitnami/spark](https://github.com/bitnami/containers/tree/main/bitnami/spark)