# Ejecución de Jupyter en Docker. Estructura de ficheros docker-compose

![docker-logo](img/docker_logo.png)

**Docker** es una plataforma de software con capacidad para gestionar **contenedores**. En particular, Jupyter ofrece un conjunto muy variado de configuraciones listas para usar. La variedad incluye contenedores que llevan más o menos paquetes, o un kernel Python o R.

## Instalación de Docker

https://docs.docker.com/desktop/install/linux-install/

https://docs.docker.com/desktop/install/windows-install/

## Selección de una imagen

Usar una de las imágenes de Docker de Jupyter necesita de dos decisiones:

1. Qué imagen Docker usar
2. Cómo iniciar el servidor Jupyter en esa imagen

En esta sección se trata el primer punto, y después se verá el siguiente

## Stacks Core

El equipo de Jupyter mantiene un conjunto de definiciones de imágenes Docker en un repo Github: https://github.com/jupyter/docker-stacks. Las siguientes secciones describen estas imágenes, incluyendo su contenido y relaciones entre ellas.

### jupyter/base-notebook

`jupyter/base-notebook` es una imagen pequeña que soporta el mínimo necesario. Es la base de otras imágenes, y contiene:

- Un servidor Jupyter Notebook mínimo (no LaTeX para genera PDFs, por ejemplo)
- [Miniforge](https://github.com/conda-forge/miniforge) Python 3.x en `/opt/conda` con dos gestores de paquetes:
  - [conda](https://github.com/conda/conda): "cross-platform, language-agnostic binary package manager".
  - [mamba](https://github.com/mamba-org/mamba): "reimplementación del conda en C++".
- Paquetes `notebook`, `jupyterhub` y `jupyterlab`
- Sin paquetes de computación científica
- Usuario sin privilegios `jovyan` (`uid=1000`, configurable, en el grupo `users` (`gid=100`) propietario de `/home/jovyan` y `/opt/conda`
- `tini` como el entry point del contenedor y un script `start-notebook.sh` como el comando por defecto
- Un script `start.sh` útil para ejecutar comandos alternativos en el contenedor (e.g. `ipython`, `jupyter kernelgateway`, `jupyter lab`)
- Opciones para un ceritificado HTTPS autofirmado y un sudo sin password

### jupyter/minimal-notebook

`jupyter/minimal-notebook` añade herramientas de línea de comando.

Contiene:

- Todo lo de `jupyter/base-notebook`
- [TeX Live](https://www.tug.org/texlive/) para conversión de documentos
- [git](https://git-scm.com/),
  [vi](https://www.vim.org) (en realidad `vim-tiny`),
  [nano](https://www.nano-editor.org/) (en realidad `nano-tiny`), `tzdata` y `unzip`

### jupyter/r-notebook

`jupyter/r-notebook` incluye paquetes populares del ecosistema R:

- Todo en `jupyter/minimal-notebook` y sus imágenes ancestras
- El intérprete [R](https://www.r-project.org/) y el sistema base
- [IRKernel](https://irkernel.github.io/) para soportar R en Notebooks
- [tidyverse](https://www.tidyverse.org/)
  de [conda-forge](https://conda-forge.org/feedstock-outputs/index.html)
- [caret](https://topepo.github.io/caret/index.html),
  [crayon](https://cran.r-project.org/web/packages/crayon/index.html),
  [devtools](https://cran.r-project.org/web/packages/devtools/index.html),
  [forecast](https://cran.r-project.org/web/packages/forecast/index.html),
  [hexbin](https://cran.r-project.org/web/packages/hexbin/index.html),
  [htmltools](https://cran.r-project.org/web/packages/htmltools/index.html),
  [htmlwidgets](https://www.htmlwidgets.org),
  [nycflights13](https://cran.r-project.org/web/packages/nycflights13/index.html),
  [randomforest](https://cran.r-project.org/web/packages/randomForest/index.html),
  [rcurl](https://cran.r-project.org/web/packages/RCurl/index.html),
  [rmarkdown](https://rmarkdown.rstudio.com),
  [rodbc](https://cran.r-project.org/web/packages/RODBC/index.html),
  [rsqlite](https://cran.r-project.org/web/packages/RSQLite/index.html),
  [shiny](https://shiny.rstudio.com/),
  [tidymodels](https://www.tidymodels.org/),
  [unixodbc](http://www.unixodbc.org)
  paquetes de [conda-forge](https://conda-forge.org/feedstock-outputs/index.html)

### jupyter/scipy-notebook

`jupyter/scipy-notebook` incluye paquetes populares para trabajo científico con Python.

- Todo en `jupyter/minimal-notebook`
- Paquetes [altair](https://altair-viz.github.io),
  [beautifulsoup4](https://www.crummy.com/software/BeautifulSoup/),
  [bokeh](https://docs.bokeh.org/en/latest/),
  [bottleneck](https://bottleneck.readthedocs.io/en/latest/),
  [cloudpickle](https://github.com/cloudpipe/cloudpickle),
  [conda-forge::blas=\*=openblas](https://www.openblas.net),
  [cython](https://cython.org),
  [dask](https://www.dask.org/),
  [dill](https://pypi.org/project/dill/),
  [h5py](https://www.h5py.org),
  [matplotlib-base](https://matplotlib.org/),
  [numba](https://numba.pydata.org/),
  [numexpr](https://github.com/pydata/numexpr),
  [openpyxl](https://openpyxl.readthedocs.io/en/stable/),
  [pandas](https://pandas.pydata.org/),
  [patsy](https://patsy.readthedocs.io/en/latest/),
  [protobuf](https://developers.google.com/protocol-buffers/docs/pythontutorial),
  [pytables](https://www.pytables.org/),
  [scikit-image](https://scikit-image.org),
  [scikit-learn](https://scikit-learn.org/stable/),
  [scipy](https://scipy.org/),
  [seaborn](https://seaborn.pydata.org/),
  [sqlalchemy](https://www.sqlalchemy.org/),
  [statsmodel](https://www.statsmodels.org/stable/index.html),
  [sympy](https://www.sympy.org/en/index.html),
  [widgetsnbextension](https://ipywidgets.readthedocs.io/en/latest/user_install.html#installing-in-classic-jupyter-notebook),
  [xlrd](https://www.python-excel.org)
- [ipympl](https://github.com/matplotlib/ipympl) y
  [ipywidgets](https://ipywidgets.readthedocs.io/en/stable/)
  para visualización interactiva y plots en Notebooks Python
- [Facets](https://github.com/PAIR-code/facets)
  para visualizar datasets de machine learning

### jupyter/tensorflow-notebook

`jupyter/tensorflow-notebook` incluye bibliotecas populares para deep learning con Python

- Todo en `jupyter/scipy-notebook` y sus imágenes ancestras
- [tensorflow](https://www.tensorflow.org/), la biblioteca de machine learning

### jupyter/datascience-notebook

`jupyter/datascience-notebook` incluye bibliotecas para análisis de datos para Julia, Python y R.

- Todo en `jupyter/scipy-notebook` y `jupyter/r-notebook` 
- [rpy2](https://rpy2.github.io/doc/latest/html/index.html)
- El lenguaje [Julia](https://julialang.org/)
- [IJulia](https://github.com/JuliaLang/IJulia.jl) para soportar código Julia en notebooks
- Paquetes [HDF5](https://github.com/JuliaIO/HDF5.jl),
  [Gadfly](https://gadflyjl.org/stable/),
  [RDatasets](https://github.com/JuliaStats/RDatasets.jl)
  

### jupyter/pyspark-notebook


`jupyter/pyspark-notebook` incluye soporte Python para Apache Spark.

- Todo en `jupyter/scipy-notebook`
- [Apache Spark](https://spark.apache.org/) con bibliotecas Hadoop
- [pyarrow](https://arrow.apache.org/docs/python/)

### jupyter/all-spark-notebook

`jupyter/all-spark-notebook` incluye soporte Python y R en Apache Spark.

- Todo en `jupyter/pyspark-notebook`
- [IRKernel](https://irkernel.github.io/) para soportar R en Notebooks
- Paquetes [rcurl](https://cran.r-project.org/web/packages/RCurl/index.html),
  [sparklyr](https://spark.rstudio.com),
  [ggplot2](https://ggplot2.tidyverse.org)


### Relación entre imágenes

El siguiente diagrama muestra las dependencias de construcción de las imágnese core (los `FROM` en los Dockerfiles). Cada imagen hereda de las imágenes que le apuntan a ella.

[![Diagrama de herencia de imágenes](img/inherit.svg)](http://interactive.blockdiag.com/?compression=deflate&src=eJyFzrEKwjAQxvG9T3FkskM3KUrRJ3DTUShJe9XQ9C4kKbWK7266CCmCW_jnd_Apw03fanmDVwbQYidHE-qOKXj9RDjAvsrihxjVSGG80uZ0OcOkwx0sawrg0KD0mAsojqDiqyAOqJj7Kp4lYRGDJj1Ik6B1W5xvtJ0TlZbFiIDk2XWGp2-PA5nMDI9dWZfbXPy-bGWQsSI1-HeJ-7PCzt5K1ydq3RYnjSnW8v0BwS-D-w)


## Community Stacks

Los `Stacks Core` son un ejemplo pequeño de lo que es posible cuando se combina Jupyter con otras tecnologías. Los usuarios de la comunidad Jupyter pueden crear sus propios stacks basados en una imagen base, como las que se muestran a continuación.

| Flavor         | Binder                  | Description |
| -------------- | ----------------------- | ----------- |
| [csharp]       | [![bb]][csharp_b]       | More than 200 Jupyter Notebooks with example **C#** code                                                  |
| [education]    | [![bb]][education_b]    | **`nbgrader`** and `RISE` on top of the `datascience-notebook` image                                      |
| [ihaskell]     | [![bb]][ihaskell_b]     | Based on [**IHaskell**][ihaskell_project]. Includes popular packages and example notebooks                |
| [java]         | [![bb]][java_b]         | [**IJava**][ijava] kernel on top of the `minimal-notebook` image                                          |
| [sage]         | [![bb]][sage_b]         | [**sagemath**][sagemath] kernel on top of the `minimal-notebook` image                                    |
| [cgspatial]    | [![bb]][cgspatial_b]    | Major **geospatial** Python & R libraries on top of the `datascience-notebook` image                      |
| [kotlin]       | [![bb]][kotlin_b]       | [**Kotlin** kernel for Jupyter/IPython][kotlin_kernel] on top of the `base-notebook` image                |
| [transformers] | [![bb]][transformers_b] | [**Transformers**][transformers_lib] and NLP libraries such as `Tensorflow`, `Keras`, `Jax` and `PyTorch` |
| [scraper]      | [![bb]][scraper_b]      | **Scraper** tools (`selenium`, `chromedriver`, `beatifulsoup4`, `requests`) on `minimal-notebook` image   |

[bb]: https://static.mybinder.org/badge_logo.svg
[csharp]: https://github.com/tlinnet/csharp-notebook
[csharp_b]: https://mybinder.org/v2/gh/tlinnet/csharp-notebook/master
[education]: https://github.com/umsi-mads/education-notebook
[education_b]: https://mybinder.org/v2/gh/umsi-mads/education-notebook/master
[ihaskell]: https://github.com/IHaskell/ihaskell-notebook
[ihaskell_b]: https://mybinder.org/v2/gh/jamesdbrock/learn-you-a-haskell-notebook/master?urlpath=lab/tree/ihaskell_examples/ihaskell/IHaskell.ipynb
[ihaskell_project]: https://github.com/IHaskell/IHaskell
[java]: https://github.com/jbindinga/java-notebook
[java_b]: https://mybinder.org/v2/gh/jbindinga/java-notebook/master
[ijava]: https://github.com/SpencerPark/IJava
[sage]: https://github.com/sharpTrick/sage-notebook
[sage_b]: https://mybinder.org/v2/gh/sharpTrick/sage-notebook/master
[sagemath]: https://www.sagemath.org
[cgspatial]: https://github.com/SCiO-systems/cgspatial-notebook
[cgspatial_b]: https://mybinder.org/v2/gh/SCiO-systems/cgspatial-notebook/master
[kotlin]: https://github.com/knonm/kotlin-notebook
[kotlin_b]: https://mybinder.org/v2/gh/knonm/kotlin-notebook/main
[kotlin_kernel]: https://github.com/Kotlin/kotlin-jupyter
[transformers]: https://github.com/ToluClassics/transformers_notebook
[transformers_b]: https://mybinder.org/v2/gh/ToluClassics/transformers_notebook/main
[transformers_lib]: https://huggingface.co/docs/transformers/index
[scraper]: https://github.com/rgriffogoes/scraper-notebook
[scraper_b]: https://mybinder.org/v2/gh/rgriffogoes/scraper-notebook/main

### GPU enabled notebooks

| Flavor             | Description                                                                                                                                                                                                                                                                                                                                              |
| ------------------ | -------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------- |
| [GPU-Jupyter][gpu] | Power of your NVIDIA GPU and GPU calculations using Tensorflow and Pytorch in collaborative notebooks. This is done by generating a Dockerfile that consists of the **nvidia/cuda** base image, the well-maintained **docker-stacks** that is integrated as submodule and GPU-able libraries like **Tensorflow**, **Keras** and **PyTorch** on top of it |
| [PRP-GPU][prp_gpu] | PRP (Pacific Research Platform) maintained [registry][prp_reg] for jupyter stack based on NVIDIA CUDA-enabled image. Added the PRP image with Pytorch and some other python packages and GUI Desktop notebook based on <https://github.com/jupyterhub/jupyter-remote-desktop-proxy>.                                                                     |

[gpu]: https://github.com/iot-salzburg/gpu-jupyter
[prp_gpu]: https://gitlab.nrp-nautilus.io/prp/jupyter-stack/-/tree/prp
[prp_reg]: https://gitlab.nrp-nautilus.io/prp/jupyter-stack/container_registry


## Inicio del servidor Jupyter

### Características comunes

Por defecto, un contenedor lanzado de cualquiera de las imágenes de Docker Stacks ejecuta un servidor JupyterLab. El contenedor lo hace ejecutando el script `start-notebook.sh`. Este script configura el entorno interno del contenedor y ejecuta `jupyter lab`, pasándole la línea de comandos recibidos.

A continuación se decriben las opciones que se soportan por parte del script.

### Opciones de Júpiter

Tiene varias opciones, pero la más común es:

- `--NotebookApp.token="cadena"` - La cadena de autenticación requerida para ejecutar el notebook. Si se especifica vacía no tiene.

### Opciones de Docker

Se puede configurar el entorno del contenedor pasando argumentos al script `start-notebook.sh`. Se hará pasndo los argumentos al comando `docker run` o en el `command` de Docker Compose.

### Configuración relativa al usuario

- `-e NB_USER=<username>` - El nombre deseado para el usuario. Por defecto es `jovyan`.
  Estableciendo `NB_USER` cambia el usuario por defecto y establece los permiros correctos para el nuevo directorio de usuario `/home/<username>`.   Para que esto suceda, se debe ejecutar el contenedor con `--user root`, poner el directorio de trabajo a `-w "/home/${NB_USER}"` y poner la variable de entorno `-e CHOWN_HOME=yes`.

  _Ejemplo_:

  ```bash
  docker run -it --rm \
      -p 8888:8888 \
      --user root \
      -e NB_USER="my-username" \
      -e CHOWN_HOME=yes \
      -w "/home/${NB_USER}" \
      jupyter/base-notebook
  ```


- `-e NB_UID=<numeric uid>` - Instruye al script que utilice el ID de usuario para el usuario `${NB_USER}`. El valor por defecto es `1000`. Esto es útil cuando se quieren montar volúmenes externos.


### Configuración de permisos

- `-e GRANT_SUDO=yes` - Instruye al script que garantice al usuario `${NB_USER}` poder hacer `sudo` sin password. Esta opción **no** se necesita para instalar paquetes con `conda` o `pip`. Esto es útil cuando se quiere dar al usuario permisos para poder ejecutar `apt` o modificar otros ficheros. Se debe usar obligatoriamente con la opción `--user root`.


## Docker Compose

Docker permite especificar conjuntos de contenedores que funcionan al unísono, conectándose entre sí por puertos predefinidos. Para eso utiliza la utilidad [`docker-compose`](https://docs.docker.com/compose/). Esta utilidad utiliza un fichero de configuración en formato YAML llamado `docker-compose.yml`. A continuación se muestra un ejemplo que ejecuta una base de datos MongoDB y una instalación de jupyterlab sin clave, ambos lanzados a la vez, y con la posibilidad de que en las hojas Jupyter se acceda al servidor MongoDB a través del host `mongo`, puerto 27017.  El puerto del notebook se mantiene en el 8888, para que se pueda acceder desde el navegador de la máquina host. Nótese que se pueden mantener activos varios servidores cambiando el puerto expuesto (la primera parte del par de puertos). En este caso, la parte `command` es opcional, y se usa aquí porque se ejecuta el servidor sin clave (se utiliza en un entorno controlado).

`docker-compose.yml`:

```
version: '2'
services:

  notebook:
    image: "jupyter/scipy-notebook"
    ports:
      - "8888:8888"
    volumes:
      - ..:/home/jovyan/bdge
    user: root
    environment:
      - GRANT_SUDO=yes
    command: start-notebook.sh --NotebookApp.token=''
    depends_on:
      - mongo 

  mongo:
    image: mongo
    ports:
      - 27017 
```