Почти в 100 % случаев при работе над реальным проектом вам потребуется воссоздать точное окружение на сервере, чтобы обеспечить единообразие среды выполнения. И это включает не только стандартные установленные зависимости и интерпретатор Python, но и специфические, которые могут работать по-разному на разных операционных системах или их версиях. 

Несколько лет назад для этих задач использовали программные решения для удаленного управления конфигурациями. Они работали по принципу: создаём большой конфигурационный файл, в котором описываем все настройки, зависимости и библиотеки, и на его основе настраиваем все удаленные машины.

Одним из таких инструментов является Ansible. Он позволяет через SSH-соединение «проталкивать» файлы конфигурации на множество машин, и таким образом обеспечивать единообразие.  

Другие системы, например Chef, обычно поступают наоборот — узлы «тянут» (pull) конфигурацию с главной машины. Он используется и сейчас, когда мы хотим привести парк машин к одинаковой конфигурации.

ПРОБЛЕМЫ
- Когда в кластере достаточно много сервисов, и при этом каждый сервис запускается на разных машинах, становится тяжело следить за полнотой и правильностью конфигурационных файлов. 
- Ещё одна существенная проблема: на локальном компьютере разработчика может быть не установлено (или наоборот установлено) критическое для стабильной работы приложения ПО. 

Намного проще создать виртуальную, изолированную от основной системы среду для каждого проекта. Тогда каждый из них будет иметь свои независимые настройки, в том числе разные библиотеки и  их версии. 

Когда мы говорим про изолированность, мы имеем в виду, что приложение будет запускаться в своей отдельной среде и таким образом не зависеть от ОС и настроек системы, на которой мы разворачиваем приложение. 

Одним из наиболее популярных инструментов для создания изолированных сред в Python является virtualenv. Он обеспечивает работоспособность сервисов вне зависимости от того, какие они имеют зависимости.

Скорее всего, вы уже умеете пользоваться virtualenv, поэтому мы лишь кратко вспомним, как с ним работать.

ВСПОМИНАЕМ ПРИНЦИПЫ РАБОТЫ VIRTUALENV

Этот модуль интегрирован в venv — стандартную библиотеку Python. 

Для его установки необходимо воспользоваться стандартной командой:

In [None]:
pip install virtualenv

Чтобы создать новую среду, необходимо набрать команду в терминале: 

In [None]:
python3 -m venv <название сервиса>

![dst-prod-container-3-3.png](attachment:dst-prod-container-3-3.png)

В директории bin лежат файлы, которые взаимодействуют с виртуальной средой, а в lib содержится копия версии Python и все зависимости.

Чтобы активировать виртуальную среду, необходимо запустить команду: 

In [None]:
source bin/activate

После этого вы сможете установить в среду все необходимые библиотеки. Например, напишем:

In [None]:
pip install sklearn

Вы увидите, что в папке lib/python3.7/site-packages появится sklearn.

Virtualenv — достаточно полезный инструмент. Однако не все так гладко, ведь он работает только с Python и не обеспечивает полную изоляцию. Также он не позволяет, например, ограничивать ресурсы для каждого сервиса. Бывают случаи, когда мы хотим разрешить одному сервису использование всех ядер процессора, а другому — наоборот, их ограничить. А если мы вдобавок хотим автоматически балансировать нагрузку между сервисами , то тут virtualenv нам не помощник. 

→ На эту тему есть прекрасная статья. Мы рекомендуем вам с ней ознакомиться: Why I hate virtualenv and pip (англ.). Перевод на русский на Хабре: https://habr.com/en/post/206024/

СИСТЕМЫ КОНТЕЙНЕРИЗАЦИИ

Около семи лет назад появилось несколько систем контейнеризации, которые позволяли иметь операционную систему в изолированном от основной виде и не использовали много ресурсов.

Контейнеризация — это метод виртуализации, при котором ядро операционной системы поддерживает несколько изолированных экземпляров. 

Наиболее популярной системой контейнеризации оказался Docker. Сегодня, если кто-то говорит о контейнерах, скорее всего, имеется в виду именно Docker.

→ В следующем уроке мы подробно разберёмся с тем, как он работает.

В одном из предыдущих модулей вы уже пробовали работать с очередями сообщений в RabbitMQ на базе Docker. Пора научиться работать с самим Docker!

Что такое Docker? 

По сути это программное обеспеспечение, которое позволяет в автоматическом режиме создавать и управлять виртуальными машинами. При этом он делает это более элегантно по сравнению с обычными средствами виртуализации, например VirtualBox. Элегантно — потому что виртуализация происходит на уровне операционной системы. 

![dst-prod-container-3-6.png](attachment:dst-prod-container-3-6.png)

Докер позволяет собрать приложение со всем его окружением и зависимостями в контейнер. 

За счёт того, что Docker потребляет не очень много ресурсов машины, на которой он находится, можно запускать сразу несколько контейнеров даже на обычной девелоперской машине. Из-за этого стало принято использовать небольшие контейнеры для каждого конкретного сервиса: например, если у нас есть Django-приложение с базой данных, то сам сервер будет находиться в одном контейнере, а база — в другом. Изоляция часто позволяет добиться улучшения производительности и упрощения миграции сервисов.

Проще всего это представить, пользуясь метафорой кораблей и контейнеров. Если нужно перевезти несколько типов грузов (продукты, тяжелую машинерию и химикаты), то сделать это на одном корабле можно только используя контейнеры, изолируя грузы друг от друга. И когда они находятся в контейнерах, уже не очень важно, что внутри, оно может быть погружено на корабль.

Таким образом, контейнеризация — это создание некоторого ящика для вашего приложения, куда будут сложены ядро, ОС, библиотеки, ПО и само приложение.   



![dst-prod-container-3-16.png](attachment:dst-prod-container-3-16.png)

Docker работает с функциями системы Linux и её ядра. Поэтому при работе на других ОС он использует небольшую хитрость: каждый раз в систему ставится виртуальная машина с Linux, и Docker работает уже в ней. Но мы этого даже не замечаем.

Подведём итог

Контейнер Docker по сути представляет собой «виртуальную» файловую систему, в которую вы устанавливаете всё необходимое для запуска вашего приложения. Это «всё необходимое» включает в себя даже ядро системы Linux. При запуске такого Docker ваша базовая система поднимает контейнер с этой файловой системой, и получается  легковесная виртуальная машина. 

Основные компоненты Docker

Образы — это основные строительные блоки, на основании которых строятся контейнеры (а в них впоследствии упаковываются приложения). 

Образ по своей сути — это шаблон, своеобразный чертёж или рецепт, в котором содержится образ базовой операционной системы, код приложения и библиотеки. 

Запуская на его основе контейнер, мы создаём исполняемый экземпляр, который инкапсулирует требуемое программное обеспечение. 

В устройстве образа ключевую роль играет идея о слоях. 

Каждый docker имеет в основе базовый образ, где стоит операционная система. С каждым новым слоем мы добавляем в ОС другие компоненты. Каждый слой представляет из себя как бы diff файловой системы: например, вы взяли образ системы Ubuntu и поставили туда Python. Тогда ваш образ будет состоять из двух слоев — сама ОС и файлы Python поверх. 

В качестве базового образа для вашего docker можно использовать не только ОС, но и готовые образы с нужными вам компонентами. В общий регистр свои образы может добавлять кто угодно, поэтому в нём очень много готовых образов, доступных для расширения. Так, можно взять готовый образ из публичного репозитория в качестве базового образа, и в него добавлять дополнительные слои. 

Делается это в соответствии с инструкциями из Dockerfile, которые мы подробно рассмотрим дальше. 

Готовые образы хранятся в Docker registry. Они могут быть публичными или приватными, например, официальное публичное хранилище — это docker hub. В качестве базового можно использовать абсолютно любой. Однако стоит помнить о безопасности и удостовериться, что образ вам не навредит.

✔ Основное преимущество заключается в том, что мы можем делиться с помощью Docker registry образами, а значит легко переносить созданные нами приложения.

→ Существует множество официальных образов. Например, можно найти образ, где в качестве ОС используется Ubuntu, или, например, Linux с уже установленным Python. Есть даже Docker в Docker! Очень удобно, не правда ли?

Docker-образ управляется Daemon, который отвечает за все действия, связанные с контейнерами и, конечно, самим клиентом для взаимодействия с ним.

Создание образов. Dockerfile

Dockerfile — это специальный файл, в котором содержатся инструкции по сборке контейнера (а точнее, его слоев): какой тип контейнера использовать, какую операционную систему, какие дополнительные пакеты установить, какие команды запустить.

Так, например, если нам нужен образ для решения задач машинного обучения, то в Dockerfile мы пропишем инструкцию: включить в образ библиотеки sklearn или tensorflow. 

Каждая такая команда приводит к созданию отдельного слоя — при добавлении файлов diff этого слоя и будет состоять из них, при выполнении команды — из разницы в файловой системе до выполнения и после.

Типичный Dockerfile выглядит примерно так:

![dst-prod-container-3-8.png](attachment:dst-prod-container-3-8.png)

→ Давайте на практике разберёмся, что всё это значит, и напишем свой контейнер.

Оркестрация

Как вы уже убедились, создать контейнер для нашего приложения действительно несложно. Когда мы разрабатываем приложения на основе микросервисной архитектуры, у нас может быть множество сервисов, и каждый из них, конечно, будет жить в отдельном мире контейнере. Мы бы хотели каким-то образом автоматизировать или максимально облегчить процессы сборки, запуска и остановки наших контейнеров. 

Слава морским богам! Уже придумана масса инструментов для направления шхун по ветру оркестрации контейнеров.

Один из таких инструментов — Docker Compose. Он входит в состав Docker, а его основная задача — помогать разворачивать проекты, состоящие из нескольких контейнеров, и эффективно управлять ими.

Работа с Compose включает в себя несколько этапов:

1. Создание Dockerfile для своих приложений, чтобы их можно было воспроизвести где угодно.
2. Создание описания всех сервисов, которые требуется запускать вместе, в специальном файле docker-compose.yml.
3. Запуск docker-compose, чтобы ваше приложение развернулось автоматически.

Давайте посмотрим, как на практике реализуется каждый из этих шагов.

Docker Compose. Практика

В этой части мы будем практиковаться управлять сервисами, которые писали в практике по RabbitMQ в одном из прошлых модулей (features.py, metric.py, model.py).

Перед тем, как мы приступим к изучению Docker Compose, проверьте, установлен ли он у вас, введя в терминале или командной строке

In [None]:
docker-compose version

 Если нет, то установите его с помощью официального руководства. 

Во втором модуле нашего курса мы запускали очередь RabbitMQ и ещё три сервиса на Python. Как вы помните, мы рекомендовали использовать docker для запуска с помощью команды:

In [None]:
docker run -it --rm --name rabbitmq -p 5672:5672 -p 15672:15672 rabbitmq:3-management

Давайте подробнее разберёмся, что же она означала.

Создайте файл docker-compose.yml в директории проекта с помощью любого текстового редактора и напишите в нём: 

version: '3.7'
services:
  rabbitmq:
        image: rabbitmq:3-management
        container_name: rabbitmq
        hostname: rabbitmq
        restart: always
        ports:
            - 5672:5672
            - 15672:15672

Обратите внимание! В docker-compose.yml важны отступы.

Сравните написанное вами со строчкой выше. Много сходства, не так ли?

Теперь обсудим, что же мы написали:

- version: '3.7' — задали версию docker-compose;
- services —  указали на начало блока, в котором будут описаны все наших сервисы;
- Rabbitmq — задали имя сервиса rabbitmq;
Image — указали его образ;
restart: always — указали, что в случае падения контейнер должен перезапускаться автоматически.
Примечание. Можно задать и другие условия перезапуска:

restart: "no" — дефолтная опция: контейнер не будет перезапускаться ни при каких обстоятельствах.

restart: on-failure — если запуск контейнера завершился ошибкой.

И, наконец, мы пробросили порты с помощью ports. 

А ЗАЧЕМ МЫ УКАЗЫВАЕМ ИМЯ ХОСТА И ИМЯ КОНТЕЙНЕРА? 

Дело в том, что при работе с docker-compose создается собственная сеть, и чтобы постучаться из одного сервис в другой, нужно будет использовать имя хоста, а не стандартный localhost (хотя это тоже возможно — см. ссылку на официальную документацию). 

РАБОТАЕМ С СЕРВИСАМИ

Пришло время поработать с нашими сервисами! Начнём с небольшой модернизации файлов. 

→ FEATURES.PY

Заменим адрес очереди localhost на 'rabbitmq' (как мы и указали в compose-файле).

Также добавим бесконечный цикл, чтобы признаки и правильные ответы отправлялись постоянно. 

In [None]:
import pika
import json
import numpy as np
import time
from sklearn.datasets import load_diabetes

X, y = load_diabetes(return_X_y=True)

while True:
    try:
        random_row = np.random.randint(0, X.shape[0]-1)

        connection = pika.BlockingConnection(pika.ConnectionParameters('rabbitmq'))
        channel = connection.channel()

        channel.queue_declare(queue='Features')
        channel.queue_declare(queue='y_true')

        channel.basic_publish(exchange='',
                                  routing_key='Features',
                                  body=json.dumps(list(X[random_row])))
        print('Сообщение с вектором признаков, отправлено в очередь')

        channel.basic_publish(exchange='',
                                  routing_key='y_true',
                                  body=json.dumps(y[random_row]))

        print('Сообщение с правильным ответом, отправлено в очередь')
        connection.close()
        time.sleep(2)
    except:
        print('Не удалось подключиться к очереди')

→ METRIC.PY И MODEL.PY

В файлах metric.py и model.py заменим только адрес подключения к очереди (нужно отметить, что обычно такие переменные задаются с помощью переменных окружения)  и обернём подключение к очереди в try … except. 

In [None]:
"""model.py"""
import pika
import json
import pickle
import numpy as np

with open('myfile.pkl', 'rb') as pkl_file:
    regressor = pickle.load(pkl_file)

try:
    connection = pika.BlockingConnection(
        pika.ConnectionParameters(host='rabbitmq'))
    channel = connection.channel()

    channel.queue_declare(queue='Features')
    channel.queue_declare(queue='y_predict')

    def callback(ch, method, properties, body):
        print(f'Получен вектор признаков {body}')
        features = json.loads(body)
        pred = regressor.predict(np.array(features).reshape(1, -1))

        channel.basic_publish(exchange='',
                              routing_key='y_predict',
                              body=json.dumps(pred[0]))
        print(f'Предсказание {pred[0]} отправлено в очередь y_predict')


    channel.basic_consume(
        queue='Features', on_message_callback=callback, auto_ack=True)

    print('...Ожидание сообщений, для выхода нажмите CTRL+C')
    channel.start_consuming()

except:
    print('Не удалось подключиться к очереди')

In [None]:
"""metric.py"""
import pika
import json

try:
	connection = pika.BlockingConnection(
	    pika.ConnectionParameters(host='rabbitmq'))
	channel = connection.channel()


	channel.queue_declare(queue='y_true')
	channel.queue_declare(queue='y_predict')

	def callback(ch, method, propertyes, body):
		print(f'Из очереди {method.routing_key} получено значение {json.loads(body)}')


	channel.basic_consume(
		queue='y_predict', on_message_callback=callback, auto_ack=True)

	channel.basic_consume(
		queue='y_true', on_message_callback=callback, auto_ack=True)

	print('...Ожидание сообщений, для выхода нажмите CTRL+C')
	channel.start_consuming()
	
except:
    print('Не удалось подключиться к очереди')

→ ОБРАЗЫ

Следующим шагом подготовьте образы для каждого из наших сервисов и сложите их в разные директории рядом с docker-compose.yml. 

У вас должна получится примерно такая структура директорий:

![dst-prod-container-3-13.png](attachment:dst-prod-container-3-13.png)

Снова откроем файл docker-compose и добавим в него описание сервиса features:

In [None]:
version: '3.7'
services:
  rabbitmq:
        image: rabbitmq:3-management
        container_name: rabbitmq
        hostname: rabbitmq
        restart: always
        ports:
            - 5672:5672
            - 15672:15672

  features:
        build:
            context: ./features
        restart: always
        depends_on:
              - rabbitmq

Директива build указывает на то, что образ требуется собрать, при этом context указывает путь на размещение dockerfile. Директива depends_on указывает на зависимость от других сервисов, и означает, что compose не будет запускать сервис features без запущенного rabbitmq.

СДЕЛАЙТЕ САМИ!
Добавьте самостоятельно еще два сервиса: model и metrics. 

Когда все будет готово, перейдите через командную строку в директорию со своим проектом и запустите docker-compose up. 

Вы увидите, что все сервисы запустились. Также вы сможете наблюдать лог каждого сервиса. После закрытия терминала сервис будет выключен. Чтобы отвязать его от терминала, используйте ключ -d. 

Запустите команду docker-compose up -d, а затем команду docker ps и убедитесь, что все ваши сервисы запустились и работают.

Ещё полезные команды

C помощью команды docker logs <ID контейнера> можно посмотреть логи каждого сервиса. 

Чтобы остановить запущенные сервисы, воспользуйтесь командой docker-compose down. 

Иногда требуется пересобирать образы, например при изменении кода. Для этого удобно воспользоваться ключом --build. В таком случае команда запуска будет выглядеть следующим образом: docker-compose up -d --build.

ЗАДАНИЕ ДЛЯ ОТЛИЧНИКОВ
⭐

В файле metric.py добавьте запись лога из callback в файл labels_log.txt и разместите его в директорию logs рядом с вашим compose-файлом. Чтобы файл был доступен из локальной файловой системы, необходимо примонтировать нужную папку с помощью директивы volumes, которая является аналогом -v для обычного запуска.

Другие средства оркестрации контейнеров

Мы подробно остановились на разборе Docker Compose, достаточно мощном и эффективном инструменте для запуска нескольких сервисов на одной машине. Однако он имеет пусть один, но весьма существенный недостаток: по умолчанию в нём нет средств для горизонтального масштабирования.  

В таких случаях нам больше подойдет Docker Swarm, созданный специально для развертывания контейнеров на кластере. По сути, он преобразует набор хостов Docker в один последовательный виртуальный хост, называемый Swarm. Docker Swarm обеспечивает высокую производительность работы, равномерно распределяя нагрузку внутри кластера. Множество сервисов даже не подозревают, что за ними стоит целый рой Docker'ов, а не один сервер.

Однако наиболее популярным средством для оркестрирования контейнеров в кластере является Kubernetes. В литературе можно встретить акроним K8s. 

Kubernetes — инструмент с открытым исходным кодом. Когда-то его начала разрабатывать Google, а теперь поддерживается многими компаниями, среди которых Microsoft, RedHat, IBM и, конечно, сам Docker.

Он упрощает управление развертыванием, сетевой маршрутизацией, расходом ресурсов, балансировкой нагрузки и отказоустойчивостью запускаемых приложений.