Удобный ETL инструмент с открытым исходным кодом на основе Python.
ViXtract – это сборка на основе популярных открытых инструментов обработки данных, которая помогает аналитикам BI самостоятельно выгружать, очищать и преобразовывать данные без помощи ETL разработчиков. Главные принципы ViXtract – удобство работы аналитика и неограниченные возможности развития. В основе ViXtract лежат три ключевых компонента: Jupyter - интерактивная среда для работы с Python, PETL – простая в освоении библиотека преобразования данных, Cronicle - планировщик с функциями мониторинга и оркестрации задач.
Для установки ViXtract на Ubuntu 18.04 LTS используйте команду ниже:
sudo apt-get update && sudo apt-get install git -y && git clone https://github.com/visiologyofficial/vixtract && cd vixtract && sudo chmod +x *.sh && sudo ./install.sh
Для установки на других ОС нужно вносить изменения в скрипт или производить установку вручную. Также есть форк с обновленными компонентами для установки на Debian 11 https://github.com/svnikolaev/vixtract
Если планируется использовать ViXtract с публичным доменом и HTTPS, рекомендуется до установки ViXtract настроить домен на DNS-сервере. В этом случае при установке ViXtract можно будет сразу настроить получение SSL сертификата через Letsencypt.
Установщик запросит следующую информацию:
- Домен/hostname. Можно оставить пустым для доступа к серверу по IP, но в этом случае автоматическая настройка HTTPS будет недоступна.
- Согласие на автоматическую настройку HTTPS
- Имя пользователя и пароль для первой учетной записи. С помощью этой учетной записи можно будет сразу приступить к работе с ViXtract.
- Пароль для учетной записи администратора Cronicle ('admin')
- Пароль для учетной записи 'etl' в предустановленной PostgreSQL
После установки ViXtract будет доступен в браузере по адресу http(s)://<домен или IP>
При необходимости можно запускать скрипт install.sh многократно.
Рекомендуем начать знакомство с ViXtract в следующем порядке:
- Посмотрите вводный ролик по ViXtract (ссылка будет добавлена позже)
- Установите ViXtract или зарегистрируйтесь на публичном тестовом сервере
- Пройдите вводные уроки по ViXtract в формате Jupyter Notebook - папка 'tutorials'
- Ознакомьтесь со вводным курсом по Python, например "Python за 15 минут" https://www.youtube.com/watch?v=h8ajN8_XiBk
- Возьмите свою реальную задачу и попробуйте ее реализовать. При этом вам будут полезны:
- Примеры реализации коннекторов - папка 'examples'
- Чат сообщества ViXtract - https://t.me/vixtract_ru
- Документация PETL - https://petl.readthedocs.io/en/stable/
Для настройки ViXtract после установки предусмотрен скрипт 'conf.sh'. Доступны следующие ключи:
'-u' Добавление учетной записи
'-ssl' Включение/выключение HTTPS
'-h' Настройка домена/hostname
'-s' Настройка монтирования облачного хранилища по протоколу S3
'-p' Настройка пароля учетной записи 'etl' в PostgreSQL
'-a' Настройка пароля учетной записи 'admin' в Chronicle
При установке выполняются следующие действия:
- Установлен JupyterHub с интерфейсом JupyterLab
- Установлен менеджер окружений Anaconda
- Созданы два окружения - dev и prod, а также настроены соответствующие ядра в Jupyter
- В оба окружения установлен базовый набор пакетов, включая PETL и вспомогательные библиотек
- Установлен планировшик Cronicle и модуль исполнения papermill
- Установлен Nginx
- Установлен S3FS для монтирования облачного хранилища по протоколу S3
- Установлен и настроен PostgreSQL
- Создана база etl в PostgreSQL
- Сделаны дополнительные настройки, интегрирующие все компоненты сборки, в том числе настройки прав, systemd, nginx и др.
- В текущей версии ViXtract не поддерживает установку в окружении за корпоративным прокси с авторизацией. В таком случае необходимо до установки вручную прописать конфигурацию прокси для npm, anaconda, wget, причем для wget также может потребоваться отключение проверки сертификата 'check_certificate = off'