### Airflow

Apache Airflow — это платформа для управления рабочими процессами (workflow), которая позволяет пользователям автоматизировать, планировать и мониторить сложные процессы обработки данных. 

Основные концепции
1. DAG (Directed Acyclic Graph):
    - DAG — это основной строительный блок в Airflow. Он представляет собой граф, в котором узлы — это задачи (tasks), а ребра — зависимости между ними. DAG всегда направленный и ациклический, что означает, что он не может содержать циклы.
    - DAG описывается в Python-файле, где вы определяете задачи и их зависимости.
2. Задачи (Tasks):
    - Задачи — это отдельные шаги в вашем рабочем процессе. Каждая задача может выполнять определенную операцию, такую как извлечение данных, их обработка или загрузка в хранилище.
    - Задачи могут быть реализованы с помощью операторов (operators), которые предоставляют готовые реализации для выполнения различных действий (например, BashOperator, PythonOperator, и т.д.).
3. Операторы (Operators):
    - Операторы — это абстракции, которые определяют, что будет делать задача. Например, BashOperator выполняет команды оболочки, а PythonOperator выполняет функции Python.
    - Airflow предоставляет множество встроенных операторов, а также возможность создавать свои собственные.
4. Планировщик (Scheduler):
    - Планировщик отвечает за выполнение задач в соответствии с расписанием, определенным в DAG. Он отслеживает состояние задач и запускает их, когда все зависимости выполнены.
5. Веб-интерфейс (Web UI):
    - Airflow предоставляет веб-интерфейс для мониторинга и управления DAG. Вы можете видеть состояние задач, их логи, а также запускать и останавливать DAG.
6. Экзекьюторы (Executors):
    - Экзекьюторы определяют, как задачи будут выполняться. Airflow поддерживает различные типы экзекьюторов, такие как SequentialExecutor, LocalExecutor, CeleryExecutor и другие, которые позволяют выполнять задачи локально или распределенно.

installation  
https://airflow.apache.org/docs/apache-airflow/stable/installation/index.html

Через pip

In [None]:
mkdir ~/airflow
cd ~/airflow
python -m venv airflow
source airflow/bin/activate 
# следующую строку лучше взять со свежей версией тут
# https://airflow.apache.org/docs/apache-airflow/stable/installation/installing-from-pypi.html
pip install "apache-airflow[celery]==2.10.4" --constraint "https://raw.githubusercontent.com/apache/airflow/constraints-2.10.4/constraints-3.8.txt"

In [None]:
# инициализации и миграции базы данных
airflow db migrate

In [None]:
#Создание стандартных подключений: Если вам нужно создать стандартные подключения, используйте следующую команду
airflow connections create-default-connections

In [None]:
# Запустите веб-сервер:
airflow webserver --port 8080

In [None]:
# В другом терминале запустите планировщик:
airflow scheduler

Теперь вы можете получить доступ к веб-интерфейсу Airflow, открыв браузер и перейдя по адресу http://localhost:8080.

Вы можете настроить Airflow, изменив файл конфигурации airflow.cfg, который находится в директории ~/airflow/airflow.cfg.

### Cron

Планирование сценариев с помощью Сron

Cron это просто файл  
сам cron постоянно работает в unix  
добавил в него файл - он работает по расписанию  
удалил - перестал работать

Ниже приведен синтаксис для планирования crons:

In [None]:
# Cron job example* * * * * sh /path/to/script.sh

Здесь * представляют собой минуты (минуты), часы (часы), день (дни), месяцы и дни недели соответственно.

Теперь настроим cron, чтобы автоматизировать процесс
cron это демон в линуксе, который может по расписанию запускать скрипты (по сути он выполняет по расписанию bash команды)  



crontab -e (создает файл, если его нет, если есть, то открывает на редактирование)  
crontab -l (открывает список задача в кроне)  
crontab -r (удаляет крон файл)  
crontab -v (показывает время, когда последний раз редактировался крон файл)  
Пользователь сам может выбрать подходящий для него формат, снимая или устанавливая "галочку" в опции "Поле года" (Year field)  
диалогового окна "Параметры" (двойной щелчок на иконке nnCron в системном трее). По умолчанию nnCron использует "улучшенный" формат.

Вот его схема:
https://nncron.ru/help/RU/working/cron-format.htm


На этом сайте можно проверить правильность указания времени для крона  
https://crontab.guru/

In [None]:
* * * * * 
| | | | | 
| | | | | 
| | | | +----- Дни недели (диапазон: 0-6)
| | | +------- Месяцы     (диапазон: 1-12)
| | +--------- Дни месяца (диапазон: 1-31)
| +----------- Часы       (диапазон: 0-23)
+------------- Минуты     (диапазон: 0-59)    

In [None]:
*	any value
,	value list separator
-	range of values
/	step values

Очень важный момент, не все команды, которые мы можем выполнить в баше в терминале запустятся в кроне,  
для них нужно указать полный путь до экзешника.  
Очевидное не всегда очевидно: простая команда вроде python3 не  
выполнится!  
Что делать? Посмотреть, где он лежит через which python3 и  
использовать полный путь.  

In [None]:
Важно, если мы хотим указать точное время, то нужно указать нули во времени в предыдущих разрядах,  
нарпимер, чтобы запускался в 3 утра кадый день, мы не можем написать  
* 3 * * *
так будет с 3:00 до 3:59 запускатся каждую минуту, так как стоит * это любое количество  
поэтому нужно  
0 3 * * *

In [None]:

создадим распсание крона
crontab -e
выбираем редактор, например, nano
# вначале пишем эту строчку, это значит каждую минуту будет запускаться эта команда
* * * * * python ~/cron_testing.py
сохраняем ctrl + o
можно протестиьть работу крона,  
для этого загрузим файл cron_testing.py на машину
# проверим, что все записалось
crontab -l
все ок, теперь можно смотреть в базе, что наш крон работает
теперь настроим крон, чтобы он ночью заливал данные
crontab -e
# в будет каждый день в 0:00 
0 0 * * * python3 ~/work.sh
# будет запускаться в субботу и воскресенье в 4 утра
0 4 * * 0,6 python3 ~/work.sh
# будет запускаться каждые 2 часа  
0 */2 * * *
# будет запускаться  1-го 5го 11го и 20го числа кадого месяца  
0 0 1, 5, 11, 20 * *


Пример использования с перенаправлением вываода

In [None]:
# Это файл test.py

if __name__ == '__main__':
    print('a minute passed')

Следующая записи в крон файле будет каждую минуту запускаь файл `test.py` и перенаправлять вывод этого скприпта в лог  
(это просто пример, можно конечно сделать логер внутри скрипта, но может и так будет нужно)

Тут важно, что когда мы кроном запускаем скрипт, то сообщения о ошибках или прудупреждения питона потеряются  
Чтобы они логировались, мы перенаправляем стандартный вывод в файл и указываем, что ошибки также выводить туда

In [None]:
* * * * * /opt/anaconda3/bin/python3 ~/scripts/test.py >> ~/log.txt 2>&1

In [None]:
Символ 2>&1 значит
“направляй поток ошибок туда же, куда и
простой вывод”. Основной вывод здесь скрывается за константой 1, а
поток ошибок – 2.
Это приведет к тому, что в одном месте будут собраны все логи, – а тогото мы и добивались.