<a id='head'></a>

# Airflow

<div class="alert alert-info">
<b>Привет, ревьювер!</b>
    
Приветствие    
</div>


# Оглавление
    
- [**Типы инициализации DAG**](#part_1)
    - [Параметры DAG](#param_dag)
    - [Базовая инициализация](#part_1_1)

- [**Коннекторы**](#part_2)
    - [2.1 Часть](#part_2_1)
    - [Выводы](#part_2_conclusions)

- [**Операторы**](#part_3)
    - [3.1 Часть](#part_3_1)
    - [Выводы](#part_3_conclusions)

- [**Обработка данных**](#data_transform)
    - [4.1 Часть](#part_4_1)
    - [Выводы](#part_4_conclusions)

- [**5. Часть**](#part_5)
    - [5.1 Часть](#part_5_1)
    - [Выводы](#part_5_conclusions)

- [**6. Часть**](#part_6)
    - [6.1 Часть](#part_6_1)
    - [Выводы](#part_6_conclusions)

- [Чек лист](#check_list)

<a id='part_1'></a>
# Типы инициализации DAG [▴](#head)

<a id='param_dag'></a>
## Параметры DAG [▴](#head)

```python

# Формируем название DAG из имени файла, без расширения .py
dag_id       = os.path.basename(__file__).replace(".py", "") 

# Устанавливаем теги, по ним удобно фильтровать даги в Airflow
tags         = ['tag1', 'tag2'] 

# параметр default_args используется для установки значений по умолчанию для различных параметров задач
default_args = {
                'owner': 'airflow',        # Имя владельца задачи или DAG. Тип: str
                'start_date': datetime(2023, 1, 1), # Дата и время, когда DAG должены начать выполняться. Тип: datetime
                'depends_on_past':  False, # Если установлено в True, задача не будет выполняться, 
                                           # если предыдущая задача с тем же идентификатором не завершилась успешно.
                                           # Тип: bool. По умолчанию: False
                'email_on_failure': False, # Если установлено в True, 
                                           # сбои задач будут приводить к отправке уведомлений по электронной почте.
                                           # Тип: bool. По умолчанию: True
                'email_on_retry':   False, # Если установлено в True, уведомления будут отправляться 
                                           # по электронной почте при повторной попытке выполнения задачи.
                                           # Тип: bool. По умолчанию: True
                'email_on_success': False, # Если установлено в True, уведомления будут 
                                           # отправляться по электронной почте в случае успешного завершения задачи.
                                           # Тип: bool. По умолчанию: False
                'retries': 3,              # Количество повторных попыток для задачи в случае сбоя. 
                                           # Тип: int. По умолчанию: 0
                'retry_delay': timedelta(minutes=5), # Время задержки перед повторной попыткой. Тип: timedelta
                
               } 

dag = DAG(
          dag_id,                             # Имя дага, отображается в списке Airflow
          default_args      = default_args,   # распаковываем словарь с аргументами из переменной
          tags              = tags,                   
          description       = 'Описание дага',   
          schedule_interval = '@daily',               
          catchup           = False                                                    
         )
```

**Пояснение:**
```
1.  owner:                    Очень часто используется для указания ответственного за задачу.
2.  start_date:               Один из ключевых параметров, определяющих начало выполнения DAG.
3.  retries:                  Часто используется для управления количеством повторных попыток выполнения задачи.
4.  retry_delay:              Важный параметр для настройки времени ожидания между повторными попытками.
5.  depends_on_past:          Полезно для управления последовательностью выполнения задач.
6.  email_on_failure:         Часто используется для уведомлений в случае неудачи.
7.  email_on_retry:           Важно для информирования об повторных попытках.
8.  email_on_success:         Существует, хотя не так часто используется, как предыдущие параметры.
9.  execution_timeout:        Полезно для ограничения времени выполнения задач и управления зависимостями.
10. queue:                    Используется в распределенных системах, где требуется управление очередями.
11. pool:                     Полезен для настройки конкурентности и управления разными наборами ресурсов.
12. max_active_runs:          Используется для ограничения параллельных запусков DAG.
13. max_active_tasks_per_dag: Чаще используется, когда управление задачами критично.
14. provide_context:          Обычно используется в пользовательских задачах, особенно с PythonOperator.
15. sla:                      Используется для контроля сроков выполнения.
16. on_failure_callback:      Для обработки ошибок и кастомизированного поведения.
17. on_retry_callback:        Для кастомизированного поведения при попытках повторного выполнения.
18. on_success_callback:      Для кастомизированного поведения после успешного выполнения.
19. do_xcom_push:             Наиболее специфичный и зависит от использования XCom в задачах.
```

<a id='part_1_1'></a>
## Базовая инициализация [▴](#head)

```python

from airflow import DAG
# ____________ Блок импортов ____________



# ____________ Блок параметров ____________
# Определяем параметры дага, и прочие переменные

dag_id       = os.path.basename(__file__).replace(".py", "") 
tags         = ['tag1', 'tag2']
default_args = {
                'owner':            'airflow',
                'start_date':       datetime(2023, 1, 1),
               }  

# ____________ Блок функций ____________
# Описываем функции Python и т.п.


# ____________ Инициализация DAG ____________
dag = DAG(
          dag_id,                                    
          default_args      = default_args,           
          tags              = tags,                   
          description       = 'Описание дага',   
          schedule_interval = '@daily',               
          catchup           = False                                                    
         )


# ____________ Инициализация задач ____________
# Инициализируем задачи, присваивая им операторы

task1 = # оператор
task2 = # оператор

# ____________ Порядок запуска задач ____________
# Формируем порядок запуска задач
task1 >> task2

```

<a id='part_2'></a>
# Коннекторы [▴](#head)

<a id='part_2_1'></a>
## 2.1 Часть [▴](#head)

<a id='part_2_conclusions'></a>
## Выводы [▴](#head)

<a id='part_3'></a>
# Операторы [▴](#head)

<a id='part_3_1'></a>
## 3.1 Часть [▴](#head)

<a id='part_3_conclusions'></a>
## Выводы [▴](#head)

<a id='data_transform'></a>
# Обработка данных [▴](#head)

<a id='part_4_1'></a>
## 4.1 Часть [▴](#head)

<a id='part_4_conclusions'></a>
## Выводы [▴](#head)

<a id='part_5'></a>
# 5. Часть [▴](#head)

<a id='part_5_1'></a>
## 5.1 Часть [▴](#head)

<a id='part_5_conclusions'></a>
## Выводы [▴](#head)

<a id='part_6'></a>
# 6. Часть [▴](#head)

<a id='part_6_1'></a>
## 6.1 Часть [▴](#head)

<a id='part_6_conclusions'></a>
## Выводы [▴](#head)

<a id='check_list'></a>
# Чек-лист готовности проекта [▴](#head)

- [ ]  открыт файл
