# Apache Airflow для аналитика

# Решение примера на Airflow: практика

## Настройка Airflow

In [1]:
# Установка Airflow

#!pip install apache-airflow==2.1.4
#!pip install wtforms==2.3.3

# Инициализация базы данных

#!airflow db init

In [2]:
# Создадим необходимые папки

#!mkdir /root/airflow/dags
#!touch /root/airflow/dags/dag.py

In [3]:
# Включим веб-сервер

#!airflow webserver -p 18273 -D

In [4]:
# Последующие команды не имеют отношения к Airflow
# Они нужны только для корректной работы веб морды
# в среде Google Colab

#!pip install pyngrok
#!ngrok authtoken <> # найти его можно https://dashboard.ngrok.com/get-started/setup

In [5]:
# Создадим пользователя Airflow

#!airflow users create \
#          --username admin \
#          --firstname admin \
#          --lastname admin \
#          --role Admin \
#          --email admin@example.org \
#          -p 12345

Поместим в dag.py следующий код:

In [6]:
#from airflow import DAG
#from datetime import timedelta
#from airflow.utils.dates import days_ago
#from airflow.operators.dummy_operator import DummyOperator

#dag = DAG('dag',schedule_interval=timedelta(days=1), start_date=days_ago(1))
#t1 = DummyOperator(task_id='task_1', dag=dag)
#t2 = DummyOperator(task_id='task_2',dag=dag)
#t3 = DummyOperator(task_id='task_3',dag=dag)
#t4 = DummyOperator(task_id='task_4',dag=dag)
#t5 = DummyOperator(task_id='task_5',dag=dag)
#t6 = DummyOperator(task_id='task_6',dag=dag)
#t7 = DummyOperator(task_id='task_7',dag=dag)

#[t1, t2]>>t5
#t3>>t6
#[t5,t6] >>  t7
#t4

In [7]:
# Запуск шедулера

#!airflow scheduler -D

In [8]:
# Эта команда просто отображет веб морду на другой адрес
# Его вы можете найти https://dashboard.ngrok.com/cloud-edge/endpoints
# При каждом отключении ссылка будет меняться

#!nohup ngrok http 18273 > /dev/null &

После запуска команды выше, перейдите по адресу в ngrok и подождите пока появится DAG с именем dag

## Практика

### Аргументы DAG

Вставим данный код в dag.py и посмотрим на главную страницу Airflow.

In [None]:
from airflow import DAG
from datetime import timedelta
from airflow.utils.dates import days_ago
from airflow.operators.dummy_operator import DummyOperator

# Создадим объект класса DAG
dag = DAG('dag', schedule_interval=timedelta(days=1))

# Создадим несколько шагов
t1 = DummyOperator(task_id='echo_1', dag=dag)
t2 = DummyOperator(task_id='echo_2', dag=dag)

Задание #1

Впишите текст полученной ошибки после airflow.exceptions.AirflowException:, без пробелов только текст

Данная ошибка указывает на то что мы не задали стартовую дату, давайте это поправим.

In [None]:
from airflow import DAG
from datetime import timedelta
from airflow.utils.dates import days_ago
from airflow.operators.dummy_operator import DummyOperator

# Создадим объект класса DAG
dag = DAG('dag',
          schedule_interval='@daily',
          start_date=days_ago(1))

# Создадим несколько шагов
t1 = DummyOperator(task_id='echo_1', dag=dag)
t2 = DummyOperator(task_id='echo_2', dag=dag)

После перехода на главную страницу вы увидите что ошибка исчезла.

### PythonOperator

Пример использования оператора для запуска кода. Попробуем скачать файл из интернета.

Задание #2

Впишите полный путь до файла куда мы запишем данные, то что будет передано в аргумент f_name

In [None]:
from airflow import DAG
from datetime import timedelta
from airflow.utils.dates import days_ago
from airflow.operators.python import PythonOperator

import pandas as pd

def f_callable(url, f_name):
  data = pd.read_csv(url)
  data.to_csv(f_name)

with DAG('dag', schedule_interval=timedelta(days=1), start_date=days_ago(1)) as dag:
  # Создадим оператор для исполнения python функции
  t1 = PythonOperator(task_id='download_file',
                      python_callable=f_callable,
                      op_kwargs={'url': 'https://raw.githubusercontent.com/dm-novikov/stepik_airflow_course/main/data/data.csv',
                                 'f_name': '/root/airflow/data.csv'})


_____________________________________________________________________________________________________________________________
Проектную работу выполнила: аналитик данных Малахова Наталья

Мой телеграм-канал: [Дневник аналитика](https://t.me/diary_musician_analyst "Дневник аналитика")

GitHub: [GitHub](https://github.com/Malakhova-Natalya "GitHub")

Habr: [Habr](https://habr.com/ru/users/Malakhova-Natalya/publications/articles/ "Habr")

Спасибо за внимание!