### Настройка Airflow

Для начала вам необходимо выполнить ряд команд чтобы настроить окружение для дальнейшей работы, это позволит первое время не заниматься настройкой среды исполнения, а сразу начать писать код и работать с Airflow.

In [5]:
# Установка Airflow
!pip install apache-airflow==2.1.4

# Инициализация базы данных
!airflow db init

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
DB: sqlite:////root/airflow/airflow.db
[[34m2023-02-26 19:33:01,475[0m] {[34mdb.py:[0m702} INFO[0m - Creating tables[0m
INFO  [alembic.runtime.migration] Context impl SQLiteImpl.
INFO  [alembic.runtime.migration] Will assume non-transactional DDL.
WARNI [airflow.models.crypto] empty cryptography key - values will not be stored encrypted.
WARNI [unusual_prefix_29f86b268ee2fc845f05f8c9939fae016b0c47cc_example_kubernetes_executor_config] Could not import DAGs in example_kubernetes_executor_config.py: No module named 'kubernetes'
WARNI [unusual_prefix_29f86b268ee2fc845f05f8c9939fae016b0c47cc_example_kubernetes_executor_config] Install kubernetes dependencies with: pip install apache-airflow['cncf.kubernetes']
Initialization done


In [2]:
# Создадим необходимые папки
!mkdir /root/airflow/dags
!touch /root/airflow/dags/dag.py

In [3]:
# Включим веб-сервер
!airflow webserver -p 18273 -D

  ____________       _____________
 ____    |__( )_________  __/__  /________      __
____  /| |_  /__  ___/_  /_ __  /_  __ \_ | /| / /
___  ___ |  / _  /   _  __/ _  / / /_/ /_ |/ |/ /
 _/_/  |_/_/  /_/    /_/    /_/  \____/____/|__/
[[34m2023-02-26 19:32:06,746[0m] {[34mdagbag.py:[0m496} INFO[0m - Filling up the DagBag from [01m/dev/null[22m[0m
Running the Gunicorn Server with:
Workers: 4 sync
Host: 0.0.0.0:18273
Timeout: 120
Logfiles: - -
Access Logformat: 


In [4]:
# Создадим пользователя Airflow
!airflow users create \
          --username admin \
          --firstname admin \
          --lastname admin \
          --role Admin \
          --email admin@example.org \
          -p 12345

Admin user admin created


Поместите в dag.py следующий код.

```python
from airflow import DAG
from datetime import timedelta
from airflow.utils.dates import days_ago
from airflow.operators.dummy_operator import DummyOperator

dag = DAG('dag',schedule_interval=timedelta(days=1), start_date=days_ago(1))
t1 = DummyOperator(task_id='task_1', dag=dag)
t2 = DummyOperator(task_id='task_2',dag=dag)
t3 = DummyOperator(task_id='task_3',dag=dag)
t4 = DummyOperator(task_id='task_4',dag=dag)
t5 = DummyOperator(task_id='task_5',dag=dag)
t6 = DummyOperator(task_id='task_6',dag=dag)
t7 = DummyOperator(task_id='task_7',dag=dag)

[t1, t2]>>t5
t3>>t6
[t5,t6] >>  t7
t4
```

In [6]:
# Запуск шедулера
!airflow scheduler -D

  ____________       _____________
 ____    |__( )_________  __/__  /________      __
____  /| |_  /__  ___/_  /_ __  /_  __ \_ | /| / /
___  ___ |  / _  /   _  __/ _  / / /_/ /_ |/ |/ /
 _/_/  |_/_/  /_/    /_/    /_/  \____/____/|__/


In [8]:
# Последующие команды не имеют отношения к Airflow
# Они нужни только для корректной работы веб морды
# в среде Google Colab

!pip install pyngrok
!ngrok authtoken 2MBRgJ066swk4ThgvdLuWtytQAI_3WLNSDpTtkwHYi33C27nr # найти его можно https://dashboard.ngrok.com/get-started/setup 

# Эта команда просто отображет веб морду на другой адрес
# Его вы можете найти https://dashboard.ngrok.com/cloud-edge/status
# При каждом отключении ссылка будет меняться
!nohup ngrok http -log=stdout 18273 > /dev/null &

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyngrok
  Downloading pyngrok-5.2.1.tar.gz (761 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m761.3/761.3 KB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyngrok
  Building wheel for pyngrok (setup.py) ... [?25l[?25hdone
  Created wheel for pyngrok: filename=pyngrok-5.2.1-py3-none-any.whl size=19792 sha256=480d2d77eb6ab6f62ca54276a8f8daea583d40553ca0e84a54cd5121bcffe88a
  Stored in directory: /root/.cache/pip/wheels/5d/f2/70/526da675d32f17577ec47ac4c663084efe39d47c826b6c3bb1
Successfully built pyngrok
Installing collected packages: pyngrok
Successfully installed pyngrok-5.2.1
Authtoken saved to configuration file: /root/.ngrok2/ngrok.yml
nohup: redirecting stderr to stdout


После запуска команды выше, перейдите по адресу в ngrok и подождите  пока появится DAG с именем dag

### Задача на разработку


На прошло шаге мы написали простой пайплайн и обернули его в Airflow. Теперь давайте расширим его возможности с помощью макросов и Xcom. Во всех задачах вам необходимо использовать макрос {{ execution_date }} чтобы данные выгружались за определенный день. Для DAG вам нужно указать даты начала и конца исполнения задач с 2021-01-01 по 2021-01-04.

Вам необходимо обернуть ваш код в PythonOperator



*   Скачайте валюту за {{ ds }} и положите в Xcom, но не все а только значение
*   Скачайте данные за {{ ds }} и положите в БД sqlite (использовать PythonOperator чтобы скачать данные, можно использовать pandas)
​



In [None]:
import sqlite3
import requests
import pandas as pd
from datetime import datetime
from airflow import DAG
from airflow.utils.dates import days_ago
from airflow.operators.python_operator import PythonOperator

CON = sqlite3.connect('example.db')

def extract_currency(date, **context):
   url = f'https://api.exchangerate.host/timeseries?start_date={date}&end_date={date}&base=EUR&symbols=USD&format=csv'
   data = pd.read_csv(url)
   context['ti'].xcom_push(key='return_value', value=data['rate'].values[0])

def extract_data(date, tmp_file, **context):
  url = f'https://raw.githubusercontent.com/dm-novikov/stepik_airflow_course/main/data_new/{date}.csv'
  pd.read_csv(url).to_csv(tmp_file, index=None)

def insert_to_db(tmp_file, table_name, conn=CON, **context):
  data = pd.read_csv(tmp_file)
  data.to_sql(table_name, conn, if_exists='append', index=False)

def sql_query(sql, conn=CON, tmp_file='/tmp/report.csv', **context):
  if sql.lower().startswith('select'):
    pd.read_sql(sql, conn).to_csv(tmp_file, index=None)
  else:
    cursor = conn.cursor()
    cursor.execute(sql)
    conn.commit()
    cursor.close()

with DAG(dag_id='dag',
         start_date=datetime(2021, 1, 1),
         end_date=datetime(2021, 1, 4), 
         max_active_runs=1
    ) as dag:

  extract_currency = PythonOperator(
      task_id='extract_currency',
      python_callable=extract_currency,
      op_kwargs={
          'date': '{{ ds }}'
          }
  )

  extract_data = PythonOperator(
      task_id='extract_data',
      python_callable=extract_data,
      op_kwargs={
          'date': '{{ ds }}',
          'tmp_file': '/tmp/extract_data.csv'}
  )


  create_data = PythonOperator(
      task_id='create_data',
      python_callable=sql_query,
      op_kwargs={
          'sql': 'CREATE TABLE IF NOT EXISTS data (currency text, value integer, date text)'}
  )


  insert_data_to_db = PythonOperator(
      task_id='insert_data_to_db',
      python_callable=insert_to_db,
      op_kwargs={
          'table_name': 'data',
          'tmp_file': '/tmp/extract_data.csv'}
  )

  
  extract_currency 
  extract_data >> create_data >> insert_data_to_db

In [10]:
# чтобы првоерить решение можете обратиться к вашей базе данных таким образом
%load_ext sql
%config SqlMagic.feedback=False 
%config SqlMagic.autopandas=True
%sql sqlite:////example.db
%sql select * from data

The sql extension is already loaded. To reload it, use:
  %reload_ext sql
 * sqlite:////example.db


Unnamed: 0,currency,value,date
0,EUR,38,2021-01-01
1,EUR,65,2021-01-01
2,EUR,74,2021-01-01
3,EUR,42,2021-01-01
4,EUR,23,2021-01-01
...,...,...,...
67,EUR,23,2021-01-03
68,EUR,2,2021-01-03
69,EUR,23,2021-01-03
70,EUR,35,2021-01-03
