### Настройка Airflow

Для начала вам необходимо выполнить ряд команд чтобы настроить окружение для дальнейшей работы, это позволит первое время не заниматься настройкой среды исполнения, а сразу начать писать код и работать с Airflow.

In [1]:
# Установка Airflow
!pip install apache-airflow==2.1.4

# Инициализация базы данных
!airflow db init

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting apache-airflow==2.1.4
  Downloading apache_airflow-2.1.4-py3-none-any.whl (5.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.3/5.3 MB[0m [31m38.4 MB/s[0m eta [36m0:00:00[0m
Collecting python-daemon>=2.2.4
  Downloading python_daemon-2.3.2-py3-none-any.whl (34 kB)
Collecting apache-airflow-providers-http
  Downloading apache_airflow_providers_http-4.1.1-py3-none-any.whl (21 kB)
Collecting iso8601>=0.1.12
  Downloading iso8601-1.1.0-py3-none-any.whl (9.9 kB)
Collecting apache-airflow-providers-sqlite
  Downloading apache_airflow_providers_sqlite-3.3.1-py3-none-any.whl (14 kB)
Collecting python3-openid~=3.2
  Downloading python3_openid-3.2.0-py3-none-any.whl (133 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m133.7/133.7 KB[0m [31m10.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting croniter<1.1,>=0.3.17
  Downloading croniter-1.0.1

In [2]:
# Создадим необходимые папки
!mkdir /root/airflow/dags
!touch /root/airflow/dags/dag.py

In [4]:
# Включим веб-сервер
!airflow webserver -p 18273 -D

  ____________       _____________
 ____    |__( )_________  __/__  /________      __
____  /| |_  /__  ___/_  /_ __  /_  __ \_ | /| / /
___  ___ |  / _  /   _  __/ _  / / /_/ /_ |/ |/ /
 _/_/  |_/_/  /_/    /_/    /_/  \____/____/|__/
[[34m2023-02-09 08:05:41,344[0m] {[34mdagbag.py:[0m496} INFO[0m - Filling up the DagBag from [01m/dev/null[22m[0m
Running the Gunicorn Server with:
Workers: 4 sync
Host: 0.0.0.0:18273
Timeout: 120
Logfiles: - -
Access Logformat: 


In [5]:
# Создадим пользователя Airflow
!airflow users create \
          --username admin \
          --firstname admin \
          --lastname admin \
          --role Admin \
          --email admin@example.org \
          -p 12345

Admin user admin created


Поместите в dag.py следующий код.

```python
from airflow import DAG
from datetime import timedelta
from airflow.utils.dates import days_ago
from airflow.operators.dummy_operator import DummyOperator

dag = DAG('dag',schedule_interval=timedelta(days=1), start_date=days_ago(1))
t1 = DummyOperator(task_id='task_1', dag=dag)
t2 = DummyOperator(task_id='task_2',dag=dag)
t3 = DummyOperator(task_id='task_3',dag=dag)
t4 = DummyOperator(task_id='task_4',dag=dag)
t5 = DummyOperator(task_id='task_5',dag=dag)
t6 = DummyOperator(task_id='task_6',dag=dag)
t7 = DummyOperator(task_id='task_7',dag=dag)

[t1, t2]>>t5
t3>>t6
[t5,t6] >>  t7
t4
```

In [6]:
# Запуск шедулера
!airflow scheduler -D

  ____________       _____________
 ____    |__( )_________  __/__  /________      __
____  /| |_  /__  ___/_  /_ __  /_  __ \_ | /| / /
___  ___ |  / _  /   _  __/ _  / / /_/ /_ |/ |/ /
 _/_/  |_/_/  /_/    /_/    /_/  \____/____/|__/


In [7]:
# Последующие команды не имеют отношения к Airflow
# Они нужни только для корректной работы веб морды
# в среде Google Colab

!pip install pyngrok
!ngrok authtoken 2L8ZNEgBuKsRo9mOlrAlMTVg6Xr_4QjZzqinZBf5npXekvyDV # найти его можно https://dashboard.ngrok.com/get-started/setup 

# Эта команда просто отображет веб морду на другой адрес
# Его вы можете найти https://dashboard.ngrok.com/cloud-edge/status
# При каждом отключении ссылка будет меняться
!nohup ngrok http -log=stdout 18273 > /dev/null &

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting pyngrok
  Downloading pyngrok-5.2.1.tar.gz (761 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m761.3/761.3 KB[0m [31m15.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: pyngrok
  Building wheel for pyngrok (setup.py) ... [?25l[?25hdone
  Created wheel for pyngrok: filename=pyngrok-5.2.1-py3-none-any.whl size=19792 sha256=1504eaeab45faffa7393cefb394f17a9307420f21f6f30b66ead16bbdf34ba08
  Stored in directory: /root/.cache/pip/wheels/5d/f2/70/526da675d32f17577ec47ac4c663084efe39d47c826b6c3bb1
Successfully built pyngrok
Installing collected packages: pyngrok
Successfully installed pyngrok-5.2.1
Authtoken saved to configuration file: /root/.ngrok2/ngrok.yml
nohup: redirecting stderr to stdout


После запуска команды выше, перейдите по адресу в ngrok и подождите  пока появится DAG с именем dag

### Задача на разработку


На прошло шаге мы написали простой пайплайн и обернули его в Airflow. Теперь давайте расширим его возможности с помощью макросов и Xcom. Во всех задачах вам необходимо использовать макрос {{ execution_date }} чтобы данные выгружались за определенный день. Для DAG вам нужно указать даты начала и конца исполнения задач с 2021-01-01 по 2021-01-04.

Вам необходимо обернуть ваш код в PythonOperator



*   Скачайте валюту за {{ ds }} и положите в Xcom, но не все а только значение
*   Скачайте данные за {{ ds }} и положите в БД sqlite (использовать PythonOperator чтобы скачать данные, можно использовать pandas)
​



In [14]:
from airflow import DAG
from airflow.utils.dates import days_ago
from airflow.operators.python_operator import PythonOperator

from airflow.operators.python import get_current_context

import pandas as pd
import sqlite3
import requests

import os

from datetime import datetime

CONN = sqlite3.connect('kursach_2.db')

#    /tmp/tmp_file_currency.csv


def extract_currency(tmp_file_currency):
    context = get_current_context()
    ds = context['ds']

    url = 'https://api.exchangerate.host/timeseries?start_date=' + ds + '&end_date=' + ds + '&base=EUR&symbols=USD'
    response = requests.get(url)
    data = response.json()
    
    df_exchangerate = pd.DataFrame(columns = ['base', 'start_date', 'end_date','rates_usd'])
    df_exchangerate = df_exchangerate.append({'base':data['base'], 'start_date':data['start_date'], 'end_date':data['end_date'],
                                             'rates_usd':data['rates'][ds]['USD']}, ignore_index = True)

    df_rates_usd_value = df_exchangerate['rates_usd']   
    df_rates_usd_value.to_csv(tmp_file_currency)

    #return df_rates_usd_value

def extract_git(tmp_file_git):

    context = get_current_context()
    ds = context['ds']
    
    ds = '2021-01-01'
    url = 'https://raw.githubusercontent.com/dm-novikov/stepik_airflow_course/main/data_new/' + ds + '.csv'
    
    df_git = pd.DataFrame(columns = ['currency', 'value', 'date'])
    df_git = pd.read_csv(url, on_bad_lines='skip')
    df_git.to_csv(tmp_file_git)

    #return df_git

def insert2xcom(tmp_file_currency):
    context = get_current_context()
    ti = context['ti']
    data2xcom = pd.read_csv(tmp_file_currency)
    ti.xcom_push(key='key', value=data2xcom['rates_usd'][0])
    os.remove(tmp_file_currency)

def insert_to_db(tmp_file_git, table_name, conn = CONN):
    data = pd.read_csv(tmp_file_git)
    data.to_sql(name=table_name, con=conn, index=False, if_exists='append')
    os.remove(tmp_file_git)

with DAG(dag_id='dag',
         default_args={'owner': 'airflow'},
         schedule_interval='@daily', # Интервал запусков
         start_date=days_ago(1) # Начальная точка запуска
    ) as dag:


    extract_currency = PythonOperator(
        task_id='extract_currency',
        python_callable=extract_currency,
        op_kwargs={
            'tmp_file_currency': '/tmp/tmp_file_currency.csv'}
    )

    insert_to_xcom = PythonOperator(
        task_id='insert_to_xcom',
        python_callable=insert2xcom,
        op_kwargs={
            'tmp_file_currency': '/tmp/tmp_file_currency.csv'}
    ) 
    
    extract_git = PythonOperator(
        task_id='extract_git',
        python_callable=extract_git,
        op_kwargs={
            'tmp_file_git': '/tmp/tmp_file_git.csv'}
    )


    insert_to_db = PythonOperator(
        task_id='insert_to_db',
        python_callable=insert_to_db,
        op_kwargs={
            'table_name': 'DATA_DS',
            'tmp_file_git': '/tmp/tmp_file_git.csv'}
    ) 



extract_currency >> insert_to_xcom
extract_git >> insert_to_db

<Task(PythonOperator): insert_to_db>

In [10]:
def insert_to_db(tmp_file_git, table_name, conn = CONN):
    data = pd.read_csv(tmp_file_git)
    data.to_sql(name=table_name, con=conn, index=False, if_exists='append')
    #os.remove(tmp_file_git)

In [12]:
insert_to_db(tmp_file_git='/tmp/tmp_file_git.csv', table_name='DATA_DS', conn = CONN)


In [15]:
all_table = pd.read_sql_query("SELECT name FROM sqlite_master WHERE type='table'", CONN)
all_table

Unnamed: 0,name
0,DATA_DS


In [16]:
DATA_DS = pd.read_sql_query("SELECT * FROM DATA_DS", CONN)
DATA_DS

Unnamed: 0.1,Unnamed: 0,currency,value,date
0,0,EUR,38,2021-01-01
1,1,EUR,65,2021-01-01
2,2,EUR,74,2021-01-01
3,3,EUR,42,2021-01-01
4,4,EUR,23,2021-01-01
5,5,EUR,48,2021-01-01
6,6,EUR,86,2021-01-01
7,7,EUR,74,2021-01-01
8,8,EUR,24,2021-01-01


In [None]:
# Решение здесь

In [None]:
# чтобы првоерить решение можете обратиться к вашей базе данных таким образом
%load_ext sql
%config SqlMagic.feedback=False 
%config SqlMagic.autopandas=True
%sql sqlite:////<ПУТЬ ДО БАЗЫ>
%sql select * from <ТАБЛИЦА>