# Airflow Note2

#### 回顧

* 最簡單安裝 
> pip install airflow  
> pip install "airflow[crypto, password]"  
    
    
*  初始化數據庫 `airflow initdb` [必須的步驟]
*  啟動web服務器 `airflow webserver -p 8080` [方便可視化管理dag]
*  啟動任務 `airflow scheduler` [scheduler啟動後，DAG目錄下的dags就會根據設定的時間定時啟動]
*  此外我們還可以直接測試單個DAG，如測試文章末尾的DAG `airflow test ct1 print_date 2016-05-14`


---

#### 配置 mysql以啟用 LocalExecutor 和 CeleryExecutor

安裝 MySQL 及設定 root 密碼  

> apt-get install mysql-server  

調整 MySQL 設定檔

> vi /etc/mysql/my.cnf  

把下列項目的記憶體用量調高的以提增加運行的效能。
~~~
key_buffer = 16K  
max_allowed_packet = 1M  
thread_stack = 64K  
table_cache = 4  
sort_buffer = 64K  
net_buffer_length = 2K  
~~~
4.登入 MySQL

> mysql -u root -p

5.創資料庫 
> CREATE DATABASE airflow;  
  
6.新建用户`ct`，密码为`152108`, 该用户对数据库`airflow`有完全操作权限  
> GRANT all privileges on airflow.* TO 'ct'@'localhost'  IDENTIFIED BY '152108';  
> FLUSH PRIVILEGES; 








##### 安裝 airflow mysql: 
> pip install airflow[mysql]   


##### 修改airflow配置文件支持mysql
airflow.cfg文件通常在~/airflow目錄下

更改數據庫鏈接: `sql_alchemy_conn = mysql://ct:152108@localhost/airflow`   
對應字段解釋如下： `dialect+driver://username:password@host:port/database` 

初始化數據庫 `airflow initdb`  

初始化數據庫成功後，可進入mysql查看新生成的數據表。  
> mysql -uct -p152108   

> USE airflow;    

> SHOW TABLES;     

~~~
+-------------------+  
| Tables_in_airflow |  
+-------------------+
| alembic_version   |
| chart             |
| connection        |
| dag               |
| dag_pickle        |
| dag_run           |
| import_error      |
| job               |
| known_event       |
| known_event_type  |
| log               |
| sla_miss          |
| slot_pool         |
| task_instance     |
| users             |
| variable          |
| xcom              |
+-------------------+
~~~

#### 配置LocalExecutor  

修改airflow配置文件: `airflow.cfg`  
* 更改executor為executor = LocalExecutor  

測試  
* airflow webserver -- debug & 

#### airflow.cfg 其它配置

`dags_folder`  


##### dags_folder目錄支持子目錄和軟連接，因此不同的dag可以分門別類的存儲起來。  


* 設置郵件發送服務
~~~
smtp_host = smtp.163.com
smtp_starttls = True
smtp_ssl = False
smtp_user = username@163.com
smtp_port = 25
smtp_password = userpasswd
smtp_mail_from = username@163.com
~~~

* 多用戶登錄設置(似乎只有CeleryExecutor支持)

  - 修改airflow.cfg中的下面3行配置  

~~~
authenticate = True
auth_backend = airflow.contrib.auth.backends.password_auth
filter_by_owner = True
~~~   

    - 增加一個用戶(在airflow所在服務器的python下運行)
~~~
import airflow
from airflow import models,   settings
from airflow.contrib.auth.backends.password_auth import PasswordUser
user = PasswordUser(models.User())
user.username = 'ehbio'
user.email = 'mail@ehbio.com'
user.password = 'ehbio'
session = settings.Session()
session.add(user)
session.commit()
session.close()
exit()
~~~

### TASK  

*參數解釋*

* depends_on_past  


Airflow assumes idempotent tasks that operate on immutable data chunks.   
It also assumes that all task instance (each task for each schedule) needs to run.  

If your tasks need to be executed sequentially, you need to tell Airflow:   
use the `depends_on_past=Trueflag` on the tasks that require sequential execution.)  



如果在TASK本該運行卻沒有運行時，或者設置的interval為@once時，推薦使用depends_on_past=False。   
在運行dag時，有時會出現，明明上游任務已經運行結束，下游任務卻沒有啟動，整個dag就卡住了。   
這時設置depends_on_past=False可以解決這類問題。   

~~~
default_args = {
    'owner': 'airflow',          
    'start_date': datetime(2016, 5, 29, 8, 30), 
    #'email': ['chentong_biology@163.com'],
    #'email_on_failure': False, 
    #'email_on_retry': False, 
    'depends_on_past': False, 
    'retries': 1, 
    'retry_delay': timedelta(minutes=5), 
    #'queue': 'bash_queue',
    #'pool': 'backfill', 
    #'priority_weight': 10, 
	  #'end_date': datetime(2016, 5, 29, 11, 30), 
}  
~~~




* timestamp in format like 2016-01-01T00:03:00

* Task中調用的命令出錯後需要在網站Graph view中點擊run手動重啟。為了方便任務修改後的順利運行，有個折衷的方法是：

  * 設置 email_on_retry: True
  * 設置較長的retry_delay，方便在收到郵件後，能有時間做出處理
  * 然後再修改為較短的retry_delay，方便快速啟動  
    
   
* 在特定情況下，修改後的一天，為了避免當前日期之前任務的運行，可以使用回填填補特定時間段的任務
> airflow backfill -s START -e END --mark_success DAG_ID  