# 1. Kylinpy 简介

[Kylinpy](https://github.com/Kyligence/kylinpy) 初衷是作为 SQLAlchemy Dialect 而开发设计的. 随着 KI 的使用, 逐渐演化成 Apache Kylin / KE3 / KE4 `Datasource` 服务层. 随着 Airflow 支持, 又加入了统一的 Job 服务

## 特性
- 提供 SQLAlchemy Dialect
- 提供 Pandas read_sql 接口
- 针对 Apache Kylin / Kyligence Enterprise 3 暴露 Cube 作为 Datasource 服务层
- 针对 Kyligence Enterprise 4 暴露 Model 作为 Datasource 服务层
- 尽力做到不同版本 Kylin / KE 使用同样 API 访问
- Python 2.7 / Python3 兼容
- 现在版本依然可以做到无额外依赖, 纯 Python 实现, 安装部署很方便
- 高测试覆盖率(覆盖率保持 80% 以上)

## Online 安装
```
pip install kylinpy
```

## Offline 安装

```
# download from https://pypi.org/project/kylinpy/#files
pip install kylinpy-2.8.1.tar.gz
```

# 2. 作为 SQLAlchemy Dialect

In [4]:
from sqlalchemy import create_engine, inspect

"""
在 DSN 中可以很方便的指定 Kylin / KE 版本

Kylin Instance
engine = create_engine("kylin://admin:KYLIN@10.1.2.31:7070/learn_kylin")

KE4 Instance
engine = create_engine("kylin://admin:KYLIN@10.1.2.31:7070/learn_kylin?version=v4")
"""

engine = create_engine("kylin://admin:KYLIN@10.1.2.31:7070/learn_kylin?version=v2")
sql = 'select * from kylin_sales limit 10'
results = engine.execute(sql)

#results.fetchall()
#inspector = inspect(engine)
#inspector.get_table_names('')
#inspector.get_schema_names()
#inspector.get_columns('DEFAULT.KYLIN_SALES')

## 更常用的做法是把返回结果集定义成 Pandas Dataframe

In [5]:
import pandas as pd

df = pd.read_sql(sql, engine)
print(df)
print(df.dtypes)

   kylin_sales.trans_id kylin_sales.part_dt kylin_sales.lstg_format_name  \
0                     0          2012-12-14                       Others   
1                     1          2012-08-28                       Others   
2                     2          2012-02-16                         ABIN   
3                     3          2013-10-19                   FP-non GTC   
4                     4          2012-10-22                       Others   
5                     5          2013-01-25                       FP-GTC   
6                     6          2013-04-04                       Others   
7                     7          2012-04-11                       Others   
8                     8          2013-01-19                         ABIN   
9                     9          2012-04-30                   FP-non GTC   

   kylin_sales.leaf_categ_id  kylin_sales.lstg_site_id  \
0                      88750                         0   
1                     175750                   

# 2. Apache Kylin / KE3 / KE4 抽象 `Datasource` 服务层

- 针对 Apache Kylin / Kyligence Enterprise 3 暴露 Cube 作为 Datasource 服务层
- 针对 Kyligence Enterprise 4 暴露 Model 作为 Datasource 服务层

In [None]:
from kylinpy import Kylin

# 1. 实例化 Kylin 对象, 依然可以很方便的通过切换构造函数的 verserion 参数, 而指定不同版本的 Kylin 对象
kylin = Kylin(
    host='<please input KE4 hostname without scheme>',
    port=7070,
    username='ADMIN',
    password='KYLIN',
    project='demo',
    version='v4',
)
# 2. 取得一个 Datasource, 这里的 Datasource, 在 KE3 中是Cube, 在 KE4 中是以个 Modle, 在 KI 中又是一个自定义格式的dataset.灵活的设计, 封装了数据源的差异
ds = kylin.get_datasource('test')


#print("datasource name: ", ds.name)
# datasource 最重要的属性是 dimensions 和 measures
#print("dimension objects: ", ds.dimensions)

# 每一个 dimension 都有一些具体的属性
# customer_c_city = ds.dimensions[0]
# print("dimension name: ", customer_c_city.name)
# print("dimension type: ", customer_c_city.datatype)
# print("dimension verbose: ", customer_c_city.verbose)


# 还可以很方便查看 dimension 所关联的源表信息
# print("source table schema of DIMENSION: ", customer_c_city.table.scheme)
# print("source table name of DIMENSION: ", customer_c_city.table.name)

# measure 信息也是一样的
print("measure objects: ", ds.measures)
measure1 = ds.measures[0]
print("measure name: ", measure1.name)
print("measure verbose: ", measure1.verbose)
print("measure expression: ", measure1.expression)

str(ds.from_clause)

# 3. 以 Datasource 为源点, 可以有很多实用方法

In [None]:
# 列出这个 model 的聚合组. 很遗憾, 这不是一个在手册中出现的API, 所以会在打印出 Warning message
ds.list_index_rules()

In [None]:
# 清除聚合组
ds.clear_up_index_rules()

In [None]:
# 很友好的方式增加聚合组
ds.add_index_rule(
    load_data=False,  # whether or not auto build index
    include=['CUSTOMER.C_CITY'],  # dimenstion name in list
    mandatory=['CUSTOMER.C_CITY'],  # dimension name in list
)

In [None]:
# 列出所有 index
ds.list_indexes()

In [None]:
# 还有一些实用方法等待您去发现
[m for m in dir(ds) if not m.startswith('_')]

# 4. Kylinpy 还在持续迭代中, 很多开源用户想要使用 Python 连接 Apache Kylin 都在使用这个项目.
- 稳定的 Superset 客户端
- 稳定的 Pandas 客户端
- Airflow 客户端