# Ibis，一个框架拿下各种DataFrame 和SQL


Ibis可以用统一的接口，来基于不同的底层实现来操纵数据。

包括各种 DataFrame实现(如 pandas, polars, dask) 和SQL实现(如pyspark, duckdb, sqlite, postgres)。

从一定意义上说，掌握了它就相当于同时掌握了 pandas， dask, pyspark，duckdb，各种数据分析和转换问题通通拿下。


本文我们将按照如下结构演示讲解Ibis的使用方法，大概30分钟的时间帮助你快速入门Ibis这个强大的数据操纵工具。

* 安装方法
  
* 读取数据

* 分析数据

* 保存数据

* 8道练习题



![](ibis的各种backends.png)

## 〇，安装方法

下面我们安装支持duckdb后端和pandas后端(默认都支持)的ibis库。

支持不同的后端需要在中括号里写不同的名字。

比如 `pip install 'ibis-framework[duckdb,polars]'`, 

表示安装同时支持polars和duckdb后端的ibis框架




In [None]:
#!pip install 'ibis-framework[duckdb,polars,pandas]' -i https://pypi.tuna.tsinghua.edu.cn/simple  

In [2]:
import ibis
import numpy as np
import pandas as pd

#Ibis默认是Lazy模式的，只有有action才会触发执行。设置此行变成立即执行。
ibis.options.interactive = True 

con = ibis.duckdb.connect() #使用duckdb后端
#con = ibis.polars.connect() #使用polars后端
#con = ibis.pandas.connect() #使用pandas后端

#con = ibis.connect("sqlite://relative.db")
#con = ibis.connect("sqlite:///absolute/path/to/data.db")
#con = ibis.connect("postgres://user:password@hostname:5432") 


## 一，读取数据

In [3]:
#生成示例数据(5000万行)
dfdemo = pd.DataFrame(
    {
        'category': np.random.choice(list('ABCDEF'), 50000000),
        'val': np.round(np.random.uniform(0, 1000000, 50000000), 3)
    }
)
dfdemo.to_parquet('dfdemo.parquet', index=False)


In [4]:
%%time
df = pd.read_parquet('dfdemo.parquet')

CPU times: user 1.09 s, sys: 163 ms, total: 1.26 s
Wall time: 753 ms


In [5]:
%%time
tb = con.read_parquet('dfdemo.parquet',table_name='tb')

CPU times: user 4.76 ms, sys: 3.11 ms, total: 7.87 ms
Wall time: 6.93 ms


In [6]:
con.list_tables() 

['tb']

In [None]:
# tb = ibis.memtable(df)  #从pandas的DataFrame转换

## 二，分析数据

### 1，where查询

In [7]:
%%time 
df.loc[(df['val']>1000)&(df['val']<10000),:].sort_values('val').head(5)

CPU times: user 122 ms, sys: 51.1 ms, total: 174 ms
Wall time: 173 ms


Unnamed: 0,category,val
15696803,D,1000.004
49245581,B,1000.019
40896557,C,1000.031
18345710,B,1000.033
32298919,D,1000.051


我们分别试试SQL模式和DataFrame模式

In [8]:
%%time
#SQL模式
tb2 = con.sql('select * from tb  where val>1000 and val<10000  order by val limit 5'
           )

CPU times: user 3.56 ms, sys: 3.73 ms, total: 7.29 ms
Wall time: 5.43 ms


In [9]:
con.drop_table('tb2',force=True)
con.create_table('tb2',tb2)
con.list_tables() 

['tb', 'tb2']

In [10]:
%%time
#DataFrame模式
tb3 = (tb.filter([tb.val>1000,tb.val<10000])
   .order_by(ibis.asc("val"))
   .head(5))
tb3

CPU times: user 2.99 ms, sys: 56 µs, total: 3.04 ms
Wall time: 3.18 ms


### 2，groupby分组聚合

In [11]:
%%time 
df.groupby('category').agg({'val':['count','mean']})


CPU times: user 1.42 s, sys: 142 ms, total: 1.56 s
Wall time: 1.59 s


Unnamed: 0_level_0,val,val
Unnamed: 0_level_1,count,mean
category,Unnamed: 1_level_2,Unnamed: 2_level_2
A,8331243,500031.616328
B,8330721,500159.571333
C,8326928,499952.605523
D,8338523,499916.278084
E,8336874,499817.997593
F,8335711,500166.739158


In [12]:
%%time 
# SQL模式
tb4 = con.sql(
    'select category, count(val) as rows, mean(val) as avg_val from tb group by category'
)
tb4


CPU times: user 5.15 ms, sys: 4.52 ms, total: 9.67 ms
Wall time: 6.02 ms


In [13]:
%%time
# DataFrame模式
tb5 = (tb.group_by(tb.category)
         .agg(rows=tb.val.count(),avg_val=tb.val.mean())
      )
tb5

CPU times: user 4.93 ms, sys: 1.47 ms, total: 6.41 ms
Wall time: 6.67 ms


### 3，join表格连接

In [14]:
dfcolor = pd.DataFrame(
    {
        'cat': ['A','B','C','D','E','F'],
        'color':['black','yellow','pink','blue','white','green'] 
    }
)

dfcolor.to_parquet('dfcolor.parquet')


In [15]:
%%time
dfjoin = df.merge(dfcolor,left_on='category',right_on='cat')

CPU times: user 3.3 s, sys: 793 ms, total: 4.09 s
Wall time: 4.49 s


In [16]:
tb_color = con.read_parquet('dfcolor.parquet',table_name='tb_color')
con.list_tables()

['tb', 'tb2', 'tb_color']

In [17]:
%%time
#SQL格式
query = """
select tb.category, tb.val, tb_color.color 
    from tb join tb_color 
on tb.category = tb_color.cat
"""
con.sql(query)

CPU times: user 3.39 ms, sys: 3.81 ms, total: 7.2 ms
Wall time: 5.01 ms


In [18]:
%%time
# DataFrame模式
tbjoin = tb.join(tb_color,tb.category==tb_color.cat,how='left')
tbjoin

CPU times: user 2.05 ms, sys: 428 µs, total: 2.48 ms
Wall time: 2.54 ms


### 4，自定义函数

In [19]:
import duckdb
from faker import Faker

#ibis.udf.scalar.pandas,  使用pandas实现，接受series输入，输出series，是向量化的
#ibis.udf.scalar.builtin, 使用内置函数实现，是向量化的
#ibis.udf.scalar.pyarrow, 使用pyarrow的函数实现，接受一个pyarrow.array，是向量化的
#ibis.udf.scalar.python,  使用一般意义上的python实现，不是向量化的，比较慢

@ibis.udf.scalar.python
def random_name(i:int) -> str: 
    fake = Faker()
    fake.random.seed(i)
    
    name = fake.name()
    return name

    

In [20]:
%%time 
tb = ibis.memtable({'i':range(100)})
tb_students = tb.mutate(name = random_name(tb.i), 
          score = (100*ibis.random())).cast({'score':'int'})
tb_students 

CPU times: user 8.99 ms, sys: 2.09 ms, total: 11.1 ms
Wall time: 11.3 ms


FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

## 三，保存数据

In [21]:
tb_students.to_parquet('tb_students.parquet')

In [22]:
dfstudents = tb_students.to_pandas()

## 四，8道练习题

### 1, 求平均数

In [23]:
#任务：求data的平均值
data = [1,5,7,10,23,20,6,5,10,7,10]

In [24]:
tb = ibis.memtable({'v':data})
tb['v'].mean()

┌───────────────────┐
│ [1;36m9.454545454545455[0m │
└───────────────────┘

### 2，求众数

In [25]:
#任务：求data中出现次数最多的数
data =  [1,5,7,10,23,20,6,5,10,7,10]

In [26]:
tb = ibis.memtable({'v':data})
tb.v.mode().to_pandas()

10

### 3，求topN

In [27]:
#任务：有一批学生信息表格，包括name,age,score, 找出score排名前3的学生, score相同可以任取
students = [("LiLei",18,87),("HanMeiMei",16,77),("DaChui",16,66),("Jim",18,77),("RuHua",18,50)]
n = 3

In [28]:
tb = ibis.memtable(students,columns=['name','age','score'])
tb.order_by('score').head(3)

### 4，排序并返回序号

In [29]:
#任务：排序并返回序号, 大小相同的序号可以不同
data = [1,7,8,5,3,18,34,9,0,12,8]

In [30]:
tb = ibis.memtable({'v':data})

#一种实用的加序号的方式是使用uuid函数，比较高效
tb_new = tb.order_by('v').mutate(idx=ibis.uuid())
tb_new 

In [31]:
#如果一定要增加递增列，可以使用窗口函数row_number，会慢一些
tb_index = tb.order_by('v').mutate(idx=ibis.row_number().over(order_by='v'))
tb_index 

### 5，二次排序

In [32]:
#任务：有一批学生信息表格，包括name,age,score
#首先根据学生的score从大到小排序，如果score相同，根据age从大到小
students = [("LiLei",18,87),("HanMeiMei",16,77),("DaChui",16,66),("Jim",18,77),("RuHua",18,50)]

In [33]:
tb = ibis.memtable(students,columns=['name','age','score'])
tb_sort = tb.order_by([ibis.desc('score'),
                       ibis.desc('age')])
tb_sort 


### 6，连接操作

In [34]:
#任务：已知班级信息表和成绩表，找出班级平均分在75分以上的班级
#班级信息表包括class,name,成绩表包括name,score

classes = [("class1","LiLei"), ("class1","HanMeiMei"),("class2","DaChui"),("class2","RuHua")]
scores = [("LiLei",76),("HanMeiMei",80),("DaChui",70),("RuHua",60)]


In [35]:
from ibis import _ 
tb_classes = ibis.memtable(classes,columns = ['class','name'])
tb_scores = ibis.memtable(scores,columns = ['name','score'])
tb = tb_scores.join(tb_classes,
        tb_classes.name==tb_scores.name,how='left')

tb.group_by('class').agg(mean_score = _.score.mean()
                ).filter(_.mean_score>75)

### 7，分组求众数

In [36]:
#任务：有一批学生信息表格，包括class和age。求每个班级学生年龄的众数。

students = [("class1",15),("class1",15),("class2",16),
            ("class2",16),("class1",17),("class2",19)]


In [37]:
from ibis import _ 
tb = ibis.memtable(students,columns = ['class','age']).alias('tb')
tb.group_by('class').agg(mode_age = _.age.mode())

### 8，透视分析

In [38]:
#任务：已知成绩表，包含姓名，班级，性别，数学，物理，计算机 三科成绩。 求每个班，男生和女生的平均分。

data = {'name':['Lily','Ann','Jim','Tom','LiLei','HanMeiMei'],
'class':[1,1,2,2,2,1],
'gender':['female','male','male','male','female','female'],
'math':[78,90,65,80,75,68],
'physics':[90,95,98,96,85,98],
'computer':[76,66,58,66,90,60]}

In [39]:
tb = ibis.memtable(data).alias('tb')
tb1 = tb.mutate(total_score = _.math+_.physics+_.computer)
tb1.group_by(['class','gender']).agg(mean_score = _.total_score.mean())