虽然pandas是数据分析、机器学习等必备利器，但现在流行的机器学习应用训练模型动辄需要GB级别的数据，很多时候pandas无法快速读取大数据文件或者进行高效运算，甚至可能存在内存溢出等情况。

如果是R语言的用户应该很熟悉data.table库， 该库是R语言中data.frame库的拓展库，可以让R语言用户轻松处理海量数据，比如让电脑很轻松高速地读取100Gb文件。现在python生态圈也有了自己的data.table，这个库的名字叫做datatable。目前datatable不支持windows系统，相应的windows版本正在开发中。
![](img/datatable.png)

### 安装

In [2]:
!pip3 install datatable

## 一、读取数据
读取的数据先转化为Frame对象，是一种拥有很多行很多列的二维数组，功能类似于DataFrame或者SQL表。

我们用的测试数据来源于Kaggle的lending数据集 https://www.kaggle.com/wendykan/lending-club-loan-data#loan.csv， 该数据集包括2007-2015年的含有相关145个特征，共计226万条贷款记录。文件大概700M，我们可以使用pandas和datatable库分别读取，测试读取速度

In [8]:
import numpy as np
import pandas as pd
import datatable as dt

In [9]:
%time datatable_df = dt.fread('data.csv')

CPU times: user 33.2 s, sys: 8.96 s, total: 42.1 s                              [m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[38m[

In [3]:
%time pandas_df = pd.read_csv('data.csv')



CPU times: user 53.5 s, sys: 15 s, total: 1min 8s
Wall time: 1min 12s


从上面两个读取方式看，pandas用时1分钟，而datatable用时14.2秒
## 二、 Frame转换
datatable读取数据可以转化为pd.DataFrame

In [4]:
#转化为dataframe
%time pandas_df = datatable_df.to_pandas()

CPU times: user 21.3 s, sys: 28.8 s, total: 50.1 s
Wall time: 1min 3s


正常来讲使用datatable读取数据再转化为pd.DataFrame格式 比  直接使用pandas读取要快一些。
## 三、基本的Frame属性

In [5]:
print(datatable_df.shape)       # (行数, 列数)
print(datatable_df.names[:5])   # 前5列的字段名
print(datatable_df.stypes[:5])  # 列的数据类型(前5列)

(2260668, 145)
('id', 'member_id', 'loan_amnt', 'funded_amnt', 'funded_amnt_inv')
(stype.bool8, stype.bool8, stype.int32, stype.int32, stype.float64)


显示前5行

In [6]:
datatable_df.head(10)

Unnamed: 0_level_0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,…,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
Unnamed: 0_level_1,▪,▪,▪▪▪▪,▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪,▪▪▪▪,…,▪▪▪▪,▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪
0,,,2500,2500,2500,36 months,13.56,84.92,C,C1,…,,,,,
1,,,30000,30000,30000,60 months,18.94,777.23,D,D2,…,,,,,
2,,,5000,5000,5000,36 months,17.97,180.69,D,D1,…,,,,,
3,,,4000,4000,4000,36 months,18.94,146.51,D,D2,…,,,,,
4,,,30000,30000,30000,60 months,16.14,731.78,C,C4,…,,,,,
5,,,5550,5550,5550,36 months,15.02,192.45,C,C3,…,,,,,
6,,,2000,2000,2000,36 months,17.97,72.28,D,D1,…,,,,,
7,,,6000,6000,6000,36 months,13.56,203.79,C,C1,…,,,,,
8,,,5000,5000,5000,36 months,17.97,180.69,D,D1,…,,,,,
9,,,6000,6000,6000,36 months,14.47,206.44,C,C2,…,,,,,


字段名的颜色表示数据类型，其中红色表示文本，绿色表示整数，蓝色表示浮点型。
## 四、描述性统计
在pandas中进行描述性统计是一件很吃内存的进程，但datatable不怕这事。

In [None]:
datatable_df.sum()  
datatable_df.nunique()
datatable_df.sd()       
datatable_df.max()
datatable_df.min()
datatable_df.mean()

例如我们分别使用datatable和pandas来计算mean

In [24]:
%time datatable_df.mean()

CPU times: user 2.67 ms, sys: 729 µs, total: 3.4 ms
Wall time: 2.32 ms


Unnamed: 0_level_0,id,member_id,loan_amnt,funded_amnt,funded_amnt_inv,term,int_rate,installment,grade,sub_grade,…,settlement_status,settlement_date,settlement_amount,settlement_percentage,settlement_term
Unnamed: 0_level_1,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,…,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪,▪▪▪▪▪▪▪▪
0,,,15046.9,15041.7,15023.4,,13.0929,445.808,,,…,,,5030.61,47.7756,13.1486


In [None]:
pandas_df.mean()

上面的 ``pandas_df.mean()`` 无法再pandas中完成，因为会抛出内存错误。

## 五、数据操作
数据的操作方法与dataframe类似
### 5.1 数据选择
选中所有行， 列只选择funded_amnt列

In [None]:
datatable_df[:,'funded_amnt']

### 5.2 排序
根据 funded_amnt_inv 列进行排序

In [11]:
# datatable
%time datatable_df.sort('funded_amnt_inv')

还别说，datatable一眨眼功夫就出来，排序真的很快

In [None]:
# pandas排序
%time pandas_df.sort_values(by = 'funded_amnt_inv')

而pandas排序用了12.4s，慢！
### 5.3 删除列
删除指定列，如下。

In [None]:
del datatable_df[:, '列名']

### 5.4 条件筛选
条件筛选也跟dataframe很类似，这里要注意代码中的f代指的是Frame。输出的数据行列分别:
- 所有的行中loan_amnt要大于funded_amnt
- 只输出loan_amnt列

In [None]:
datatable_df[dt.f.loan_amnt>dt.f.funded_amnt, "loan_amnt"]

### 5.5 保存结果

In [12]:
datatable_df.to_csv('output.csv')

## 总结
与鼎鼎大名的pandas相比，datatable有很高效的执行速度，这在处理大型数据集时肯定是一个福音。 然而就功能而言，datatable落后于pandas。 但由于datatable仍在更新迭代，我们可能会在未来看到该库的一些重要补充。