In [6]:
# pandas计算节省内存和加速
# numpy与pandas都是Python建立强大生态的基础库，
# 他们的厉害之处是通过内置的方法将基本操作转换成C语言，
# numpy里面是向量化和广播运算，pandas则是分组型运算。
# 便捷快速的同时带来的问题是常需要建立一个临时中间对象，
# 这样做会占用大量的计算内存和时间，pandas的eval()和query()
# 就是为解决此问题而生的，
# 其中eval()函数还分pandas.eval()和pandas.DataFrame.eval()：pandas.eval()可用于多个DataFrame之间的计算，pandas.DataFrame.eval()仅用于DataFrame中列之间的计算。


import pandas as pd
import os
import numpy as np

os.chdir('E:/excise/python/new_project01/com/data_analysis/pandas/excise')


In [21]:

# df.eval() 只能用于 该df 中列之间的计算
data = np.random.rand(100, 2)
df = pd.DataFrame(data, columns=['A','B'])
print(df.info(),  df.head(10))


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       100 non-null    float64
 1   B       100 non-null    float64
dtypes: float64(2)
memory usage: 1.7 KB
None           A         B
0  0.690591  0.158550
1  0.152972  0.923509
2  0.804164  0.872779
3  0.849703  0.114949
4  0.163720  0.785027
5  0.407677  0.617082
6  0.706469  0.936097
7  0.533019  0.460937
8  0.882817  0.578390
9  0.901907  0.184558


In [18]:
# 计算 普通 分组型运算,  会创建 临时的对象
import time

start = time.time()

df['C'] = df.A + df.B


end = time.time()
print('普通分组运算耗时:%f' % (end-start))






普通分组运算耗时:0.000836


In [23]:
# df.eval() 计算会转成 c 语言的numpy 广播机制
start = time.time()
df.eval('C = A+ B',inplace=True)
end = time.time()

print(df.head())
print('eval运算耗时:%f' % (end-start))

          A         B         C
0  0.690591  0.158550  0.849142
1  0.152972  0.923509  1.076482
2  0.804164  0.872779  1.676943
3  0.849703  0.114949  0.964653
4  0.163720  0.785027  0.948747
eval运算耗时:0.002991


In [25]:
# eval() 的扩展，增加一个 变量值 进行广播
bias = 10

df.eval('ret = C + @bias', inplace=True)

print(df.info(), df.head())







<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       100 non-null    float64
 1   B       100 non-null    float64
 2   C       100 non-null    float64
 3   ret     100 non-null    float64
dtypes: float64(4)
memory usage: 3.2 KB
None           A         B         C        ret
0  0.690591  0.158550  0.849142  10.849142
1  0.152972  0.923509  1.076482  11.076482
2  0.804164  0.872779  1.676943  11.676943
3  0.849703  0.114949  0.964653  10.964653
4  0.163720  0.785027  0.948747  10.948747


In [29]:
ret_s = df.ret

ret_s.name = ' hello ret'
print(ret_s.head())




0    10.849142
1    11.076482
2    11.676943
3    10.964653
4    10.948747
Name:  hello ret, dtype: float64
