In [1]:
import numpy as np
import pandas as pd

In [2]:
##-------------------------##
## ----Pandas数值运算-------##
##-------------------------##

In [3]:
#因为 Pandas 是建立在 NumPy 基础之上的， 所以 NumPy 的通用函数同样适用于 Pandas 的 Series 和 DataFrame 对象。 
#首先生成一个Series对象
ser = pd.Series(np.random.randint(0,10,5))
ser

0    7
1    6
2    6
3    3
4    7
dtype: int32

In [4]:
#生成一个DataFrame
df = pd.DataFrame((np.random.randint(0,10,9).reshape(3,3)),
                 columns=["A","B","C"])
df

Unnamed: 0,A,B,C
0,1,1,5
1,9,3,6
2,5,5,4


In [5]:
#对其中一个使用numpys函数，会生成一个保留索引的pandas对象,所有Numpy的通用计算函数均能用于pandas对象的计算
np.exp(ser)

0    1096.633158
1     403.428793
2     403.428793
3      20.085537
4    1096.633158
dtype: float64

In [6]:
np.exp(df)

Unnamed: 0,A,B,C
0,2.718282,2.718282,148.413159
1,8103.083928,20.085537,403.428793
2,148.413159,148.413159,54.59815


In [7]:
#当在两个 Series 或 DataFrame 对象上进行二元计算时， Pandas 会在计算过程中对齐两个对象的索引。 
area = pd.Series({'Alaska': 1723337, 'Texas': 695662,'California': 423967}, name='area')
population = pd.Series({'California': 38332521, 'Texas': 26448193,'New York': 19651127}, name='population')
print(area)
print("\n",population)

Alaska        1723337
Texas          695662
California     423967
Name: area, dtype: int64

 California    38332521
Texas         26448193
New York      19651127
Name: population, dtype: int64


In [14]:
#可以看到两组数据的索引不一致，Pandas在计算时会按照索引对数据运算，索引一致的进行相应的计算, 无法匹配的则用NAN(缺失值)表示
population / area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

In [16]:
##DataFrame索引对齐
#在计算的DataFrame时也是类似的结果
A = pd.DataFrame((np.random.randint(0,10,(2,2))),
                columns= ["A","B"])
A

Unnamed: 0,A,B
0,1,6
1,4,2


In [18]:
AA = pd.DataFrame((np.random.randint(0,10,(3,3))),
                columns= ["A","B","C"])
AA

Unnamed: 0,A,B,C
0,2,9,1
1,1,0,5
2,0,0,9


In [25]:
#相加可以看出，按照索引进行相应的运算
AA + A

Unnamed: 0,A,B,C
0,3.0,15.0,
1,5.0,2.0,
2,,,


In [26]:
#如果不想让NAN填充，可以指定其他字符填充, 将A的缺失部分用0填充后计算
AA.add(A,fill_value = 0)

Unnamed: 0,A,B,C
0,3.0,15.0,1.0
1,5.0,2.0,5.0
2,0.0,0.0,9.0


In [28]:
#DataFrame 和 Series 的运算规则， 与NumPy 中二维数组与一维数组的运算规则是一样的。
df2 = pd.DataFrame(np.random.randint(1,10,(2,4)), columns=list('QRST'))
df2

Unnamed: 0,Q,R,S,T
0,4,1,3,3
1,5,2,5,3


In [30]:
df2 - df2.loc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,1,1,2,0


In [32]:
#如果你想按列计算， 那么就需要利用前面介绍过的运算符方法， 通过 axis 参数设置
df2.subtract(df2["Q"],axis = 0)

Unnamed: 0,Q,R,S,T
0,0,-3,-1,-1
1,0,-3,0,-2
