In [1]:
!pip install pandas==0.22.0
!pip install numpy==1.14.6
!pip install matplotlib==2.1.2




▲库的版本变更

In [2]:
import sys
import pandas
import numpy
import matplotlib
print('python version : ', sys.version_info[0:3])
print('pandas version : ', pandas.__version__)
print('numpy version : ', numpy.__version__)
print('matplotlib version : ', matplotlib.__version__)

python version :  (3, 6, 9)
pandas version :  0.22.0
numpy version :  1.14.6
matplotlib version :  2.1.2


▲Python和库的版本输出

In [0]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

▲预先执行的代码

In [4]:
np.random.seed(seed=7)
val = np.random.randint(-10,10,size=9).reshape(3, 3)
df = pd.DataFrame(val, index=list('def'), columns=list('abc'))
df.mean()

a    4.000000
b   -1.666667
c   -1.000000
dtype: float64

▲ 程序清单 7.1 DataFrame 对象的 mean 方法

In [5]:
np.mean(df)

a    4.000000
b   -1.666667
c   -1.000000
dtype: float64

▲ 程序清单 7.2 NumPy 数组的 mean 函数

In [6]:
df.apply(np.mean)

a    4.000000
b   -1.666667
c   -1.000000
dtype: float64

In [7]:
df.apply('mean')

a    4.000000
b   -1.666667
c   -1.000000
dtype: float64

▲程序清单 7.3 使用 apply 方法计算 DataFrame 对象的平均值

In [8]:
df.apply(np.sum, axis=1)

d    -8
e    10
f     2
dtype: int64

▲ 程序清单 7.4 apply 方法和 axis 参数

In [9]:
df.apply(lambda x: x + 2)

Unnamed: 0,a,b,c
d,7,-4,-5
e,11,-1,6
f,0,6,2


▲ 程序清单 7.5 apply 方法和匿名函数

In [0]:
def add(df, n=2):
    return df + n

In [11]:
df.apply(add)

Unnamed: 0,a,b,c
d,7,-4,-5
e,11,-1,6
f,0,6,2


▲ 程序清单 7.6 apply 方法和用户自定义函数

In [12]:
df.apply(add, n=5)

Unnamed: 0,a,b,c
d,10,-1,-2
e,14,2,9
f,3,9,5


▲程序清单 7.7 apply 方法和函数的参数

In [13]:
%timeit df.apply(np.mean, raw=False)

1000 loops, best of 3: 618 µs per loop


In [14]:
%timeit df.apply(np.mean, raw=True)

10000 loops, best of 3: 128 µs per loop


▲ 程序清单 7.8 apply 方法和 raw 参数

In [15]:
ser = df['a']
ser.apply(np.square)

d    25
e    81
f     4
Name: a, dtype: int64

▲程序清单 7.9 使用 apply 方法应用 NumPy 数组的 square 函数

In [16]:
ser.apply(lambda x: x**2)

d    25
e    81
f     4
Name: a, dtype: int64

In [17]:
def sq(val, n=2):
    return val ** n

ser.apply(sq)

d    25
e    81
f     4
Name: a, dtype: int64

▲ 程序清单 7.10 使用 apply 方法指定匿名函数和用户自定义函数

In [18]:
df.apply(np.min)

a   -2
b   -6
c   -7
dtype: int64

In [19]:
df.agg(np.min)

a   -2
b   -6
c   -7
dtype: int64

▲ 程序清单 7.11 apply 方法和 agg 方法

In [20]:
df.agg([np.min])

Unnamed: 0,a,b,c
amin,-2,-6,-7


In [21]:
df.agg([np.min, np.max])

Unnamed: 0,a,b,c
amin,-2,-6,-7
amax,9,4,4


▲ 程序清单 7.12 使用 agg 方法运用多个函数

In [0]:
max_min = lambda x: x.max() - x.min()

In [23]:
df.agg([max_min])

Unnamed: 0,a,b,c
<lambda>,11,10,11


▲ 程序清单 7.13 使用 agg 方法运用匿名函数

In [24]:
max_min.__name__ = 'max_min_name'
df.agg([max_min])

Unnamed: 0,a,b,c
max_min_name,11,10,11


▲ 程序清单 7.14 agg 方法和函数的“__name__”属性

In [0]:
def max_mean(df):
    return df.max() - df.min()

In [26]:
df.agg([max_mean])

Unnamed: 0,a,b,c
max_mean,11,10,11


▲ 程序清单 7.15 agg 方法和用户自定义函数

In [27]:
df.agg({'a':[np.max, np.min], 'b':np.sum})

Unnamed: 0,a,b
amax,9.0,
amin,-2.0,
sum,,-5.0


▲ 程序清单 7.16 agg 方法和字典

In [0]:
def add2(obj):
    return obj + 2

In [29]:
df.agg([add2])

Unnamed: 0_level_0,a,b,c
Unnamed: 0_level_1,add2,add2,add2
d,7,-4,-5
e,11,-1,6
f,0,6,2


▲ 程序清单 7.17 agg 方法的返回

In [30]:
df.agg([add2, np.abs])

Unnamed: 0_level_0,a,a,b,b,c,c
Unnamed: 0_level_1,add2,absolute,add2,absolute,add2,absolute
d,7,5,-4,6,-5,7
e,11,9,-1,3,6,4
f,0,2,6,4,2,0


▲程序清单 7.18 agg 方法的返回（多个函数）

In [31]:
ser = df['b']
ser.agg(['max','min'])

max    4
min   -6
Name: b, dtype: int64

▲ 程序清单 7.19 Series 类的 agg 方法

In [32]:
ser.agg([add2, np.abs])

Unnamed: 0,add2,absolute
d,-4,6
e,-1,3
f,6,4


▲ 程序清单 7.20 基于 agg 方法应用多个函数

In [33]:
df.applymap(lambda x: True if x > 0 else False)

Unnamed: 0,a,b,c
d,True,False,False
e,True,False,True
f,False,True,False


▲ 程序清单 7.21 DataFrame 类的 applymap 方法

In [34]:
df.applymap(np.sign)

Unnamed: 0,a,b,c
d,1,-1,-1
e,1,-1,1
f,-1,1,0


▲ 程序清单 7.22 applymap 方法和 NumPy 数组的 sign 函数

In [35]:
#有自变量的函数
def mapping(val, n=3):
    if val > n:
        return True
    else:
        return False

df.applymap(mapping)

Unnamed: 0,a,b,c
d,True,False,False
e,True,False,True
f,False,True,False


▲ 程序清单 7.23 applymap 方法和用户自定义函数

In [36]:
df.applymap(lambda x: mapping(x, n=4))

Unnamed: 0,a,b,c
d,True,False,False
e,True,False,False
f,False,False,False


▲ 程序清单 7.24 applymap 方法和匿名函数

In [37]:
ser = df['c']
ser.map(lambda x: True if x == 0 else False)

d    False
e    False
f     True
Name: c, dtype: bool

▲ 程序清单 7.25 Series 类的 map 方法

In [0]:
def add(df, p=None):
    return df + p

def div(df, n=None):
    return df / n

def rnd(df, d=None):
    return round(df, d)

▲ 程序清单 7.26 多个函数的定义

In [39]:
a = add(df, p=3)
b = div(a, n=3)
rnd(b, d=3)

Unnamed: 0,a,b,c
d,2.667,-1.0,-1.333
e,4.0,0.0,2.333
f,0.333,2.333,1.0


▲ 程序清单 7.27 在 DataFrame 对象中应用多个函数

In [40]:
rnd(div(add(df, p=3), n=3), d=3)

Unnamed: 0,a,b,c
d,2.667,-1.0,-1.333
e,4.0,0.0,2.333
f,0.333,2.333,1.0


▲ 程序清单 7.28 在 DataFrame 对象中应用多个函数（嵌套）

In [41]:
df.pipe(add, p=3).pipe(div, n=3).pipe(rnd, d=5)

Unnamed: 0,a,b,c
d,2.66667,-1.0,-1.33333
e,4.0,0.0,2.33333
f,0.33333,2.33333,1.0


▲程序清单 7.29 使用 pipe 方法传递每个函数的参数