In [1]:
import numpy as np
import pandas as pd

# apply()函数的使用

## 1.1 apply函数作用于Series对象

In [None]:
df = pd.DataFrame({'a':[10,20,30],'b':[20,30,40]})
df

In [None]:
# 2. 演示apply函数，操作series对象
# 需求1，自定义函数 my_func1()，实现接收series对象，然后使其每个值变成平方结果
def my_func1(x):
    return x **2
# 效果：apply函数会my_func1()函数作用到series每个对象
df.a.apply(my_func1)

In [None]:
def my_func2(x,e):
    return x ** e

# e=2直接对应参数
df['a'].apply(my_func2,e=3)


## 1.2 apply函数作用于 DataFrame对象 

In [None]:
# 1.把上述my_func1函数作用到df对象
df.apply(my_func1)

# 2. 自定义函数my_func3(),看看传入的到底是啥
def myfunc3(x):
    print(x)
    print(type(x))

# 3.调用myfunc3
# df.apply(myfunc3) # 默认传入的是整列series对象
# df.apply(myfunc3,axis=0) # 0:列，1：行 ，这一行代码效果同上
# df.apply(myfunc3,axis=1)

In [None]:
# 4. 如下是一种错误示例
#def avg_3(x,y,z):
#    return (x+y+z)/3

# 这才是对的,但是这个函数很low没啥意义
def avg_3(x):
    n1 = x[0]
    n2 = x[1]
    n3 = x[2]
    return (n1+n2+n3)/3

df.apply(avg_3)

# 2.apply函数案例--泰坦尼克号数据集

In [None]:
# 需求：自定义函数，分别计算泰坦尼克号数据集，某列的缺失值个数，某列缺失值占比

titanic = pd.read_csv('mdata/titanic_train.csv')
titanic.head()

In [None]:
# 2. 定义函数
#  count_missing(vec), 计算某列的缺失值个数
def count_missing(vec):
    return pd.isnull(vec).sum()

titanic.apply(count_missing)

# prop_missing 计算缺失值占比
def prop_missing(vec):
    return pd.isnull(vec).sum() / vec.size

# prop_complete(vec) 计算某列非缺失值占比
def prop_complet(vec):
    return 1- prop_missing(vec)


titanic.apply(count_missing)
titanic.apply(prop_missing)

titanic.apply(count_missing,axis=1)
titanic.apply(prop_complet,axis=1)

# 3.向量化函数介绍 np.vectorize

In [None]:
df = pd.DataFrame({'a':[10,20,30],'b':[20,30,40]})
df

In [None]:
# 2.定义函数 ，计算上述平均值
def avg_2(x,y):
    return (x+y)/2

avg_2(df['a'],df['b'])

In [None]:
# 3.改造上述的代码，程序出问题了
def avg_2_mod(x,y):
    if x ==20 :
        return np.nan
    else :
        return (x+y)/2
    
avg_2_mod(df['a'],df['b'])

# 解决方法：使用np.vectorize将上述函数转成：向量化函数,如果遇到向量了，内部会自动遍历

In [None]:
# 写法1，np.vectorize修饰函数，获取向量化后的函数
avg_2_mod_vec = np.vectorize(avg_2_mod)
avg_2_mod_vec(df['a'],df['b'])

In [None]:
# 写法2：装饰器方式，装饰函数
@np.vectorize
def avg_2_mod(x,y):
    if x ==20 :
        return np.nan
    else :
        return (x+y)/2
    
avg_2_mod(df['a'],df['b'])


# 4.apply()函数，接收lambda表达式写的匿名函数

In [None]:
df = pd.DataFrame({'a':[10,20,30],'b':[20,30,40]})
df

In [39]:
def my_func1(x):
    return x **2

df.apply(lambda x: x**2) # 函数比较简单的时候这样写很方便

Unnamed: 0,a,b
0,100,400
1,400,900
2,900,1600
