### apply函数

#### 基本用法
形式上，为DataFrame.apply(func, axis=0)或Series.apply(func)。在操作时，<br/>
DataFrame.apply()相当于先生成一系列的Series，数据来自于每个columns或raws(index就是DataFrame的index)，然后func分别作用于这些Series（**注意：func作用对象实际上是Series**），最终获得的是一系列结果Series构造的DataFrame；<br/>
Series.apply()相当于先生成一个个values，然后func分别作用于这些values（**注意：func作用对象实际上是Values**），最终获得的是一系列结果Values构造的Series。 <br/>

在数据的整体阶段可以有很灵活的应用，应用的关键时func，它可以是：（a）内置函数(numpy的很多计算函数)；（b）lambda函数，x为Series(DataFrame.apply)或Value(Series.apply)；（c）也可以是自己写的函数(def)

In [14]:
import pandas as pd
import numpy as np

# 直接用numpy函数
df = pd.DataFrame([[4, 9], [5, 8], [6, 7]] , columns=['A', 'B'])
df_1 = df.apply(np.sqrt, axis=1)

print('1. 原始的df')
print(df)
print('2. df.apply(np.sqrt)处理后的df_1')
print(df_1)

# 体会一下DataFrame.apply()的作用对象
df_2 = df.apply(lambda x: x[0])
print('3. DataFrame.apply()作用对象是Series：')
print('如下是df.apply(lambda x: x[0])的结果df_2：')
print(df_2)
print("如下是df['A']这个Series直接取分片[0]的结果，由此来理解前一个结果df_2：")
print(df['A'][0])

df_3 = df['A'].apply(lambda x: x**2 if x == 5 else 0)
print('4. Series.apply()作用对象是每个Values：')
print("如下是df['A'].apply(lambda x: x**2 if x == 5 else 0)处理后的结果df_3")
print(df_3)

1. 原始的df
   A  B
0  4  9
1  5  8
2  6  7
2. df.apply(np.sqrt)处理后的df_1
          A         B
0  2.000000  3.000000
1  2.236068  2.828427
2  2.449490  2.645751
3. DataFrame.apply()作用对象是Series：
如下是df.apply(lambda x: x[0])的结果df_2：
A    4
B    9
dtype: int64
如下是df['A']这个Series直接取分片[0]的结果，由此来理解前一个结果df_2：
4
4. Series.apply()作用对象是每个Values：
如下是df['A'].apply(lambda x: x**2 if x == 5 else 0)处理后的结果df_3
0     0
1    25
2     0
Name: A, dtype: int64


In [27]:
# 在较为复杂的应用情境下，可能需要对不同变量之间进行较为复杂的运算，此时可以用自定义的def
def sum_two_variable(arrLike, a, b):
    a = arrLike[a]
    b = arrLike[b]
    c = a + b
    print(arrLike)
    print(type(arrLike))
    return c

df_4 = df.copy()
df_4['C'] = df.apply(sum_two_variable, axis=1, args = ('A', 'B'))
print(df_4)

df_5 = df.copy()
df_5['C'] = df_5['A'] + df_5['B']
print(df_5)

A    4
B    9
Name: 0, dtype: int64
<class 'pandas.core.series.Series'>
A    5
B    8
Name: 1, dtype: int64
<class 'pandas.core.series.Series'>
A    6
B    7
Name: 2, dtype: int64
<class 'pandas.core.series.Series'>
   A  B   C
0  4  9  13
1  5  8  13
2  6  7  13
   A  B   C
0  4  9  13
1  5  8  13
2  6  7  13


理解这个结果：
（1）arrLike是这样的函数的必须参数，arrLike就是每一行(axis=1)或列(axis=0)的Series；
（2）函数的其它参数，一般来说就是变量名，在apply函数里由args=()传入；
（3）从print的结果来看，sum_two_variable相当于运行了三次（因为有三行），这种处理过程就像sas一样是按行做的；
（4）运用apply()函数会比较慢，很多时候可以用更“整体一点” 的办法，这样会更快、更便捷一点