# 函数应用及描述性统计

## 1. 函数应用

#### 有三个重要功能函数需要学习：
- 表格级函数应用：pipe()
- 行列级函数应用：apply()
- 元素级函数应用：applymap()

### 1.1 表格级函数应用——pipe()

In [1]:
import pandas as pd
import numpy as np

def adder(ele1,ele2):
    return ele1 + ele2

df = pd.DataFrame(np.arange(0,15).reshape(5,3),columns=['col1','col2','col3'])
print df,'\n'
dp = df.pipe(adder,2) # 等价于：adder(df,2)
print dp

   col1  col2  col3
0     0     1     2
1     3     4     5
2     6     7     8
3     9    10    11
4    12    13    14 

   col1  col2  col3
0     2     3     4
1     5     6     7
2     8     9    10
3    11    12    13
4    14    15    16


### 1.2 行列级函数应用——apply()

In [2]:
import pandas as pd
import numpy as np

df = pd.DataFrame(np.arange(0,16).reshape(4,4),columns=list('abcd'))
print df,'\n'

# 用参数axis指定列(取值0)或行(取值1)
colm = df.apply(np.mean) # 对每一列取均值
print colm,'\n'

rowm = df.apply(lambda x: x.max() - x.min(),axis=1) # 对每一行取均值
print rowm

    a   b   c   d
0   0   1   2   3
1   4   5   6   7
2   8   9  10  11
3  12  13  14  15 

a    6.0
b    7.0
c    8.0
d    9.0
dtype: float64 

0    3
1    3
2    3
3    3
dtype: int64


### 1.3 元素级函数应用——applymap()

In [3]:
import pandas as pd
import numpy as np
df = pd.DataFrame(np.arange(0,16).reshape(4,4),columns=list('abcd'))

# 对某一列所有元素应用lambda函数
dmp = df['a'].map(lambda x: x*100)
print dmp

0       0
1     400
2     800
3    1200
Name: a, dtype: int64


In [4]:
import pandas as pd
import numpy as np

# 对数据框所有元素应用lambda函数
df = pd.DataFrame(np.arange(0,16).reshape(4,4),columns=list('abcd'))
amp = df.applymap(lambda x:x*100)
print amp

      a     b     c     d
0     0   100   200   300
1   400   500   600   700
2   800   900  1000  1100
3  1200  1300  1400  1500


## 2. 描述性统计
### 2.1 sum(),mean(),std(), ...

In [5]:
import pandas as pd
import numpy as np

# 创建一个Series字典
d = {'Name':pd.Series(['Tom','James','Ricky','Vin']),
   'Age':pd.Series([25,26,25,23]),
   'Rating':pd.Series([4.23,3.24,3.98,2.56])}

df = pd.DataFrame(d)
# 默认地，axis=0，求columns的和
# 如果一列当中元素为字符类型，求和操作转换为字符连接功能
print df.sum(),'\n'
# axis=1，求index的和
print df.sum(1),'\n'
# 求一列元素的均值
print df.mean(),'\n'
# 求一列元素值的标准差
print df.std()

Age                     99
Name      TomJamesRickyVin
Rating               14.01
dtype: object 

0    29.23
1    29.24
2    28.98
3    25.56
dtype: float64 

Age       24.7500
Rating     3.5025
dtype: float64 

Age       1.258306
Rating    0.755971
dtype: float64


###  2.2 函数及描述汇总
| No. | 函数 | 描述 |
| :----:| :----: | :----: |
| 1 | count() | 非空观测值的数量 |
| 2 | sum() | 值的总和 |
| 3 | mean() | 值的均值 |
| 4 | median() | 值的中位数 |
| 5 | mode() | 值的取模 |
| 6 | std() | 值的标准差 |
| 7 | min() | 最小值 |
| 8 | max() | 最大值 |
| 9 | abs() | 绝对值 |
| 10 | prod() | 值的乘积 |
| 11 | cumsum() | 累积和 |
| 12 | cumprod() | 累计乘 |

### 2.3 总结性数据describe()
describe()函数计算与DataFrame列有关的统计信息的摘要，比如计数，均值等等。

In [6]:
print df,'\n'
print df.describe()

   Age   Name  Rating
0   25    Tom    4.23
1   26  James    3.24
2   25  Ricky    3.98
3   23    Vin    2.56 

             Age    Rating
count   4.000000  4.000000
mean   24.750000  3.502500
std     1.258306  0.755971
min    23.000000  2.560000
25%    24.500000  3.070000
50%    25.000000  3.610000
75%    25.250000  4.042500
max    26.000000  4.230000
