# **2.17_pandas_dataframe_with_data_extended**

### 一、聚合运算

#### (一)、统计方法

NumPy数组和Pandas的Series的统计方法，包括max, min, sum, mean，在DataFrame中也有相同名字的方法

不同之处在于，由于DataFrame是二维的，我们可以指定是沿着索引纵向操作，还是沿着列名横向操作。

In [1]:
import pandas as pd
player1 = pd.Series([8.5, 7.9, 8.2, 7.6, 8.8, 7.4], index=["001", "002", "003", "004", "005", "006"])
player2 = pd.Series([9.0, 8.3, 8.6, 7.7, 8.9, 7.8], index=["001", "002", "003", "004", "005", "006"])
player3 = pd.Series([8.7, 8.1, 8.4, 7.9, 8.6, 7.3], index=["001", "002", "003", "004", "005", "006"])
df1 = pd.DataFrame({"选手1": player1, "选手2": player2, "选手3": player3})
df1

Unnamed: 0,选手1,选手2,选手3
1,8.5,9.0,8.7
2,7.9,8.3,8.1
3,8.2,8.6,8.4
4,7.6,7.7,7.9
5,8.8,8.9,8.6
6,7.4,7.8,7.3


In [2]:
df1.mean()

选手1    8.066667
选手2    8.383333
选手3    8.166667
dtype: float64

默认沿着索引纵向操作，计算各列的统计值，因此返回结果的Series索引和列名对应

In [3]:
df1.mean(axis=1)

001    8.733333
002    8.100000
003    8.400000
004    7.733333
005    8.766667
006    7.500000
dtype: float64

如果用可选参数指定axis=1的话，就变成横向操作，计算各行的统计值，因此返回结果的Series索引和DataFrame索引对应

#### (二)、describe方法

与Series的describe方法类似。用在DataFrame上，能得到各列的统计信息

**如果DataFrame既有数字列也有非数字列，我们不需要吧数字列提取出来再调用这个方法，describe方法会自动忽略掉所有非数字列，只计算数字列的统计信息**

**如果DataFrame数据类型全都都是object，那么describe方法会展现针对object类型数据的信息**

In [11]:
df1["姓名"] = ["小陈", "小李", "小王", "小张", "小赵", "小周"]
df1

Unnamed: 0,选手1,选手2,选手3,姓名
1,8.5,9.0,8.7,小陈
2,7.9,8.3,8.1,小李
3,8.2,8.6,8.4,小王
4,7.6,7.7,7.9,小张
5,8.8,8.9,8.6,小赵
6,7.4,7.8,7.3,小周


In [12]:
df1.describe()

Unnamed: 0,选手1,选手2,选手3
count,6.0,6.0,6.0
mean,8.066667,8.383333,8.166667
std,0.535413,0.549242,0.520256
min,7.4,7.7,7.3
25%,7.675,7.925,7.95
50%,8.05,8.45,8.25
75%,8.425,8.825,8.55
max,8.8,9.0,8.7


### 二、apply方法

与Series的apply方法类似，DataFrame中也有相同名字的方法。

参数接受一个函数，调用后把DataFrame的每列或每行的Series数据，分别作为那个函数的参数，默认对列进行操作。返回的Series里的元素，就是那个函数对原始Series里各列或各行调用后的结果。

**apply方法不改变原始DataFrame，而是会返回一个新的DataFrame**

In [7]:
# 写出一个函数，去掉选手最高分和最低分后，求平均分
def trim_mean(data):
    data_len = len(data)
    data_sum = data.sum()
    max_num = data.max()
    min_num = data.min()
    return (data_sum - max_num - min_num) / data_len

In [8]:
df1.apply(trim_mean)

选手1    5.366667
选手2    5.600000
选手3    5.500000
dtype: float64

In [9]:
df1.apply(trim_mean, axis=1)

001    2.900000
002    2.700000
003    2.800000
004    2.566667
005    2.933333
006    2.466667
dtype: float64

### 三、applymap方法

**与apply方法区别在于，传给apply的函数，会运用在每列或每行上；而传给applymap的函数，会运用在每一个元素上**

**applymap方法不改变原始DataFrame，而是会返回一个新的DataFrame**

In [5]:
df1.applymap(lambda x: x + 5)

Unnamed: 0,选手1,选手2,选手3
1,13.5,14.0,13.7
2,12.9,13.3,13.1
3,13.2,13.6,13.4
4,12.6,12.7,12.9
5,13.8,13.9,13.6
6,12.4,12.8,12.3
