In [1]:
import pandas as pd

In [2]:
path = '../data/forbes_2018.xlsx'

In [3]:
df = pd.read_excel(path)

In [4]:
df

Unnamed: 0,name,lastName,age,country,gender,wealthSource
0,Jeff Bezos,Bezos,54,United States,M,Amazon
1,Bill Gates,Gates,62,United States,M,Microsoft
2,Warren Buffett,Buffett,87,United States,M,Berkshire Hathaway
3,Bernard Arnault,Arnault,69,France,M,LVMH
4,Mark Zuckerberg,Zuckerberg,34,United States,M,Facebook
...,...,...,...,...,...,...
2026,Wu Chung-yi,Wu,59,Taiwan,M,manufacturing
2027,Yao Xinyi,Yao,53,China,M,air conditioning
2028,Zhao Xiaoqiang,Zhao,51,China,M,"fashion, entertainment"
2029,Zhu Xingming,Zhu,51,China,M,electrical equipment


## groupby

### Pandas提供了一个灵活高效的`groupby`功能，它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。

In [5]:
groups = df.groupby('gender')  # path = '../data/forbes_2018.xlsx'

In [6]:
groups

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x11eff3978>

In [7]:
# 根据结果可以发现，分组后的结果为`DataFrameGroupBy object`，是一个分组后的对象。

# 用groupby的size方法可以查看分组后每组的数量，并返回一个含有分组大小的Series：

In [8]:
groups.size()

gender
F     221
M    1810
dtype: int64

In [9]:
groups.size().items()

<zip at 0x11ec47748>

In [10]:
for gender,value in groups.size().items():
    print(gender)

F
M


In [11]:
for gender,value in groups.size().items():
    print(value)

221
1810


In [13]:
# df.shape    # (2031, 6)
df.shape[0]

2031

In [14]:
for gender,value in groups.size().items():
    # 计算每组的占比
    accounted = value/df.shape[0]
    print(accounted)

0.10881339241752831
0.8911866075824717


In [24]:
for gender,value in groups.size().items():
    # 计算每组的占比
    accounted = value/df.shape[0]
    # 将小数转化成百分数
    per_c = "%.2f%%"%(accounted * 100)
    print("福布斯2018年度亿万富翁中{}共{}位，占比是{}".format(gender,value,per_c))

福布斯2018年度亿万富翁中F共221位，占比是10.88%
福布斯2018年度亿万富翁中M共1810位，占比是89.12%


In [25]:
for gender,value in groups.size().items():
    # 计算每组的占比
    accounted = value/df.shape[0]
    # 将小数转化成百分数
    per_c = "%.2f%%"%(accounted * 100)
    if gender == 'F':
        gender = 'Female'
    elif gender == 'M':
        gender = 'Male'
    print("福布斯2018年度亿万富翁中{}共{}位，占比是{}".format(gender,value,per_c))

福布斯2018年度亿万富翁中Female共221位，占比是10.88%
福布斯2018年度亿万富翁中Male共1810位，占比是89.12%


### `df.groupby('gender')`是根据`gender`列对整个数据进行分组，
### 同样我们也可以只对一列数据进行分组，只保留我们需要的列数据。

例如：我们通过性别`gender`，只对`age`列数据进行分组。

In [28]:
group = df['age'].groupby(df['gender'])

In [31]:
group.size()

gender
F     221
M    1810
Name: age, dtype: int64

In [32]:
group.groups

{'F': Int64Index([  15,   17,   31,   33,   42,   56,   69,   78,   80,   83,
             ...
             1958, 1960, 1970, 1978, 1987, 1989, 1999, 2017, 2018, 2030],
            dtype='int64', length=221),
 'M': Int64Index([   0,    1,    2,    3,    4,    5,    6,    7,    8,    9,
             ...
             2020, 2021, 2022, 2023, 2024, 2025, 2026, 2027, 2028, 2029],
            dtype='int64', length=1810)}

In [36]:
# print(group.get_groups('F'))   # 不是get_groups()
print(group.get_group('F'))

15      68
17      64
31      56
33      78
42      36
        ..
1989    47
1999    56
2017    51
2018    91
2030    52
Name: age, Length: 221, dtype: int64


代码`df['age'].groupby(df['gender'])`的逻辑是：取出df中age列数据，并且对该列数据根据`df['gender']`列数据进行分组操作。

上面的带也可改写成`df.groupby(df['gender'])['age']`，它的逻辑是：将df数据通过`df['gender']`进行分组，然后再取出分组后的age列数据。两种写法达到的效果是一样的。

`group.groups`的结果是一个字典，字典的key是分组后每个组的名字，对应的值是分组后的数据，此方法方便我们产看分组的情况。

`group.get_group('F')`这个方法可以根据具体分组的名字获取每个组的数据。

### 对分组进行遍历

In [42]:
import pandas as pd
df = pd.read_excel(path)
groups = df.groupby('gender')
# 获取F组的数据
f_group = groups.get_group('F')
# 获取平均值
f_mean = f_group['age'].mean()
# 获取最大值
f_max = f_group['age'].max()
# 获取最小值
f_min = f_group['age'].min()
# print(f_mean,f_max,f_min)
# print("F组的数据{}".format(f_group))
print("平均值:{}".format(f_mean))
print("最大值:{}".format(f_max))
print("最小值:{}".format(f_min))

平均值:60.470588235294116
最大值:94
最小值:21


代码中我们使用`get_group()`获取了F组的数据，并使用`mean()`、`max()`、`min()`等统计函数快速获取我们的指标值。

pandas里常用的统计函数包括：

- `count( )`：统计列表中非空数据的个数
- `nunique( )`：统计非重复的数据的个数
- `sum( )`：统计列表中所有数值的和
- `mean( )`：计算列表中数据的平均值
- `median( )`：统计列表中数据的中位数
- `max( )`：求列表中数据的最大值
- `min( )`：求找列表中数据的最小值

In [57]:
# 将分组后的对象`groups`进行遍历，可以获取到`group_name`每个组的名字，`group_df`每个组的数据。
for group_name,group_df in groups:
    print(group_name,group_df.shape)

F                               name            lastName  age        country  \
15                    Alice Walton              Walton   68  United States   
17    Francoise Bettencourt Meyers  Bettencourt Meyers   64         France   
31                 Susanne Klatten             Klatten   56        Germany   
33                 Jacqueline Mars                Mars   78  United States   
42                     Yang Huiyan                Yang   36          China   
...                            ...                 ...  ...            ...   
1989                  Sara Blakely             Blakely   47  United States   
1999                 Huang Xiaofen               Huang   56          China   
2017             Carolyn Rafaelian           Rafaelian   51  United States   
2018                Alice Schwartz            Schwartz   91  United States   
2030                      Zhuo Jun                Zhuo   52      Hong Kong   

     gender            wealthSource  
15        F            

**计算出每一组中的最大年纪，最小年纪以及平均年龄。**

In [45]:
import pandas as pd
df = pd.read_excel(path)
groups = df.groupby('gender')
for group_name,group_df in groups:
    f_mean = group_df['age'].mean()
    f_max = group_df['age'].max()
    f_min = group_df['age'].min()
    print('{}组的最大年龄是{}，最小年龄是{}，平均年龄是{}'.format(group_name,f_max,f_min,f_mean))

F组的最大年龄是94，最小年龄是21，平均年龄是60.470588235294116
M组的最大年龄是99，最小年龄是25，平均年龄是64.32099447513812


In [48]:
import pandas as pd
df = pd.read_excel(path)
groups = df.groupby('gender')
for group_name,group_df in groups:
#     print(group_name)
    print(group_df)

                              name            lastName  age        country  \
15                    Alice Walton              Walton   68  United States   
17    Francoise Bettencourt Meyers  Bettencourt Meyers   64         France   
31                 Susanne Klatten             Klatten   56        Germany   
33                 Jacqueline Mars                Mars   78  United States   
42                     Yang Huiyan                Yang   36          China   
...                            ...                 ...  ...            ...   
1989                  Sara Blakely             Blakely   47  United States   
1999                 Huang Xiaofen               Huang   56          China   
2017             Carolyn Rafaelian           Rafaelian   51  United States   
2018                Alice Schwartz            Schwartz   91  United States   
2030                      Zhuo Jun                Zhuo   52      Hong Kong   

     gender            wealthSource  
15        F              

### 按多列进行分组

In [49]:
# 将富豪们先按国家分组，然后在按性别分组。
import pandas as pd
df = pd.read_excel(path)
group=df.groupby(['country','gender'])
df1 = group.size()
print(df1)

country        gender
Algeria        M           1
Angola         F           1
Argentina      M           5
Australia      F           9
               M          31
                        ... 
United States  M         498
Venezuela      M           2
Vietnam        F           1
               M           3
Zimbabwe       M           1
Length: 103, dtype: int64


当需要按多列进行分组的时候，`groupby`方法里面我们传入的一个列表，列表中分别存储分组依据的列名。

注意：列表中列名的顺序，确定了先按`country`列进行分组，然后再按`gender`列分组。不同的顺序，产生的分组名字是不同的。

`group.size()`返回的结果中发现索引值是多层的，那么对于多层索引的值我们如何去获取呢？

In [50]:
group=df.groupby(['country','gender'])
df1 = group.size()
size = df1['Austria']['F']
print(size)

1


In [51]:
# 通过代码，我们发现对于多层索引值的获取，只需要从外往里一层一层的取就可以了，就像我们睡觉之前，需要先脱外衣再脱掉内衣是一样的😊。

### 对分组数据进行统计

数据统计（也称为数据聚合）是数据处理的最后一步，通常是要使每一个数组生成一个单一的数值。

上面我们已经了解了一些Pandas提供好的统计函数，例如:`mean()`、`max()`等函数。

为大家使用更为灵活，pandas提供了一个 `agg( )`方法用来对分组后的数据进行统计。

接下来我们来体验一下，`agg()`方法的使用：

In [53]:
import pandas as pd
df = pd.read_excel(path)
groups = df.groupby('gender')
for group_name,group_df in groups:
    f_se = group_df['age'].agg(['max','min','mean'])
    print('{}组的最大年龄是{}，最小年龄是{}，平均年龄是{}'.format(group_name,f_se[0],f_se[1],f_se[2]))

F组的最大年龄是94.0，最小年龄是21.0，平均年龄是60.470588235294116
M组的最大年龄是99.0，最小年龄是25.0，平均年龄是64.32099447513812


观察上面的代码，可以发现在使用`agg()`函数时，我们可以将多个统计函数一起放到一个`agg()`函数中。

并且需要注意的是，如果是统计函数是pandas提供的，我们只需将函数的名字以字符串的形势存储到列表中即可，例如：将`max()`改成`'max'`。

这样不仅简化了我们的代码，在添加和删减统计函数的时候我们只需更改`agg()`函数中list就可以了。是不是很方便。

它的好处还不止这些，比如现在又有新的需求，要计算年龄的最大值和最小值的差值。但是，pandas并没有提供这样统计函数，所以就需要我们进行自己定义一个统计函数：

In [54]:
def peak_range(df):
    """
        返回数值范围
    """
    return df.max() - df.min()

In [55]:
import pandas as pd
df = pd.read_excel(path)
groups = df.groupby('gender')
def peak_range(df):
    """
        返回数值范围
    """
    return df.max() - df.min()
for group_name,group_df in groups:
    f_se = group_df['age'].agg(['max','min','mean',peak_range])
    print(f_se[0],f_se[1],f_se[3])

94.0 21.0 73.0
99.0 25.0 74.0


`peak_range(df)`函数是我们自定的函数，并设置了一个`df`参数,为了接收`group_df['age']`的值。

**注意**：自定义的**函数名字**在传入`agg()`函数中时**不需要转换成字符串**。