## 5.2	分组操作

### 5.2.1	通过groupby()对数据进行分组

#### 1.	按照列标签进行分组

In [1]:
import pandas as pd
df_obj = pd.DataFrame({'key':['C', 'B', 'C', 'A', 'B', 'B', 'A', 'C', 
                              'A'],'num':[2, 4, 6, 8, 10, 1, 14, 16, 18]})
df_obj

Unnamed: 0,key,num
0,C,2
1,B,4
2,C,6
3,A,8
4,B,10
5,B,1
6,A,14
7,C,16
8,A,18


In [2]:
df_gb = df_obj.groupby(by='key')  # 按key列进行分组
df_gb

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000014B7F944EC0>

In [3]:
for gb in df_gb:
    print(gb)

('A',   key  num
3   A    8
6   A   14
8   A   18)
('B',   key  num
1   B    4
4   B   10
5   B    1)
('C',   key  num
0   C    2
2   C    6
7   C   16)


#### 2.	按照Series类的对象进行分组

In [4]:
import pandas as pd
df_obj = pd.DataFrame({'key': ['A', 'A', 'B', 'B', 'C'],
                       'num': [2, 3, 4, 6, 8]})
df_obj

Unnamed: 0,key,num
0,A,2
1,A,3
2,B,4
3,B,6
4,C,8


In [5]:
ser_obj = pd.Series(['a', 'b', 'c', 'a', 'b'])
ser_obj

0    a
1    b
2    c
3    a
4    b
dtype: object

In [6]:
group_obj = df_obj.groupby(by=ser_obj)   # 按Series类的对象进行分组
for i in group_obj:                     # 查看分组的信息
    print(i)

('a',   key  num
0   A    2
3   B    6)
('b',   key  num
1   A    3
4   C    8)
('c',   key  num
2   B    4)


In [7]:
# Series类对象的索引长度小于原对象的行索引长度
ser_diff = pd.Series(['a', 'b', 'a'])   
group_obj = df_obj.groupby(by=ser_diff)
for i in group_obj:           
    print(i)

('a',   key  num
0   A    2
2   B    4)
('b',   key  num
1   A    3)


#### 3.	按照字典进行分组

In [8]:
from pandas import DataFrame
num_df = DataFrame({'a': [1, 2, 3, 4],
                    'b': [5, 6, 7, 8],
                    'c': [9, 10, 11, 12],
                    'd': [13, 14, 15, 16],
                    'e': [17, 18, 19, 20]})
num_df

Unnamed: 0,a,b,c,d,e
0,1,5,9,13,17
1,2,6,10,14,18
2,3,7,11,15,19
3,4,8,12,16,20


In [9]:
# 创建一个表示分组标准的字典
group_rule = {'a':'Group_One', 'b':'Group_Two', 'c':'Group_One', 
                'd':'Group_Thr', 'e':'Group_Two'}
group_rule

{'a': 'Group_One',
 'b': 'Group_Two',
 'c': 'Group_One',
 'd': 'Group_Thr',
 'e': 'Group_Two'}

In [10]:
# 按字典进行分组，并指定沿着列拆分
group_obj = num_df.groupby(group_rule, axis=1)
for i in group_obj:
    print(i)

('Group_One',    a   c
0  1   9
1  2  10
2  3  11
3  4  12)
('Group_Thr',     d
0  13
1  14
2  15
3  16)
('Group_Two',    b   e
0  5  17
1  6  18
2  7  19
3  8  20)


  group_obj = num_df.groupby(group_rule, axis=1)


#### 4.	按照函数进行分组

In [11]:
import pandas as pd
df_obj = pd.DataFrame({'a': [1, 2, 3, 4, 5],
                           'b': [6, 7, 8, 9, 10],
                           'c': [11, 12, 13, 14, 15]},
                           index=['Leo', 'Jack', 'Alice', 'Helen', 'Joe'])
df_obj

Unnamed: 0,a,b,c
Leo,1,6,11
Jack,2,7,12
Alice,3,8,13
Helen,4,9,14
Joe,5,10,15


In [12]:
group_obj = df_obj.groupby(by=len)   # 按照内置函数len进行分组
for i in group_obj:        
    print(i)

(3,      a   b   c
Leo  1   6  11
Joe  5  10  15)
(4,       a  b   c
Jack  2  7  12)
(5,        a  b   c
Alice  3  8  13
Helen  4  9  14)


### 5.2.2	查看分组信息

In [13]:
df_gb.groups    # 查看分组的信息

{'A': [3, 6, 8], 'B': [1, 4, 5], 'C': [0, 2, 7]}

In [14]:
df_gb.get_group('A')     # 获取分组A

Unnamed: 0,key,num
3,A,8
6,A,14
8,A,18


In [15]:
df_gb.get_group('B')     # 获取分组B

Unnamed: 0,key,num
1,B,4
4,B,10
5,B,1


In [16]:
df_gb.get_group('C')     # 获取分组C

Unnamed: 0,key,num
0,C,2
2,C,6
7,C,16


## 5.3	数据聚合

### 5.3.1	通过统计方法聚合数据

In [17]:
import pandas as pd
import numpy as np
df = pd.DataFrame({'key1': ['A', 'A', 'B', 'B', 'A'],
                   'key2': ['one', 'two', 'one', 'two', 'one'],
                   'data1': [2, 3, 4, 6, 8],
                   'data2': [3, 5, np.nan, 3,7]})
df

Unnamed: 0,key1,key2,data1,data2
0,A,one,2,3.0
1,A,two,3,5.0
2,B,one,4,
3,B,two,6,3.0
4,A,one,8,7.0


In [18]:
group_obj = df.groupby('key1')   
for i in group_obj:
    print(i)

('A',   key1 key2  data1  data2
0    A  one      2    3.0
1    A  two      3    5.0
4    A  one      8    7.0)
('B',   key1 key2  data1  data2
2    B  one      4    NaN
3    B  two      6    3.0)


In [20]:
group_obj.mean('data1','data2')     # 计算每个分组的数据的平均数

Unnamed: 0_level_0,data1,data2
key1,Unnamed: 1_level_1,Unnamed: 2_level_1
A,4.333333,5.0
B,5.0,3.0


### 5.3.2	通过agg()聚合数据

#### 1.	所有列应用一个函数

In [21]:
import numpy as np
from pandas import DataFrame, Series
df_obj = DataFrame(np.arange(36).reshape((6, 6)), columns=list('abcdef'))
df_obj['key'] = Series(list('aaabbb'), name='key')
df_obj

Unnamed: 0,a,b,c,d,e,f,key
0,0,1,2,3,4,5,a
1,6,7,8,9,10,11,a
2,12,13,14,15,16,17,a
3,18,19,20,21,22,23,b
4,24,25,26,27,28,29,b
5,30,31,32,33,34,35,b


In [22]:
group_obj = df_obj.groupby('key')     
group_obj.get_group('a')               # 获取分组a的信息

Unnamed: 0,a,b,c,d,e,f,key
0,0,1,2,3,4,5,a
1,6,7,8,9,10,11,a
2,12,13,14,15,16,17,a


In [23]:
group_obj.get_group('b')              # 获取分组b的信息

Unnamed: 0,a,b,c,d,e,f,key
3,18,19,20,21,22,23,b
4,24,25,26,27,28,29,b
5,30,31,32,33,34,35,b


In [24]:
# 聚合数据，所有列应用一个函数
group_obj.agg(sum)

  group_obj.agg(sum)


Unnamed: 0_level_0,a,b,c,d,e,f
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
a,18,21,24,27,30,33
b,72,75,78,81,84,87


In [25]:
def my_range(arr):
    return arr.max() - arr.min()

In [26]:
# 聚合数据，所有列应用自定义的函数
group_obj.agg(my_range)

Unnamed: 0_level_0,a,b,c,d,e,f
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
a,12,12,12,12,12,12
b,12,12,12,12,12,12


#### 2.	所有列应用多个函数

In [27]:
# 聚合数据，所有列应用两个函数
group_obj.agg([sum, my_range]) 

  group_obj.agg([sum, my_range])


Unnamed: 0_level_0,a,a,b,b,c,c,d,d,e,e,f,f
Unnamed: 0_level_1,sum,my_range,sum,my_range,sum,my_range,sum,my_range,sum,my_range,sum,my_range
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
a,18,12,21,12,24,12,27,12,30,12,33,12
b,72,12,75,12,78,12,81,12,84,12,87,12


In [28]:
group_obj.agg([('和', sum), ('极差', my_range)])

  group_obj.agg([('和', sum), ('极差', my_range)])


Unnamed: 0_level_0,a,a,b,b,c,c,d,d,e,e,f,f
Unnamed: 0_level_1,和,极差,和,极差,和,极差,和,极差,和,极差,和,极差
key,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
a,18,12,21,12,24,12,27,12,30,12,33,12
b,72,12,75,12,78,12,81,12,84,12,87,12


#### 3.	不同列应用不同函数

In [29]:
# 聚合数据，不同列应用不同的函数
group_obj.agg({'a': 'sum', 'b': 'mean', 'c': my_range})

Unnamed: 0_level_0,a,b,c
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
a,18,7.0,12
b,72,25.0,12


## 5.4	分组级运算

### 5.4.1	数据转换

In [30]:
import pandas as pd
df = pd.DataFrame({'A': [2, 3, 3, 4, 2],
                   'B': [4, 2, 3, 6, 6],
                   'C': [9, 7, 0, 7, 8],
                   'D': [3, 4, 8, 6, 10]})
df

Unnamed: 0,A,B,C,D
0,2,4,9,3
1,3,2,7,4
2,3,3,0,8
3,4,6,7,6
4,2,6,8,10


In [31]:
key = ['one', 'one', 'two', 'two', 'two']
# 按照key对df对象进行分组
group_obj = df.groupby(key)
# 查看分组one
dict([x for x in group_obj])['one']

Unnamed: 0,A,B,C,D
0,2,4,9,3
1,3,2,7,4


In [32]:
# 查看分组two
dict([x for x in group_obj])['two']

Unnamed: 0,A,B,C,D
2,3,3,0,8
3,4,6,7,6
4,2,6,8,10


In [33]:
# 转换数据，所有列执行求平均数的操作
group_obj.transform('mean')

Unnamed: 0,A,B,C,D
0,2.5,3.0,8.0,3.5
1,2.5,3.0,8.0,3.5
2,3.0,5.0,5.0,8.0
3,3.0,5.0,5.0,8.0
4,3.0,5.0,5.0,8.0


In [34]:
df['key'] = key   # 增加key列
df

Unnamed: 0,A,B,C,D,key
0,2,4,9,3,one
1,3,2,7,4,one
2,3,3,0,8,two
3,4,6,7,6,two
4,2,6,8,10,two


In [35]:
new_df = df.groupby('key').transform('mean')  # 对df对象进行分组、转换操作
new_df

Unnamed: 0,A,B,C,D
0,2.5,3.0,8.0,3.5
1,2.5,3.0,8.0,3.5
2,3.0,5.0,5.0,8.0
3,3.0,5.0,5.0,8.0
4,3.0,5.0,5.0,8.0


### 5.4.2	数据应用

In [36]:
import numpy as np
from pandas import DataFrame, Series
arr = np.arange(1, 17).reshape((8, 2))
df_obj = DataFrame(arr, columns=list('ab'))
df_obj['key'] = ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo']
df_obj

Unnamed: 0,a,b,key
0,1,2,foo
1,3,4,bar
2,5,6,foo
3,7,8,bar
4,9,10,foo
5,11,12,bar
6,13,14,foo
7,15,16,foo


In [37]:
group_obj = df_obj.groupby('key')
dict([x for x in group_obj])['foo']

Unnamed: 0,a,b,key
0,1,2,foo
2,5,6,foo
4,9,10,foo
6,13,14,foo
7,15,16,foo


In [38]:
dict([x for x in group_obj])['bar']

Unnamed: 0,a,b,key
1,3,4,bar
3,7,8,bar
5,11,12,bar


In [39]:
# 展示每个分组的描述性统计信息
group_obj.apply(lambda x: x.describe())

  group_obj.apply(lambda x: x.describe())


Unnamed: 0_level_0,Unnamed: 1_level_0,a,b
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,count,3.0,3.0
bar,mean,7.0,8.0
bar,std,4.0,4.0
bar,min,3.0,4.0
bar,25%,5.0,6.0
bar,50%,7.0,8.0
bar,75%,9.0,10.0
bar,max,11.0,12.0
foo,count,5.0,5.0
foo,mean,8.6,9.6


## 5.5	案例：篮球运动员信息分析

### 5.5.1 案例需求

In [40]:
# (1)计算中国男篮、女篮运动员的平均身高与平均体重。
# (2)统计中国篮运动员的年龄分布情况。 
# (3)计算中国篮球运动员的体质指数。

### 5.5.2 数据准备

In [42]:
import numpy as np
import pandas as pd
file_one = pd.read_csv('athletes01.csv', encoding='gbk')
file_two = pd.read_excel('athletes02.xlsx')
# 采用外连接的方式合并数据
all_data = pd.merge(left=file_one, right=file_two, how='outer')
# 筛选出国籍属于中国的运动员
all_data = all_data[all_data['国籍'] == '中国']
# 查看摘要信息
all_data.info()

<class 'pandas.core.frame.DataFrame'>
Index: 372 entries, 0 to 549
Data columns (total 8 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   中文名     372 non-null    object
 1   性别      372 non-null    object
 2   国籍      372 non-null    object
 3   出生日期    323 non-null    object
 4   身高      220 non-null    object
 5   体重      205 non-null    object
 6   项目      371 non-null    object
 7   省份      356 non-null    object
dtypes: object(8)
memory usage: 26.2+ KB


### 5.5.3 案例实现

#### 1.	检测与处理重复值

In [43]:
# 检测all_data里面是否有重复值
all_data[all_data.duplicated().values==True]

Unnamed: 0,中文名,性别,国籍,出生日期,身高,体重,项目,省份
107,周小琦,男,中国,2001年1月16日,217厘米,95kg,篮球,河南
138,孙小昕,女,中国,1998年,190厘米,77kg,篮球,山东
149,宁小涛,男,中国,1998年3月6日,191cm,76-80kg,游泳,河南
213,彭小林,女,中国,2000年4月4日,184厘米,72kg,排球,湖南
412,莫小雪,男,中国,1993年2月16日,179cm,65kg,田径,广东


In [44]:
# 删除all_data的重复值，并重新对数据进行索引
all_data = all_data.drop_duplicates(ignore_index=True)
all_data.head(10)

Unnamed: 0,中文名,性别,国籍,出生日期,身高,体重,项目,省份
0,丁小宁,女,中国,34870,170cm,63kg,乒乓球,黑龙江
1,丁小彦雨航,男,中国,36027,200厘米,91kg,篮球,青海
2,乐小林,女,中国,34425,,,击剑,福建
3,于小伟,男,中国,1992年9月11日,180cm,62kg,田径,山东
4,于小洋,女,中国,1991年4月7日,166厘米,56kg,羽毛球,辽宁
5,于小瑶,女,中国,2004年2月13日,,,游泳,河北
6,于小颂,女,中国,1992年,,,柔道,山东
7,任小君,女,中国,1997年1月15日,175厘米,67kg,皮划艇激流,山东
8,任小灿,女,中国,1993年1月26日,167厘米,51kg,拳击,山东
9,任小茜,女,中国,1998年10月4日,178厘米,65kg,女子撑杆跳,浙江


#### 2.	处理缺失值

In [45]:
# 筛选出项目为篮球的运动员
basketball_data = all_data[all_data['项目'] == '篮球']
# 获取“出生日期”一列的数据
basketball_data['出生日期']

1            36027
49         1995年4月
57      2001年1月16日
59     1994年10月11日
72           1998年
78           35612
79         1997年7月
100          36373
118          2004年
143    1992年10月27日
167          36527
168          2004年
172          33695
176          35583
214          36770
233     1999年1月20日
252     1997年6月25日
259     1998年3月24日
289     2000年8月25日
297     1999年8月11日
308    1994年12月10日
309      2001年7月5日
311          36113
314          37272
320          34061
326          32485
331          34790
349          35536
350          35536
358          34425
363          36899
Name: 出生日期, dtype: object

In [46]:
import datetime
basketball_data = basketball_data.copy()
# 将以“x”天显示的日期转换成以“x年x月x日”形式显示的日期
initial_time = datetime.datetime.strptime('1900-01-01', "%Y-%m-%d")
for i in basketball_data.loc[:, '出生日期']:
    if type(i) == int:
        new_time = (initial_time + datetime.timedelta(days=i)).strftime('%Y{y}%m{m}%d{d}').format(
            y='年', m='月', d='日')
        basketball_data.loc[:, '出生日期'] = basketball_data.loc[:, '出生日期'].replace(i, new_time)
# 为保证出生日期的一致性，这里统一使用只保留到年份的日期
basketball_data.loc[:, '出生日期'] = basketball_data['出生日期'].apply(lambda x:x[:5])
basketball_data['出生日期'].head(10)

1      1998年
49     1995年
57     2001年
59     1994年
72     1998年
78     1997年
79     1997年
100    1999年
118    2004年
143    1992年
Name: 出生日期, dtype: object

In [47]:
# 筛选男篮球运动员
male_data = basketball_data[basketball_data['性别'].apply(lambda x :x =='男')]
male_data = male_data.copy()
# 计算身高平均值（四舍五入取整)
male_height = male_data['身高'].dropna() 
fill_male_height = round(male_height.apply(lambda x : x[0:-2]).astype(int).mean())
fill_male_height = str(int(fill_male_height)) + '厘米'
# 填充缺失值
male_data.loc[:, '身高'] = male_data.loc[:, '身高'].fillna(fill_male_height)
# 为方便后期使用，这里将身高数据转换为整数
male_data.loc[:, '身高'] = male_data.loc[:, '身高'].apply(lambda x: x[0:-2]).astype(int)
# 重命名列标签索引
male_data.rename(columns={'身高':'身高/cm'}, inplace=True)
male_data

Unnamed: 0,中文名,性别,国籍,出生日期,身高/cm,体重,项目,省份
1,丁小彦雨航,男,中国,1998年,200,91kg,篮球,青海
57,周小琦,男,中国,2001年,217,95kg,篮球,河南
59,周小鹏,男,中国,1994年,206,90kg,篮球,辽宁
143,易小联,男,中国,1992年,213,113kg,篮球,广东
176,李小豪,男,中国,1997年,203,111kg,篮球,贵州
233,王小林,男,中国,1999年,214,110kg,篮球,福建
252,睢小冉,男,中国,1997年,192,95kg,篮球,山西
259,翟小川,男,中国,1998年,204,100kg,篮球,河北
289,赵小伟,男,中国,2000年,185,77kg,篮球,辽宁
309,邹小宸,男,中国,2001年,208,108kg,篮球,辽宁


In [48]:
# 筛选女篮球运动员数据
female_data = basketball_data[basketball_data['性别'].apply(lambda x :x =='女')]
female_data = female_data.copy()
data = {'191cm':'191厘米','1米89公分':'189厘米','2.01米':'201厘米',
        '187公分':'187厘米','1.97M':'197厘米','1.98米':'198厘米','192cm':'192厘米'}
female_data.loc[:, '身高'] = female_data.loc[:, '身高'].replace(data)
# 计算女篮球运动员平均身高
female_height = female_data['身高'].dropna()
fill_female_height = round(female_height.apply(lambda x : x[0:-2]).astype(int).mean())
fill_female_height =str(int(fill_female_height)) + '厘米'
# 填充缺失值
female_data.loc[:, '身高'] = female_data.loc[:, '身高'].fillna(fill_female_height)
# 为方便后期使用，这里将身高数据转换为整数
female_data['身高'] = female_data['身高'].apply(lambda x : x[0:-2]).astype(int)
# 重命名列标签索引
female_data.rename(columns={'身高':'身高/cm'}, inplace=True)
female_data

Unnamed: 0,中文名,性别,国籍,出生日期,身高/cm,体重,项目,省份
49,吴小迪,女,中国,1995年,186,72kg,篮球,河北
72,孙小昕,女,中国,1998年,190,77kg,篮球,山东
78,孙小然,女,中国,1997年,197,77kg,篮球,河北
79,孙小然,女,中国,1997年,197,77kg,篮球,河北
100,张小婷,女,中国,1999年,198,88千克,篮球,湖北
118,张小茹,女,中国,2004年,189,,篮球,河南
167,李小梦,女,中国,2000年,190,76kg,篮球,辽宁
168,李小汝,女,中国,2004年,201,103kg,篮球,山西
172,李小珊,女,中国,1992年,177,70kg,篮球,江苏
214,潘小琦,女,中国,2000年,191,82kg,篮球,河南


In [49]:
female_data.loc[:, '体重'] = female_data.loc[:, '体重'].replace({'88千克': '88kg'})
female_data

Unnamed: 0,中文名,性别,国籍,出生日期,身高/cm,体重,项目,省份
49,吴小迪,女,中国,1995年,186,72kg,篮球,河北
72,孙小昕,女,中国,1998年,190,77kg,篮球,山东
78,孙小然,女,中国,1997年,197,77kg,篮球,河北
79,孙小然,女,中国,1997年,197,77kg,篮球,河北
100,张小婷,女,中国,1999年,198,88kg,篮球,湖北
118,张小茹,女,中国,2004年,189,,篮球,河南
167,李小梦,女,中国,2000年,190,76kg,篮球,辽宁
168,李小汝,女,中国,2004年,201,103kg,篮球,山西
172,李小珊,女,中国,1992年,177,70kg,篮球,江苏
214,潘小琦,女,中国,2000年,191,82kg,篮球,河南


In [50]:
# 采用前向填充的方式，替换体重为 8kg 的值
female_data['体重'].replace(to_replace='8kg', method='pad',inplace=True)
female_data

  female_data['体重'].replace(to_replace='8kg', method='pad',inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  female_data['体重'].replace(to_replace='8kg', method='pad',inplace=True)


Unnamed: 0,中文名,性别,国籍,出生日期,身高/cm,体重,项目,省份
49,吴小迪,女,中国,1995年,186,72kg,篮球,河北
72,孙小昕,女,中国,1998年,190,77kg,篮球,山东
78,孙小然,女,中国,1997年,197,77kg,篮球,河北
79,孙小然,女,中国,1997年,197,77kg,篮球,河北
100,张小婷,女,中国,1999年,198,88kg,篮球,湖北
118,张小茹,女,中国,2004年,189,,篮球,河南
167,李小梦,女,中国,2000年,190,76kg,篮球,辽宁
168,李小汝,女,中国,2004年,201,103kg,篮球,山西
172,李小珊,女,中国,1992年,177,70kg,篮球,江苏
214,潘小琦,女,中国,2000年,191,82kg,篮球,河南


In [51]:
# 计算女篮球运动员的平均体重
female_weight = female_data['体重'].dropna()
female_weight = female_weight.apply(lambda x :x[0:-2]).astype(int)
fill_female_weight = round(female_weight.mean())
fill_female_weight = str(int(fill_female_weight)) + 'kg'
# 填充缺失值
female_data.loc[:,'体重'].fillna(fill_female_weight, inplace=True)
female_data

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  female_data.loc[:,'体重'].fillna(fill_female_weight, inplace=True)


Unnamed: 0,中文名,性别,国籍,出生日期,身高/cm,体重,项目,省份
49,吴小迪,女,中国,1995年,186,72kg,篮球,河北
72,孙小昕,女,中国,1998年,190,77kg,篮球,山东
78,孙小然,女,中国,1997年,197,77kg,篮球,河北
79,孙小然,女,中国,1997年,197,77kg,篮球,河北
100,张小婷,女,中国,1999年,198,88kg,篮球,湖北
118,张小茹,女,中国,2004年,189,80kg,篮球,河南
167,李小梦,女,中国,2000年,190,76kg,篮球,辽宁
168,李小汝,女,中国,2004年,201,103kg,篮球,山西
172,李小珊,女,中国,1992年,177,70kg,篮球,江苏
214,潘小琦,女,中国,2000年,191,82kg,篮球,河南


In [52]:
basketball_data = pd.concat([male_data, female_data])
basketball_data['体重'] = basketball_data['体重'].apply(lambda x : x[0:-2]).astype(int)
basketball_data.rename(columns={'体重':'体重/kg'}, inplace=True)
basketball_data.head(5)

Unnamed: 0,中文名,性别,国籍,出生日期,身高/cm,体重/kg,项目,省份
1,丁小彦雨航,男,中国,1998年,200,91,篮球,青海
57,周小琦,男,中国,2001年,217,95,篮球,河南
59,周小鹏,男,中国,1994年,206,90,篮球,辽宁
143,易小联,男,中国,1992年,213,113,篮球,广东
176,李小豪,男,中国,1997年,203,111,篮球,贵州


#### 3.	检测与处理异常值

In [53]:
# 定义基于3σ原则检测的函数
def three_sigma(ser): 
    # 计算平均数
    mean_data = ser.mean()
    # 计算标准差
    std_data = ser.std()
    # 根据数值小于μ-3σ或大于μ+3σ均为异常值
    rule = (mean_data-3*std_data>ser) | (mean_data+3*std_data<ser)
    # 返回异常值的位置索引
    index = np.arange(ser.shape[0])[rule]
    # 获取异常值数据
    outliers = ser.iloc[index]
    return outliers
# 使用3σ原则检测女篮运动员的体重数据
female_data = basketball_data[basketball_data['性别'] == '女']
three_sigma(female_data['体重/kg'])

168    103
Name: 体重/kg, dtype: int64

In [54]:
# 使用3σ原则检测女篮运动员的身高数据
three_sigma(female_data['身高/cm'])

Series([], Name: 身高/cm, dtype: object)

In [55]:
# 使用3σ原则检测男篮运动员的体重数据
male_data = basketball_data[basketball_data['性别'] == '男']
three_sigma(male_data['体重/kg'])

Series([], Name: 体重/kg, dtype: int64)

In [56]:
# 使用3σ原则检测男篮运动员的身高数据
three_sigma(male_data['身高/cm'])

Series([], Name: 身高/cm, dtype: object)

#### 4.	计算中国男篮、女篮运动员的平均身高与平均体重

In [58]:
# 以性别分组，对各分组执行求平均数操作，并要求平均数保留一位小数
basketball_data.groupby('性别').mean('身高','体重').round(1)

Unnamed: 0_level_0,体重/kg
性别,Unnamed: 1_level_1
女,80.2
男,97.7


#### 5.统计中国篮运动员的年龄分布情况

In [59]:
# 根据出生日期计算年龄
ages = 2023 - basketball_data['出生日期'].apply(lambda x : x[0:-1]).astype(int)
bins = [10, 20, 30, 40]
# 增加年龄分组一列
basketball_data['年龄分组'] = pd.cut(ages, bins)
# 对每个分组进行计数并排序
basketball_data['年龄分组'].value_counts().sort_index()

年龄分组
(10, 20]     2
(20, 30]    26
(30, 40]     3
Name: count, dtype: int64

#### 6.计算中国篮球运动员的体质指数

In [60]:
# 增加“体质指数”一列
basketball_data['体质指数'] = 0
basketball_data.head(5)

Unnamed: 0,中文名,性别,国籍,出生日期,身高/cm,体重/kg,项目,省份,年龄分组,体质指数
1,丁小彦雨航,男,中国,1998年,200,91,篮球,青海,"(20, 30]",0
57,周小琦,男,中国,2001年,217,95,篮球,河南,"(20, 30]",0
59,周小鹏,男,中国,1994年,206,90,篮球,辽宁,"(20, 30]",0
143,易小联,男,中国,1992年,213,113,篮球,广东,"(30, 40]",0
176,李小豪,男,中国,1997年,203,111,篮球,贵州,"(20, 30]",0


In [61]:
def ath_bmi(num):
    weight = basketball_data['体重/kg']
    height = basketball_data['身高/cm'] 
    sum_bmi =  weight / (height/100)**2
    return sum_bmi

In [62]:
basketball_data['体质指数'] = basketball_data[['体质指数']].apply(ath_bmi).round(1)
basketball_data

Unnamed: 0,中文名,性别,国籍,出生日期,身高/cm,体重/kg,项目,省份,年龄分组,体质指数
1,丁小彦雨航,男,中国,1998年,200,91,篮球,青海,"(20, 30]",22.75
57,周小琦,男,中国,2001年,217,95,篮球,河南,"(20, 30]",20.174563
59,周小鹏,男,中国,1994年,206,90,篮球,辽宁,"(20, 30]",21.208408
143,易小联,男,中国,1992年,213,113,篮球,广东,"(30, 40]",24.906875
176,李小豪,男,中国,1997年,203,111,篮球,贵州,"(20, 30]",26.935864
233,王小林,男,中国,1999年,214,110,篮球,福建,"(20, 30]",24.019565
252,睢小冉,男,中国,1997年,192,95,篮球,山西,"(20, 30]",25.770399
259,翟小川,男,中国,1998年,204,100,篮球,河北,"(20, 30]",24.02922
289,赵小伟,男,中国,2000年,185,77,篮球,辽宁,"(20, 30]",22.498174
309,邹小宸,男,中国,2001年,208,108,篮球,辽宁,"(20, 30]",24.963018


In [63]:
groupby_obj = basketball_data.groupby(by="性别")
females = dict([x for x in groupby_obj])['女']['体质指数'].values
# 统计体质指数为非正常的女篮运动员的数量
count = females[females < 19].size + females[females > 24].size
print(f'体质指数小于19：{females[females < 19]}')
print(f'体质指数大于24：{females[females > 24]}')
print(f'非正常体质范围的总人数：{count}')

体质指数小于19：[]
体质指数大于24：[25.494418454988743 28.344671201814062]
非正常体质范围的总人数：2


In [64]:
males = dict([x for x in groupby_obj])['男']['体质指数'].values
# 统计体质指数为非正常的男篮运动员的数量
count = males[males < 20].size + males[males > 25].size
print(f'体质指数小于20：{males[males < 20]}')
print(f'体质指数大于25：{males[males > 25]}')
print(f'非正常体质范围的总人数：{count}')

体质指数小于20：[]
体质指数大于25：[26.935863524958148 25.770399305555557]
非正常体质范围的总人数：2
