 ### 综合案例——中国奥运会运动员信息的分组与聚合

任务要求：

* 统计篮球运动员的平均年龄、身高、体重。

* 统计男篮球运动员的年龄、身高、体重的极差值。

* 统计男篮球运动员的体质指数（BMI值）。
    
    * 体质指数（BMI） = 体重（KG）/ 身高 ** 2（M）

 数据来源：http://www.olympic.cn/zt/Rio2016/chinateam/

In [1]:
 import pandas as pd
 import datetime  as dt

 1、读取中国奥运会运动员信息

In [2]:
 china = pd.read_excel('./olympic.xlsx')

In [3]:
 china.head()

Unnamed: 0,姓名,性别,出生日期,身高,体重,项目
0,顾雪宋,男,1993-06-21 00:00:00,178,75,射箭
1,邢宇,男,1991-03-12 00:00:00,188,88,射箭
2,吴佳欣,女,1997-02-28 00:00:00,164,72,射箭
3,齐玉红,女,1989-08-25 00:00:00,166,75,射箭
4,曹慧,女,1991-09-07 00:00:00,175,70,射箭


 2、统计篮球运动员的平均年龄、身高、体重。

In [4]:
 # 按照项目一列进行分组
 data_group = china.groupby('项目')
 data_group

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000002008166CFD0>

In [5]:
 # 输出篮球分组的信息
 df_basketball = dict([x for x in data_group])['篮球']
 df_basketball

Unnamed: 0,姓名,性别,出生日期,身高,体重,项目
91,陈楠,女,1983-01-08 00:00:00,197,83,篮球
92,陈晓佳,女,1988-04-02 00:00:00,180,70,篮球
93,高颂,女,1992-04-16 00:00:00,190,81,篮球
94,李珊珊,女,1987-03-03 00:00:00,177,70,篮球
95,露雯,女,1990-02-26 00:00:00,190,74,篮球
96,邵婷,女,1989-12-10 00:00:00,183,70,篮球
97,赵志芳,女,1994-08-11 00:00:00,168,57,篮球
98,吴迪,女,1993-10-27 00:00:00,183,75,篮球
99,黄思静,女,1996-01-08 00:00:00,192,82,篮球
100,黄红玭,女,1989-04-23 00:00:00,195,80,篮球


In [7]:
 # 获取当前年份
 now_year = dt.datetime.today().year
 # 转换为标准时间格式
 df_basketball['出生日期'] = pd.to_datetime(df_basketball['出生日期'])
 # 增加年龄这一列
 df_basketball['年龄'] = now_year - df_basketball['出生日期'].dt.year

In [8]:
 df_basketball

Unnamed: 0,姓名,性别,出生日期,身高,体重,项目,年龄
91,陈楠,女,1983-01-08,197,83,篮球,37
92,陈晓佳,女,1988-04-02,180,70,篮球,32
93,高颂,女,1992-04-16,190,81,篮球,28
94,李珊珊,女,1987-03-03,177,70,篮球,33
95,露雯,女,1990-02-26,190,74,篮球,30
96,邵婷,女,1989-12-10,183,70,篮球,31
97,赵志芳,女,1994-08-11,168,57,篮球,26
98,吴迪,女,1993-10-27,183,75,篮球,27
99,黄思静,女,1996-01-08,192,82,篮球,24
100,黄红玭,女,1989-04-23,195,80,篮球,31


In [9]:
 # 按照性别进行分组，并使用聚合的方法来统计平均年龄，身高，体重。
 groupby_sex = df_basketball.groupby('性别')
 groupby_sex

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000020081709670>

In [10]:
 groupby_sex.mean()

Unnamed: 0_level_0,身高,体重,年龄
性别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
女,186.833333,75.583333,29.5
男,203.538462,97.923077,28.923077


#### 思考问题：Pandas中生日怎么转年龄？

In [11]:
birthday_data = pd.DataFrame({'birthday': ['2011/12/01', '2012/12/02']})
birthday_data

Unnamed: 0,birthday
0,2011/12/01
1,2012/12/02


In [12]:
# 转换为标准时间格式
birthday_data['birthday'] = pd.to_datetime(birthday_data['birthday'])
birthday_data.dtypes

birthday    datetime64[ns]
dtype: object

In [13]:
# 获取当前年份
now_year = dt.datetime.today().year
now_year

2020

In [14]:
# 生日转换年龄
birthday_data['age'] = now_year - birthday_data['birthday'].dt.year
birthday_data

Unnamed: 0,birthday,age
0,2011-12-01,9
1,2012-12-02,8


3、统计男篮球运动员的年龄、身高、体重的极差值

In [17]:
 # 定义求数据极差的函数

 def data_ptp(arr):
    return arr.max() - arr.min()

In [18]:
 # 获取篮球运动员
 basketball_male = dict([x for x in groupby_sex])['男']
 basketball_male

Unnamed: 0,姓名,性别,出生日期,身高,体重,项目,年龄
103,丁彦雨航,男,1993-08-20,200,91,篮球,27
104,李根,男,1988-08-15,198,110,篮球,32
105,周琦,男,1996-01-16,215,95,篮球,24
106,李楠,男,1976-09-25,198,100,篮球,44
107,郭艾伦,男,1993-11-14,192,85,篮球,27
108,易建联,男,1987-10-27,213,113,篮球,33
109,周鹏,男,1989-10-11,206,100,篮球,31
110,王哲林,男,1994-01-20,214,100,篮球,26
111,翟晓川,男,1993-03-24,206,100,篮球,27
112,睢冉,男,1992-06-25,193,93,篮球,28


In [19]:
basketball_male.agg({'年龄': data_ptp, '身高': data_ptp, '体重': data_ptp})

年龄    20
身高    34
体重    37
dtype: int64

4、统计男篮球运动员的体质指数（BMI值）。

In [20]:
basketball_male.head()

Unnamed: 0,姓名,性别,出生日期,身高,体重,项目,年龄
103,丁彦雨航,男,1993-08-20,200,91,篮球,27
104,李根,男,1988-08-15,198,110,篮球,32
105,周琦,男,1996-01-16,215,95,篮球,24
106,李楠,男,1976-09-25,198,100,篮球,44
107,郭艾伦,男,1993-11-14,192,85,篮球,27


In [21]:
basketball_male['体质指数'] = basketball_male['体重'] / (basketball_male['身高'] / 100) ** 2


In [22]:
basketball_male.head()

Unnamed: 0,姓名,性别,出生日期,身高,体重,项目,年龄,体质指数
103,丁彦雨航,男,1993-08-20,200,91,篮球,27,22.75
104,李根,男,1988-08-15,198,110,篮球,32,28.058361
105,周琦,男,1996-01-16,215,95,篮球,24,20.55165
106,李楠,男,1976-09-25,198,100,篮球,44,25.507601
107,郭艾伦,男,1993-11-14,192,85,篮球,27,23.057726
