**复习：**在前面我们已经学习了Pandas基础，第二章我们开始进入数据分析的业务部分，在第二章第一节的内容中，我们学习了**数据的清洗**，这一部分十分重要，只有数据变得相对干净，我们之后对数据的分析才可以更有力。而这一节，我们要做的是数据重构，数据重构依旧属于数据理解（准备）的范围。

#### 开始之前，导入numpy、pandas包和数据

In [2]:
# 导入基本库
import numpy as np
import pandas as pd

In [20]:
# 载入上一个任务人保存的文件中:result.csv，并查看这个文件
df = pd.read_csv('result.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# 2 第二章：数据重构


## 第一部分：数据聚合与运算

### 2.6 数据运用

#### 2.6.1 任务一：通过教材《Python for Data Analysis》P303、Google or anything来学习了解GroupBy机制

API: https://pandas.pydata.org/pandas-docs/stable/reference/groupby.html

#### 2.4.2：任务二：计算泰坦尼克号男性与女性的平均票价

In [33]:
avg_fare = df['Fare'].groupby(df['Sex']).mean()
avg_fare

Sex
female    44.479818
male      25.523893
Name: Fare, dtype: float64

在了解GroupBy机制之后，运用这个机制完成一系列的操作，来达到我们的目的。

下面通过几个任务来熟悉GroupBy机制。

#### 2.4.3：任务三：统计泰坦尼克号中男女的存活人数

In [35]:
df_s = df[df['Survived'] == 1]
survive_sex = df_s['Survived'].groupby(df['Sex']).count()
survive_sex

Sex
female    233
male      109
Name: Survived, dtype: int64

In [16]:
survived_sex = df['Survived'].groupby(df['Sex']).sum()
survived_sex

Sex
female    233
male      109
Name: Survived, dtype: int64

#### 2.4.4：任务四：计算客舱不同等级的存活人数

In [17]:
survived_pclass = df['Survived'].groupby(df['Pclass']).sum()
survived_pclass

Pclass
1    136
2     87
3    119
Name: Survived, dtype: int64

【**提示：**】表中的存活那一栏，可以发现如果还活着记为1，死亡记为0

【**思考**】从数据分析的角度，上面的统计结果可以得出那些结论

【思考】从任务二到任务四中，这些运算可以通过agg()函数来同时计算。并且可以使用rename函数修改列名。你可以按照提示写出这个过程吗？

In [25]:
df.groupby('Sex').agg({'Fare': 'mean', 'Survived': 'sum'}).rename(columns={'Fare': 'avg_fare', 'Survived': 'survived_sex'})

Unnamed: 0_level_0,avg_fare,survived_sex
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,44.479818,233
male,25.523893,109


#### 2.4.5：任务五：统计在不同等级的票中的不同年龄的船票花费的平均值

In [32]:
df.groupby(['Pclass', 'Age'])['Fare'].mean()

Pclass  Age  
1       0.92     151.5500
        2.00     151.5500
        4.00      81.8583
        11.00    120.0000
        14.00    120.0000
                   ...   
3       61.00      6.2375
        63.00      9.5875
        65.00      7.7500
        70.50      7.7500
        74.00      7.7750
Name: Fare, Length: 182, dtype: float64

#### 2.4.6：任务六：将任务二和任务三的数据合并，并保存到sex_fare_survived.csv

In [39]:
sex_fare_survived = pd.merge(avg_fare, survive_sex, on='Sex')
sex_fare_survived

Unnamed: 0_level_0,Fare,Survived
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,44.479818,233
male,25.523893,109


In [40]:
sex_fare_survived.to_csv('sex_fare_survived.csv')

#### 2.4.7：任务七：得出不同年龄的总的存活人数，然后找出存活人数的最高的年龄，最后计算存活人数最高的存活率（存活人数/总人数）


In [42]:
# 不同年龄的总的存活人数
survive_age = df['Survived'].groupby(df['Age']).sum()
survive_age

Age
0.42     1
0.67     1
0.75     2
0.83     2
0.92     1
        ..
70.00    0
70.50    0
71.00    0
74.00    0
80.00    1
Name: Survived, Length: 88, dtype: int64

In [47]:
# 存活人数的最高的年龄
max_survive_age = survive_age[survive_age.values == survive_age.max()]
max_survive_age

Age
24.0    15
Name: Survived, dtype: int64

In [48]:
# 总人数
age_count = df['Survived'].sum()
age_count

342

In [50]:
# 存活人数最高的存活率
survive_age_precent = survive_age.max() / age_count
survive_age_precent

0.043859649122807015