# 课程项目：Kaggle-Titanic 泰坦尼克号获救问题

> by 马川 燕山大学

![](images/Titanic.jpg)

> 问题设置参考自网络，结合本课程进行了修改和扩充，以期为学生提供一个完整的项目案例。藉练手，贯所学，一窥数据分析之面貌。

>**代码胜于雄辩(Talk is cheap.Show me the code)** 

>               ---- 林纳斯·托瓦兹(Linus Torvalds)

> 参考链接：[**Kaggle-Titanic项目:**  https://www.kaggle.com/c/titanic](https://www.kaggle.com/c/titanic)

> 参考链接：https://blog.csdn.net/zongzi009/article/details/82391034

> 参考链接：https://github.com/massquantity/Kaggle-Titanic

> 参考链接：https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12282042.0.0.1dce2042NBc6J6&postId=6772 

本项目数据来源于[kaggle上的Titanic数据集](https://www.kaggle.com/c/titanic/data)，共计1309条数据，其中训练集891条，测试集418条。对泰坦尼克号乘客数据进行分析，**挖掘获救乘客和遇难乘客的数据特点以及与其他因素的相关性，寻找影响乘客生存与否的因素。**

**PS**:Kaggle项目还会要求根据训练集构建模型并对测试集中的数据进行预测，但本课程不涉及预测问题。

## 1. 问题及思路

### 提出问题

**1. 整体来看，存活比例如何？**

> 要求：
>    ① 将train.csv，test.csv和gender_submission.csv合并为titanic.csv
>    ② 查看已知存活数据中，存活比例如何？

**2. 结合性别和年龄数据，分析幸存下来的人是哪些人？**

> 要求：
>    ① 年龄数据的分布情况
>    ② 男性和女性存活情况
>    ③ 老人和小孩存活情况

**3. 结合 SibSp、Parch字段，研究亲人多少与存活的关系**

> 要求：
>    ① 有无兄弟姐妹/父母子女和存活与否的关系
>    ② 亲戚多少与存活与否的关系

**4. 结合票的费用情况，研究票价和存活与否的关系**

> 要求：
>    ① 票价分布和存活与否的关系
>    ② 比较研究生还者和未生还者的票价情况

**5. 称呼与存活与否的关系**

> 要求：
>    ① 观察不同称呼与生存率的关系


### 实现思路

1. 计算整体的存活率，深入分析男性和女性的不同年龄段的存活人数和占比，分析性别、年龄和存活率之间的联系；观察不同等级舱和年龄存活率，分析等级舱、年龄和存活率的关系；分析不同年龄存活率的分布来查看老人和儿童存活率。

2. 使用饼图来直观展示有父母/亲戚和没有父母/亲戚乘客的存活率有何差异。若有明显差异，可以深入分析亲人的数量对存活率是否有联系。

3. 分析所有乘客的票价分布情况，及不同等级舱的票价分布情况，通过观察幸存者和遇难者的票价的平均值或标准差来分析票价与存活率的联系；通过观察不同称呼与生存率的关系，分析社会地位对生存率的影响。

## 2. 理解数据

从Kaggle平台上下载3个原始数据集：train.csv，test.csv，gender_submission.csv。

其中：
1. train.csv 为编号为 1-891 共 891 名乘客的信息，作为训练数据；
2. test.csv 为编号 892-1309 共 418 名乘客的信息，作为测试数据(删掉了是否生还列 Survived)；
3. gender_submission.csv 为 Kaggle 项目需要提交的结果格式以及正确答案(乘客的实际生还情况)。 

### 导入相关包

In [None]:
#导入需要的包
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

### 读取数据

数据在data文件夹里

#### 查看

利用head()或tail(),分别查看train.csv和test.csv的前5行数据和后5行数据

train存放的是训练数据，test存放的是测试数据。

**相关字段含义介绍：**

* PassengerId : 乘客ID

* Survived： 是否生还

* Pclass : 乘客等级(1/2/3等舱位)

* Name : 乘客姓名

* Sex : 性别

* Age : 年龄

* SibSp : 堂兄弟/妹个数

* Parch : 父母与小孩个数

* Ticket : 船票信息

* Fare : 票价

* Cabin : 客舱

* Embarked : 登船港口

**用info() 查看train和test数据信息**

#### 统计 

用describe() 查看train每栏的统计数据。

### 数据表的索引和切片

获取生还比例 (即统计 Survived 列中值 0 和 1 的出现次数)

检索 train 中第207条数据的乘客姓名(Name)

切片 train ，得到其第10-20条记录中从乘客姓名(Name)到船票信息(Ticket)的数据

#### 高级索引

检索年龄超过50岁的乘客数据

检索出所有女性乘客的数据

检索出乘客ID为7的乘客数据

筛选年龄值没有缺失的所有行上的是否生还(Survived)，等级舱(Pclass)，性别(Sex)，年龄(Age)数据

提示：利用train['Age'].notnull()，可以得到年龄值没有缺失的所有行

筛选出1/2/3等舱乘客的年龄数据

筛选出有兄弟姐妹 ( SibSp ) 的乘客数据

#### 调用函数

检索出train中票价(Fare)高于票价平均值的乘客数据，并保存到titanic_high_fare.csv中

从名字中提取头衔 (如Miss，Mr等)

提示：使用**apply函数**，提取头衔操作可用`lambda x: x.split(',')[1].split('.')[0].strip()`