# Titanic 生存分析报告

数据分析步骤：
1. 理解字段名含义。
2. 分析字段的每个取值的含义,以及变量分布情况。
3. 分析变量与变量之间的相关关系。（模型）

下面的分析报告，我们也按照这样的方式进行。

另外，正所谓一图胜千言，借助绘图，更直观传递信息。

### 我们分析的目标：

#### 找出影响Titanic生存率的因素，并量化他们的影响。

提出假设：
- 登船的乘客的`性别`与幸存与否之间是否有明显影响？
    - 乘客的`性别` 分布情况
    - 二者相关性分析
    
    
- 登船的乘客的`年龄`与幸存与否之间是否有明显影响？
    - 乘客的`年龄` 分布情况
    - 二者相关性分析


- 登船的乘客的`性别、年龄`与幸存与否之间是否有明显影响？
    - 三者相关性分析
    
    
- 登船的乘客的`头衔`与幸存与否之间是否有明显影响？
    - 乘客的`头衔` 分布情况
    - 二者相关性分析
    
    
- 登船的乘客的`码头`与幸存与否之间是否有明显影响？
    - 乘客的`码头` 分布情况
    - 二者相关性分析
    
    
- 登船的乘客的`票价`与幸存与否之间是否有明显影响？
    - 乘客的`票价` 分布情况
    - 二者相关性分析
    
    
- 登船的乘客的`仓位`与幸存与否之间是否有明显影响？
    - 乘客的`仓位` 分布情况
    - 二者相关性分析
    
    
- 登船的乘客的`家庭成员情况`与幸存与否之间是否有明显影响？
    - 乘客的`家庭成员情况` 分布情况
    - 二者相关性分析
    
    


[泰坦尼克百科](https://baike.baidu.com/item/%E6%B3%B0%E5%9D%A6%E5%B0%BC%E5%85%8B%E5%8F%B7/5677)

### Step1: 导入必要的库

In [1]:
import pandas as pd #数据分析
import numpy as np #科学计算
import matplotlib
import matplotlib.pyplot as plt  # 绘图工具包
import seaborn as sns # 高级绘图工具包

In [10]:
# 使用 ggplot 主题
matplotlib.style.use('ggplot')
%matplotlib inline

## 一、数据读取

In [189]:
data = pd.read_csv("../input/titanic.csv")

## 二、理解变量

对于数据的字段名，一定要有准确的把握，能与实际业务相关联。这是一切分析的基础！

数据的各个字段的含义，可以去[官网](https://www.kaggle.com/c/titanic/data). 这里我进行了简单翻译。


<img src="../pics/columns.jpg" style="width: 400px;height:300px"/>

查看数据信息：

整个数据表共：891行，其中`Age`、`Cabin`以及`Embarked`有缺失值，缺失比例19%、77%、0.2%.

## 二、分析字段的每个取值的含义, 以及变量分布

### 存活情况 Survived

0 = 遇难, 1 = 幸存

###  登船的乘客的`性别`与幸存与否之间是否有明显影响？

### 性别 Sex 分布

### 3.1 查看数据中不同性别等级中幸存情况分布

男性的幸存概率是女性的2.1倍！ 明显高于男性。=> `女性更容易幸存`

### 登船的乘客的`年龄`与幸存与否之间是否有明显影响？

### 年龄 Age

对年龄分箱处理，离散化。

In [1]:
# 绘图

### 不同年龄的存活率情况

In [None]:
# 绘图

**`结论`** :青年人与老年人的存活率更低！特别是18-30岁间的乘客，幸存的比例较低！


但这部分与性别的关系如何？

### 登船的乘客的`性别、年龄`与幸存与否之间是否有明显影响？

#### 结合年龄来看


In [None]:
# 绘图


**`结论`** :成年后的男性，幸存的比例较低！
推测这部分人是由于灾难发生时，男性将救生船留给女性和小孩，并留下救援有关。

**男人不易！**

### 登船的乘客的`头衔`与幸存与否之间是否有明显影响？

### 头衔 分布

按照之前介绍的处理方式，我们提取 名字中的头衔，并对其进行归纳合并。

In [191]:
import re

def process_name(name):
    result = re.findall("([A-Za-z]+)\.",name)[0]
    return result

In [193]:
#map 替换有多个类型 情况
title_dict = {
        "Capt":       "Officer",
        "Col":        "Officer",
        "Major":      "Officer",
        "Jonkheer":   "Royalty",
        "Don":        "Royalty",
        "Sir" :       "Royalty",
        "Dr":         "Officer",
        "Rev":        "Officer",
        "Countess":   "Royalty",
        "Dona":       "Royalty",
        "Mme":        "Mrs",
        "Mlle":       "Miss",
        "Ms":         "Mrs",
        "Mr" :        "Mr",
        "Mrs" :       "Mrs",
        "Miss" :      "Miss",
        "Master" :    "Master",
        "Lady" :      "Royalty"
}

In [2]:
# 绘图

### 不同头衔的存活率情况

In [None]:
# 绘图

**`结论`** :Mr 普通男性 和 Officer 工作人员 生存概率最低！
生存概率有着这样的顺序： 普通男性 < 工作人员 < 上流人士 < 女性


### 登船的乘客的`码头`与幸存与否之间是否有明显影响？

### 登船码头 Embarked

登船码头 C = Cherbourg, Q = Queenstown, S = Southampton

![](../pics/embarked.png)

大部分7成的乘客都是从首站 的 Southampton 登船。2成的乘客在第二站 Cherbourg 登船。1成的乘客来自第三站也就是最后一站 Queenstown

### 不同码头的存活率情况

**`结论`** : 在第二站 Cherbourg 登船
的乘客生存概率明显高于其他两个码头！

具体原因有待进一步了解！


### 登船的乘客的`仓位`与幸存与否之间是否有明显影响？

仓位 可以在数据中由两个字段反映：分别是
- 客舱等级 PClass （1，头等舱，2 二等舱 3 三等舱）
- 客舱 Cabin

### 客舱等级 PClass 分布

In [3]:
# 绘图


### 客舱等级中幸存情况分布

In [4]:
# 绘图

**`结论`**：随着仓位等级的提高，存活概率越大！=>`头等仓更容易幸存`

### 客舱 Cabin 分布

船的仓位在对应在船的位置分布情况

- 在船甲板上，有6个房间标记为T、U、W、X、Y、Z，但数据集中只有T舱 

- A、 B舱和C舱只供头等舱乘客使用 

- D和E甲板适用于所有级别 

- F层和G层是为二等舱和三等舱乘客准备的 

- 从A到G，到楼梯的距离增加，这可能是生存的一个因素

![](../pics/Cabin.png)

### 客舱等级与存活率之间关系

**`结论`** : 从有记录仓室的乘客的生存率普遍高于整体。

猜测是否是幸存后等级的原因？ 有待进一步明确

### 登船的乘客的`票价`与幸存与否之间是否有明显影响？

### 乘客的`票价` 分布情况

票价呈现明显的偏态分布情况，即低价票占比较高

### 不同票价 生存情况

**`结论`** : 购买高价票的乘客，生存概率较高！

票价 一定程度的反映乘客的收入水平，所以推断高收入人群的存活可能性较高！

### 登船的乘客的`家庭成员情况`与幸存与否之间是否有明显影响？

从前面介绍

- SibSp: 船上兄弟姐妹以及配偶的个数
- Parch: 船上父母以及子女的个数

    家庭成员数量 SibSp + Parch + 1

In [None]:
# 绘图

**`结论`** : 随着家庭成员数量的增加并没有使得，生存概率提高！

是不是说亲人之间的相互帮助，耽误了逃生的时间？这只是我的一个猜测

### 参考资料

1. https://www.kaggle.com/gunesevitan/titanic-advanced-feature-engineering-tutorial