# titanic数据集
![](img/titanic.jpeg)
### 字段

|字段	|释意|值|
|:---|:---|:---|
|survival	|幸存|0 = No, 1 = Yes|
|pclass|客舱等级|	1 = 1st, 2 = 2nd, 3 = 3rd|
|sex	|性别	||
|Age	|年龄| If the age is estimated, is it in the form of xx.5|
|sibsp	|旁系；该乘客在船上是否有兄妹/爱人	||
|parch|	直系亲友；该乘客在船上是否有父母、子女	||
|ticket|	Ticket number	||
|fare	|乘务费||	
|cabin	|仓位位置||
|embarked	|登船港口|	C = Cherbourg, Q = Queenstown, S = Southampton|


### 数据路径
>data/titanic/train.csv


## 1. 导入数据 
使用pd.read_csv(file)

In [None]:
import pandas as pd

df = pd.read_csv('data/titanic/train.csv')
df.head()

#### df1

In [57]:
# 数据量
len(df)

891

## 2. 描述性统计
- df.describe()

In [None]:
df.describe()

#### df2

## 3. 缺失值分布情况
df.isnull()

In [None]:
df.isnull()

#### df3

In [62]:
True+True+True

3

In [64]:
False+False+True

1

在python中，True等同于1， False等同于0，可以累加

In [66]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

## 4. 处理缺失值
将年龄平均值填充到数据中

这里用到df.fillna(字段填充字典)

In [68]:
df['Age'].mean()

29.69911764705882

In [None]:
df.fillna({'Age': df['Age'].mean()},
          inplace=True)
df.sample(5)

#### df4

##  5. Sex比例

Series.value_counts(normalize=True)

In [73]:
df['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

In [74]:
df['Sex'].value_counts(normalize=True)

male      0.647587
female    0.352413
Name: Sex, dtype: float64

## 6. Sex/Survived
性别与幸存之间的关系

这里用到
- df.groupby(by)分组,用性别进行分组
- 针对分组的Survived字段进行汇总，如求均值

In [None]:
df.groupby('Sex').mean()

#### df5

In [79]:
df.groupby('Sex').mean()['Survived']

Sex
female    0.742038
male      0.188908
Name: Survived, dtype: float64

从上面我们可以看出，女性的生存几率比男性大很多，是不是可以从侧面反映灾难面前，男同胞发扬了绅士精神，把生存机会留给了自己的爱人，留给了女性。

## 7. Sex/Survived/Age关系


```
性别
  幸存与否
      年龄
        均值
```

这里用到pd.pivot_table(df, index, columns, vlaues, aggfunc, margins)

In [None]:
import numpy as np


pd.pivot_table(df,
               index='Sex', 
               columns='Survived',
               values='Age',
               aggfunc=np.mean,
               margins=True
              )

#### df6

我们发现
- 幸存者平均年龄 小于 罹难者的平均年龄，是不是可以归因于个体为了族群延续，把生的机会留给了更年轻的个体
- 女性中， 幸存者年龄均值大于罹难者年龄均值，是否可能是灾难面前，有儿女的女性得到更多他人的帮助，比如爱她的丈夫、善良的未婚未育的女性
- 男性中， 幸存者年龄均值 小于 罹难者年龄均值， 把生存机会留给更年轻的个体。
- 整体看，男性整体平均年龄30.50， 女性28.21，而之前分析得出女性比男性生存概论大很多，其中可能还有一个解释可能是女性整体更年轻，更有生存能力？

## 8. Pclass值
Pclass值分布情况

In [90]:
df['Pclass'].value_counts()

3    491
1    216
2    184
Name: Pclass, dtype: int64

## 9. Pclass/Survived关系
船舱等级与幸存之间的关系

In [None]:
df.groupby('Pclass').mean()

#### df7

我们可以看到，Survived跟Pclass有很强的关系，船舱等级越小(越小表示越高等，条件越好)生存概论越大。

以后坐游轮，看来不能图便宜^_^

## 10. Pclass/Sex/Survived关系
等级、性别、幸存之间的关系

In [None]:
import numpy as np

pd.pivot_table(df,
               index='Pclass',
               columns='Sex',
               values='Survived',
               aggfunc=np.mean,
               margins=True
              )

#### df8

这个分析也有很多有意思的发现
- 从总体看，女性的生存概论远大于男性
- 不论男女，仓位越好，生存概论越大
- 但是相比于1、2等仓位，3等仓位女性的生存概论只有其他仓位女性生存概率的一半。

对于度蜜月的小情侣(假设做最坏的打算)
- 如果你是男生，选择游轮度蜜月，只要不是坐头等舱，不论花多少钱，对自己生存概率的改善效果不大。
- 如果你是女生，注意了，只要舱位等级提升，生存概率能显著改善将近一倍。