# 探索数据集

对于这个项目，你需要进行数据分析，并创建一个文档分享你的发现。你可以首先了解数据集，想想它可以用来回答哪些问题。然后，你应该使用 Pandas 和 NumPy 回答你感兴趣的问题，并编写一份报告，分享你的结论。你不需要使用统计学或机器学习知识来完成此项目，但是你需要在报告中声明，你的结论是暂时的，可能需要进一步改进。这个项目是开放性的，没有标准答案。

## 选择数据集

本次探索选择使用[**泰坦尼克号数据**](titanic-data.csv)，包括泰坦尼克号上 2224 名乘客和船员中 891 名的人口学数据和乘客基本信息。

## 导入整理

导入需要的模块并将数据加载到 `Pandas` DataFrame。

In [2]:
import numpy as np
import pandas as pd

# 加载数据集
in_file = 'titanic-data.csv'
data = pd.read_csv(in_file)

将前几条数据显示出来，方便查看数据特性

In [3]:
# 显示数据列表中的前几项乘客数据
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


数据样本每位旅客的特征信息包括：

- **PassengerId**：乘客ID
- **Survived**：是否存活（0代表否，1代表是）
- **Pclass**：船舱等级（1代表上等，2代表中等，3代表低等）
- **Name**：乘客名字
- **Sex**：乘客性别
- **Age**：乘客年龄
- **SibSp**：乘客在船上的兄弟姐妹和配偶的数量
- **Parch**：乘客在船上的父母以及小孩的数量
- **Ticket**：船票的编号
- **Fare**：船票价格
- **Cabin**：乘客所在船舱的编号
- **Embarked**：乘客上船的港口（C 代表 Cherbourg ，Q 代表 Queenstown ，S 代表 Southampton ）

*可以在 [Kaggle 网站](https://www.kaggle.com/c/titanic/data) 查看数据集的详细描述*

查看基本信息：

In [16]:
data.index

RangeIndex(start=0, stop=891, step=1)

In [18]:
data.count()

PassengerId    891
Survived       891
Pclass         891
Name           891
Sex            891
Age            714
SibSp          891
Parch          891
Ticket         891
Fare           891
Cabin          204
Embarked       889
dtype: int64

In [19]:
data.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

可以等到以下信息：
- 数据集中总共有891条记录
- Age 只有714条记录，存在177条`NaN`
- Cabin 只有204条记录，存在687条`NaN`
- Embarked 只有889条记录，存在2条`NaN`

## 提出问题

通过查看样本数据，乘客是否存活将成为本次研究的关注对象。我们将研究有**哪些因素会让船上的人生还率更高？**

### 探索乘客的性别是否影响生还率