# 泰坦尼克号数据科学解决方案

- 比赛链接：https://www.kaggle.com/c/titanic/overview/tutorials
- 原文链接：https://www.kaggle.com/startupsci/titanic/titanic-data-science-solutions

本笔记本的目标是按照逐步的工作流程，解释我们在解决方案开发过程中做出的每个决定的每个步骤和基本原理。

## 工作流程

根据 [Data Science Solutions](https://www.amazon.com/Data-Science-Solutions-Startup-Workflow/dp/1520545312)书中描述的七个阶段。
1. 问题定义
2. 获取训练和测试数据
3. 处理、准备、清洗数据
4. 分析、识别模式和探索数据
5. 建模、预测和解决问题
6. 可视化，报告和呈现问题解决步骤和最终解决方案
7. 提供结果

## 问题定义

根据训练数据中的乘客存活与否的信息，建立模型，在测试集中预测乘客是否存活。

注意点：
- 1912年4月15日，在她的处女航中，泰坦尼克号在与冰山相撞后沉没，2224名乘客和机组人员中有1502人死亡。即生存率为32％。
- 造成海难失事的原因之一是乘客和机组人员没有足够的救生艇。
- 尽管幸存下沉有一些运气因素，但有些人比其他人更容易生存，例如妇女，儿童和上流社会。

## 工作流目标

数据科学解决方案工作流程解决了七个主要目标。

**分类** 我们可能希望对样本进行分类。我们可能还想了解不同类的含义或与我们的目标的相关性。

**相关** 可以基于训练数据集内的可用特征来解决问题。数据集中的哪些特征对我们的目标有重大贡献？从统计学上讲，特征和目标之间是否存在相关性？随着特征值的变化，解决方案状态也会发生变化，反之亦然？这可以针对给定数据集中的数值和类别特征进行测试。我们可能还希望确定除后续目标和工作流程阶段之外的特征之间的相关性。关联某些特征可能有助于创建，补全或更正特征。

**转换** 对于建模阶段，需要准备数据。根据模型算法的选择，可能需要将所有特征转换为数值等效值。例如，将文本分类值转换为数值。

**补全** 数据准备可能还需要我们估计特征中的任何缺失值。当没有缺失值时，模型算法可能最有效。

**纠正** 我们还可以分析给定的训练数据集中的错误或可能在特征内提取值特征内的错误值，并尝试纠正这些值或排除包含错误的样本。一种方法是检测我们的样本或特征中的任何异常值。如果某项特征不对分析做出贡献，或者可能会严重影响结果，我们也可能完全丢弃该特征。

**创建** 我们是否可以基于现有的特征或一组特征创建新特征，以便新特征遵循关联，转换和完整性目标。

**图表** 如何根据数据的性质和解决方案目标选择正确的可视化图表。

## 导入相关库

In [4]:
# 数据分析和处理
import pandas as pd
import numpy as np
import random as rnd

# 可视化
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# 机器学习
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier

## 获取数据

使用 Pandas， 讲训练数据和测试数据存入 DataFrames。

In [3]:
train_df = pd.read_csv('./data/train.csv')
test_df = pd.read_csv('./data/test.csv')
combine = [train_df, test_df]

## 通过描述数据来进行分析

Pandas 能够帮助我们描述数据，回答以下问题。

**哪些特征在数据几中有用？**

具体特征描述可看 https://www.kaggle.com/c/titanic/data


In [5]:
print(train_df.columns.values)

['PassengerId' 'Survived' 'Pclass' 'Name' 'Sex' 'Age' 'SibSp' 'Parch'
 'Ticket' 'Fare' 'Cabin' 'Embarked']


**哪些特征是类别特征？**

这些值将样本分类为类似样本的集合。在类别特征中，基于名字，序数，比率或区间的值？ 除此之外，这有助于我们选择适当的可视化图。

- 类别： Survived, Sex, and Embarked. Ordinal: Pclass.

**哪些特征是数值特征？

这些值随样本而变化。 在数值特征中，值是离散的，连续的还是基于时间序列的？ 除此之外，这有助于我们选择适当的可视化图。

- Continous: Age, Fare. Discrete: SibSp, Parch.