# Titanic号案例分析

[泰坦尼克号生存率预测](https://www.kaggle.com/c/titanic)

作者：zhudaxia/houzi

---

# 目录

1. 提出问题（Business Understanding ） 
2. 理解数据（Data Understanding）
   * 采集数据
   * 导入数据
   * 查看数据集信息 describe描述信息 info 发现缺失数据
3. 数据清洗（Data Preparation ）
   * 数据预处理 
     * 缺失数据填充fillna  
     * 删除缺失值dropna
   * 特征工程（Feature Engineering）
     * 特征提取:one-hot编码（get_dummies）,map函数（Series）
     * 特征选择：相关系数法
4. 构建模型（Modeling）
   * 训练数据和测试数据 train_test_split
   * 机器学习算法：sklearn
5. 模型评估（Evaluation） score
6. 方案实施 （Deployment）
   * 提交结果到Kaggle
   * 报告撰写

![机器学习步骤](images/机器学习步骤.jpg)

# 1.提出问题

电影《泰坦尼克号》中电影里的沉船是真实事件。1912年4月15日，这艘号称“永不沉没”的泰坦尼克号在首航期间，撞上冰山后沉没，船上的2224名乘客和机组人员，其中只有772人存活下来，生还率只有32%。 这一耸人听闻的悲剧震撼了国际社会，并导致了更好的船舶安全条例。

下面这张图是泰坦尼克号的航行路线，它是从4月10日12点从英国 南安普顿（Southampton） 出发，晚上7点（19点）船停在法国瑟（she）堡市（Cherbourg），晚上9点（21点）离开法国瑟保市。

第2天（1912年4月11日）中午12点半到达爱尔兰昆士敦(Queenstown)，下午2点（14点）离开爱尔兰驶向航行的目的，也就是美国的纽约。 航行到第5天（1912年4月14日）晚上11点40（23点40）在图中黄色星星标出的地方不幸与冰山相撞 到第6天早上（1912年4月15日）2点20全船沉没。

![3](images/3.jpg)

**导致这么多人遇难的原因之一就是乘客和船员没有足够的救生艇。**在上船前，*露丝* 就像船长提出救生艇不够的问题。

虽然幸存下来的人运气有一些因素，但一些人比其他人更有可能生存，比如妇女，儿童和上层阶级。
翻船前，除了杰克与露丝的爱情，泰坦尼克号还经历了什么？

**所以我们研究的问题是：什么样的人在泰坦尼克号中更容易存活？**


# 2.理解数据

理解数据分为三部分：

(1). 采集数据：这一部分，根据研究问题，采集数据

(2). 导入数据：你要分析的数据可能在excel文件，或者数据库中，首先，你需要将数据导入到Python中的数据结构中。

(3). 查看数据集信息

## 2.1 采集数据

从Kaggle泰坦尼克号项目页面下载数据：
https://www.kaggle.com/c/titanic 


## 2.2 导入数据

In [1]:
# 忽略警告提示
import warnings
warnings.filterwarnings('ignore')

In [2]:
#导入处理数据包
import numpy as np
import pandas as pd

In [3]:
#训练数据集
train=pd.read_csv("E:\\softwar learning\\python\\anaconda\\chapter 4\\Titanic\\train.csv")
#测试数据集
test=pd.read_csv("E:\\softwar learning\\python\\anaconda\\chapter 4\\Titanic\\test.csv")
#显示两者数据类型
print('训练数据集：',train.shape,'测试数据集：',test.shape)

训练数据集： (891, 12) 测试数据集： (418, 11)


In [4]:
#合并数据集，方便同时对两个数据集进行清洗
full=train.append(test,ignore_index=True)
print('合并后的数据集：',full.shape)

合并后的数据集： (1309, 12)


## 2.3查看数据收集信息

In [5]:
full.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0.0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1.0,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0.0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


![4](images/4.jpg)

In [6]:
'''
describe只能查看数据类型的描述统计信息，对于其他类型的数据不显示，比如字符串类型姓名（name），客舱号（Cabin）
这很好理解，因为描述统计指标是计算数值，所以需要该列的数据类型是数据
'''
#获取数据类型列的描述统计信息
full.describe()


Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,1309.0,891.0,1309.0,1046.0,1309.0,1309.0,1308.0
mean,655.0,0.383838,2.294882,29.881138,0.498854,0.385027,33.295479
std,378.020061,0.486592,0.837836,14.413493,1.041658,0.86556,51.758668
min,1.0,0.0,1.0,0.17,0.0,0.0,0.0
25%,328.0,0.0,2.0,21.0,0.0,0.0,7.8958
50%,655.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,982.0,1.0,3.0,39.0,1.0,0.0,31.275
max,1309.0,1.0,3.0,80.0,8.0,9.0,512.3292


In [8]:
# 查看每一列的数据类型，和数据总数
full.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB


我们发现数据总共有1309行。 
    
1).数据类型列：年龄（Age）、船舱号（Cabin）里面有缺失数据：
* 年龄（Age）里面数据总数是1046条，缺失了1309-1046=263，缺失率263/1309=20%
* 船票价格（Fare）里面数据总数是1308条，缺失了1条数据

2).字符串列：
* 登船港口（Embarked）里面数据总数是1307，只缺失了2条数据，缺失比较少
* 船舱号（Cabin）里面数据总数是295，缺失了1309-295=1014，缺失率=1014/1309=77.5%，缺失比较大

这为我们下一步数据清洗指明了方向，只有知道哪些数据缺失数据，我们才能有针对性的处理。


# 3.数据处理

## 3.1 选择子集

## 3.2 列名重命名

## 3.3 缺失数据处理

### 缺失值处理

In [9]:
#数值类型填空，用平均值取代
#年龄(Age)
full['Age']=full['Age'].fillna( full['Age'].mean() )
#船票价格(Fare)
full['Fare'] = full['Fare'].fillna( full['Fare'].mean() )
print('处理红后：')
full.info()
#数据填空方法
#fillna(full['数据名'].mean())

处理红后：
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     891 non-null    float64
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1309 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1309 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
dtypes: float64(3), int64(4), object(5)
memory usage: 122.8+ KB


In [329]:
'''
总数据是1309
字符串列：
1）登船港口（Embarked）里面数据总数是1307，只缺失了2条数据，缺失比较少
2）船舱号（Cabin）里面数据总数是295，缺失了1309-295=1014，缺失率=1014/1309=77.5%，缺失比较大
'''
#登船港口（Embarked）：查看里面数据长啥样
'''
出发地点：S=英国南安普顿Southampton
途径地点1：C=法国 瑟堡市Cherbourg
途径地点2：Q=爱尔兰 昆士敦Queenstown
'''
full['Embarked'].head()

0    S
1    C
2    S
3    S
4    S
Name: Embarked, dtype: object

In [330]:
'''
分类变量Embarked，看下最常见的类别，用其填充  其中：value.count()代表最常见分类类型查看函数
'''
full['Embarked'].value_counts()

S    914
C    270
Q    123
Name: Embarked, dtype: int64

In [331]:
'''
从结果来看，S类别最常见。我们将缺失值填充为最频繁出现的值：
S=英国南安普顿Southampton
'''
full['Embarked']=full['Embarked'].fillna('S')

In [332]:
#船舱号（Cabin）：查看里面数据各类型
full['Cabin'].value_counts()

C23 C25 C27        6
G6                 5
B57 B59 B63 B66    5
F2                 4
F33                4
                  ..
B42                1
C70                1
D7                 1
D49                1
B50                1
Name: Cabin, Length: 186, dtype: int64

In [333]:
#缺失数据比较多，船舱号（Cabin）缺失值填充为U，表示未知（Uknow） 
full['Cabin'] = full['Cabin'].fillna( 'U' )

## 3.4 特征提取

对不同类别提取方法为
![6](images/6.jpg)

In [334]:
'''
1.数值类型：
乘客编号（PassengerId），年龄（Age），船票价格（Fare），同代直系亲属人数（SibSp），不同代直系亲属人数（Parch）
2.时间序列：无 有需要的话需要单独转化成年、月、日
3.分类数据：
1）有直接类别的
乘客性别（Sex）：男性male，女性female
登船港口（Embarked）：出发地点S=英国南安普顿Southampton，途径地点1：C=法国 瑟堡市Cherbourg，出发地点2：Q=爱尔兰 昆士敦Queenstown
客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱
2）字符串类型：可能从这里面提取出特征来，也归到分类数据中
乘客姓名（Name）
客舱号（Cabin）
船票编号（Ticket）
'''

'\n1.数值类型：\n乘客编号（PassengerId），年龄（Age），船票价格（Fare），同代直系亲属人数（SibSp），不同代直系亲属人数（Parch）\n2.时间序列：无 有需要的话需要单独转化成年、月、日\n3.分类数据：\n1）有直接类别的\n乘客性别（Sex）：男性male，女性female\n登船港口（Embarked）：出发地点S=英国南安普顿Southampton，途径地点1：C=法国 瑟堡市Cherbourg，出发地点2：Q=爱尔兰 昆士敦Queenstown\n客舱等级（Pclass）：1=1等舱，2=2等舱，3=3等舱\n2）字符串类型：可能从这里面提取出特征来，也归到分类数据中\n乘客姓名（Name）\n客舱号（Cabin）\n船票编号（Ticket）\n'

## 3.4.1 分类数据：有直接类别的

### 性别

In [335]:
full['Sex'].head()

0      male
1    female
2    female
3    female
4      male
Name: Sex, dtype: object

In [336]:
'''
将性别的值映射为数值
男（male）对应数值1，女（female）对应数值0
'''
sex_mapDict={'male':1,
             'female':0}
#map函数：对Series每个数据应用自定义的函数计算
full['Sex']=full['Sex'].map(sex_mapDict)
full['Sex'].head()

0    1
1    0
2    0
3    0
4    1
Name: Sex, dtype: int64

### 登录港口（Embarked）

In [337]:
'''
登船港口(Embarked)的值是：
出发地点：S=英国南安普顿Southampton
途径地点1：C=法国 瑟堡市Cherbourg
途径地点2：Q=爱尔兰 昆士敦Queenstown
'''
#查看该类数据内容
full['Embarked'].head()

0    S
1    C
2    S
3    S
4    S
Name: Embarked, dtype: object

In [338]:
#存取提取后的特征
embarkedDf = pd.DataFrame()
'''
使用get_dummies进行one-hot编码，产生虚拟变量（dummy variables），列名前缀是Embarked
'''
embarkedDf=pd.get_dummies(full['Embarked'],prefix='Embarked')
embarkedDf.head()

Unnamed: 0,Embarked_C,Embarked_Q,Embarked_S
0,0,0,1
1,1,0,0
2,0,0,1
3,0,0,1
4,0,0,1


In [339]:
#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,embarkedDf],axis=1)

'''
因为已经使用登船港口(Embarked)进行了one-hot编码产生了它的虚拟变量（dummy variables）
所以这里把登船港口(Embarked)删掉
'''

'''
上面drop删除某一列代码解释：
因为drop(name,axis=1)里面指定了name是哪一列，比如指定的是A这一列，axis=1表示按行操作。
那么结合起来就是把A列里面每一行删除，最终结果是删除了A这一列.
简单来说，使用drop删除某几列的方法记住这个语法就可以了：drop([列名1,列名2],axis=1)
'''
full.drop('Embarked',axis=1,inplace=True)
full.head()


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked_C,Embarked_Q,Embarked_S
0,1,0.0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,U,0,0,1
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,1,0,0
2,3,1.0,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,U,0,0,1
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,C123,0,0,1
4,5,0.0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,U,0,0,1


### 客舱登记

In [340]:
#存放提取后的特征
pclassDf=pd.DataFrame()

#使用get_dummies 进行one-hot编码，列名前缀是Pclass
pclassDf=pd.get_dummies(full['Pclass'],prefix='Pclass')
pclassDf.head()

Unnamed: 0,Pclass_1,Pclass_2,Pclass_3
0,0,0,1
1,1,0,0
2,0,0,1
3,1,0,0
4,0,0,1


In [341]:
#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,pclassDf],axis=1)
full.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked_C,Embarked_Q,Embarked_S,Pclass_1,Pclass_2,Pclass_3
0,1,0.0,3,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,U,0,0,1,0,0,1
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,1,0,0,1,0,0
2,3,1.0,3,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,U,0,0,1,0,0,1
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,C123,0,0,1,1,0,0
4,5,0.0,3,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,U,0,0,1,0,0,1


In [342]:
#删掉客舱等级（Pclass）这一列
full.drop('Pclass',axis=1,inplace=True)
full.head()

Unnamed: 0,PassengerId,Survived,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked_C,Embarked_Q,Embarked_S,Pclass_1,Pclass_2,Pclass_3
0,1,0.0,"Braund, Mr. Owen Harris",1,22.0,1,0,A/5 21171,7.25,U,0,0,1,0,0,1
1,2,1.0,"Cumings, Mrs. John Bradley (Florence Briggs Th...",0,38.0,1,0,PC 17599,71.2833,C85,1,0,0,1,0,0
2,3,1.0,"Heikkinen, Miss. Laina",0,26.0,0,0,STON/O2. 3101282,7.925,U,0,0,1,0,0,1
3,4,1.0,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",0,35.0,1,0,113803,53.1,C123,0,0,1,1,0,0
4,5,0.0,"Allen, Mr. William Henry",1,35.0,0,0,373450,8.05,U,0,0,1,0,0,1


### 3.42 分类数据：字符串类型

字符串类型：可能从这里面提取出特征来，也归到分类数据中，这里数据有：

1. 乘客姓名（Name）
2. 客舱号（Cabin）
3. 船票编号（Ticket）

### 从姓名中提取头衔

In [343]:
'''
查看姓名这一列长啥样
注意到在乘客名字（Name）中，有一个非常显著的特点：
乘客头衔每个名字当中都包含了具体的称谓或者说是头衔，将这部分信息提取出来后可以作为非常有用一个新变量，可以帮助我们进行预测。
例如：
Braund, Mr. Owen Harris
Heikkinen, Miss. Laina
Oliva y Ocana, Dona. Fermina
Peter, Master. Michael J
'''
full[ 'Name' ].head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

In [344]:
#练习从字符串中提取头衔，例如Mr
#split用于字符串分割，返回一个列表
#我们看到姓名中'Braund, Mr. Owen Harris'，逗号前面的是“名”，逗号后面是‘头衔. 姓’
name1='Braund, Mr. Owen Harris'
'''
split用于字符串按分隔符分割，返回一个列表。这里按逗号分隔字符串
也就是字符串'Braund, Mr. Owen Harris'被按分隔符,'拆分成两部分[Braund,Mr. Owen Harris]
你可以把返回的列表打印出来瞧瞧，这里获取到列表中元素序号为1的元素，也就是获取到头衔所在的那部分，即Mr. Owen Harris这部分
'''
#Mr. Owen Harries
str1=name1.split(',')[1]
str1
#Mr
str2=str1.split('.')[0]
str2
#strip()方法用于移除字符串头尾指定的字符（默认为空格）
str3=str2.strip()
str3

'Mr'

In [345]:
'''
定义函数：从姓名中获取头衔
'''
def GetTitle(name):
    str1=name.split(',')[1]
    str2=str1.split('.')[0]
    str3=str2.strip()
    str4=''.join(str3)  
    #直接用split会导致dataframe里的数据变成列表，接下去用字典匹配时会发生错误，这里用join将其重新变成字符串形式
    return str4

In [346]:
#存放提取后的特征
titleDf=pd.DataFrame()
#map函数：对Series每个数据应用自定义的函数计算
titleDf['Title'] = full['Name'].map(GetTitle)
titleDf.head()

Unnamed: 0,Title
0,Mr
1,Mrs
2,Miss
3,Mrs
4,Mr


In [347]:
'''
定义以下几种头衔类别：
Officer政府官员
Royalty王室（皇室）
Mr已婚男士
Mrs已婚妇女
Miss年轻未婚女子
Master有技能的人/教师
#姓名中头衔字符串与定义头衔类别的映射关系
'''
title_mapDict = {
                    "Capt":       "Officer",
                    "Col":        "Officer",
                    "Major":      "Officer",
                    "Jonkheer":   "Royalty",
                    "Don":        "Royalty",
                    "Sir" :       "Royalty",
                    "Dr":         "Officer",
                    "Rev":        "Officer",
                    "the Countess":"Royalty",
                    "Dona":       "Royalty",
                    "Mme":        "Mrs",
                    "Mlle":       "Miss",
                    "Ms":         "Mrs",
                    "Mr" :        "Mr",
                    "Mrs" :       "Mrs",
                    "Miss" :      "Miss",
                    "Master" :    "Master",
                    "Lady" :      "Royalty"
                    }

#map函数：对Series每个数据应用自定义的函数计算
titleDf['Title'] = titleDf['Title'].map(title_mapDict)
#使用get_dummies进行one-hot编码
titleDf=pd.get_dummies(titleDf['Title'])
titleDf.head(7)

Unnamed: 0,Master,Miss,Mr,Mrs,Officer,Royalty
0,0,0,1,0,0,0
1,0,0,0,1,0,0
2,0,1,0,0,0,0
3,0,0,0,1,0,0
4,0,0,1,0,0,0
5,0,0,1,0,0,0
6,0,0,1,0,0,0


In [348]:
#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,titleDf],axis=1)

#删掉姓名这一列
full.drop('Name',axis=1,inplace=True)
full.head()

Unnamed: 0,PassengerId,Survived,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked_C,...,Embarked_S,Pclass_1,Pclass_2,Pclass_3,Master,Miss,Mr,Mrs,Officer,Royalty
0,1,0.0,1,22.0,1,0,A/5 21171,7.25,U,0,...,1,0,0,1,0,0,1,0,0,0
1,2,1.0,0,38.0,1,0,PC 17599,71.2833,C85,1,...,0,1,0,0,0,0,0,1,0,0
2,3,1.0,0,26.0,0,0,STON/O2. 3101282,7.925,U,0,...,1,0,0,1,0,1,0,0,0,0
3,4,1.0,0,35.0,1,0,113803,53.1,C123,0,...,1,1,0,0,0,0,0,1,0,0
4,5,0.0,1,35.0,0,0,373450,8.05,U,0,...,1,0,0,1,0,0,1,0,0,0


### 从客舱号中提取客舱类别

In [349]:
full['Cabin'].head()

0       U
1     C85
2       U
3    C123
4       U
Name: Cabin, dtype: object

In [350]:
#补充知识：匿名函数
'''
python 使用 lambda 来创建匿名函数。
所谓匿名，意即不再使用 def 语句这样标准的形式定义一个函数，预防如下：
lambda 参数1，参数2：函数体或者表达式
'''
# 定义匿名函数：对两个数相加
sum = lambda a,b: a + b
 
# 调用sum函数
print ("相加后的值为 : ", sum(10,20))

相加后的值为 :  30


In [351]:
#存放客舱号信息
cabinDf=pd.DataFrame()
'''
客场号的类别值是首字母，例如：
C85 类别映射为首字母C
'''
full['Cabin']=full['Cabin'].map(lambda c:c[0])
#使用get_dummies进行one-hot编码，前名前缀是Cabin
cabinDf=pd.get_dummies(full['Cabin'],prefix='Cabin')
cabinDf.head()

Unnamed: 0,Cabin_A,Cabin_B,Cabin_C,Cabin_D,Cabin_E,Cabin_F,Cabin_G,Cabin_T,Cabin_U
0,0,0,0,0,0,0,0,0,1
1,0,0,1,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,1
3,0,0,1,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,1


In [352]:
#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,cabinDf],axis=1)

#删掉姓名这一列
full.drop('Cabin',axis=1,inplace=True)
full.head()

Unnamed: 0,PassengerId,Survived,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked_C,Embarked_Q,...,Royalty,Cabin_A,Cabin_B,Cabin_C,Cabin_D,Cabin_E,Cabin_F,Cabin_G,Cabin_T,Cabin_U
0,1,0.0,1,22.0,1,0,A/5 21171,7.25,0,0,...,0,0,0,0,0,0,0,0,0,1
1,2,1.0,0,38.0,1,0,PC 17599,71.2833,1,0,...,0,0,0,1,0,0,0,0,0,0
2,3,1.0,0,26.0,0,0,STON/O2. 3101282,7.925,0,0,...,0,0,0,0,0,0,0,0,0,1
3,4,1.0,0,35.0,1,0,113803,53.1,0,0,...,0,0,0,1,0,0,0,0,0,0
4,5,0.0,1,35.0,0,0,373450,8.05,0,0,...,0,0,0,0,0,0,0,0,0,1


### 建立家庭人数和家庭类别

In [353]:
#存放家庭信息
familyDf=pd.DataFrame()

'''
家庭人数=同代直系亲属数（Parch）+不同代直系亲属数（SibSp）+乘客自己
（因为乘客自己也是家庭成员的一个，所以这里加1）
'''

familyDf['Familysize']=full['Parch']+full['SibSp']+1

In [354]:
#判断家庭大小

familyDf['Family_Single']=familyDf['Familysize'].map(lambda s : 1 if s==1 else 0)
familyDf['Family_Small']=familyDf['Familysize'].map(lambda s : 1 if 2<=s<=4 else 0)
familyDf['Family_Large']=familyDf['Familysize'].map(lambda s : 1 if 5<=s else 0)

familyDf.head()

Unnamed: 0,Familysize,Family_Single,Family_Small,Family_Large
0,2,0,1,0
1,2,0,1,0
2,1,1,0,0
3,2,0,1,0
4,1,1,0,0


In [355]:
#添加one-hot编码产生的虚拟变量（dummy variables）到泰坦尼克号数据集full
full = pd.concat([full,familyDf],axis=1)
full.head()

Unnamed: 0,PassengerId,Survived,Sex,Age,SibSp,Parch,Ticket,Fare,Embarked_C,Embarked_Q,...,Cabin_D,Cabin_E,Cabin_F,Cabin_G,Cabin_T,Cabin_U,Familysize,Family_Single,Family_Small,Family_Large
0,1,0.0,1,22.0,1,0,A/5 21171,7.25,0,0,...,0,0,0,0,0,1,2,0,1,0
1,2,1.0,0,38.0,1,0,PC 17599,71.2833,1,0,...,0,0,0,0,0,0,2,0,1,0
2,3,1.0,0,26.0,0,0,STON/O2. 3101282,7.925,0,0,...,0,0,0,0,0,1,1,1,0,0
3,4,1.0,0,35.0,1,0,113803,53.1,0,0,...,0,0,0,0,0,0,2,0,1,0
4,5,0.0,1,35.0,0,0,373450,8.05,0,0,...,0,0,0,0,0,1,1,1,0,0


In [356]:
full.shape

(1309, 33)

## 3.5特征选择

In [357]:
#相关性矩阵
corrDf=full.corr()
corrDf

Unnamed: 0,PassengerId,Survived,Sex,Age,SibSp,Parch,Fare,Embarked_C,Embarked_Q,Embarked_S,...,Cabin_D,Cabin_E,Cabin_F,Cabin_G,Cabin_T,Cabin_U,Familysize,Family_Single,Family_Small,Family_Large
PassengerId,1.0,-0.005007,0.013406,0.025731,-0.055224,0.008942,0.031416,0.048101,0.011585,-0.049836,...,0.000549,-0.008136,0.000306,-0.045949,-0.023049,0.000208,-0.031437,0.028546,0.002975,-0.063415
Survived,-0.005007,1.0,-0.543351,-0.070323,-0.035322,0.081629,0.257307,0.16824,0.00365,-0.149683,...,0.150716,0.145321,0.057935,0.01604,-0.026456,-0.316912,0.016639,-0.203367,0.279855,-0.125147
Sex,0.013406,-0.543351,1.0,0.057397,-0.109609,-0.213125,-0.185484,-0.066564,-0.088651,0.115193,...,-0.057396,-0.04034,-0.006655,-0.083285,0.020558,0.137396,-0.188583,0.284537,-0.255196,-0.077748
Age,0.025731,-0.070323,0.057397,1.0,-0.190747,-0.130872,0.171521,0.076179,-0.012718,-0.059153,...,0.132886,0.1066,-0.072644,-0.085977,0.032461,-0.271918,-0.196996,0.116675,-0.038189,-0.16121
SibSp,-0.055224,-0.035322,-0.109609,-0.190747,1.0,0.373587,0.160224,-0.048396,-0.048678,0.073709,...,-0.015727,-0.02718,-0.008619,0.006015,-0.013247,0.009064,0.861952,-0.591077,0.25359,0.699681
Parch,0.008942,0.081629,-0.213125,-0.130872,0.373587,1.0,0.221522,-0.008635,-0.100943,0.071881,...,-0.027385,0.001084,0.020481,0.058325,-0.012304,-0.036806,0.792296,-0.549022,0.248532,0.624627
Fare,0.031416,0.257307,-0.185484,0.171521,0.160224,0.221522,1.0,0.286241,-0.130054,-0.169894,...,0.072737,0.073949,-0.037567,-0.022857,0.001179,-0.507197,0.226465,-0.274826,0.197281,0.170853
Embarked_C,0.048101,0.16824,-0.066564,0.076179,-0.048396,-0.008635,0.286241,1.0,-0.164166,-0.778262,...,0.107782,0.027566,-0.02001,-0.031566,-0.014095,-0.258257,-0.036553,-0.107874,0.159594,-0.092825
Embarked_Q,0.011585,0.00365,-0.088651,-0.012718,-0.048678,-0.100943,-0.130054,-0.164166,1.0,-0.491656,...,-0.061459,-0.042877,-0.020282,-0.019941,-0.008904,0.142369,-0.08719,0.127214,-0.122491,-0.018423
Embarked_S,-0.049836,-0.149683,0.115193,-0.059153,0.073709,0.071881,-0.169894,-0.778262,-0.491656,1.0,...,-0.056023,0.00296,0.030575,0.04056,0.018111,0.137351,0.087771,0.014246,-0.062909,0.093671


In [358]:
'''
查看各个特征与生成情况（survived）的相关系数，ascending=False表示按降序排列
'''
corrDf['Survived'].sort_values(ascending=False)

Survived         1.000000
Mrs              0.344935
Miss             0.332795
Pclass_1         0.285904
Family_Small     0.279855
Fare             0.257307
Cabin_B          0.175095
Embarked_C       0.168240
Cabin_D          0.150716
Cabin_E          0.145321
Cabin_C          0.114652
Pclass_2         0.093349
Master           0.085221
Parch            0.081629
Cabin_F          0.057935
Royalty          0.033391
Cabin_A          0.022287
Familysize       0.016639
Cabin_G          0.016040
Embarked_Q       0.003650
PassengerId     -0.005007
Cabin_T         -0.026456
Officer         -0.031316
SibSp           -0.035322
Age             -0.070323
Family_Large    -0.125147
Embarked_S      -0.149683
Family_Single   -0.203367
Cabin_U         -0.316912
Pclass_3        -0.322308
Sex             -0.543351
Mr              -0.549199
Name: Survived, dtype: float64

根据各个特征与生成情况（Survived）的相关系数大小，我们选择了这几个特征作为模型的输入：

头衔（前面所在的数据集titleDf）、客舱等级（pclassDf）、家庭大小（familyDf）、船票价格（Fare）、船舱号（cabinDf）、登船港口（embarkedDf）、性别（Sex）

In [359]:
#特征选择
full_X = pd.concat( [titleDf,#头衔
                     pclassDf,#客舱等级
                     familyDf,#家庭大小
                     full['Fare'],#船票价格
                     cabinDf,#船舱号
                     embarkedDf,#登船港口
                     full['Sex']#性别
                    ] , axis=1 )
full_X.head()

Unnamed: 0,Master,Miss,Mr,Mrs,Officer,Royalty,Pclass_1,Pclass_2,Pclass_3,Familysize,...,Cabin_D,Cabin_E,Cabin_F,Cabin_G,Cabin_T,Cabin_U,Embarked_C,Embarked_Q,Embarked_S,Sex
0,0,0,1,0,0,0,0,0,1,2,...,0,0,0,0,0,1,0,0,1,1
1,0,0,0,1,0,0,1,0,0,2,...,0,0,0,0,0,0,1,0,0,0
2,0,1,0,0,0,0,0,0,1,1,...,0,0,0,0,0,1,0,0,1,0
3,0,0,0,1,0,0,1,0,0,2,...,0,0,0,0,0,0,0,0,1,0
4,0,0,1,0,0,0,0,0,1,1,...,0,0,0,0,0,1,0,0,1,1


# 4.构建模型

* 坦尼克号测试数据集因为是我们最后要提交给Kaggle的，里面没有生存情况的值，所以不能用于评估模型。
我们将Kaggle泰坦尼克号项目给我们的测试数据，叫做预测数据集（记为pred,也就是预测英文单词predict的缩写）。
也就是我们使用机器学习模型来对其生存情况就那些预测。
* 我们使用Kaggle泰坦尼克号项目给的训练数据集，做为我们的原始数据集（记为source），

从这个原始数据集中拆分出训练数据集（记为train：用于模型训练）和测试数据集（记为test：用于模型评估）。
![7](images/7.jpg)

## 4.1建立训练数据集和测试数据集

In [362]:
'''
1）坦尼克号测试数据集因为是我们最后要提交给Kaggle的，里面没有生存情况的值，所以不能用于评估模型。
我们将Kaggle泰坦尼克号项目给我们的测试数据，叫做预测数据集（记为pred,也就是预测英文单词predict的缩写）。
也就是我们使用机器学习模型来对其生存情况就那些预测。
2）我们使用Kaggle泰坦尼克号项目给的训练数据集，做为我们的原始数据集（记为source），
从这个原始数据集中拆分出训练数据集（记为train：用于模型训练）和测试数据集（记为test：用于模型评估）。

'''
#原始数据集有891行
sourceRow=891
#原始数据集：特征
source_X=full_X.loc[0:sourceRow-1,:]
#原始数据集：标签
source_y=full.loc[0:sourceRow-1,'Survived']

#预测数据集：特征
pred_X=full_X.loc[sourceRow:,:]
'''
上面代码解释：
891行前面的数据是测试数据集，891行之后的数据是预测数据集。[sourceRow:,:]就是从891行开始到最后一行作为预测数据集
'''

In [364]:
'''
确保这里原始数据集取的是前891行的数据，不然后面模型会有错误
'''
#原始数据集有多少行
print('原始数据集有多少行：',source_X.shape[0])
#测试数据集有多少行
print('预测数据集有多少行：',pred_X.shape[0])

原始数据集有多少行： 891
预测数据集有多少行： 418


In [367]:
from sklearn.model_selection import train_test_split

#建立模型用的训练数据集合测试数据集
train_X,test_X,train_y,test_y = train_test_split(source_X,source_y,train_size=0.8)

#数据训练集大小
print('原始数据集特征：',source_X.shape,
     '训练数据集特征：',train_X.shape,
     '测试数据集特征：',test_X.shape)

print('原始数据集标签：',source_y.shape,
     '训练数据集标签：',train_y.shape,
     '测试数据集标签：',test_y.shape)

原始数据集特征： (891, 27) 训练数据集特征： (712, 27) 测试数据集特征： (179, 27)
原始数据集标签： (891,) 训练数据集标签： (712,) 测试数据集标签： (179,)


In [368]:
#原始数据查看
source_y.head()

0    0.0
1    1.0
2    1.0
3    1.0
4    0.0
Name: Survived, dtype: float64

## 4.2选择机器学习算法

选择一个机器学习算法，用于模型的训练。如果刚开始接触算法，建议从逻辑回归算法开始（还有很多算法未接触）

In [371]:
#第1步：导入算法
from sklearn.linear_model import LogisticRegression
#第2步：训练模型，逻辑回归
model=LogisticRegression()

In [None]:
#随机森林Random Forests Model
#from sklearn.ensemble import RandomForestClassifier
#model = RandomForestClassifier(n_estimators=100)

In [None]:
#支持向量机Support Vector Machines
#from sklearn.svm import SVC, LinearSVC
#model = SVC()

## 4.3 训练模型

In [373]:
#第3步，训练模型
model.fit(train_X,train_y)

LogisticRegression()

# 5.模型评估

In [374]:
#分类问题，score得到是模型的正确率
model.score(test_X,test_y)

0.8044692737430168

# 6.方案实施

## 6.1 得到预测结果上传到Kaggle

In [378]:
#使用机器学习模型，对预测数据集中的生存情况进行预测
pred_y=model.predict(pred_X)

'''
生成的预测值是浮点数（0.0,1,0）
但是Kaggle要求提交的结果是整型（0,1）
所以要对数据类型进行转换
'''
pred_y=pred_y.astype(int)
#乘客id
passenger_id=full.loc[sourceRow:,'PassengerId']
#数据框：乘客id，预测生存情况的值
predDf=pd.DataFrame(
{'PassengerId': passenger_id,
 'Survived':pred_y
})
predDf.shape
predDf.head(10)

Unnamed: 0,PassengerId,Survived
891,892,0
892,893,1
893,894,0
894,895,0
895,896,1
896,897,0
897,898,1
898,899,0
899,900,1
900,901,0


In [380]:
#保存结果
predDf.to_csv( 'titanic_pred.csv' , index = False )

![10](images/10.jpg) 

## 6.2 结论

采用逻辑回归算法，得出女性比男性存活率更高，Pclass_1相对于后面两个也更高点。