#### Pandas结合Sklearn实现titanic存活率预测
##### 实例目标：实现存活率预测
处理步骤：
1. 输入数据：使用Pandas读取训练数据（历史数据，特点是已经知道了这个人有没有存活）
2. 训练模型：使用Sklearn训练模型
3. 使用模型：对于一个新的不知道是否存活的人，预测其存活率

#### 步骤1：读取训练数据

In [1]:
import pandas as pd

In [2]:
df_train=pd.read_csv('./files/titanic.csv')

In [3]:
df_train.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


#### 其中，Survived==1 表示活，==0表示没活，其他为特征列

In [4]:
# 我们只挑选两列，作为预测需要的特征
feature_cols=['Pclass','Parch']
X=df_train.loc[:,feature_cols]
X.head()

Unnamed: 0,Pclass,Parch
0,3,0
1,3,0
2,2,0
3,3,0
4,3,1


In [5]:
# 单独提取是否存活的列，作为预测的目标
y=df_train.Survived
y.head()

0    0
1    1
2    0
3    0
4    1
Name: Survived, dtype: int64

#### 步骤2：训练模型

In [7]:
from sklearn.linear_model import LogisticRegression
# 创建模型对象
logreg=LogisticRegression()

# 实现模型训练
logreg.fit(X, y)

#### 步骤3： 对于未知数据使用模型
机器学习的核心目标，是使用模型预测未知的事物  
比如预测股票明天是涨还是跌、一套新的二手房成交价大概多少钱，用户打开APP最可能看的视频等问题

In [8]:
# 找一个历史数据中不存在的数据
X.drop_duplicates().sort_values(by=['Pclass','Parch'])

Unnamed: 0,Pclass,Parch
11,1,0
23,1,1
53,1,2
24,1,3
69,1,4
2,2,0
7,2,1
175,2,2
178,2,3
0,3,0


In [9]:
# 预测这个数据存活的概率
logreg.predict([[2,4]]) # 如上可知 历史数据中没有[2,4] 的组合



array([1], dtype=int64)

In [10]:
logreg.predict_proba([[2,4]])



array([[0.31260943, 0.68739057]])

In [None]:
# 活下来的概率为0.6873...