*在学习极具理论性的学科时，大量的练习都是深入理解知识的一大助力。*   
*此系列文章希望从工程实践的角度出发，自顶向下地学习和理解机器学习。*

这是此系列文章的第一篇，从实践Kaggle网站中的入门项目Titanic出发，完整地介绍和搭建一个运用Scipy技术栈来运用机器学习的框架。

<!--more-->

## 机器学习工程概览

先让我们看一下来自周志华教授对机器学习的定义，从中，我们可以窥见一个完整的机器学习项目应该包括哪些步骤:

> 机器学习是这样的一门学科，它致力于研究如何通过计算的手段，利用经验来改善系统自身的性能。   
> 在计算机系统中，“经验”通常以“数据”形式存在，因此，机器学习所研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。   
> ---[《机器学习》周志华](https://book.douban.com/subject/26708119/)

从输入输出的角度出发，一个完整的机器学习工程理应包括以下几个步骤:

1. 收集原始数据
2. 清洗/整理原始数据从而得到有效数据
3. 利用有效数据和“学习算法”来获得一个模型
4. 评估此模型
5. 重复3和4直到获得一个理想的模型

Scipy技术栈在以上的每一个环节都提供了高效的工具，接下来我们将针对每一个环节，做一个大致的工程实践，并了解Scipy工具的大致运用。

## Scipy技术栈

Scipy顾名思义就是python语言下的科学计算栈，其中包含了几个核心代码库：

* [Numpy](http://www.numpy.org/) - 高性能的矩阵运算库。
    * http://cs231n.github.io/python-numpy-tutorial/
* [Pandas](http://pandas.pydata.org/) - 建立在Numpy之上的数据处理库，用于读取，分析，清洗数据。
* [Scikit-Learn](http://scikit-learn.org/stable/) - 高效的机器学习算法库，这是我们以后要重点研究的对象。值得一提的是，它的文档做得非常棒。
* [iPython](https://ipython.org/) - 更加智能的python交互式命令行环境，是我们在快速查看，分析，实验数据和算法的好帮手。
* [Jupyter](http://jupyter.org/) - 一个非常适用于数据科学使用的笔记系统，你现在看到的这个网页就是用Jupyter生成的。


## 收集原始数据

获取原始数据的方法无非两种：自己收集或者引用现成数据。前者因工程而异，而后者我们使用非常流行的[Kaggle](https://www.kaggle.com)网站。

在此我们选择Kaggle中的入门项目Titanic。

## 清洗/整理原始数据

[Pandas](http://pandas.pydata.org/)提供了读取，清洗，分析数据的函数。

In [6]:
import pandas as pd

In [7]:
data = pd.read_csv('./data/train.csv')

In [8]:
data.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
