## 数据科学工具箱


Python中科学计算相关的包有很多，以下的组合可以说是数据科学工具箱的标配：

- **Numpy**: 提供向量，数组和矩阵类型，支持向量化运算。


- **scipy**: 由多个模块组成，包括稀疏矩阵，统计分布和最优化等。


- **matplotlib**: Python中的标准绘图模块，语法与matlab类似。


- **seaborn**: 基于matplotlib的高级绘图模块，对常用的图像提供了更简单易用的接口


- **Pandas**: 提供DataFrame数据结构，与R中的data.frame类似。内含常用的分组统计，缺失值处理等操作，包括DataFrame的读写和各种类型的转换


- **scikit-learn**: 机器学习标准库，包含常用的监督学习(分类和回归)和无监督学习方法(聚类和分类)。常用的数据预处理，特征转换和特征选择也都打包进去



## Numpy

Quickstart tutorial（快速入门教程）:https://docs.scipy.org/doc/numpy-dev/user/quickstart.html

In [1]:
import numpy as np
array_example = np.array([1, 2, 3])
print '向量化操作: %s + 1 = %s' %(array_example, array_example + 1)

向量化操作: [1 2 3] + 1 = [2 3 4]


In [2]:
array_example = np.array([[1, 2, 3],
                          [4, 5, 6],
                          [7, 8, 9]
                         ])
# element-wise 相同纬度的数组相加/乘，与R类似
print '加法: \n', array_example + array_example

print '乘法: \n', array_example * array_example

加法: 
[[ 2  4  6]
 [ 8 10 12]
 [14 16 18]]
乘法: 
[[ 1  4  9]
 [16 25 36]
 [49 64 81]]


注意: **转成矩阵后，乘法遵循矩阵的乘法规则**

$$C_{ij} = \sum_{k=1}^{m}A_{ik} * B{kj}$$

In [4]:
mat_example = np.mat(array_example)
mat_example * mat_example

matrix([[ 30,  36,  42],
        [ 66,  81,  96],
        [102, 126, 150]])

每行/列的操作：

In [5]:
# max，min等函数 也支持 定义axis在行或者列上操作运算
print '所有元素之和: ', np.sum(mat_example) 
print '每列元素之和: ', np.sum(mat_example, axis=0)
print '每行元素之和: ', np.sum(mat_example, axis=1).tolist()

所有元素之和:  45
每列元素之和:  [[12 15 18]]
每行元素之和:  [[6], [15], [24]]


`sklean`作为一个标准的机器学习库，涵盖了所有常用的模型，而且接口很一致。相对于R语言，R中的模型库略显杂乱。

`sklearn`中所有模型都是一个**estimator**对象，其`fit`方法用来拟合数据，`predict`方法做预测，`predict_proba`方法预测属于每一类的概率(如果是分类模型的话)。


基本套路:

```python
from sklearn import xx_estimator
model = xx_estimator()
model.fit(train_x, train_y)
pre = model.predict(test_x)
```

## scikit-learn


<a href="http://scikit-learn.org/stable/index.html"><img src="sklearn.png"></a>

SK-learn: http://scikit-learn.org/stable/index.html

## 建议阅读:

- [Numpy Tutorial](https://docs.scipy.org/doc/numpy-dev/user/quickstart.html)


- [10 Minutes to pandas](http://python.jobbole.com/84416/)


- [Comparison with R / R libraries](http://pandas.pydata.org/pandas-docs/stable/comparison_with_r.html)
