# 机器学习包 sklearn


## 一、总体说明
Scikit-Learn 是基于 Python 的开源机器学习模块,最早由 David Cournapeau 在 2007 年发起的,目前也是由社区自愿者进行维护。官方网站是 http://scikit-learn.org/stable/
，在上面可以找到相关的 Scikit-Learn 的资源、模块下载、文档、例程等。

Scikit-Learn 的安装 需要 numpy, scipy , matplotlib 等模块 , Windows 系统 可以在http://www.lfd.uci.edu/~gohlke/pythonlibs 直接下载编译好的安装包以及依赖包, 也可以到网址下载 http://sourceforge.jp/projects/sfnet_scikit-learn/。

scikit-learn 的基本功能主要被分为六个部分:分类, 回归, 聚类, 数据降维, 模型选择,
数据预处理。对于具体的机器学习问题,通常可以分为三个步骤,数据准备与预处理,模型
选择与训练,模型验证与参数调优。

## 二、代表性函数使用介绍
1.加载数据(Data Loading)

我们假设输入是一个特征矩阵或者 csv 文件。首先,数据应该被载入内存中。scikit-learn
的实现使用了 NumPy 中的 arrays,所以,我们要使用 NumPy 来载入 csv 文件。以下是从 UCI
机器学习数据仓库中下载的数据。

In [1]:
import numpy as np
import urllib
# url with dataset
url = "http://archive.ics.uci.edu/ml/machine-learning-databases/pima-indians-diabetes/pima-indians-diabetes.data"
# download the file
raw_data = urllib.urlopen(url)
# load the CSV file as a numpy matrix
dataset = np.loadtxt(raw_data, delimiter=",")
# separate the data from the target attributes
X = dataset[:,0:7]
y = dataset[:,8]

我们要使用该数据集作为例子,将特征矩阵作为 X,目标变量作为 y。

2.数据归一化(Data Normalization)

大多数机器学习算法中的梯度方法对于数据的缩放和尺度都是很敏感的, 在开始跑算法
之前,我们应该进行归一化或者标准化的过程,这使得特征数据缩放到 0-1 范围中。
scikit-learn 提供了归一化的方法:

In [2]:
from sklearn import preprocessing
# normalize the data attributes
normalized_X = preprocessing.normalize(X)
# standardize the data attributes
standardized_X = preprocessing.scale(X)

3.特征选择(Feature Selection)

在解决一个实际问题的过程中, 选择合适的特征或者构建特征的能力特别重要。 这成为
特征选择或者特征工程。

特征选择时一个很需要创造力的过程,更多的依赖于直觉和专业知识, 并且有很多现成的算
法来进行特征的选择。

下面的树算法(Tree algorithms)计算特征的信息量:

In [3]:
from sklearn import metrics
from sklearn.ensemble import ExtraTreesClassifier
model = ExtraTreesClassifier()
model.fit(X, y)
# display the relative importance of each attribute
print(model.feature_importances_)

[ 0.12390088  0.27425917  0.12085612  0.09199154  0.08475174  0.16883938
  0.13540118]


## 三、机器学习算法的使用
scikit-learn 实现了机器学习的大部分基础算法,让我们快速了解一下。

### 1.逻辑回归
大多数问题都可以归结为二元分类问题。 这个算法的优点是可以给出数据所在类别的概
率。

In [4]:
from sklearn import metrics
from sklearn.linear_model import LogisticRegression

In [None]:
model = LogisticRegression()
model.fit(X, y)
print(model)

In [None]:
# make predictions
expected = y
predicted = model.predict(X)

In [None]:
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

### 2.朴素贝叶斯
这也是著名的机器学习算法, 该方法的任务是还原训练样本数据的分布密度, 其在多类
别分类中有很好的效果。

In [2]:
from sklearn import metrics
from sklearn.naive_bayes import GaussianNB

In [None]:
model = GaussianNB()
model.fit(X, y)
print(model)

In [None]:
# make predictions
expected = y
predicted = model.predict(X)

In [None]:
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

### 3.k 近邻
k 近邻算法常常被用作是分类算法一部分,比如可以用它来评估特征,在特征选择上我
们可以用到它。

In [3]:
from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier

In [None]:
# fit a k-nearest neighbor model to the data
model = KNeighborsClassifier()
model.fit(X, y)
print(model)

In [None]:
# make predictions
expected = y
predicted = model.predict(X)

In [None]:
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

### 4.决策树
分类与回归树(Classification and Regression Trees ,CART)算法常用于特征含有类
别信息的分类或者回归问题,这种方法非常适用于多分类情况。

In [4]:
from sklearn import metrics
from sklearn.tree import DecisionTreeClassifier

In [None]:
# fit a CART model to the data
model = DecisionTreeClassifier()
model.fit(X, y)
print(model)

In [None]:
# make predictions
expected = y
predicted = model.predict(X)

In [None]:
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

### 5.支持向量机
SVM 是非常流行的机器学习算法,主要用于分类问题,如同逻辑回归问题,它可以使用
一对多的方法进行多类别的分类。

In [5]:
from sklearn import metrics
from sklearn.svm import SVC

In [None]:
# fit a SVM model to the data
model = SVC()
model.fit(X, y)
print(model)

In [None]:
# make predictions
expected = y
predicted = model.predict(X)

In [None]:
# summarize the fit of the model
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

除了分类和回归算法外,scikit-learn 提供了更加复杂的算法,比如聚类算法,还实
现了算法组合的技术,如 Bagging 和 Boosting 算法。

## 四、如何优化算法参数

一项更加困难的任务是构建一个有效的方法用于选择正确的参数, 我们需要用搜索的方
法来确定参数。scikit-learn 提供了实现这一目标的函数。

下面的例子是一个进行正则参数选择的程序:

In [6]:
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.grid_search import GridSearchCV

In [7]:
# prepare a range of alpha values to test
alphas = np.array([1,0.1,0.01,0.001,0.0001,0])

In [None]:
# create and fit a ridge regression model, testing each alpha
model = Ridge()
grid = GridSearchCV(estimator=model, param_grid=dict(alpha=alphas))
grid.fit(X, y)
print(grid)

In [None]:
# summarize the results of the grid search
print(grid.best_score_)
print(grid.best_estimator_.alpha)

有时随机从给定区间中选择参数是很有效的方法, 然后根据这些参数来评估算法的效果
进而选择最佳的那个。

In [8]:
import numpy as np
from scipy.stats import uniform as sp_rand
from sklearn.linear_model import Ridge
from sklearn.grid_search import RandomizedSearchCV

In [9]:
# prepare a uniform distribution to sample for the alpha parameter
param_grid = {'alpha': sp_rand()}

In [None]:
# create and fit a ridge regression model, testing random alpha values
model = Ridge()
rsearch = RandomizedSearchCV(estimator=model, param_distributions=param_grid,
n_iter=100)
rsearch.fit(X, y)
print(rsearch)

In [None]:
# summarize the results of the random parameter search
print(rsearch.best_score_)
print(rsearch.best_estimator_.alpha)