# Python的科学计算攻击：Scikit-Learn

Scikit-Learn提供了一系列机器学习算法的可靠实现版本。Scikit-Learn具有清晰，统一和简化的API，以及非常有用和完整的在线文档。这种一致性的好处是，一旦理解了一种类型模型的Scikit-Learn的基本用法和语法，切换到新模型或算法就非常简单。

## 回归

In [None]:
# 载入数据
import pandas as pd
import numpy as np

data = pd.read_csv('./data/boston.csv')
data.head()

In [None]:
# 可视化
import matplotlib.pyplot as plt
#matplotlib inline
x = data[['RM']]
y = data[['MEDV']]
plt.scatter(x.values, y.values)
plt.show()

### 分割数据集

In [None]:
# 从sklearn.cross_validation导入数据分割器。
from sklearn.cross_validation import train_test_split

# 随机采样25%的数据构建测试样本，其余作为训练样本。
X_train, X_test, y_train, y_test = train_test_split(x, y, random_state=33, test_size=0.25)

### 线性回归

In [None]:
# 从sklearn.linear_model导入LinearRegression
from sklearn.linear_model import LinearRegression

# 使用默认配置初始化线性回归器LinearRegression
lr = LinearRegression()

# 使用训练数据进行参数估计
lr.fit(X_train, y_train)

# 对测试数据进行回归预测
lr_y_predict = lr.predict( X_test)

# 输出参数
print('Slope: %.3f' % lr.coef_[0])
print('Intercept: %.3f' % lr.intercept_)

# 使用LinearRegression模型自带的评估模块，并输出评估结果。
print('The value of default measurement of LinearRegression is', lr.score(X_test, y_test))

In [None]:
# 可视化
plt.plot(X_test, lr_y_predict, 'r-')
plt.scatter(x.values[:],y.values[:])
plt.xlabel('Average number of rooms [RM]')
plt.ylabel('Price in $1000s [MEDV]')

#plt.savefig('images/10_07.png', dpi=300)
plt.show()

### SGD线性回归

In [None]:
# 从sklearn.linear_model导入SGDRegressor。
from sklearn.linear_model import SGDRegressor

# 使用默认配置初始化线性回归器SGDRegressor。
sgdr = SGDRegressor()
# 使用训练数据进行参数估计。
sgdr.fit(X_train, y_train)
# 对测试数据进行回归预测。
sgdr_y_predict = sgdr.predict(X_test)

# 输出参数
print('Slope: %.3f' % sgdr.coef_[0])
print('Intercept: %.3f' % sgdr.intercept_)

# 使用SGDRegressor模型自带的评估模块，并输出评估结果。
print('The value of default measurement of SGDRegressor is', sgdr.score(X_test, y_test))

In [None]:
# 可视化
plt.plot(X_test, sgdr_y_predict, 'r-')
plt.scatter(x.values[:],y.values[:])
plt.xlabel('Average number of rooms [RM]')
plt.ylabel('Price in $1000s [MEDV]')

#plt.savefig('images/10_07.png', dpi=300)
plt.show()

### 支持向量机（回归）

In [None]:
# 从sklearn.svm中导入支持向量机（回归）模型。
from sklearn.svm import SVR

# 使用线性核函数配置的支持向量机进行回归训练，并且对测试样本进行预测。
linear_svr = SVR(kernel='linear')
linear_svr.fit(X_train, y_train)
linear_svr_y_predict = linear_svr.predict(X_test)

# 使用多项式核函数配置的支持向量机进行回归训练，并且对测试样本进行预测。
poly_svr = SVR(kernel='poly')
poly_svr.fit(X_train, y_train)
poly_svr_y_predict = poly_svr.predict(X_test)

# 使用径向基核函数配置的支持向量机进行回归训练，并且对测试样本进行预测。
rbf_svr = SVR(kernel='rbf')
rbf_svr.fit(X_train, y_train)
rbf_svr_y_predict = rbf_svr.predict(X_test)

print('R-squared value of linear SVR is', linear_svr.score(X_test, y_test))
print('R-squared value of Poly SVR is', poly_svr.score(X_test, y_test))
print('R-squared value of RBF SVR is', rbf_svr.score(X_test, y_test))

### K近邻回归器

In [None]:
# 从sklearn.neighbors导入KNeighborRegressor（K近邻回归器）。
from sklearn.neighbors import KNeighborsRegressor

# 初始化K近邻回归器，并且调整配置，使得预测的方式为平均回归：weights='uniform'。
uni_knr = KNeighborsRegressor(weights='uniform')
uni_knr.fit(X_train, y_train)
uni_knr_y_predict = uni_knr.predict(X_test)

# 初始化K近邻回归器，并且调整配置，使得预测的方式为根据距离加权回归：weights='distance'。
dis_knr = KNeighborsRegressor(weights='distance')
dis_knr.fit(X_train, y_train)
dis_knr_y_predict = dis_knr.predict(X_test)

print('R-squared value of uniform-weighted KNeighorRegression:', uni_knr.score(X_test, y_test))
print( 'R-squared value of distance-weighted KNeighorRegression:', dis_knr.score(X_test, y_test))

### 决策树回归

In [None]:
# 从sklearn.tree中导入DecisionTreeRegressor。
from sklearn.tree import DecisionTreeRegressor
# 使用默认配置初始化DecisionTreeRegressor。
dtr = DecisionTreeRegressor()
# 用波士顿房价的训练数据构建回归树。
dtr.fit(X_train, y_train)
# 使用默认配置的单一回归树对测试数据进行预测，并将预测值存储在变量dtr_y_predict中。
dtr_y_predict = dtr.predict(X_test)

print('R-squared value of DecisionTreeRegressor:', dtr.score(X_test, y_test))

### 随机森林回归

In [None]:
# 从sklearn.ensemble中导入RandomForestRegressor、ExtraTreesGressor以及GradientBoostingRegressor。
from sklearn.ensemble import RandomForestRegressor, ExtraTreesRegressor, GradientBoostingRegressor

# 使用RandomForestRegressor训练模型，并对测试数据做出预测，结果存储在变量rfr_y_predict中。
rfr = RandomForestRegressor()
rfr.fit(X_train, y_train)
rfr_y_predict = rfr.predict(X_test)

# 使用ExtraTreesRegressor训练模型，并对测试数据做出预测，结果存储在变量etr_y_predict中。
etr = ExtraTreesRegressor()
etr.fit(X_train, y_train)
etr_y_predict = etr.predict(X_test)

# 使用GradientBoostingRegressor训练模型，并对测试数据做出预测，结果存储在变量gbr_y_predict中。
gbr = GradientBoostingRegressor()
gbr.fit(X_train, y_train)
gbr_y_predict = gbr.predict(X_test)

print('R-squared value of RandomForestRegressor:', rfr.score(X_test, y_test))
print('R-squared value of ExtraTreesRegessor:', etr.score(X_test, y_test))
print('R-squared value of GradientBoostingRegressor:', gbr.score(X_test, y_test))

## 分类

In [None]:
# 导入数据
iris = pd.read_csv('./data/iris.csv')
# 去重
print(iris.drop_duplicates(['species']))

# 显示数据
iris.head()

In [None]:
# 编码
species_mapping = {'setosa': 0,
                  'versicolor': 1,
                  'virginica': 2}
iris['species'] = iris['species'].map(species_mapping)

iris.drop_duplicates(['species'])

In [None]:
# 可视化
iris_0 = iris.loc[iris['species'] == 0][['sepal_length', 'sepal_width']]
iris_1 = iris.loc[iris['species'] == 1][['sepal_length', 'sepal_width']]

plt.scatter(iris_0['sepal_length'],iris_0['sepal_width'])
plt.scatter(iris_1['sepal_length'],iris_1['sepal_width'])
plt.show()

### 分割数据集

In [None]:
# 从sklearn.cross_validation导入数据分割器。
from sklearn.cross_validation import train_test_split

x = iris.iloc[:100, 0:1]
y = iris.iloc[:100, -1]
# 随机采样25%的数据构建测试样本，其余作为训练样本。
X_train, X_test, y_train, y_test = train_test_split(x, y, random_state=33, test_size=0.25)

### 感知器

In [None]:
# 从sklearn.linear_model导入Perceptron
from sklearn.linear_model import Perceptron

# 使用默认配置初始化线性回归器LinearRegression
ppn = Perceptron(n_iter=40, eta0=0.1, random_state=0)

# 使用训练数据进行参数估计
ppn.fit(X_train, y_train)

# 对测试数据进行回归预测
y_predict = lr.predict( X_test)

# 使用感知器模型自带的评分函数score获得模型在测试集上的准确性结果。
print('Accuracy of Perceptron Classifier:', ppn.score(X_test, y_test))

### 逻辑回归

In [None]:
# 从sklearn.linear_model里导入LogisticRegression与SGDClassifier。
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import SGDClassifier

# 初始化LogisticRegression与SGDClassifier。
lr = LogisticRegression()
sgdc = SGDClassifier()

# 调用LogisticRegression中的fit函数/模块用来训练模型参数。
lr.fit(X_train, y_train)
# 使用训练好的模型lr对X_test进行预测，结果储存在变量lr_y_predict中。
lr_y_predict = lr.predict(X_test)

# 调用SGDClassifier中的fit函数/模块用来训练模型参数。
sgdc.fit(X_train, y_train)
# 使用训练好的模型sgdc对X_test进行预测，结果储存在变量sgdc_y_predict中。
sgdc_y_predict = sgdc.predict(X_test)

# 使用逻辑斯蒂回归模型自带的评分函数score获得模型在测试集上的准确性结果。
print('Accuracy of LR Classifier:', lr.score(X_test, y_test))
 # 使用随机梯度下降模型自带的评分函数score获得模型在测试集上的准确性结果。
print('Accuarcy of SGD Classifier:', sgdc.score(X_test, y_test))

### 支持向量机分类器

In [None]:
# 从sklearn.svm里导入基于线性假设的支持向量机分类器LinearSVC。
from sklearn.svm import LinearSVC

# 初始化线性假设的支持向量机分类器LinearSVC。
lsvc = LinearSVC()
#进行模型训练
lsvc.fit(X_train, y_train)
# 利用训练好的模型对测试样本的数字类别进行预测，预测结果储存在变量y_predict中。
y_predict = lsvc.predict(X_test)

# 使用模型自带的评估函数进行准确性测评。
print('The Accuracy of Linear SVC is', lsvc.score(X_test, y_test))

### 朴素贝叶斯模型

In [None]:
# 从sklearn.naive_bayes里导入朴素贝叶斯模型。
from sklearn.naive_bayes import MultinomialNB

# 从使用默认配置初始化朴素贝叶斯模型。
mnb = MultinomialNB()
# 利用训练数据对模型参数进行估计。
mnb.fit(X_train, y_train)
# 对测试样本进行类别预测，结果存储在变量y_predict中。
y_predict = mnb.predict(X_test)

print('The accuracy of Naive Bayes Classifier is', mnb.score(X_test, y_test))

### KNN分类器

In [None]:
# 从sklearn.neighbors里选择导入KNeighborsClassifier，即K近邻分类器。
from sklearn.neighbors import KNeighborsClassifier


# 使用K近邻分类器对测试数据进行类别预测，预测结果储存在变量y_predict中。
knc = KNeighborsClassifier()
knc.fit(X_train, y_train)
y_predict = knc.predict(X_test)

# 使用模型自带的评估函数进行准确性测评。
print('The accuracy of K-Nearest Neighbor Classifier is', knc.score(X_test, y_test))

### 决策树

In [None]:
# 从sklearn.tree中导入决策树分类器。
from sklearn.tree import DecisionTreeClassifier
# 使用默认配置初始化决策树分类器。
dtc = DecisionTreeClassifier()
# 使用分割到的训练数据进行模型学习。
dtc.fit(X_train, y_train)
# 用训练好的决策树模型对测试特征数据进行预测。
y_predict = dtc.predict(X_test)

# 使用模型自带的评估函数进行准确性测评。
print('The accuracy of DecisionTree Classifier is', dtc.score(X_test, y_test))

### 随机森林

In [None]:
# 使用随机森林分类器进行集成模型的训练以及预测分析。
from sklearn.ensemble import RandomForestClassifier

rfc = RandomForestClassifier()
rfc.fit(X_train, y_train)
rfc_y_pred = rfc.predict(X_test)

# 输出随机森林分类器在测试集上的分类准确性。
print('The accuracy of random forest classifier is', rfc.score(X_test, y_test))

In [None]:
# 使用梯度提升决策树进行集成模型的训练以及预测分析。
from sklearn.ensemble import GradientBoostingClassifier

gbc = GradientBoostingClassifier()
gbc.fit(X_train, y_train)
gbc_y_pred = gbc.predict(X_test)

# 输出梯度提升决策树在测试集上的分类准确性。
print('The accuracy of gradient tree boosting is', gbc.score(X_test, y_test))

## 聚类

In [None]:
# 生成数据
from sklearn.datasets import make_blobs

X, y = make_blobs(n_samples=150, 
                  n_features=2, 
                  centers=3, 
                  cluster_std=0.5, 
                  shuffle=True, 
                  random_state=0)

import matplotlib.pyplot as plt

plt.scatter(X[:, 0], X[:, 1], 
            c='white', marker='o', edgecolor='black', s=50)
plt.grid()
plt.tight_layout()
plt.show()

### KMeans

In [None]:
# 训练模型
from sklearn.cluster import KMeans

km = KMeans(n_clusters=3, 
            init='random', 
            n_init=10, 
            max_iter=300,
            tol=1e-04,
            random_state=0)

y_km = km.fit_predict(X)

In [None]:
# 可视化
plt.scatter(X[y_km == 0, 0],
            X[y_km == 0, 1],
            s=50, c='lightgreen',
            marker='s', edgecolor='black',
            label='cluster 1')
plt.scatter(X[y_km == 1, 0],
            X[y_km == 1, 1],
            s=50, c='orange',
            marker='o', edgecolor='black',
            label='cluster 2')
plt.scatter(X[y_km == 2, 0],
            X[y_km == 2, 1],
            s=50, c='lightblue',
            marker='v', edgecolor='black',
            label='cluster 3')
plt.scatter(km.cluster_centers_[:, 0],
            km.cluster_centers_[:, 1],
            s=250, marker='*',
            c='red', edgecolor='black',
            label='centroids')
plt.legend(scatterpoints=1)
plt.grid()
plt.tight_layout()
plt.show()