# 1.获取数据

In [31]:
import numpy as np
import pandas as pd
import sklearn 
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline 
from warnings import filterwarnings
filterwarnings('ignore')

In [32]:
train_data = pd.read_csv('F://Kaggle/Kaggle House/train.csv')
test_data = pd.read_csv('F://Kaggle/Kaggle House/test.csv')

In [33]:
from sklearn import datasets
iris = datasets.load_iris()
x = iris.data
y = iris.target

# 2.数据预处理

In [34]:
from sklearn import preprocessing

## 1)数据归一化

In [41]:
train_data = [[0,0],[0,0],[1,1],[1,1]]
test_data = [[0,0],[0,0],[1,1],[1,1]]
# 基于mean和std的标准化,将其变为标准正态分布，均值为0， 方差为1
scaler = preprocessing.StandardScaler().fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)

# 将特征值归一化到一个特定的范围内(feature_range)
scaler = preprocessing.MinMaxScaler(feature_range=(-1, 1)).fit(train_data)
scaler.transform(train_data)
scaler.transform(test_data)

array([[-1., -1.],
       [-1., -1.],
       [ 1.,  1.],
       [ 1.,  1.]])

## 2) 正则化(normalized) 
#### 当你想要计算两个样本的相似度时必不可少的一个操作，就是正则化。其思想是：首先求出样本的p-范数，然后该样本的所有元素都要除以该范数，这样最终使得每个样本的范数都为1。

In [46]:
x = [ [1, -1, 2],
      [2,  0, 0],
      [0,  1,-1]]
x_normalized = preprocessing.normalize(x) #默认为：L2正则化 norm='l2'
x_normalized

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

## 3)独热编码(one-hot-encoding)

In [55]:
data = [[0, 3], [0,1], [1,0], [1,1]]
encoder = preprocessing.OneHotEncoder().fit(data)
encoder.transform(data).toarray()

array([[1., 0., 0., 0., 1.],
       [1., 0., 0., 1., 0.],
       [0., 1., 1., 0., 0.],
       [0., 1., 0., 1., 0.]])

## 4)数据集拆分(train test split)

In [56]:
from sklearn.cross_validation import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=44, test_size=0.20)

## 5) 模型训练

In [None]:
# 拟合模型
model.fit(X_train, y_train)
#模型预测
model.predict(X_test)

#获得这个模型的参数
model.get_params()
#为模型打分
model.score(data_x, data_y) #线性回归 R square  分类问题 acc

## 5.1) 线性回归模型

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression(fit_intercept=True, normalize=False, 
    copy_X=True, n_jobs=1)

'''
参数
---
    fit_intercept：是否计算截距。False-模型没有截距
    normalize： 当fit_intercept设置为False时，该参数将被忽略。 如果为真，则回归前的回归系数X将通过减去平均值并除以l2-范数而归一化。
     n_jobs：指定线程数
 '''


## 5.2)朴素贝叶斯算法NB

In [62]:
from sklearn import naive_bayes
model = naive_bayes.GaussianNB() #高斯贝叶斯
model = naive_bayes.MultinomialNB(alpha=0.1, fit_prior=True, class_prior=None)
model = naive_bayes.BernoulliNB(alpha=0.1, binarize=0.0, fit_prior=True, class_prior=None)

## 5.3) 决策树DT 

In [64]:
from sklearn import tree
model = tree.DecisionTreeClassifier(criterion='gini', max_depth=None, min_samples_split=2, 
                                    min_samples_leaf=1, max_features=None, max_leaf_nodes=None,min_impurity_decrease=None )

"""参数
---
    criterion ：特征选择准则gini/entropy
    max_depth：树的最大深度，None-尽量下分
    min_samples_split：分裂内部节点，所需要的最小样本树
    min_samples_leaf：叶子节点所需要的最小样本数
    max_features: 寻找最优分割点时的最大特征数
    max_leaf_nodes：优先增长到最大叶子节点数
    min_impurity_decrease：如果这种分离导致杂质的减少大于或等于这个值，则节点将被拆分。
"""

## 5.4)SVM

In [65]:
from sklearn.svm import SVC
model = SVC(C=0.1, kernel='rbf', gamma='auto')
'''
参数：
C: 误差项的惩罚参数
gamma: 核相关系数。浮点数，if gamma is 'auto', then 1/n features will be instead.
'''

## 5.5)KNN算法

In [None]:
from sklearn import neighbors
model = neighbors.KNeighborsClassifier(n_neighbors=5, n_jobs=1)
model = neighbors.KNeighborsRegressor(n_neighbors=5, n_jobs=1)

'''
参数：
n_neighbours: 簇群的个数
n_jobs：并行任务数
'''

## 5.6)神经网络

In [None]:
from sklearn.neural_network import MLPClassifier
model = MLPClassifier(activation='relu', solver='adam', alpha=0.0001)

'''
参数：
hidden_layer_sizes: 隐藏层数
activation: 激活函数
solver: 优化算法{‘lbfgs’, ‘sgd’, ‘adam’}
alpha: 正则化项参数
'''

# 模型评估与选择篇

## 6.1) 交叉验证

In [None]:
from sklearn.model_selection import cross_val_score
cross_val_score(model, X, y=None, cv=None, n_jobs=1)
'''
参数：
model:拟合数据模型
cv: k-fold
scoring: 打分参数-‘accuracy’、‘f1’、‘precision’、‘recall’ 、‘roc_auc’、'neg_log_loss'等等
'''

## 6.2) 校验曲线
#### 使用检验曲线，我们可以更方便的改变模型参数，获取模型表现

In [None]:
from sklearn.model_selection import validation_curve
train_score, test_score = validation_curve(model, X, y, param_name, param_range, cv=None， n_jobs=1)
'''
参数：
    model：用于fit和predict的对象
    X,y:训练集的特征和标签
    param_name: 将被改变的参数的名字
    param_range: 参数的改变范围
    cv:k-fold
返回值：
    train_score:训练集得分(array)
    test_score:测试集得分(array)
'''

# 7.保存模型
#### 最后，我们可以将训练好的模型保存下来，供以后使用，通常保存模型有两种方式

## 7.1) 保存为pickle文件

In [None]:
import pickle

#保存模型
with open('model.pickle', 'wb') as f:
    pickle.dump(model, f)

#读取模型
with open('model.pickle', 'rb') as f:
    model = pickle.load(f)
model.predict(X_test)

## 7.2) 使用sklearn自带的joblib方法

In [71]:
from sklearn import joblib

#保存模型
joblib.dump(model, 'model.pickle')

#读取模型
joblib.load('model.pickle')