## 分类算法
### 1.sklearn转换器与估计器
### 2.KNN算法
### 3.模型选择与调优
### 4.朴素贝叶斯算法
### 5.决策树
### 6.随机森林

### 2.1sklearn转换器与估计器
* 转换器
    1. 实例化一个Transformer类
    2. 调用fit_transform()
* 估计器
    1. 实例化一个estimeter类
    2. estimeter.fit(x_train,y_train) 传去训练集的特征值和目标值，进行计算
    3. 模型评估:  
        3.1 直接比对真实值和预测值:  
            y_predict = estimeter.predict(x_test)
            y_test == y_predict
        3.2 计算准确率:  
            estimeter.score(x_test,y_test)

### 2.2 KNN算法（K-近邻算法）
* 定义：
    如果一个样本在特征空间中的k个最相似(即特征空间最近)的大多数属于某一个类别，则这个样本也属于这个类别
* 距离公式:  
比如说,a(a1,a2,a3),b(b1,b2,b3)
    $$ \sqrt{(a1 - b1)^2 + (a2 - b2) ^ 2 + (a3 - b3) ^ 2} $$
* 由于计算的时间复杂度比较高，适用于少量数据的机器学习

#### 2.2.1 KNN算法API
* sklearn.neighbors.KNeighborsClassifier(n_neighbers = 5,,algorithm = 'auto')
    + n_neightbors : 查询使用的邻居数
    + algorithm : {'auto','ball_tree','kd_tree','brute'},'auto'自动选择最高效的算法

#### 2.2.2 案例：鸢尾花种类预测

In [1]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier

#获取数据集
iris = load_iris()

#划分数据集
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state = 6)

#特征工程：标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)#因为fit的计算步骤已经在训练集完成了，而测试集需要做和训练集相同的转换，所以直接转换，而不要用自己的fit

#KNN算法预估器
estimeter = KNeighborsClassifier(n_neighbors = 5)
estimeter.fit(x_train,y_train) 

#模型预估
#方法1
y_predict = estimeter.predict(x_test)
print("直接比对真实值和预测值：\n",y_test == y_predict)

#方法2
print("计算准确率: \n",estimeter.score(x_test,y_test))


直接比对真实值和预测值：
 [ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True False  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True False  True
  True  True]
计算准确率: 
 0.9473684210526315


In [6]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

### 2.3 模型的选择与调优
* 内容  
    交叉验证过程  
    超参数搜索过程  
    应用GridSearchCV实现算法参数的调优  
* 应用  
    鸢尾花数据集预测  
    Facebook签到位置预测

#### 2.3.1 交叉验证
交叉验证：将训练数据分为训练集和验证集。如将数据分成4份，其中一份作为验证集，然后经过4组的测试，每次更换不同的验证集，得到4个结果（准确率），取平均值作为最终结果。

#### 2.3.2 超参数网格搜索
通常情况下，有很多参数需要手动指定，称为超参数。但是比较麻烦，所以需要对模型预设几组超参数组合。每个组合用交叉验证进行评估，以选出最优解。

#### 模型选择与调优API
* sklearn.model_selection.GridSearchCV(estimeter,param_grid = None,cv = None)
    * estimeter:估计器对象
    * param_grid:估计器参数(dict){"n_neighbors":[1,3,5]}
    * cv:指定进行几次交叉验证
    * fit():输入训练数据
    * score()：准确率
    * 结果:  
        最佳参数：best_params_  
        最佳结果：best_score_  
        最佳估计器：best_estimeter_  
        交叉验证结果：cv_results_  

#### 2.3.3 重写鸢尾花案例，使用交叉验证和网格搜索

In [9]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import GridSearchCV

#获取数据集
iris = load_iris()

#划分数据集
x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state = 6)

#特征工程：标准化
transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)#因为fit的计算步骤已经在训练集完成了，而测试集需要做和训练集相同的转换，所以直接转换，而不要用自己的fit

#KNN算法预估器
estimeter = KNeighborsClassifier(n_neighbors = 3)

#加入网格搜索与交叉验证
param_dict = {"n_neighbors" : [1,3,5,7,9,11]}
estimeter = GridSearchCV(estimeter, param_grid = param_dict,cv = 10)
estimeter.fit(x_train,y_train) 

#模型预估
#方法1
y_predict = estimeter.predict(x_test)
print("直接比对真实值和预测值：\n",y_test == y_predict)

#方法2
print("计算准确率: \n",estimeter.score(x_test,y_test))

print("最佳参数：\n",estimeter.best_params_)
print("最佳结果:\n",estimeter.best_score_)

直接比对真实值和预测值：
 [ True  True  True  True  True  True  True  True  True  True  True  True
  True  True  True False  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True False  True
  True  True]
计算准确率: 
 0.9473684210526315
最佳参数：
 {'n_neighbors': 5}
最佳结果:
 0.9732142857142857


#### 2.3.4 案例：预测facebook签到位置
因数据不足，略过

### 2.4 朴素贝叶斯算法
* 贝叶斯公式
$$ P(C|F_1,F_2,...) = \frac{P(F_1,F_2,...|C)P(C)}{P(F_1,F_2,...)} $$
朴素：假设特征与特征之间是相互独立的  

* 如果运用在文本分类中：
    * P(C)：每个文档类别的概率
    * P(W|C):给定类别下特征（W可以是被预测文本中出现的词）的概率
        * 计算方法：
$$ P(F_1|C) = \frac{F_1在C类文本中出现的次数}{所有词在C类文本中出现的次数和} $$
    * P(F1,F2,...) 被预测文本中各个词出现的概率

* 为了防止计算出的分类概率为0，需要引入拉普拉斯平滑系数
$$ P(F_1|C) = \frac{N_i + α)}{N + αm} $$
α为指定的系数一般为1，m为训练文档中出现的特征词的个数

##### 2.4.1 API
* sklearn.naive_bayes.MultinomialNB(alpha = 1.0)
    + alpha : 拉普拉斯平滑系数

##### 2.4.2 案例：对新闻进行分类

In [16]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.naive_bayes import MultinomialNB

In [19]:
#1. 获取数据
news = fetch_20newsgroups(subset = "all")

#2. 划分数据集
x_train,x_test,y_train,y_test = train_test_split(news.data,news.target)

#3. 特征工程，进行文本特征抽取
transfer = TfidfVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

# 4. 朴素贝叶斯算法预估器
estimeter = MultinomialNB()
estimeter.fit(x_train,y_train)

#模型评估
score = estimeter.score(x_test,y_test)
print("准确率为:\n",score)

准确率为:
 0.841044142614601


### 2.5 决策树
* 内容
    * 2.5.1 认识决策树
    * 2.5.2 决策树分类原理
    * 2.5.3 决策树API
    * 2.5.4 案例
    * 2.5.5 决策树可视化
    * 2.5.6 总结

#### 2.5.1 决策树：如何高效地进行决策，根据特征的先后顺序

#### 2.5.2 原理：信息熵，信息增益等信息论的知识
* 信息：消除随机不确定性的东西
* 信息熵：衡量信息量的量，单位为比特.  
    计算公式：
    $$ H(X) = - \sum_{n}^{i=1}{P(x_i)log_bP(x_i)} $$
    $$ P(x_i) = \frac{|C_i|}{|D|} $$
    $$ C_i 表示某一类别的样本数 $$

* 决策树的划分依据之一 —— 信息增益
    * 定义与公式：  
        特征A对训练数据集D的信息增益g(D,A)可以定义为，集合D的信息熵H(D)与特征A在给定条件下的D的信息条件熵H(D|A)之差。通俗地讲即在知道特征D后总体的信息熵或不确定度减小了多少。
        $$ g(D,A) = H(D) - H(D|A) $$
        条件熵的计算：
        $$ H(D|A) = \sum_{n}^{i = 1}{\frac{|D_i|}{|D|}H(D_i)} = -\sum_{n}^{i=1}{\frac{|D_i|}{|D|}}\sum_{K}^{k=1}{\frac{|D_ik|}{|D_i|}log\frac{|D_ik|}{|D_i|}} $$

#### 2.5.3 决策树API
* sklearn.tree.DecisionTreeClassifier(criterion = 'gini',max_depth = None,random_state = None)
    * max_depth:数的深度大小，不宜过大，也不宜过小。过大会导致过度拟合。
    * criterion:默认是'gini',也可以选择信息增益的'entropy'

In [21]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier

In [22]:
# 用决策树对鸢尾花进行分类
iris = load_iris()

x_train,x_test,y_train,y_test = train_test_split(iris.data,iris.target,random_state = 6)

estimeter = DecisionTreeClassifier('entropy')
estimeter.fit(x_train,y_train)

#模型预估
#方法1
y_predict = estimeter.predict(x_test)
print("直接比对真实值和预测值：\n",y_test == y_predict)

#方法2
print("计算准确率: \n",estimeter.score(x_test,y_test))

直接比对真实值和预测值：
 [ True  True  True  True  True  True False  True  True  True  True  True
  True  True  True False  True  True  True  True  True  True  True  True
  True  True  True  True  True  True  True  True  True  True False  True
  True  True]
计算准确率: 
 0.9210526315789473


#### 2.5.4 决策树的可视化
* 保存树的结构到dot文件
    * sklearn.tree.export_graphviz()
        ** tree.export_graphviz(estimeter,out_file = 'tree.dot',feature_names = ['',''])

In [24]:
from sklearn.tree import export_graphviz
export_graphviz(estimeter,"iris_tree.dot",feature_names = iris.feature_names)

#### 2.5.5 案例：泰坦尼克游客生存预测
* 数据来源：http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt

In [26]:
import pandas as pd
path = "http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.txt"
titanic = pd.read_csv(path)
titanic

Unnamed: 0,row.names,pclass,survived,name,age,embarked,home.dest,room,ticket,boat,sex
0,1,1st,1,"Allen, Miss Elisabeth Walton",29.0000,Southampton,"St Louis, MO",B-5,24160 L221,2,female
1,2,1st,0,"Allison, Miss Helen Loraine",2.0000,Southampton,"Montreal, PQ / Chesterville, ON",C26,,,female
2,3,1st,0,"Allison, Mr Hudson Joshua Creighton",30.0000,Southampton,"Montreal, PQ / Chesterville, ON",C26,,(135),male
3,4,1st,0,"Allison, Mrs Hudson J.C. (Bessie Waldo Daniels)",25.0000,Southampton,"Montreal, PQ / Chesterville, ON",C26,,,female
4,5,1st,1,"Allison, Master Hudson Trevor",0.9167,Southampton,"Montreal, PQ / Chesterville, ON",C22,,11,male
5,6,1st,1,"Anderson, Mr Harry",47.0000,Southampton,"New York, NY",E-12,,3,male
6,7,1st,1,"Andrews, Miss Kornelia Theodosia",63.0000,Southampton,"Hudson, NY",D-7,13502 L77,10,female
7,8,1st,0,"Andrews, Mr Thomas, jr",39.0000,Southampton,"Belfast, NI",A-36,,,male
8,9,1st,1,"Appleton, Mrs Edward Dale (Charlotte Lamson)",58.0000,Southampton,"Bayside, Queens, NY",C-101,,2,female
9,10,1st,0,"Artagaveytia, Mr Ramon",71.0000,Cherbourg,"Montevideo, Uruguay",,,(22),male


In [38]:
#对数据进行初步的处理，name，home_dest等数据不会对是否能够生存有影响，所以可以消除
x = titanic[["pclass","age","sex"]] #特征值
y = titanic["survived"] #目标值

In [39]:
# 2.数据处理
# 2.1 缺失值处理
x["age"].fillna(x["age"].mean(),inplace = True) #pandas 的fillna方法，更详细的操作请百度
# 2.2 转换成字典
x = x.to_dict(orient = "recorda")

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  self._update_inplace(new_data)


In [40]:
#3. 数据集的划分
from sklearn.model_selection import train_test_split
x_train,x_test,y_train,y_test = train_test_split(x,y,random_state = 6)
x_test

[{'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '2nd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'female'},
 {'pclass': '1st', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '2nd', 'age': 25.0, 'sex': 'male'},
 {'pclass': '3rd', 'age': 21.0, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '1st', 'age': 31.19418104265403, 'sex': 'female'},
 {'pclass': '2nd', 'age': 20.0, 'sex': 'male'},
 {'pclass': '1st', 'age': 49.0, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'male'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'female'},
 {'pclass': '3rd', 'age': 31.19418104265403, 'sex': 'female'},
 {'pclass': '3rd', 'age': 23.0, 'sex': 'female'},
 {'pclass': '1st', 'age': 31.0, 'sex': 'female'},
 {'pclass': '1st', 'age': 50.0, 'sex': 'male'},
 {'pclass': '1st', 'age': 31.1941810426540

In [41]:
#字典特征抽取
from sklearn.feature_extraction import DictVectorizer
transfer = DictVectorizer()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

In [67]:
# 4.模型评估
#from sklearn.tree import DecisionClassifier
estimeter = DecisionTreeClassifier(criterion = "entropy")
estimeter.fit(x_train,y_train)

#方法1
y_predict = estimeter.predict(x_test)
print("预测值为:\n",y_predict)
print("直接比对真实值和预测值：\n",y_test == y_predict)

#方法2
print("计算准确率: \n",estimeter.score(x_test,y_test))

#决策树可视化
export_graphviz(estimeter,out_file = "titanic.dot",feature_names = transfer.get_feature_names())

预测值为:
 [0 0 0 0 0 0 0 0 1 0 1 0 0 0 1 1 0 1 0 0 1 0 0 0 1 0 0 1 1 0 0 0 0 0 0 0 0
 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 1 0 1 1 1 0 1 1 0 0 0 0 0 1 0 0 0
 0 0 0 0 0 0 0 0 0 1 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 1 0 0 0
 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0
 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 0
 0 0 1 1 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 1 0 0 1 1 0 0 0 1 0 0 1 0 0 1 0
 1 0 1 0 0 1 1 0 0 0 0 0 1 0 1 0 0 0 0 1 1 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0
 1 0 0 1 0 0 0 1 1 0 0 0 0 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0
 0 0 1 0 0 0 0 1 0 1 0 0 0 0 0 0 1 0 0 1 0 1 0 1 1 0 0 1 0 0 0 0 0]
直接比对真实值和预测值：
 975      True
459      True
1251    False
14       True
805      True
563      True
756      True
910      True
178      True
496      True
150      True
1241     True
933     False
900      True
780      True
58       True
229      True
311      True
772      True
1172     True
241      True
374      True
970

#### 2.6 随机森林
* 2.6.1 集成学习方法:通过建立几个模型组合的来解决单一预测问题，它的工作原理是生成多个分类器/模型，各自独立地做出预测。最后这些预测合成组合预测，因此优于任何一个单分类做出的预测
* 2.6.2 随机森林：一个包含多个决策树的分类器，并且其生成的类别由个别树输出的类别的众数决定的。
* 2.6.3 随机森林原理过程：
    * 两个随机：
        * 训练集随机：一次随机选出一个样本，重复N次，形成一个新的训练集，从而形成一棵新的决策树
        * 特征随机: 从M个特征中随机抽取m个特征，要求M >> m,起到降维的效果
* 2.6.4 API
    * sklearn.ensemble.RandomForestClassifier(n_estimators = 10,criterion = "gini",max_depth = None,bootstrap = True,random_state = None,min_sample_split = 2)
        * max_features = "auto",每棵决策树的最大特征数量
            * 如果是"auto"和"sqrt":则m是M的平方根
            * "log2" :不说也懂
            * "None": m = M
        * min_sample_split: 节点划分的最小样本数

In [69]:
from sklearn.ensemble import RandomForestClassifier
estimator = RandomForestClassifier()

#通过网格搜索进行调参，以达到最好效果
#加入网格搜索与交叉验证
param_dict = {"n_estimators" : [120,200,300],"max_depth" : [5,8,15] }
estimator = GridSearchCV(estimator, param_grid = param_dict,cv = 10)
estimator.fit(x_train,y_train) 

#模型预估
#方法1
y_predict = estimator.predict(x_test)
print("直接比对真实值和预测值：\n",y_test == y_predict)

#方法2
print("计算准确率: \n",estimator.score(x_test,y_test))

print("最佳参数：\n",estimator.best_params_)
print("最佳结果:\n",estimator.best_score_)

直接比对真实值和预测值：
 975      True
459      True
1251    False
14       True
805      True
563      True
756      True
910      True
178      True
496      True
150     False
1241     True
933     False
900      True
780     False
58       True
229      True
311      True
772      True
1172     True
241      True
374      True
970      True
221     False
208      True
1123     True
430      True
629      True
481      True
581      True
        ...  
50       True
839      True
1302    False
681      True
260      True
782     False
433      True
1034     True
1270     True
199      True
642      True
1204     True
909      True
398      True
1066     True
973      True
136      True
719      True
710      True
232     False
578      True
239      True
920     False
163      True
379     False
1289    False
706      True
1138     True
307      True
1183     True
Name: survived, Length: 329, dtype: bool
计算准确率: 
 0.8449848024316109
最佳参数：
 {'max_depth': 5, 'n_estimators': 120}
最佳结果:
 0.825203252