# Assignment-07： First Step of using machine learning and models.

# Machine Learning Workflow

我们在**拿到一个机器学习问题之后，要做的第一件事就是制作出我们的机器学习项目清单**。下面给出了一个可供参考的机器学习项目清单，它应该适用于大多数机器学习项目，虽然确切的实现细节可能有所不同，但机器学习项目的一般结构保持相对稳定：

1. 数据清理和格式化

2. 探索性数据分析

3. 特征工程和特征选择

4. 基于性能指标比较几种机器学习模型

5. 对最佳模型执行超参数调整

6. 在测试集上评估最佳模型

7. 解释模型结果

8. 得出结论


提前设置机器学习管道结构让我们看到每一步是如何流入另一步的。但是，机器学习管道是一个迭代过程，因此我们并不总是以线性方式遵循这些步骤。我们可能会根据管道下游的结果重新审视上一步。例如，
* 虽然我们可以在构建任何模型之前执行特征选择，但我们可以使用建模结果返回并选择一组不同的特征。 
* 或者，建模可能会出现意想不到的结果，这意味着我们希望从另一个角度探索我们的数据。 
* 一般来说，你必须完成一步才能继续下一步，但不要觉得一旦你第一次完成一步，你就不能回头做出改进！你可以在任何时候返回前面的步骤并作出相应的修改

## 任务描述

报社等相关的机构，往往会遇到一个问题，就是别人家的机构使用自己的文章但是并没有标明来源。 在本次任务中，我们将解决新华社的文章被抄袭引用的问题。

给定的数据集合中，存在一些新闻预料，该预料是来自新华社，但是其来源并不是新华社，请设计技巧学习模型解决该问题。

- 构建一个机器学习模型，判断这个文章是不是新华社的
- 当这个模型的acc 大于 0.8778， recall， precision，f1等值都较高的时候
- 用该模型 判断一篇文章是否是新华社的文章，如果判断出来是新华社的，但是，它的source并不是新华社的，那么，我们就说，这个文章是抄袭的新华社的文章
    - 首先判断是不是新华社的文章
    - 然后，如果是新华社的文章，判断source是否是新华社的
        - 是： 不是抄袭
        - 不是：抄袭

## 获取数据

请在课程的GitHub中下载数据集，然后使用pandas进行读取。

In [1]:
import pandas as pd
import numpy as np

In [2]:
fname = './data/sqlResult_1558435.csv'
Content = pd.read_csv(fname, encoding='gb18030')

查看前5条数据

In [3]:
Content.head()

Unnamed: 0,id,author,source,content,feature,title,url
0,89617,,快科技@http://www.kkj.cn/,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""37""...",小米MIUI 9首批机型曝光：共计15款,http://www.cnbeta.com/articles/tech/623597.htm
1,89616,,快科技@http://www.kkj.cn/,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""15""...",骁龙835在Windows 10上的性能表现有望改善,http://www.cnbeta.com/articles/tech/623599.htm
2,89615,,快科技@http://www.kkj.cn/,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""18""...",一加手机5细节曝光：3300mAh、充半小时用1天,http://www.cnbeta.com/articles/tech/623601.htm
3,89614,,新华社,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,"{""type"":""国际新闻"",""site"":""环球"",""commentNum"":""0"",""j...",葡森林火灾造成至少62人死亡 政府宣布进入紧急状态（组图）,http://world.huanqiu.com/hot/2017-06/10866126....
4,89613,胡淑丽_MN7479,深圳大件事,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,"{""type"":""新闻"",""site"":""网易热门"",""commentNum"":""978"",...",44岁女子约网友被拒暴雨中裸奔 交警为其披衣相随,http://news.163.com/17/0618/00/CN617P3Q0001875...


In [4]:
Content.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 89611 entries, 0 to 89610
Data columns (total 7 columns):
id         89611 non-null int64
author     79396 non-null object
source     89609 non-null object
content    87054 non-null object
feature    89611 non-null object
title      89577 non-null object
url        87144 non-null object
dtypes: int64(1), object(6)
memory usage: 4.8+ MB


In [5]:
Content.describe()

Unnamed: 0,id
count,89611.0
mean,44807.448315
std,25869.729454
min,1.0
25%,22404.5
50%,44807.0
75%,67209.5
max,89617.0


In [6]:
xinhua_news = Content[Content['source'] == '新华社']

In [7]:
print(len(Content))
print(len(xinhua_news))

89611
78661


In [8]:
len(xinhua_news) / len(Content)

0.8778051801676133

有87%的数据来自新华社

## 数据预处理

将pandas中的数据，依据是否是新华社的文章，请改变成新的数据dataframe: <content, y>, 其中，content是文章内容，y是0或者1. 你可能要使用到pandas的dataframe操作。https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html

### 将标签变为0和1

定义`token`函数，将新华社文章赋予标签1，否则赋予0。

In [9]:
def token(word):
    if word['source'] == '新华社':
        
        label = 1
    else:

        label = 0
    return pd.Series([label, word['content']], index= ['label', 'content'])

### 使用[dropna](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html)滤除缺失数据：

滤除缺失数据

In [10]:
content_dropna = Content.dropna(subset=['source', 'content'])
len(content_dropna)

87052

In [11]:
content_dropna.head()

Unnamed: 0,id,author,source,content,feature,title,url
0,89617,,快科技@http://www.kkj.cn/,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""37""...",小米MIUI 9首批机型曝光：共计15款,http://www.cnbeta.com/articles/tech/623597.htm
1,89616,,快科技@http://www.kkj.cn/,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""15""...",骁龙835在Windows 10上的性能表现有望改善,http://www.cnbeta.com/articles/tech/623599.htm
2,89615,,快科技@http://www.kkj.cn/,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""18""...",一加手机5细节曝光：3300mAh、充半小时用1天,http://www.cnbeta.com/articles/tech/623601.htm
3,89614,,新华社,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,"{""type"":""国际新闻"",""site"":""环球"",""commentNum"":""0"",""j...",葡森林火灾造成至少62人死亡 政府宣布进入紧急状态（组图）,http://world.huanqiu.com/hot/2017-06/10866126....
4,89613,胡淑丽_MN7479,深圳大件事,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,"{""type"":""新闻"",""site"":""网易热门"",""commentNum"":""978"",...",44岁女子约网友被拒暴雨中裸奔 交警为其披衣相随,http://news.163.com/17/0618/00/CN617P3Q0001875...


总数据为89611，共有2559个缺失值

In [12]:
news = content_dropna.apply(token,axis=1)

In [13]:
news.head()

Unnamed: 0,label,content
0,0,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...
1,0,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...
2,0,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...
3,1,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n
4,0,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...


In [14]:
# 将content 转换为列表
corpus = news.content.to_list()

# 使用astype进行强制类型转换，得到标签
y = news.label.values.astype(np.int)

In [15]:
y.shape

(87052,)

In [16]:
len(y[y==1]),len(y[y==0])

(78661, 8391)

In [17]:
corpus[0:2]

['此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/体验版内测，稳定版暂不受影响），以确保工程师可以集中全部精力进行系统优化工作。有人猜测这也是将精力主要用到MIUI 9的研发之中。\r\nMIUI 8去年5月发布，距今已有一年有余，也是时候更新换代了。\r\n当然，关于MIUI 9的确切信息，我们还是等待官方消息。\r\n',
 '骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考虑性能而去屏蔽掉小核心。相反，他们正联手微软，找到一种适合桌面平台的、兼顾性能和功耗的完美方案。\r\n报道称，微软已经拿到了一些新的源码，以便Windows 10更好地理解big.little架构。\r\n资料显示，骁龙835作为一款集成了CPU、GPU、基带、蓝牙/Wi-Fi的SoC，比传统的Wintel方案可以节省至少30%的PCB空间。\r\n按计划，今年Q4，华硕、惠普、联想将首发骁龙835 Win10电脑，预计均是二合一形态的产品。\r\n当然，高通骁龙只是个开始，未来也许还能见到三星Exynos、联发科、华为麒麟、小米澎湃等进入Windows 10桌面平台。\r\n']

### 切词

使用[tqdm](https://pypi.org/project/tqdm/)来显示切词进度

In [18]:
from tqdm import tqdm
import jieba
import re

In [19]:
corpus_cut = []
mask = []
for sentence in tqdm(corpus):
    if not isinstance(sentence, str):
        mask.append(False)
        continue
    mask.append(True)
    sentence = ''.join(re.findall(r'\w+', sentence))
    corpus_cut.append(' '.join(jieba.cut(sentence)))

  0%|          | 0/87052 [00:00<?, ?it/s]Building prefix dict from the default dictionary ...
Dumping model to file cache /tmp/jieba.cache
Loading model cost 0.675 seconds.
Prefix dict has been built succesfully.
100%|██████████| 87052/87052 [01:35<00:00, 916.25it/s] 


In [20]:
len(corpus_cut)

87052

查看切词效果

In [21]:
corpus_cut[0]

'此外 自 本周 6 月 12 日起 除 小米 手机 6 等 15 款 机型 外 其余 机型 已 暂停 更新 发布 含 开发 版 体验版 内测 稳定版 暂不受 影响 以 确保 工程师 可以 集中 全部 精力 进行 系统优化 工作 有人 猜测 这 也 是 将 精力 主要 用到 MIUI9 的 研发 之中 MIUI8 去年 5 月 发布 距今已有 一年 有余 也 是 时候 更新换代 了 当然 关于 MIUI9 的 确切 信息 我们 还是 等待 官方消息'

In [22]:
len(mask)

87052

### 使用tfidf进行文本向量化

对文本进行向量化,[参考:sklearn.feature_extraction.text.TfidfVectorizer](https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html).得到数据集

In [23]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [24]:
vectorizer = TfidfVectorizer(max_features = 200)
X = vectorizer.fit_transform(corpus_cut)

In [25]:
X.shape

(87052, 200)

In [26]:
print(type(X))

<class 'scipy.sparse.csr.csr_matrix'>


In [27]:
X = X.toarray()
X.shape

(87052, 200)

In [28]:
print(type(X))

<class 'numpy.ndarray'>


到此为止，已经有了数据集和标签，下面可以开始建造机器学习管道了

### 划分数据集

+ 按照课程讲解的内容，把数据集分割为 traning_data, validation_data, test_data. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [29]:
from sklearn.model_selection import train_test_split, StratifiedKFold

In [30]:
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.25,random_state=37)

In [31]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

(65289, 200)
(21763, 200)
(65289,)
(21763,)


### 建立Baseline

在我们开始制作机器学习模型之前建立一个基线是很重要的。 
* 如果我们构建的模型不能胜过基线，那么我们可能不得不承认机器学习不适合这个问题。 这可能是
   * 因为我们没有使用正确的模型，
   * 因为我们需要更多的数据，
   * 或者因为有一个更简单的解决方案不需要机器学习。 
   
建立基线至关重要，因为我们最终可能不会构建机器学习模型，只是因为意识到我们无法真正解决问题。

本项目使用**2.2获取数据**中新华社新闻占所有新闻的比例：87.7%作为基线

# KNN

+ 参照scikit learning的[示例](https://sklearn.apachecn.org/docs/0.21.3/7.html)，从构建你的第一个KNN机器学习模型。

**在traning_data, validation_data, test_data 上观察其相关metric: recall, precision, f1等， 并解释其含义.** 

In [32]:
import time
from sklearn.metrics import precision_recall_curve, precision_score, recall_score, f1_score, accuracy_score

In [33]:
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score
from sklearn.neighbors import KNeighborsClassifier

In [34]:
%%time
knc = KNeighborsClassifier(n_neighbors=2,
                           algorithm='auto',
                           leaf_size=30,
                           p=2, 
                           metric_params=None,
                           n_jobs=-1) 
knc.fit(X_train,y_train)

CPU times: user 5.93 s, sys: 7.93 ms, total: 5.94 s
Wall time: 5.99 s


KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
                     metric_params=None, n_jobs=-1, n_neighbors=2, p=2,
                     weights='uniform')

##  使用 test_data 进行预测

尽可能的将代码写成函数，方便后面调用，减少工作量

In [35]:
%%time
def model_performance(model, X_test, y_test):
    y_pred = model.predict(X_test)
    print('accuracy is: ', accuracy_score(y_test, y_pred))
    print('precision is: ', precision_score(y_test, y_pred))    
    print('recall is: ', recall_score(y_test, y_pred))    
    print('f1_score is: ', f1_score(y_test, y_pred))    

CPU times: user 2 µs, sys: 0 ns, total: 2 µs
Wall time: 3.1 µs


In [51]:
model_performance(knc, X_test, y_test)

accuracy is:  0.914533841842
precision is:  0.971363540123
recall is:  0.932943568887
f1_score is:  0.951765987241


- 模型分类的准确率为 0.931，即 93.1% 的文章分类正确
- 查准率为0.951， 即模型判断为新华社的文章中，有 5.5% 是误分类
- 查全率为0.972， 即所有新华社的文章，模型将其中的 2.8% 分类错误

## 调整不同的参数，观察变化

在KNN算法中，K值会对训练结果产生重要影响

- 如果K值比较小，那就相当于用比较小的邻域中的训练样本进行预测，"学习"的**偏差减小（优点**），只有和输入样本比较近的训练样本才会对预测起作用。缺点是会**增大"学习"的方差（波动**），预测结果会对近邻的样本点非常敏感。如果这时候近邻的训练样本点刚好是噪声，那预测就会出错。也就是说**K值的减小**意味着模型整体变复杂，**容易发生过拟合**。
    
- 反过来如果K值比较大，模型变简单，方差减小，偏差增大，和新样本较远的训练样本也会对预测起作用，会使预测结果偏离预期的结果。
    
    
- 实际中通常采用交叉验证法来选取最优K值


### 改变K值

`algorithm='auto'`

In [52]:
%%time
for k in range(1,6):
    knc = KNeighborsClassifier(n_neighbors=k,
                           algorithm='auto',
                           leaf_size=30,
                           p=2, 
                           metric_params=None,
                           n_jobs=-1) 
    knc.fit(X_train,y_train)
    print('===== when k = {} ====='.format(k))
    model_performance(knc, X_test, y_test)
    

===== when k = 1 =====
accuracy is:  0.932178468042
precision is:  0.959630153597
recall is:  0.965582104728
f1_score is:  0.962596928691
===== when k = 2 =====
accuracy is:  0.914533841842
precision is:  0.971363540123
recall is:  0.932943568887
f1_score is:  0.951765987241
===== when k = 3 =====
accuracy is:  0.931121628452
precision is:  0.953526680976
recall is:  0.971123538383
f1_score is:  0.96224466665
===== when k = 4 =====
accuracy is:  0.925561733217
precision is:  0.962773048918
recall is:  0.954550076258
f1_score is:  0.958643929337
===== when k = 5 =====
accuracy is:  0.93079998162
precision is:  0.951616111387
recall is:  0.972902897814
f1_score is:  0.962141779789


这里尝试了k=1,2,3,4,5共五个值，K=1是准确率最高，但是所取K值较少，算力允许的情况下可以多试几个值。

`algorithm='brute'`

In [54]:
%%time
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.25,random_state=47)

for k in range(1,6):
    knc = KNeighborsClassifier(n_neighbors=k,
                           algorithm='brute',
                           leaf_size=30,
                           p=2, 
                           metric_params=None,
                           n_jobs=-1) 
    knc.fit(X_train,y_train)
    print('===== when k = {} ====='.format(k))
    model_performance(knc, X_test, y_test)

===== when k = 1 =====
accuracy is:  0.931121628452
precision is:  0.957553121688
recall is:  0.966479877738
f1_score is:  0.961995791395
===== when k = 2 =====
accuracy is:  0.916463722832
precision is:  0.970768580188
recall is:  0.935557819664
f1_score is:  0.952838020131
===== when k = 3 =====
accuracy is:  0.931443275284
precision is:  0.952228981749
recall is:  0.972796739684
f1_score is:  0.96240298357
===== when k = 4 =====
accuracy is:  0.92551578367
precision is:  0.961272475795
recall is:  0.955934793683
f1_score is:  0.958596204439
===== when k = 5 =====
accuracy is:  0.927721361945
precision is:  0.947953361449
recall is:  0.973306164035
f1_score is:  0.960462485862


### 使用曼哈顿距离 且 权重weight由uniform改为distance

In [56]:
%%time
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.25,random_state=57)

for k in range(1,6):
    knc = KNeighborsClassifier(n_neighbors=k,
                               weights='distance',
                               algorithm='auto',
                               leaf_size=30,
                               p=1, 
                               metric_params=None,
                               n_jobs=-1) 
    knc.fit(X_train,y_train)
    print('===== when k = {} ====='.format(k))
    model_performance(knc, X_test, y_test)
    

===== when k = 1 =====
accuracy is:  0.927583513302
precision is:  0.965140158127
recall is:  0.95445775792
f1_score is:  0.959769234696
===== when k = 2 =====
accuracy is:  0.928364655608
precision is:  0.972243920221
recall is:  0.947908204712
f1_score is:  0.959921848891
===== when k = 3 =====
accuracy is:  0.928961999724
precision is:  0.966580976864
recall is:  0.954508529651
f1_score is:  0.96050682062
===== when k = 4 =====
accuracy is:  0.927537563755
precision is:  0.970256942642
recall is:  0.949025182778
f1_score is:  0.95952362619
===== when k = 5 =====
accuracy is:  0.923861599963
precision is:  0.96557063955
recall is:  0.949735987002
f1_score is:  0.957587857381


### 改变叶节点数目

In [36]:
%%time
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.25,random_state=67)


for l in range(20,100,10):
    knc = KNeighborsClassifier(n_neighbors=3,
                               weights='distance',
                               algorithm='auto',
                               leaf_size=l,
                               p=1, 
                               metric_params=None,
                               n_jobs=-1) 
    knc.fit(X_train,y_train)
    print('===== when leaf_size = {} ====='.format(l))
    model_performance(knc, X_test, y_test)
    

===== when leaf_size = 20 =====
accuracy is:  0.915728530074
precision is:  0.975267842866
recall is:  0.930340163726
f1_score is:  0.952274383262
===== when leaf_size = 30 =====
accuracy is:  0.915728530074
precision is:  0.975267842866
recall is:  0.930340163726
f1_score is:  0.952274383262
===== when leaf_size = 40 =====
accuracy is:  0.915131185958
precision is:  0.975098645622
recall is:  0.929831697768
f1_score is:  0.951927331407
===== when leaf_size = 50 =====
accuracy is:  0.915131185958
precision is:  0.975098645622
recall is:  0.929831697768
f1_score is:  0.951927331407
===== when leaf_size = 60 =====
accuracy is:  0.915131185958
precision is:  0.975098645622
recall is:  0.929831697768
f1_score is:  0.951927331407
===== when leaf_size = 70 =====
accuracy is:  0.914947387768
precision is:  0.974992001706
recall is:  0.929730004576
f1_score is:  0.951823221676
===== when leaf_size = 80 =====
accuracy is:  0.914947387768
precision is:  0.974992001706
recall is:  0.929730004576


## 使用K-Fold交叉验证寻找最优K值

TODO

In [None]:
from sklearn.model_selection import KFold 
import numpy as np 


### Step9: 找出所以预测为 1， 但是实际为 0 的文章。 作为抄袭的候选者。

### Step10： 总结该过程，什么是数据思维？什么是机器学习思维？

### (Optional)使用第4课讲解的 edit distance，在涉嫌抄袭的文章中，找到其重复的文字与被修改过的文字。 

#  基于性能指标比较几种机器学习模型

In [37]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

## LogisticRegression

In [38]:
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.25,random_state=77)

In [40]:
%%time
# solver : str, {‘newton-cg’, ‘lbfgs’, ‘liblinear’, ‘sag’, ‘saga’}, optional (default=’liblinear’)
logit_clf = LogisticRegression(solver='saga').fit(X_train, y_train)

In [42]:
model_performance(logit_clf, X_test, y_test )

accuracy is:  0.978449662271
precision is:  0.984400242326
recall is:  0.99186123404
f1_score is:  0.98811665442


## SVM

In [43]:
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.25,random_state=87)

In [44]:
%%time
svm_clf = SVC()
svm_clf.fit(X_train, y_train)



CPU times: user 3min 55s, sys: 72 ms, total: 3min 56s
Wall time: 3min 56s


SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
    kernel='rbf', max_iter=-1, probability=False, random_state=None,
    shrinking=True, tol=0.001, verbose=False)

In [45]:
model_performance(svm_clf, X_test, y_test )

accuracy is:  0.904562790057
precision is:  0.904483789377
recall is:  1.0
f1_score is:  0.949846666506


## Naive_Bayes

In [46]:
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.25,random_state=97)

In [48]:
%%time
bayes_clf = GaussianNB()
bayes_clf.fit(X_train, y_train)

CPU times: user 111 ms, sys: 52 ms, total: 163 ms
Wall time: 162 ms


GaussianNB(priors=None, var_smoothing=1e-09)

In [49]:
model_performance(bayes_clf, X_test, y_test )

accuracy is:  0.792951339429
precision is:  0.99453125
recall is:  0.775510204082
f1_score is:  0.871470135205


## RandomForestClassifier

In [50]:
X_train, X_test, y_train, y_test  = train_test_split(X, y, test_size=0.25,random_state=107)

In [52]:
%%time
forest = RandomForestClassifier()
forest.fit(X_train, y_train)



CPU times: user 1.36 s, sys: 16 ms, total: 1.38 s
Wall time: 1.57 s


RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
                       max_depth=None, max_features='auto', max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, n_estimators=10,
                       n_jobs=None, oob_score=False, random_state=None,
                       verbose=0, warm_start=False)

In [53]:
model_performance(forest, X_test, y_test)

accuracy is:  0.990258695952
precision is:  0.993771521167
recall is:  0.995485441818
f1_score is:  0.994627743145


## 比较几种模型的效果

贝叶斯最差，随即森林效果最好