## Assignment-07 First Step of using machine learning and models.

### 任务描述

报社等相关的机构，往往会遇到一个问题，就是别人家的机构使用自己的文章但是并没有标明来源。 在本次任务中，我们将解决新华社的文章被抄袭引用的问题。

给定的数据集合中，存在一些新闻预料，该预料是来自新华社，但是其来源并不是新华社，请设计技巧学习模型解决该问题。

### Step1: 数据分析

请在课程的GitHub中下载数据集，然后使用pandas进行读取。

In [1]:
import pandas as pd

In [2]:
fname = 'NoPush/sqlResult_1558435.csv'

In [3]:
content = pd.read_csv(fname, encoding='gb18030')

In [4]:
content.head()

Unnamed: 0,id,author,source,content,feature,title,url
0,89617,,快科技@http://www.kkj.cn/,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""37""...",小米MIUI 9首批机型曝光：共计15款,http://www.cnbeta.com/articles/tech/623597.htm
1,89616,,快科技@http://www.kkj.cn/,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""15""...",骁龙835在Windows 10上的性能表现有望改善,http://www.cnbeta.com/articles/tech/623599.htm
2,89615,,快科技@http://www.kkj.cn/,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,"{""type"":""科技"",""site"":""cnbeta"",""commentNum"":""18""...",一加手机5细节曝光：3300mAh、充半小时用1天,http://www.cnbeta.com/articles/tech/623601.htm
3,89614,,新华社,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,"{""type"":""国际新闻"",""site"":""环球"",""commentNum"":""0"",""j...",葡森林火灾造成至少62人死亡 政府宣布进入紧急状态（组图）,http://world.huanqiu.com/hot/2017-06/10866126....
4,89613,胡淑丽_MN7479,深圳大件事,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,"{""type"":""新闻"",""site"":""网易热门"",""commentNum"":""978"",...",44岁女子约网友被拒暴雨中裸奔 交警为其披衣相随,http://news.163.com/17/0618/00/CN617P3Q0001875...


In [5]:
xinhua_news = content[content['source'] == '新华社']

In [6]:
len(xinhua_news) / len(content)

0.8778051801676133

### Step2: 数据预处理

将pandas中的数据，依据是否是新华社的文章，请改变成新的数据dataframe: <content, y>, 其中，content是文章内容，y是0或者1. 你可能要使用到pandas的dataframe操作。https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html

In [7]:
df = content.loc[:, ['content', 'source']]

In [8]:
df.head()

Unnamed: 0,content,source
0,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,快科技@http://www.kkj.cn/
1,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,快科技@http://www.kkj.cn/
2,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,快科技@http://www.kkj.cn/
3,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,新华社
4,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,深圳大件事


In [9]:
df['y'] = [1 if x == "新华社" else 0 for x in df.source]

In [10]:
df.head()

Unnamed: 0,content,source,y
0,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,快科技@http://www.kkj.cn/,0
1,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,快科技@http://www.kkj.cn/,0
2,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,快科技@http://www.kkj.cn/,0
3,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,新华社,1
4,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,深圳大件事,0


In [11]:
df = df.drop(columns = ["source"])

In [12]:
df2 = df.dropna()

In [13]:
df.shape

(89611, 2)

### Step3: 使用tfidf进行文本向量化

参考 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html 对

对文本进行向量化

In [14]:
import re
import jieba
from sklearn.feature_extraction.text import TfidfVectorizer

In [15]:
content_cut = []
for i, text in enumerate(df2.content):
    text = ''.join(re.compile('\w').findall(text))
    content_cut.append(' '.join(jieba.cut(text)))
    if i%10000 ==0:
        print(i) 

df2['content_cut'] = content_cut        
df2['content_cut'][:10]

Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/r0/v3my9_sn33v2xd4vq5yz2zf40000gp/T/jieba.cache
Loading model cost 0.704 seconds.
Prefix dict has been built succesfully.


0
10000
20000
30000
40000
50000
60000
70000
80000


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


0    此外 自 本周 6 月 12 日起 除 小米 手机 6 等 15 款 机型 外 其余 机型 ...
1    骁龙 835 作为 唯一 通过 Windows10 桌面 平台 认证 的 ARM 处理器 高...
2    此前 的 一加 3T 搭载 的 是 3400mAh 电池 DashCharge 快充 规格 ...
3    这是 6 月 18 日 在 葡萄牙 中部 大 佩德罗 冈 地区 拍摄 的 被 森林 大火 烧...
4    原 标题 44 岁 女子 跑 深圳 约会 网友 被 拒 暴雨 中 裸身 奔走 深圳 交警 微...
5    受到 A股 被 纳入 MSCI 指数 的 利好 消息 刺激 A股 市场 从 周三 开始 再度...
6    虽然 至今 夏普 智能手机 在 市场 上 无法 排得 上 号 已经 完全 没落 并于 201...
7    沙漠 雄鹰 震荡 有利 消化 套牢 筹码 周四 开盘 上证 50 在 银行 券商 大 蓝筹 ...
8    原 标题 武汉 警方 一下子 抓 了 808 人 还 都 是 俊男靓女 原来 他们 每天 偷...
9    6 月 21 日 A股 纳入 MSCI 指数 尘埃落定 但 当天 被 寄予厚望 的 券商 股...
Name: content_cut, dtype: object

In [16]:
df2.content[0]

'此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/体验版内测，稳定版暂不受影响），以确保工程师可以集中全部精力进行系统优化工作。有人猜测这也是将精力主要用到MIUI 9的研发之中。\r\nMIUI 8去年5月发布，距今已有一年有余，也是时候更新换代了。\r\n当然，关于MIUI 9的确切信息，我们还是等待官方消息。\r\n'

In [17]:
df2.content_cut[0]

'此外 自 本周 6 月 12 日起 除 小米 手机 6 等 15 款 机型 外 其余 机型 已 暂停 更新 发布 含 开发 版 体验版 内测 稳定版 暂不受 影响 以 确保 工程师 可以 集中 全部 精力 进行 系统优化 工作 有人 猜测 这 也 是 将 精力 主要 用到 MIUI9 的 研发 之中 MIUI8 去年 5 月 发布 距今已有 一年 有余 也 是 时候 更新换代 了 当然 关于 MIUI9 的 确切 信息 我们 还是 等待 官方消息'

In [18]:
copus = df2.content_cut
x = TfidfVectorizer().fit_transform(copus)

In [19]:
print(x[0])

  (0, 106526)	0.17805926015362797
  (0, 202706)	0.10166164283071713
  (0, 240277)	0.07427385953870534
  (0, 130731)	0.060666309071237066
  (0, 52988)	0.0735576600551228
  (0, 196567)	0.14607985255387507
  (0, 58414)	0.0758462111774054
  (0, 124166)	0.1020933798548824
  (0, 151874)	0.15791835906181648
  (0, 148602)	0.0852493668578679
  (0, 152960)	0.1595670424406658
  (0, 26113)	0.08220385906777644
  (0, 236492)	0.16568793654996594
  (0, 76231)	0.07184346215199965
  (0, 20854)	0.20848568458886832
  (0, 38259)	0.10710569568948307
  (0, 196170)	0.08871595131256195
  (0, 20855)	0.41697136917773664
  (0, 189048)	0.15501771353525814
  (0, 37904)	0.06301059829195381
  (0, 184458)	0.12758763484091293
  (0, 152939)	0.09291185574147735
  (0, 114051)	0.05798191254315959
  (0, 204592)	0.20848568458886832
  (0, 240932)	0.04726096428724275
  (0, 204199)	0.2472867648607618
  (0, 57077)	0.07734498355837598
  (0, 256532)	0.08380561961987498
  (0, 79904)	0.061992291849224106
  (0, 114262)	0.114145572784

In [20]:
x

<87054x268670 sparse matrix of type '<class 'numpy.float64'>'
	with 7839062 stored elements in Compressed Sparse Row format>

In [21]:
x[0].shape

(1, 268670)

In [22]:
x.shape

(87054, 268670)

In [23]:

content_token = []
for i in range(x.shape[0]):
    content_token.append(x[i])
df2['content_token'] = content_token

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  after removing the cwd from sys.path.


In [24]:
print(df2.content_token[0])

  (0, 106526)	0.17805926015362797
  (0, 202706)	0.10166164283071713
  (0, 240277)	0.07427385953870534
  (0, 130731)	0.060666309071237066
  (0, 52988)	0.0735576600551228
  (0, 196567)	0.14607985255387507
  (0, 58414)	0.0758462111774054
  (0, 124166)	0.1020933798548824
  (0, 151874)	0.15791835906181648
  (0, 148602)	0.0852493668578679
  (0, 152960)	0.1595670424406658
  (0, 26113)	0.08220385906777644
  (0, 236492)	0.16568793654996594
  (0, 76231)	0.07184346215199965
  (0, 20854)	0.20848568458886832
  (0, 38259)	0.10710569568948307
  (0, 196170)	0.08871595131256195
  (0, 20855)	0.41697136917773664
  (0, 189048)	0.15501771353525814
  (0, 37904)	0.06301059829195381
  (0, 184458)	0.12758763484091293
  (0, 152939)	0.09291185574147735
  (0, 114051)	0.05798191254315959
  (0, 204592)	0.20848568458886832
  (0, 240932)	0.04726096428724275
  (0, 204199)	0.2472867648607618
  (0, 57077)	0.07734498355837598
  (0, 256532)	0.08380561961987498
  (0, 79904)	0.061992291849224106
  (0, 114262)	0.114145572784

In [25]:
df2.head()

Unnamed: 0,content,y,content_cut,content_token
0,此外，自本周（6月12日）起，除小米手机6等15款机型外，其余机型已暂停更新发布（含开发版/...,0,此外 自 本周 6 月 12 日起 除 小米 手机 6 等 15 款 机型 外 其余 机型 ...,"(0, 106526)\t0.17805926015362797\n (0, 2027..."
1,骁龙835作为唯一通过Windows 10桌面平台认证的ARM处理器，高通强调，不会因为只考...,0,骁龙 835 作为 唯一 通过 Windows10 桌面 平台 认证 的 ARM 处理器 高...,"(0, 240750)\t0.03912091925087231\n (0, 1797..."
2,此前的一加3T搭载的是3400mAh电池，DashCharge快充规格为5V/4A。\r\n...,0,此前 的 一加 3T 搭载 的 是 3400mAh 电池 DashCharge 快充 规格 ...,"(0, 161002)\t0.10844094839873111\n (0, 7210..."
3,这是6月18日在葡萄牙中部大佩德罗冈地区拍摄的被森林大火烧毁的汽车。新华社记者张立云摄\r\n,1,这是 6 月 18 日 在 葡萄牙 中部 大 佩德罗 冈 地区 拍摄 的 被 森林 大火 烧...,"(0, 41480)\t0.34145045794401646\n (0, 12295..."
4,（原标题：44岁女子跑深圳约会网友被拒，暴雨中裸身奔走……）\r\n@深圳交警微博称：昨日清...,0,原 标题 44 岁 女子 跑 深圳 约会 网友 被 拒 暴雨 中 裸身 奔走 深圳 交警 微...,"(0, 235566)\t0.015152398965255874\n (0, 204..."


In [26]:
df_train = df2.loc[:, ['content_token', 'y']]

In [27]:
df_train.head()

Unnamed: 0,content_token,y
0,"(0, 106526)\t0.17805926015362797\n (0, 2027...",0
1,"(0, 240750)\t0.03912091925087231\n (0, 1797...",0
2,"(0, 161002)\t0.10844094839873111\n (0, 7210...",0
3,"(0, 41480)\t0.34145045794401646\n (0, 12295...",1
4,"(0, 235566)\t0.015152398965255874\n (0, 204...",0


In [51]:
df_train.content_token[0]

<1x268670 sparse matrix of type '<class 'numpy.float64'>'
	with 49 stored elements in Compressed Sparse Row format>

### Step4: 参考scikit-learning的方法，构建你的第一个机器学习模型

+ 按照课程讲解的内容，把数据集分割为 traning_data, validation_data, test_data. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [28]:
from sklearn.model_selection import train_test_split

In [29]:
X_train, X_test, y_train, y_test = train_test_split(
    df_train.content_token, df_train.y, test_size=0.33, random_state=42)

In [30]:
X_train.head()

80382      (0, 260279)\t0.10603524439217592\n  (0, 1657...
57053      (0, 74971)\t0.4776728099438499\n  (0, 96097)...
3739       (0, 59031)\t0.06276978079079379\n  (0, 22877...
86301      (0, 224958)\t0.05302635238856422\n  (0, 1856...
23405      (0, 239140)\t0.10453218852251417\n  (0, 2625...
Name: content_token, dtype: object

In [31]:
y_train.head()

80382    1
57053    1
3739     0
86301    1
23405    1
Name: y, dtype: int64

In [32]:
X_test.head(20)

54061      (0, 115548)\t0.27126786075138815\n  (0, 2002...
77226      (0, 193406)\t0.043467491066221935\n  (0, 213...
76480      (0, 99291)\t0.3545050543773409\n  (0, 255585...
43449      (0, 50153)\t0.10884902348079777\n  (0, 89985...
21374      (0, 155903)\t0.0833815290968221\n  (0, 12752...
41287      (0, 19451)\t0.5078114851137253\n  (0, 103303...
24526      (0, 228897)\t0.07489205034561527\n  (0, 1184...
6062       (0, 218269)\t0.05628032447648765\n  (0, 1305...
35501      (0, 149087)\t0.45310395880692295\n  (0, 2135...
3216       (0, 236233)\t0.19418352073093803\n  (0, 5209...
16136      (0, 179306)\t0.46584057943212803\n  (0, 1720...
79892      (0, 227476)\t0.0799984645070473\n  (0, 46456...
62840      (0, 35827)\t0.12957442618146953\n  (0, 71841...
74466      (0, 90308)\t0.10663949676898012\n  (0, 21375...
22111      (0, 1044)\t0.11031609072656962\n  (0, 238906...
17032      (0, 165093)\t0.3106037535284832\n  (0, 21359...
80741      (0, 77939)\t0.18243742492236367\n  (0, 42031.

In [33]:
y_test.head(20)

54061    1
77226    1
76480    1
43449    1
21374    1
41287    1
24526    1
6062     0
35501    1
3216     0
16136    1
79892    1
62840    1
74466    1
22111    1
17032    1
80741    1
60248    1
52644    1
2265     0
Name: y, dtype: int64

##### + 参照scikit learning的示例，从构建你的第一个KNN机器学习模型。

In [34]:
from sklearn.neighbors import KNeighborsClassifier

In [35]:
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train) 

ValueError: setting an array element with a sequence.

### Step5: 在traning_data, validation_data, test_data 上观察其相关metric: recall, precision, f1等， 并解释其含义. 

In [None]:
# it's your time

### Step6: 使用 test_data 对其进行新数据的判断, 你有没

In [None]:
# it's your time

### Step7: 调整不同的参数，观察变化

In [None]:
# it's your time

### Step8: 不断改变参数，直到性能达到“某个”点。问：“某个”怎么定义？

In [None]:
# it's your time

### Step9: 找出所以预测为 1， 但是实际为 0 的文章。 作为抄袭的候选者。

In [None]:
# it's your time

### Step10： 总结该过程，什么是数据思维？什么是机器学习思维？

### (Optional)使用第4课讲解的 edit distance，在涉嫌抄袭的文章中，找到其重复的文字与被修改过的文字。 

### Step11: 利用第8课讲述的新模型，进行操作，感受其中不同的参数、模型对性能的影响。