## Assignment-07 First Step of using machine learning and models.

### 任务描述

报社等相关的机构，往往会遇到一个问题，就是别人家的机构使用自己的文章但是并没有标明来源。 在本次任务中，我们将解决新华社的文章被抄袭引用的问题。

给定的数据集合中，存在一些新闻预料，该预料是来自新华社，但是其来源并不是新华社，请设计机器学习模型解决该问题。

### Step1: 数据分析

请在课程的GitHub中下载数据集，然后使用pandas进行读取。

In [1]:
new_file = '/Users/qiujiafa/NLP_lessons_online/data/news_chinese_dumpload.csv'

In [2]:
import pandas as pd
import numpy as np

In [3]:
news_df = pd.read_csv(new_file)

In [4]:
len(news_df)
# 原始 89611， 去重空值后 87054 行

89611

In [5]:
# 有 2557 行 新闻内容为空， 需去掉空值
len(news_df[news_df['content'].isnull()])
news_df.dropna(subset=['content'], inplace=True)

In [6]:
news_df.head()

Unnamed: 0.1,Unnamed: 0,id,author,source,content,feature,title,url
0,0,1,王子江 张寒,新华社,新华社德国杜塞尔多夫６月６日电题：乒乓女球迷　\n 新华社记者王子江、张寒\n 熊老...,"{""type"":""体育"",""site"":""新华社"",""url"":""http://home.x...",（体育）题：乒乓女球迷,http://home.xinhua-news.com/gdsd
1,1,2,夏文辉,新华社,\n\n2017年5月25日，在美国马萨诸塞州剑桥市，哈佛大学毕业生在毕业典礼上欢呼。（新华...,"{""type"":""其它"",""site"":""新华社"",""url"":""http://home.x...",哈佛大学为何取消这些新生入选资格？,http://home.xinhua-news.com/gdsd
2,2,3,张旌,新华社,\n\n2017年5月29日，在法国巴黎郊外的凡尔赛宫，法国总统马克龙出席新闻发布会。（新华...,"{""type"":""其它"",""site"":""新华社"",""url"":""http://home.x...",法国议会选举　马克龙有望获“压倒性胜利”,http://home.xinhua-news.com/gdsd
3,3,4,王衡,新华社,新华社兰州6月3日电（王衡、徐丹）记者从甘肃省交通运输厅获悉，甘肃近日集中开建高速公路、普通...,"{""type"":""宏观经济"",""site"":""新华社"",""url"":""http://home...",（经济）甘肃集中开工35个重点交通建设项目,http://home.xinhua-news.com/gdsd
4,4,5,邹峥,新华社,新华社照片，多伦多，2017年6月7日\n（体育）（2）冰球——国家女子冰球队海外选秀在多伦...,"{""type"":""冰球"",""site"":""新华社"",""url"":""http://home.x...",（体育）（2）冰球——国家女子冰球队海外选秀在多伦多展开,http://home.xinhua-news.com/gdsd


In [7]:
news_df.drop(columns=['Unnamed: 0'], inplace=True)

In [8]:
news_df.columns

Index(['id', 'author', 'source', 'content', 'feature', 'title', 'url'], dtype='object')

In [9]:
xinhua_news = news_df[news_df['source'] == '新华社']

In [10]:
# 新华社文章占比
len(xinhua_news) / len(news_df)

0.9035885772049532

### Step2: 数据预处理

将pandas中的数据，依据是否是新华社的文章，改变成新的数据dataframe: <content, y>, 其中，content是文章内容，y是0或者1. 你可能要使用到pandas的dataframe操作。https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.apply.html

In [11]:
import jieba
import re

In [12]:
def cut_content(content):
    """ 对文章内容进行中文切词处理 """
    content = ''.join(re.findall(r'\w+', content))
    return ' '.join(jieba.cut(content))
    
  

In [13]:
all_news = news_df[['source', 'content']]

In [14]:
all_news['mark'] = all_news.apply(lambda x: 1 if x['source'] == '新华社' else 0, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [15]:
all_news['content'] = all_news['content'].map(lambda x: cut_content(x))

Building prefix dict from the default dictionary ...
Dumping model to file cache /var/folders/sb/6yx77d415rgf3770g8nhntfc0000gn/T/jieba.cache
Loading model cost 0.799 seconds.
Prefix dict has been built succesfully.
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


In [17]:
all_news.head()

Unnamed: 0,source,content,mark
0,新华社,新华社 德国 杜塞尔多夫 ６ 月 ６ 日电 题 乒乓 女球迷 n 新华社 记者 王子江 张寒...,1
1,新华社,nn2017 年 5 月 25 日 在 美国 马萨诸塞州 剑桥市 哈佛大学 毕业生 在 毕业...,1
2,新华社,nn2017 年 5 月 29 日 在 法国巴黎 郊外 的 凡尔赛宫 法国 总统 马克 龙 ...,1
3,新华社,新华社 兰州 6 月 3 日电 王衡 徐丹 记者 从 甘肃省 交通运输 厅 获悉 甘肃 近日...,1
4,新华社,新华社 照片 多伦多 2017 年 6 月 7 日 n 体育 2 冰球 国家 女子 冰球队 ...,1


In [18]:
all_news.drop(columns='source', inplace=True)

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  errors=errors)


### Step3: 使用tfidf进行文本向量化

参考 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html 对

对文本进行向量化

In [19]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [20]:
from time import time

In [22]:
TfidfVectorizer?

In [23]:
vectorizer = TfidfVectorizer(max_features=200)

In [24]:
contents = all_news['content']

In [25]:
marks  = all_news['mark']

In [26]:
len(contents)

87054

In [27]:
t0 = time()
Contents_X = vectorizer.fit_transform(contents)
duration = time() - t0
print(f"Done convert news contents into tfidf matrix in {duration}s")

Done convert news contents into tfidf matrix in 9.371701955795288s


In [28]:
Contents_X.shape

(87054, 200)

### Step4: 参考scikit-learning的方法，构建你的第一个机器学习模型

+ 按照课程讲解的内容，把数据集分割为 traning_data, validation_data, test_data. https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

+ 参照scikit learning的示例，从构建你的第一个KNN机器学习模型。

In [29]:
from sklearn.model_selection import train_test_split

In [30]:
train_contents, test_contents, train_mark, test_mark = train_test_split(Contents_X, marks, test_size=0.2)

In [24]:
train_test_split?

In [31]:
train_contents.shape

(69643, 200)

In [32]:
test_contents.shape

(17411, 200)

In [33]:
print(len(train_mark))
print(len(test_mark))

69643
17411


### 构建 KNN 模型

In [34]:
from sklearn.neighbors import KNeighborsClassifier

In [35]:
neigh = KNeighborsClassifier(n_neighbors=5, algorithm='auto')

In [36]:
t0 = time()
neigh.fit(train_contents, train_mark)
duration = time() - t0
print(f"Done train KNN module in {duration} s")

Done train KNN module in 0.019944190979003906 s


In [37]:
neigh.predict(test_contents[:10])

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1])

In [38]:
neigh.predict_proba(test_contents[:10])

array([[0. , 1. ],
       [0. , 1. ],
       [0.4, 0.6],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ]])

In [39]:
test_mark[:10]

28514    1
31190    1
75798    1
3431     1
22413    1
67507    1
39813    1
40565    1
63654    1
15229    1
Name: mark, dtype: int64

In [40]:
train_mark_predict = neigh.predict(train_contents)

In [41]:
neigh.score(test_contents, test_mark)

0.931537533743036

In [58]:
neigh.score(train_contents, train_mark)

0.9300719383139727

In [42]:
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score

In [43]:
precision_score(train_mark, train_mark_predict)

0.9643709539037516

In [44]:
recall_score(train_mark, train_mark_predict)

0.9830176978485904

In [45]:
f1_score(train_mark, train_mark_predict)

0.973605052207191

In [46]:
roc_auc_score(train_mark, train_mark_predict)

0.8224238622497319

### Step5: 在traning_data, validation_data, test_data 上观察其相关metric: recall, precision, f1等， 并解释其含义. 

In [9]:
# it's your time

In [37]:
from sklearn.metrics import precision_score, recall_score, f1_score, roc_auc_score

In [61]:
precision_score?

In [62]:
recall_score?

In [46]:
roc_auc_score?

### Step6: 使用 test_data 对其进行新数据的判断, 你有没

In [47]:
test_mark_predict = neigh.predict(test_contents)

In [48]:
precision_score(test_mark, test_mark_predict)

0.9522332506203474

In [49]:
recall_score(test_mark, test_mark_predict)

0.9732437230535126

In [50]:
f1_score(test_mark, test_mark_predict)

0.9626238555123542

In [51]:
roc_auc_score(test_mark, test_mark_predict)

0.751722532667696

### Step7: 调整不同的参数，观察变化

#### 调整 KNN 模型的 n_neighbors 从 5  到 7

In [52]:
neigh1 = KNeighborsClassifier(n_neighbors=7, algorithm='auto')

In [53]:
t0 = time()
neigh1.fit(train_contents, train_mark)
duration = time() - t0
print(f"Done train KNN module in {duration} s")

Done train KNN module in 0.02508997917175293 s


In [54]:
train_mark_predict1 = neigh1.predict(train_contents)

In [55]:
precision_score(train_mark, train_mark_predict1)

0.9594034024702867

In [56]:
recall_score(train_mark, train_mark_predict1)

0.9819205266421791

In [57]:
f1_score(train_mark, train_mark_predict1)

0.9705313781885049

#### 观察得分， 调整 n_neighbors 从默认 5 到 7后， 模型的 presicition_score, recall_score, f1_score 都略有下降

### Step8: 调整 权重为 distance

weights : str or callable, optional (default = 'uniform')
    weight function used in prediction.  Possible values:   
   
    - 'uniform' : uniform weights.  All points in each neighborhood are weighted equally.
    - 'distance' : weight points by the inverse of their distance. in this case, closer neighbors of a query point will have a greater influence than neighbors which are further away.

In [60]:
neigh2 = KNeighborsClassifier(n_neighbors=5, algorithm='auto', weights='distance')

In [59]:
KNeighborsClassifier?

In [61]:
t0 = time()
neigh2.fit(train_contents, train_mark)
duration = time() - t0
print(f"Done train KNN module in {duration} s")

Done train KNN module in 0.012722969055175781 s


In [62]:
t0 = time()
train_mark_predict2 = neigh2.predict(train_contents)
duration = time() - t0
print(f"Done predict train in {duration}s")

Done predict train in 239.52213406562805s


In [64]:
precision_score(train_mark, train_mark_predict2)

0.999936355391494

In [65]:
recall_score(train_mark, train_mark_predict2)

0.9993003545930131

In [66]:
f1_score(train_mark, train_mark_predict2)

0.9996182538293913

In [67]:
roc_auc_score(train_mark, train_mark_predict2)

0.999354056479213

In [70]:
neigh2.score(train_contents, train_mark)

0.9993107706445731

In [74]:
neigh2.predict(train_contents[:20])

array([1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 1, 0])

In [75]:
neigh2.predict_proba(train_contents[:20])

array([[0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0.6, 0.4],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [0. , 1. ],
       [1. , 0. ]])

In [76]:
train_mark[:20]

73135    1
2778     1
7355     1
64804    1
32830    1
25586    1
56860    1
65463    1
68183    1
68828    1
16674    1
25663    1
70041    1
37014    1
52133    1
15940    1
25330    1
75321    1
13165    1
84588    0
Name: mark, dtype: int64

#### 震惊！ 将 weights 设置为 'distance' 后， 所有分数都有显著提高！

### Step9: 找出所以预测为 1， 但是实际为 0 的文章。 作为抄袭的候选者。

In [77]:
news_df.head()

Unnamed: 0,id,author,source,content,feature,title,url
0,1,王子江 张寒,新华社,新华社德国杜塞尔多夫６月６日电题：乒乓女球迷　\n 新华社记者王子江、张寒\n 熊老...,"{""type"":""体育"",""site"":""新华社"",""url"":""http://home.x...",（体育）题：乒乓女球迷,http://home.xinhua-news.com/gdsd
1,2,夏文辉,新华社,\n\n2017年5月25日，在美国马萨诸塞州剑桥市，哈佛大学毕业生在毕业典礼上欢呼。（新华...,"{""type"":""其它"",""site"":""新华社"",""url"":""http://home.x...",哈佛大学为何取消这些新生入选资格？,http://home.xinhua-news.com/gdsd
2,3,张旌,新华社,\n\n2017年5月29日，在法国巴黎郊外的凡尔赛宫，法国总统马克龙出席新闻发布会。（新华...,"{""type"":""其它"",""site"":""新华社"",""url"":""http://home.x...",法国议会选举　马克龙有望获“压倒性胜利”,http://home.xinhua-news.com/gdsd
3,4,王衡,新华社,新华社兰州6月3日电（王衡、徐丹）记者从甘肃省交通运输厅获悉，甘肃近日集中开建高速公路、普通...,"{""type"":""宏观经济"",""site"":""新华社"",""url"":""http://home...",（经济）甘肃集中开工35个重点交通建设项目,http://home.xinhua-news.com/gdsd
4,5,邹峥,新华社,新华社照片，多伦多，2017年6月7日\n（体育）（2）冰球——国家女子冰球队海外选秀在多伦...,"{""type"":""冰球"",""site"":""新华社"",""url"":""http://home.x...",（体育）（2）冰球——国家女子冰球队海外选秀在多伦多展开,http://home.xinhua-news.com/gdsd


In [78]:
all_news.head()

Unnamed: 0,content,mark
0,新华社 德国 杜塞尔多夫 ６ 月 ６ 日电 题 乒乓 女球迷 n 新华社 记者 王子江 张寒...,1
1,nn2017 年 5 月 25 日 在 美国 马萨诸塞州 剑桥市 哈佛大学 毕业生 在 毕业...,1
2,nn2017 年 5 月 29 日 在 法国巴黎 郊外 的 凡尔赛宫 法国 总统 马克 龙 ...,1
3,新华社 兰州 6 月 3 日电 王衡 徐丹 记者 从 甘肃省 交通运输 厅 获悉 甘肃 近日...,1
4,新华社 照片 多伦多 2017 年 6 月 7 日 n 体育 2 冰球 国家 女子 冰球队 ...,1


In [88]:
mark_predict = neigh2.predict(Contents_X)

In [89]:
type(mark_predict)

numpy.ndarray

In [92]:
mark_predict_df = pd.DataFrame(mark_predict, columns=['mark_predict'])

In [95]:
all_news_with_predict = pd.concat([all_news, mark_predict_df], axis=1)

In [103]:
all_news_with_predict.head()

Unnamed: 0,content,mark,mark_predict
0,新华社 德国 杜塞尔多夫 ６ 月 ６ 日电 题 乒乓 女球迷 n 新华社 记者 王子江 张寒...,1.0,1.0
1,nn2017 年 5 月 25 日 在 美国 马萨诸塞州 剑桥市 哈佛大学 毕业生 在 毕业...,1.0,1.0
2,nn2017 年 5 月 29 日 在 法国巴黎 郊外 的 凡尔赛宫 法国 总统 马克 龙 ...,1.0,1.0
3,新华社 兰州 6 月 3 日电 王衡 徐丹 记者 从 甘肃省 交通运输 厅 获悉 甘肃 近日...,1.0,1.0
4,新华社 照片 多伦多 2017 年 6 月 7 日 n 体育 2 冰球 国家 女子 冰球队 ...,1.0,1.0


In [109]:
df1 = all_news_with_predict

In [119]:
df_copy = df1[(df1['mark_predict'] == 1) & (df1['mark'] == 0)]

In [121]:
df_copy.head()

Unnamed: 0,content,mark,mark_predict
78771,原 标题 郭台铭 痛批 台当局 行政效率 差 非必要 不会 回 台 投资 鸿海 科技 集团 ...,0.0,1.0
78772,石市 2017 年 中考 政策 出炉 四大 变化 值得 关注 民办 普通高中 学校 招生 宣...,0.0,1.0
78777,新华社 北京 6 月 13 日电 记者 郝亚琳 中华人民共和国 与 巴拿马共和国 13 日 ...,0.0,1.0
78785,据 新华社 北京 6 月 12 日电 经 中央军委 主席 习近平 批准 我军 新 设立 八一...,0.0,1.0
78792,郑报 融媒 记者 石闯文图 2017 年 6 月 13 日晴 乱石 坡村 属于 半山 半 丘...,0.0,1.0


### Step10： 总结该过程，什么是数据思维？什么是机器学习思维？

### (Optional)使用第4课讲解的 edit distance，在涉嫌抄袭的文章中，找到其重复的文字与被修改过的文字。 

### Step11: 利用第8课讲述的新模型，进行操作，感受其中不同的参数、模型对性能的影响。