In [11]:
import re
import requests
import math
from lxml import html
from lxml.html import tostring
from collections import Counter
from string import punctuation as enPunc
from zhon.hanzi import punctuation as zhPunc
from sklearn.feature_extraction.text import TfidfTransformer, TfidfVectorizer

import pandas as pd
import numpy as np
from elasticsearch import Elasticsearch
from bs4  import BeautifulSoup
from LAC import LAC
from opencc import OpenCC

import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)

## 資料預處理

In [12]:
## 振華數據
search_word = '振华数据'
google_search_rs = pd.read_excel('ner_sample.xlsx').url.to_list()

### Get Link Text

In [14]:
html_text = []
getLink = []
for idx, link in enumerate(google_search_rs):
    getLink.append((idx+1, link))
    print(idx+1, link)
    ## 用get下載普通網頁 (把每個連結的資料下載下來，並自訂表頭headers)
    resp = requests.get(link, headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'})
    soup = BeautifulSoup(resp.content, 'html.parser')
    a_tag = soup.find_all('a')
    for a in a_tag:
        a.decompose()   
    html_text.append(soup.get_text())    

1 https://www.qcc.com/firm/6a477279b2ee73e05e11f607554cb084.html
2 https://www.enanyang.my/%E5%9B%BD%E9%99%85/%E6%8C%AF%E5%8D%8E%E6%95%B0%E6%8D%AE%E7%BD%91%E7%AB%99%E5%B7%B2%E4%B8%8B%E7%BA%BF-%E7%8E%8B%E9%9B%AA%E5%B3%B0%E9%BC%93%E5%90%B9%E2%80%9C%E6%B7%B7%E5%90%88%E6%88%98%E4%BA%89%E2%80%9D
3 https://tw.appledaily.com/politics/20200920/RA2DTEHKGNCNHHQFUEM7PSZX4M/
4 https://www.epochtimes.com/gb/20/9/15/n12404579.htm
5 https://www.epochtimes.com/b5/20/9/15/n12404579.htm
6 https://zh.wikipedia.org/zh-tw/%E6%B7%B1%E5%9C%B3%E6%8C%AF%E5%8D%8E%E6%95%B0%E6%8D%AE%E4%BF%A1%E6%81%AF%E6%8A%80%E6%9C%AF%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8
7 https://www.bbc.com/zhongwen/trad/chinese-news-54160466
8 https://twitter.com/watchwci/status/1305282854562279425
9 https://cn.unionpeace.org/people/12934.html
10 https://www.abc.net.au/chinese/2020-09-14/chinese-data-leak-linked-to-military-names-australians/12661676
11 https://www.youtube.com/watch?v=XCJ68bNPlOA
12 https://gnews.org/zh-hant/356177/
13 https://



48 http://read01.com/zh-tw/2Kk0ODx.html
49 https://www.tiaotiaowen.com/articles/bsd8wy


### Setup stopwords
- 刪除英文字
- 繁轉簡
- 建立特定符號 ['\n', '\r', '\t', '\xa0'] 及中英標點 的list
- 匯入stop words檔案 (Biadu stop words)
- 建立刪除字符的dictionary

In [15]:
# Load stop words
f = open('/Users/csti-user/Downloads/NER/stopwords-master/baidu_stopwords.txt','r')
k = f.readlines()
f.close()
stopwords = [lines.strip('\n') for lines in k]
# for i in search_word:
#     stopwords.append(cc.convert(i))  ## 加入搜尋詞，避免影響關鍵字萃取結果

# 建構stopwords
trim = ['\n', '\r', '\t', '\xa0'] + list(enPunc)+list(zhPunc) ## 網頁亂碼+英文標點+中文標點
trim = trim + stopwords  # list of all stopwords
# trim_dict = {pat:'' for pat in trim}

# 繁轉簡
cc = OpenCC('tw2sp')
temp = [cc.convert(texts) for texts in html_text]

# 去除英文
final_text = [re.sub(r'[a-zA-Z]',"", texts) for texts in temp]

In [5]:
# def multi_repl(input_str, repl_dict):
#     for k in repl_dict:
#         input_str = input_str.replace(k, repl_dict[k])  ## 把stop words改為空白
#     return input_str

In [210]:
## 分詞前清除stopwords
# final_text = [multi_repl(texts,trim_dict) for texts in temp]
# final_text

### Word Segmentation & NER (using LAC model)

In [16]:
lac = LAC(mode='lac')  
lac.load_customization('custom_dict.txt')  # 自行增加字典

# input html_text which hasn't remove stopwords
ner_model = lac.run(final_text)  # [[words, labels], [words, labels],....]

In [61]:
## 分詞後整合
ner_pair = []   # 分詞結果
docs = pd.DataFrame(columns=['texts', 'doc'])  # dataframe 每篇文章為一列
for doc, (word, ner) in enumerate(ner_model):
    temp = []
    for num in range(len(word)):
        if word[num] not in trim: # remove stop words
            if word[num] != '' and ner[num] != '' and ner[num] != 'f' and ner[num] != 'nw' and ner[num] != 'm':
                temp.append(word[num])
                ner_pair.append((word[num],ner[num],doc+1))
    docs = docs.append({'texts': temp, 'doc': doc+1}, ignore_index = True)

## Sequence Tagging 
- model selected: LAC
- already finished (ref. 1.3)

In [None]:
## 查看分詞、NER結果  -- lots of noise 
for idx, (word, ner) in enumerate(ner_pair):
    for num in range(len(word)):
        print((word[num],ner[num]))

### [replace] Remove stop words/ noises

####  remove noise: some noise NER and 標點 and 空值 and 數量

In [24]:
filtered_ner = []
cc = OpenCC('tw2sp')
for idx, (word, ner) in enumerate(ner_pair):
    for num in range(len(word)):
        if word[num] not in stopwords:
            word[num] = multi_repl(word[num],trim_dict)  # remove stop words
            if ner[num] != '' and ner[num] != 'w' and word[num] != '' and ner[num] != 'm': # remove some noise NER
                cv_word = cc.convert(word[num])  ## 使用繁轉簡
                print((cv_word,ner[num]))
                filtered_ner.append((cv_word,ner[num]))

('深圳', 'ORG')
('振华数据', 'ORG')
('信息技术有限公司', 'ORG')
('深圳', 'ORG')
('振华数据', 'ORG')
('信息技术有限公司', 'ORG')
('企业', 'n')
('主页', 'n')
('品牌', 'n')
('浏览量', 'n')
('访问量', 'n')
('即可', 'v')
('查看', 'v')
('访问', 'vn')
('记录', 'n')
('认证', 'v')
('自己', 'r')
('深圳', 'ORG')
('振华数据', 'ORG')
('信息技术有限公司', 'ORG')
('存续', 'v')
('高新技术', 'n')
('企业', 'n')
('科技型', 'a')
('中小企业', 'n')
('小微', 'a')
('信息', 'n')
('传输', 'vn')
('软件', 'n')
('信息技术', 'n')
('服务业', 'n')
('软件', 'n')
('信息技术', 'n')
('服务业', 'n')
('更多', 'a')
('信息', 'n')
('传输', 'vn')
('软件', 'n')
('信息技术', 'n')
('服务业', 'n')
('软件', 'n')
('信息技术', 'n')
('电话', 'n')
('企业', 'n')
('官网', 'n')
('地址', 'n')
('深圳市', 'LOC')
('南山区', 'LOC')
('南头街道', 'LOC')
('莲城社区', 'LOC')
('深南大道', 'LOC')
('南山软...', 'ORG')
('附近', 'f')
('企业', 'n')
('最新', 'a')
('年报', 'n')
('地址', 'n')
('简介', 'n')
('振华', 'ORG')
('聚焦', 'v')
('集成', 'v')
('境外', 's')
('数据', 'n')
('信息', 'n')
('国内', 's')
('机构', 'n')
('提供', 'v')
('服务', 'vn')
('包括', 'v')
('境外', 's')
('数据', 'n')
('采集', 'vn')
('数据', 'n')
('咨询', 'vn')
('数据', 'n')
('集成', '

('合伙', 'vn')
('事务', 'n')
('执行人', 'n')
('变更', 'vn')
('高级', 'a')
('管理人员', 'n')
('备案', 'v')
('董事', 'n')
('监事', 'n')
('经理', 'n')
('地址', 'n')
('变更', 'v')
('住所', 'n')
('地址', 'n')
('经营', 'vn')
('场所', 'n')
('驻', 'v')
('地址', 'n')
('变更', 'vn')
('深圳市', 'LOC')
('南山区', 'LOC')
('南山街道', 'LOC')
('南海大道', 'LOC')
('西桂庙路北阳光华艺大厦', 'LOC')
('6B', 'n')
('深圳市', 'LOC')
('南山区', 'LOC')
('南头街道', 'LOC')
('大汪山', 'LOC')
('社区', 'n')
('桃园东路', 'LOC')
('西海明珠大厦', 'LOC')
('从事', 'v')
('信息技术', 'n')
('电子产品', 'n')
('领域', 'n')
('内', 'f')
('技术', 'n')
('开发', 'vn')
('技术', 'n')
('咨询', 'vn')
('技术', 'n')
('服务', 'vn')
('信息', 'n')
('咨询', 'vn')
('不含', 'v')
('限制', 'vn')
('项目', 'n')
('互联网', 'n')
('数据', 'n')
('信息', 'n')
('分析', 'vn')
('大数据', 'p')
('领域', 'n')
('内', 'f')
('技术', 'n')
('开发', 'vn')
('人工智能', 'n')
('科技', 'n')
('开发', 'vn')
('以上', 'f')
('根据', 'p')
('法律', 'n')
('行政', 'n')
('法规', 'n')
('国务院', 'ORG')
('决定', 'v')
('规定', 'n')
('需要', 'v')
('审批', 'vn')
('依法', 'vd')
('取得', 'v')
('相关', 'vn')
('审批', 'vn')
('文档', 'n')
('后方', 'f')
('经营', 'v')
(

('王雪峰', 'PER')
('美国', 'LOC')
('科技', 'n')
('巨擘', 'n')
('国际商业机器公司', 'ORG')
('IBM', 'ORG')
('雇员', 'n')
('微信', 'nz')
('支持', 'v')
('通过', 'p')
('操纵', 'v')
('民意', 'n')
('心理战', 'n')
('进行', 'v')
('混合', 'vn')
('战争', 'n')
('hybrid', 'nz')
('war', 'nz')
('王雪峰', 'PER')
('IBM', 'ORG')
('工作', 'v')
('期间', 'f')
('带领', 'v')
('专家', 'n')
('团队', 'n')
('数据', 'n')
('中心', 'n')
('提供', 'v')
('技术', 'n')
('服务', 'vn')
('2015', 'TIME')
('年底', 'TIME')
('正式', 'ad')
('带领', 'v')
('团队', 'n')
('离开', 'v')
('公司', 'n')
('独立', 'ad')
('创业', 'v')
('据报道', 'd')
('振华数据', 'ORG')
('2018年', 'TIME')
('成立', 'v')
('据悉', 'd')
('中国振华电子集团', 'ORG')
('所有', 'r')
('后者', 'r')
('国营', 'a')
('中国电子信息产业集团', 'ORG')
('CETC', 'ORG')
('所有', 'r')
('CETC', 'ORG')
('军事', 'n')
('研究', 'vn')
('公司', 'n')
('公司', 'n')
('悉尼科技大学', 'ORG')
('2019年', 'TIME')
('之前', 'u')
('合作', 'vn')
('振华数据', 'ORG')
('执行长', 'n')
('王雪峰', 'PER')
('照片', 'n')
('这家', 'r')
('位于', 'v')
('深圳', 'LOC')
('公司', 'n')
('花', 'v')
('利用', 'v')
('人工智能', 'n')
('大数据', 'n')
('建构', 'v')
('庞大', 'a')
('数据库'

('中国共产党', 'ORG')
('振华', 'PER')
('对', 'p')
('各国', 'r')
('搜集', 'v')
('海外', 's')
('重要', 'a')
('人士', 'n')
('数据库', 'n')
('OverseasKey', 'nz')
('InformationDatabase', 'nz')
('OKIDB', 'nz')
('存有', 'v')
('多达', 'v')
('个人', 'n')
('数据', 'n')
('其中', 'f')
('约', 'd')
('文件', 'n')
('Internet', 'n')
('成功', 'ad')
('复原', 'v')
('数据', 'n')
('包含', 'v')
('美国人', 'n')
('为', 'v')
('最多', 'a')
('其次', 'r')
('澳洲人', 'nz')
('另外', 'c')
('也有', 'v')
('印度', 'n')
('英国人', 'nz')
('加拿大', 'LOC')
('以及其他', 'r')
('国家', 'n')
('公民', 'n')
('该', 'r')
('数据库', 'n')
('透过', 'v')
('爬梳推特', 'nz')
('脸书', 'n')
('领', 'v')
('英', 'LOC')
('Instagram', 'n')
('抖', 'v')
('音', 'n')
('来', 'v')
('搜罗', 'v')
('信息', 'n')
('并', 'c')
('详列', 'v')
('个人', 'n')
('出生', 'v')
('年月日', 'n')
('地址', 'n')
('婚姻', 'n')
('状况', 'n')
('照片', 'n')
('政治', 'n')
('活动', 'n')
('据信', 'v')
('中国', 'LOC')
('情治单位', 'n')
('与', 'p')
('国家', 'n')
('安全部', 'n')
('都会', 'v')
('使用', 'v')
('这些', 'r')
('信息', 'n')
('更多名单', 'n')
('请见', 'v')
('解密', 'v')
('振华', 'vn')
('数据', 'n')
('查查', 'v')
('是否', '

('michael', 'nz')
('ASPI', 'n')
('September', 'n')
('东', 'f')
('警惕', 'v')
('微信', 'nz')
('中共国际超限战大杀器', 'nz')
('\xa02019-08-22', 'nz')
('美国', 'LOC')
('智库', 'n')
('建议', 'v')
('政府', 'n')
('推倒', 'v')
('中共防火墙图\xa02020-05-12大陆公司搜集240万境外个人数据库被曝光\xa02020-09-14大陆', 'nw')
('融媒体', 'nz')
('瞄准', 'v')
('台青', 'n')
('中共统战新工具图\xa02020-09', 'nw')
('中共', 'f')
('搜集', 'v')
('外国人', 'n')
('数据', 'n')
('每人', 'r')
('都', 'd')
('编号', 'v')
('\xa0\xa02020-09-14澳统计局', 'nw')
('季度', 'n')
('消费', 'vn')
('价格', 'n')
('指数', 'n')
('上升', 'v')
('\xa0', 'n')
('2021-04-28', 'TIME')
('应印', 'vn')
('太', 'd')
('局势', 'n')
('澳斥', 'v')
('巨资', 'n')
('升级', 'v')
('北领地军事基地图\xa02021-04-28脸书删除澳议员凯利的备用账号图\xa02021-04-28悉尼北海滩污水一周内两次验出病毒碎片图\xa02021-04-28澳移民部长', 'nw')
('澳', 'LOC')
('仍可', 'd')
('出国', 'v')
('热门', 'a')
('新闻', 'n')
('大学', 'n')
('进入', 'v')
('世界', 'n')
('审查', 'vn')
('澳', 'LOC')
('外长', 'n')
('废除', 'v')
('更多', 'a')
('涉外', 'vn')
('2021年', 'TIME')
('超级月亮', 'n')
('今晚', 'TIME')
('高悬', 'v')
('澳洲', 'LOC')
('莫里森', 'PER')
('上帝', 'n')
('召唤', 'v')

('2021-04-28', 'TIME')
('脸', 'n')
('书', 'n')
('删除', 'v')
('澳', 'LOC')
('议员', 'n')
('凯利', 'nz')
('备用', 'vn')
('帐号', 'n')
('图', 'n')
('\xa0', 'n')
('2021-04-28', 'TIME')
('悉尼', 'LOC')
('北海滩', 'LOC')
('污水', 'n')
('内', 'f')
('验', 'v')
('病毒碎片图\xa02021-04-28澳移民部长', 'nw')
('澳', 'LOC')
('仍可', 'd')
('出国', 'v')
('参加', 'v')
('婚礼', 'n')
('热门', 'n')
('新闻', 'n')
('仅', 'd')
('大学', 'n')
('进入', 'v')
('2021年', 'TIME')
('超级', 'a')
('月亮', 'n')
('今晚', 'TIME')
('将', 'd')
('高悬', 'v')
('澳洲', 'LOC')
('学院', 'n')
('审查', 'vn')
('澳', 'LOC')
('外长', 'n')
('将', 'd')
('废除', 'v')
('更多', 'a')
('涉外', 'vn')
('莫里森', 'PER')
('上帝', 'n')
('召唤', 'v')
('出任', 'v')
('澳洲', 'LOC')
('总', 'a')
('力挺', 'v')
('废除', 'v')
('一带一路', 'nz')
('澳', 'LOC')
('议员', 'n')
('反击', 'v')
('中共', 'ORG')
('永久封号', 'nz')
('澳', 'LOC')
('议员', 'n')
('谴责', 'v')
('脸', 'n')
('书', 'n')
('侵害', 'v')
('言论', 'n')
('官员', 'n')
('台海', 'LOC')
('冲突', 'vn')
('风险', 'n')
('须', 'v')
('做好', 'v')
('应对', 'v')
('应印', 'vn')
('太', 'd')
('局势', 'n')
('澳斥', 'v')
('巨资', 'n')
('升级', 'v')


('网站', 'n')
('介绍', 'vn')
('指', 'v')
('这个', 'r')
('数据库', 'n')
('四部份', 'n')
('包括', 'v')
('人物', 'n')
('库', 'n')
('机构库', 'n')
('信息库', 'n')
('关系库', 'n')
('网站', 'n')
('显示', 'v')
('数据', 'n')
('库存', 'n')
('有约', 'v')
('人物', 'n')
('数据', 'n')
('其中', 'f')
('网站', 'n')
('介绍', 'v')
('人物', 'n')
('库', 'n')
('包含', 'v')
('全球', 'n')
('军', 'n')
('政', 'n')
('商', 'n')
('科技', 'n')
('传媒', 'n')
('民间', 'n')
('组织', 'n')
('领域', 'n')
('领袖', 'n')
('核心', 'n')
('人物', 'n')
('并', 'c')
('包括', 'v')
('他们', 'r')
('推特', 'v')
('脸书', 'nz')
('领', 'v')
('英', 'LOC')
('LinkedIn', 'n')
('Instagram', 'n')
('博客', 'n')
('平台', 'n')
('数据', 'n')
('拼合成', 'v')
('个人', 'n')
('文件', 'n')
('机构库', 'n')
('包含', 'v')
('军', 'n')
('政', 'n')
('商', 'n')
('科技', 'n')
('传媒', 'n')
('民间', 'n')
('组织', 'n')
('领域', 'n')
('核心', 'n')
('机构', 'n')
('信息库', 'n')
('提供', 'v')
('它们', 'r')
('相关', 'v')
('新闻', 'n')
('信息', 'n')
('这个', 'r')
('数据库', 'n')
('还会', 'v')
('纪录', 'v')
('各个', 'r')
('人物', 'n')
('机构', 'n')
('之间', 'f')
('关系', 'n')
('图像', 'n')
('来源', 'n')
('ZHENHUA/WAYB

('已经', 'd')
('历史', 'n')
('技术', 'n')
('并不难', 'd')
('做到', 'v')
('BBC', 'ORG')
('新闻', 'n')
('镜像', 'n')
('暗网', 'n')
('上线', 'v')
('Tor', 'n')
('个', 'q')
('怎样', 'r')
('洋葱', 'nz')
('记者', 'n')
('体验', 'vn')
('脸书', 'n')
('到底', 'd')
('我们', 'r')
('哪些', 'r')
('数据', 'n')
('柯克', 'PER')
('指出', 'v')
('许多', 'a')
('网站', 'n')
('和平台', 'n')
('都', 'd')
('提供', 'v')
('类似', 'a')
('服务', 'vn')
('例如', 'c')
('总部', 'n')
('设在', 'v')
('美国', 'LOC')
('Pipl公司', 'ORG')
('根据', 'p')
('这家', 'r')
('公司', 'n')
('网站', 'n')
('提供', 'v')
('服务', 'vn')
('包括', 'v')
('搜索', 'vn')
('与', 'c')
('指定', 'vn')
('目标', 'n')
('人士', 'n')
('个人', 'n')
('数据', 'n')
('社交', 'n')
('联系', 'v')
('联系', 'v')
('数据', 'n')
('目标', 'n')
('客户', 'n')
('包括', 'v')
('执法', 'vn')
('机构', 'n')
('保险公司', 'n')
('调查记者', 'n')
('波特', 'PER')
('接受', 'v')
('BBC', 'ORG')
('中文', 'nz')
('访问', 'vn')
('时', 'n')
('指出', 'v')
('两者', 'r')
('无法相提并论', 'v')
('说', 'v')
('振华数据', 'a')
('行政总裁', 'TITLE')
('王雪峰', 'PER')
('曾经', 'd')
('发表', 'v')
('支持', 'v')
('信息战', 'nz')
('言论', 'n')
('取得', 'v')
('这些',

('言论', 'n')
('孙姓', 'n')
('代表', 'n')
('自称', 'v')
('公司', 'n')
('业务', 'n')
('负责人', 'n')
('否认', 'v')
('振华', 'PER')
('中共政府', 'ORG')
('军方', 'n')
('联系', 'vn')
('我们', 'r')
('私人公司', 'n')
('她说', 'v')
('我们', 'r')
('客户', 'n')
('研究', 'vn')
('机构', 'n')
('业务', 'n')
('部门', 'n')
('来源', 'n')
('https', 'nz')
('www.epochtimes.com/gb', 'ORG')
('/20/9/16/n12408366.htm', 'n')
('分享', 'v')
('此文', 'n')
('FacebookTwitterTelegramRedditPinterestWhatsAppTumblrPocketLinkedIn打印', 'ORG')
('请', 'v')
('赞', 'vn')
('喜欢', 'v')
('正在', 'd')
('加载', 'v')
('老师', 'TITLE')
('学生', 'n')
('洗脑', 'v')
('美', 'LOC')
('警察', 'n')
('三K党', 'ORG')
('奴隶主', 'n')
('Next', 'n')
('中共黑客组织', 'ORG')
('成员', 'n')
('世和会', 'ORG')
('今日', 'TIME')
('世界', 'n')
('简讯', 'n')
('2021/04/28', 'nz')
('应印', 'vn')
('太', 'd')
('局势', 'n')
('澳斥', 'v')
('巨资', 'n')
('升级', 'v')
('世和会', 'ORG')
('今日', 'TIME')
('世界', 'n')
('简讯', 'n')
('2021/04/27', 'nz')
('伊朗', 'LOC')
('外长', 'n')
('录音', 'v')
('泄漏', 'v')
('抱怨', 'v')
('苏莱曼尼', 'PER')
('干预', 'v')
('世和会', 'ORG')
('今日', 'TIME')
('

('表示', 'v')
('深圳', 'ORG')
('振华数据', 'ORG')
('信息公司', 'ORG')
('已经', 'd')
('具备', 'v')
('跟踪', 'v')
('海军', 'n')
('舰艇', 'n')
('国防', 'n')
('资产', 'n')
('评估', 'v')
('军官', 'n')
('职业生涯', 'n')
('以及', 'c')
('中国', 'LOC')
('竞争对手', 'n')
('知识产权', 'n')
('编制', 'vn')
('目录', 'n')
('能力', 'n')
('这种', 'r')
('大规模', 'a')
('数据', 'n')
('收集', 'vn')
('发生', 'v')
('中国', 'LOC')
('私营', 'a')
('部门', 'n')
('就像', 'v')
('北京', 'LOC')
('网络', 'n')
('攻击', 'vn')
('能力', 'n')
('外包', 'n')
('私人', 'n')
('分包商', 'n')
('一样', 'a')
('波特', 'PER')
('澳大利亚广播公司', 'ORG')
('这个', 'r')
('过程', 'n')
('深圳', 'ORG')
('振华数据', 'ORG')
('信息公司', 'ORG')
('侵犯', 'v')
('全球', 'n')
('公民', 'n')
('隐私', 'n')
('几乎', 'd')
('每个', 'r')
('主要', 'a')
('社交', 'n')
('媒体', 'n')
('平台', 'n')
('服务', 'vn')
('条款', 'n')
('都', 'd')
('未能', 'v')
('幸免', 'v')
('并且', 'c')
('入侵', 'v')
('其他', 'r')
('公司', 'n')
('数据', 'n')
('恢复', 'v')
('记录', 'n')
('涉及', 'v')
('美国', 'LOC')
('此外', 'c')
('涉及', 'v')
('澳大利亚', 'LOC')
('印度人', 'nz')
('英国人', 'nz')
('加拿大', 'LOC')
('印度尼西亚', 'LOC')
('马来西亚人', 'nz')
('巴布亚新几

('政策', 'n')
('与', 'c')
('安全性', 'n')
('YouTube', 'nz')
('运作', 'vn')
('方式', 'n')
('测试', 'v')
('秘翻组焦点新闻', 'nw')
('中共', 'ORG')
('创建', 'v')
('全球', 'n')
('名人', 'n')
('数据库', 'n')
('引发', 'v')
('全球', 'n')
('首页', 'n')
('秘翻组焦点新闻', 'nw')
('中共', 'ORG')
('创建', 'v')
('全球', 'n')
('名人', 'n')
('数据库', 'n')
('引发', 'v')
('全球', 'n')
('秘翻组焦点新闻', 'nw')
('中共', 'ORG')
('创建', 'v')
('全球', 'n')
('名人', 'n')
('数据库', 'n')
('引发', 'v')
('全球', 'n')
('关键', 'n')
('人物', 'n')
('数据库', 'n')
('为', 'p')
('每个人', 'r')
('分配', 'v')
('数字', 'n')
('排名', 'vn')
('该', 'r')
('数据库', 'n')
('涵盖', 'v')
('全球', 'n')
('超过', 'v')
('万人', 'n')
('其中', 'r')
('包括', 'v')
('澳大利亚', 'LOC')
('该', 'r')
('数据库', 'n')
('深圳振华数据公司', 'ORG')
('编制', 'v')
('中国', 'LOC')
('人民', 'n')
('解放军', 'n')
('共产党', 'nz')
('为其', 'd')
('主要', 'a')
('客户', 'n')
('振华', 'nz')
('声称', 'v')
('提供', 'v')
('社交', 'n')
('媒体', 'n')
('虚假', 'a')
('信息', 'n')
('宣传', 'v')
('武器', 'n')
('振华', 'nz')
('表示', 'v')
('目的', 'n')
('将', 'p')
('社交', 'n')
('媒体', 'n')
('冲突', 'vn')
('转移', 'vn')
('现实', 'a')
('环境', '

('中共', 'ORG')
('联系', 'v')
('密切', 'a')
('科技', 'n')
('巨头', 'n')
('也有', 'v')
('合作', 'vn')
('数据库', 'n')
('为', 'p')
('超限战', 'n')
('准备', 'v')
('军事', 'n')
('工具', 'n')
('该', 'r')
('公司', 'n')
('首席', 'n')
('运行', 'v')
('官', 'n')
('王雪峰', 'PER')
('曾任', 'v')
('IBM', 'ORG')
('员工', 'n')
('通过', 'p')
('微信', 'nz')
('认', 'v')
('通过', 'p')
('操纵', 'vn')
('舆论', 'n')
('心理战', 'n')
('发动', 'v')
('混合战', 'nz')
('振华公司', 'ORG')
('如此', 'r')
('厚颜', 'n')
('无耻', 'vd')
('自诩', 'v')
('为', 'v')
('散布', 'v')
('虚假', 'a')
('信息', 'n')
('促使', 'v')
('冲突', 'vn')
('加剧', 'v')
('为', 'v')
('目的', 'n')
('军事', 'n')
('项目', 'n')
('承包商', 'n')
('该', 'r')
('公司', 'n')
('谈', 'v')
('发动', 'v')
('混合战争', 'nz')
('并', 'c')
('通过', 'p')
('社交', 'n')
('媒体', 'n')
('来', 'v')
('操控', 'v')
('现实', 'a')
('并', 'c')
('认为', 'v')
('自己', 'r')
('使命', 'n')
('利用', 'v')
('数据', 'n')
('实现', 'v')
('民族', 'n')
('伟大', 'a')
('复兴', 'vn')
('其实', 'd')
('中共', 'ORG')
('真实', 'a')
('目的', 'n')
('复兴中共', 'ORG')
('盗国贼', 'n')
('家族', 'n')
('中共', 'ORG')
('盗国贼', 'n')
('家族', 'n')
('授予', 'v')
('

('数据库', 'n')
('OKIDB', 'n')
('情搜', 'n')
('系统', 'n')
('内容', 'n')
('基本', 'd')
('集成', 'v')
('锁定', 'vn')
('对象', 'n')
('Twitter', 'n')
('Facebook', 'nz')
('LinkedIn', 'n')
('Instagram', 'n')
('与', 'c')
('TikTok', 'n')
('活动', 'n')
('纪录', 'n')
('并', 'c')
('集成', 'v')
('出生', 'vn')
('日期', 'n')
('帐号', 'n')
('ID', 'nz')
('住址', 'n')
('家庭', 'n')
('状况', 'n')
('与', 'p')
('职涯', 'n')
('纪录', 'n')
('尽管', 'c')
('相关', 'vn')
('数据', 'n')
('大部分', 'n')
('都', 'd')
('搜集', 'v')
('于', 'p')
('网络', 'n')
('公开', 'v')
('数据', 'n')
('新闻', 'n')
('报导', 'v')
('与', 'p')
('单纯', 'a')
('数据', 'n')
('堆栈', 'v')
('不同', 'a')
('集成', 'vn')
('重现', 'v')
('情搜者', 'n')
('之间', 'f')
('人际', 'n')
('关系', 'n')
('甚至', 'd')
('出现', 'v')
('重点', 'n')
('对象', 'n')
('为', 'v')
('发散', 'v')
('核心', 'n')
('亲友', 'n')
('集体', 'n')
('监控', 'vn')
('同时', 'd')
('部份', 'n')
('对象', 'n')
('健康', 'an')
('数据', 'n')
('心理', 'n')
('评估', 'vn')
('报告', 'n')
('法庭', 'n')
('诉讼', 'v')
('纪录', 'n')
('与', 'c')
('封闭', 'vn')
('系统', 'n')
('里', 'f')
('求职', 'vn')
('信件', 'n')
('都', 'd')
('出现'

('个', 'q')
('资情', 'n')
('搜', 'v')
('还', 'd')
('与', 'p')
('解放军', 'ORG')
('合作', 'v')
('各种', 'r')
('船舰', 'n')
('军机', 'n')
('即时', 'd')
('行动', 'v')
('观测', 'v')
('目前', 'TIME')
('已知', 'v')
('振华', 'PER')
('美国', 'LOC')
('堪萨斯州', 'LOC')
('南韩', 'LOC')
('首尔', 'r')
('设备', 'n')
('数据', 'n')
('中心', 'n')
('这些', 'r')
('装备', 'n')
('是否', 'd')
('涉及', 'v')
('主动', 'a')
('侦搜', 'vn')
('是否', 'd')
('涉嫌', 'v')
('非法', 'd')
('盗取', 'v')
('网络', 'n')
('数据', 'n')
('各国', 'n')
('政府', 'n')
('此刻', 'TIME')
('才', 'd')
('当', 'v')
('加紧', 'vd')
('应变', 'v')
('中国政府', 'ORG')
('花', 'v')
('那么', 'r')
('力气', 'n')
('搞', 'v')
('这种', 'r')
('敌意', 'n')
('数据库', 'n')
('无论', 'c')
('合法', 'a')
('还是非法', 'n')
('大概', 'd')
('都', 'd')
('不是', 'v')
('心存', 'v')
('善意', 'n')
('华为', 'PER')
('5G', 'n')
('政策', 'n')
('抱', 'v')
('质疑', 'a')
('态度', 'n')
('却', 'd')
('与', 'p')
('家人', 'n')
('一起', 'd')
('出现', 'v')
('振华', 'vn')
('数据', 'n')
('名单', 'n')
('英国', 'LOC')
('保守', 'a')
('党', 'n')
('议员', 'n')
('塞利', 'PER')
('Bob', 'nz')
('Seely', 'ORG')
('表示', 'v')
('他们', 'r')

('轰动', 'v')
('一时', 'TIME')
('父', 'n')
('拥', 'v')
('杭州', 'LOC')
('独生女', 'n')
('嫁', 'v')
('出狱', 'v')
('上海', 'LOC')
('首富', 'n')
('寿宴', 'n')
('请', 'v')
('来', 'v')
('官媒', 'n')
('主播', 'n')
('惊动', 'v')
('国', 'n')
('制氧机', 'n')
('运抵', 'v')
('印度', 'LOC')
('莫迪', 'PER')
('这', 'r')
('件', 'q')
('表示', 'v')
('赵婷', 'PER')
('辱华言论', 'nz')
('影响', 'n')
('微博', 'nz')
('微信', 'nz')
('百度', 'nz')
('封锁', 'v')
('得奖', 'v')
('matched', 'n')
('content', 'nz')
('ui-type', 'nz')
('image', 'n')
('sidebyside', 'n')
('image', 'nz')
('stacked', 'nz')
('大八卦', 'n')
('真相', 'n')
('出炉', 'v')
('罗志祥', 'PER')
('真的', 'a')
('玩完', 'v')
('首场', 'n')
('国会', 'n')
('演说', 'v')
('美国', 'LOC')
('就业', 'v')
('计划', 'v')
('蓝', 'a')
('乞讨', 'v')
('不成', 'd')
('怒骂', 'v')
('中国', 'LOC')
('佬', 'n')
('打人', 'v')
('亚裔', 'n')
('男', 'a')
('头', 'n')
('缝', 'v')
('远', 'ad')
('超', 'vd')
('预期', 'v')
('英', 'LOC')
('最新', 'a')
('研究', 'vn')
('显示', 'v')
('疫苗', 'n')
('就能', 'v')
('将', 'p')
('传播率', 'n')
('胆大包天', 'a')
('峇里岛圣山', 'LOC')
('取景', 'v')
('俄', 'LOC')
('成人片', 'n')

('本国公', 'r')
('民隐私', 'n')
('资安', 'vn')
('争议', 'vn')
('至于', 'p')
('中国', 'LOC')
('头号', 'a')
('大敌', 'n')
('针对', 'v')
('资安', 'vn')
('漏洞', 'n')
('可能', 'v')
('更为', 'd')
('严重', 'a')
('ABC', 'nw')
('表示', 'v')
('虽然', 'c')
('已知', 'vn')
('清单', 'n')
('美国', 'LOC')
('公民', 'n')
('只有', 'v')
('除了', 'p')
('重点', 'n')
('战略', 'n')
('人物', 'n')
('政府', 'n')
('次级', 'a')
('承包商', 'n')
('员工', 'n')
('年轻', 'a')
('新创', 'vn')
('科技', 'n')
('实业', 'n')
('美国', 'LOC')
('军队', 'n')
('中阶', 'n')
('军官', 'n')
('都', 'd')
('列入', 'v')
('数据库', 'n')
('搜集', 'v')
('举例', 'vn')
('来说', 'v')
('振华数据', 'ORG')
('亮点', 'n')
('锁定', 'v')
('美国', 'LOC')
('海军', 'n')
('校级', 'n')
('军官', 'n')
('特别', 'd')
('附注', 'v')
('此人', 'r')
('很高', 'a')
('机会', 'n')
('拔擢', 'v')
('核动力', 'n')
('航空母舰', 'n')
('舰长', 'n')
('我们', 'r')
('都', 'd')
('知道', 'v')
('中国政府', 'ORG')
('很', 'd')
('在意', 'v')
('英国', 'LOC')
('内阁', 'n')
('对于', 'p')
('华为', 'ORG')
('5G案', 'n')
('内部', 'f')
('立场', 'n')
('没想到', 'v')
('他们', 'r')
('在意', 'vn')
('这种', 'r')
('程度', 'n')
('同样', 'd')
('受邀', 'v')
('调查'

('振华数据', 'ORG')
('消息', 'n')
('人士', 'n')
('取得', 'v')
('资料库', 'n')
('复制本', 'n')
('澳大利亚网络安全公司Internet', 'ORG')
('首席执行官', 'n')
('罗伯特·波特', 'PER')
('Robert', 'PER')
('Potter', 'n')
('协助', 'vn')
('分析', 'v')
('之后', 'f')
('多国', 'n')
('不同', 'a')
('媒体', 'n')
('分享', 'v')
('资料', 'n')
('他们', 'r')
('跟进', 'v')
('报道', 'v')
('根据', 'p')
('相关', 'vn')
('报道', 'n')
('澳洲', 'LOC')
('总理', 'n')
('莫里森', 'PER')
('印度', 'LOC')
('总理', 'n')
('莫迪', 'PER')
('英国', 'LOC')
('首相', 'n')
('约翰逊', 'PER')
('政客', 'n')
('资料', 'n')
('都', 'd')
('收录', 'v')
('这个', 'r')
('资料库', 'n')
('澳洲广播公司', 'ORG')
('指', 'v')
('资料库', 'n')
('似乎', 'd')
('军官', 'n')
('特别', 'd')
('有兴趣', 'v')
('例如', 'c')
('标记', 'n')
('可能', 'v')
('成为', 'v')
('美国', 'LOC')
('航空母舰', 'n')
('军官', 'n')
('资料库', 'n')
('内', 'f')
('详尽', 'a')
('升迁', 'vn')
('纪录', 'n')
('报道', 'n')
('称', 'v')
('中国人民解放军', 'ORG')
('共产党', 'ORG')
('都是', 'v')
('振华数据', 'ORG')
('主要', 'a')
('客户', 'n')
('之一', 'u')
('资料库', 'n')
('并不', 'd')
('单存', 'd')
('政要', 'n')
('个人', 'n')
('资料', 'n')
('他们', 'r')
('紧密', 'a')
('关

('发现', 'v')
('收集', 'v')
('世界', 'n')
('各地', 'n')
('万人', 'n')
('个人', 'n')
('资料', 'n')
('这家', 'r')
('公司', 'n')
('主管', 'n')
('称', 'v')
('这些', 'r')
('个人', 'n')
('资料', 'n')
('可以', 'v')
('用来', 'v')
('操纵', 'v')
('外国', 'n')
('公众舆论', 'n')
('发动', 'v')
('心理战', 'n')
('曾经', 'd')
('北京大学', 'ORG')
('担任', 'v')
('经济学', 'n')
('教授', 'n')
('美国', 'LOC')
('学者', 'n')
('鲍尔丁', 'PER')
('ChristopherBalding', 'nz')
('星期天', 'TIME')
('2020年9月13日', 'TIME')
('暴露', 'v')
('深圳', 'ORG')
('振华数据', 'ORG')
('信息技术有限公司', 'ORG')
('巨大', 'a')
('境外', 's')
('个人', 'n')
('数据库', 'n')
('项', 'q')
('发现', 'vn')
('证实', 'v')
('人们', 'n')
('中国', 'LOC')
('大量', 'ad')
('搜集', 'v')
('境外', 's')
('个人', 'n')
('数据', 'n')
('影响', 'vn')
('控制', 'v')
('外国', 'n')
('事务', 'n')
('猜测', 'vn')
('鲍尔丁', 'PER')
('去年', 'TIME')
('开始', 'v')
('研究', 'v')
('中国', 'LOC')
('科技', 'n')
('巨商', 'n')
('华为公司', 'ORG')
('运作', 'vn')
('有人', 'r')
('意外', 'a')
('递送', 'v')
('深圳', 'ORG')
('振华数据', 'ORG')
('公司', 'ORG')
('庞大', 'a')
('数据库', 'n')
('资料', 'n')
('目前', 'TIME')
('为止', 'v')
('网络', 'n')

('并', 'd')
('没有', 'v')
('想像', 'vn')
('那么', 'r')
('奇怪', 'a')
('部分', 'n')
('公司', 'n')
('确实', 'd')
('会', 'v')
('类似', 'v')
('行为', 'n')
('但是', 'c')
('网络', 'n')
('创办人', 'n')
('波特', 'PER')
('表示', 'v')
('这个', 'r')
('数据库', 'n')
('问题', 'n')
('在于', 'v')
('可能', 'v')
('违反', 'v')
('各个', 'r')
('公开', 'vn')
('平台', 'n')
('用户', 'n')
('授权', 'v')
('协议', 'n')
('波特', 'PER')
('剑桥', 'LOC')
('分析', 'v')
('丑闻', 'n')
('为', 'v')
('说道', 'v')
('剑桥分析', 'nz')
('之所以', 'c')
('成为', 'v')
('丑闻', 'n')
('关键', 'n')
('他们', 'r')
('滥用', 'v')
('用户', 'n')
('授予', 'v')
('这些', 'r')
('平台', 'n')
('权限', 'n')
('振华数据公司', 'ORG')
('行为', 'n')
('并不', 'd')
('奇怪', 'v')
('背后', 'f')
('目的', 'n')
('才是', 'v')
('让', 'v')
('起疑', 'v')
('地方', 'n')
('很多', 'a')
('西方', 's')
('科技', 'n')
('公司', 'n')
('都会', 'v')
('搜集', 'v')
('数据', 'n')
('同样', 'a')
('行为', 'n')
('应该', 'v')
('会', 'v')
('让', 'v')
('不少', 'a')
('感到', 'v')
('不舒服', 'an')
('澳洲', 'LOC')
('战略', 'n')
('政策', 'n')
('分析', 'vn')
('研究所', 'n')
('网络', 'n')
('中心', 'n')
('AustralianStrategicPolicyInstituteCyberCen

('与', 'p')
('中国', 'LOC')
('友人', 'n')
('合作', 'v')
('详细', 'a')
('背景', 'n')
('调查', 'vn')
('宣称', 'v')
('他们', 'r')
('足以', 'd')
('循线', 'v')
('追踪', 'v')
('撰写', 'v')
('数据库', 'n')
('代码', 'n')
('公司', 'n')
('高层', 'n')
('以及', 'c')
('他们', 'r')
('背后', 'f')
('关系', 'n')
('公司', 'n')
('董事', 'n')
('等人', 'n')
('振华', 'vn')
('数据', 'n')
('为', 'v')
('解放', 'v')
('军', 'n')
('中国', 'LOC')
('情报', 'n')
('单位', 'n')
('国家', 'n')
('安全部', 'n')
('提供', 'v')
('服务', 'vn')
('也是', 'v')
('铁铮铮', 'a')
('事实', 'n')
('获得', 'v')
('数据', 'n')
('鲍丁', 'PER')
('将', 'p')
('数据', 'n')
('转交给', 'v')
('澳洲资安公司', 'ORG')
('网络', 'n')
('Internet', 'n')
('恢复', 'v')
('约', 'd')
('数据', 'n')
('并', 'c')
('提供', 'v')
('给', 'p')
('媒体', 'n')
('报导', 'v')
('公司', 'n')
('网络', 'n')
('创办人', 'n')
('波特', 'PER')
('指出', 'v')
('滥用', 'v')
('用户', 'n')
('授予', 'v')
('平台', 'n')
('权限', 'n')
('重要', 'a')
('海外', 's')
('人士', 'n')
('数据库', 'n')
('真正', 'a')
('问题', 'n')
('Source', 'n')
('Unsplash', 'ORG')
('通通', 'd')
('都是', 'v')
('虚假', 'ad')
('报导', 'v')
('然而', 'c')
('卫报', 'nz')
('采访

('9月14日', 'TIME')
('美国', 'LOC')
('华盛顿邮报', 'nw')
('澳大利亚', 'LOC')
('金融评论报', 'nw')
('英国', 'LOC')
('每日电讯报', 'nw')
('英国', 'LOC')
('卫报', 'nz')
('媒体', 'n')
('同步', 'vd')
('公开', 'v')
('研究成果', 'n')
('据报道', 'd')
('这个', 'r')
('数据库', 'n')
('叫做', 'v')
('海外', 's')
('关键', 'a')
('信息', 'n')
('数据库', 'n')
('OverseasKey', 'nz')
('InformationDatabase', 'nz')
('简称', 'v')
('OKIDB', 'nz')
('包括', 'v')
('大约', 'd')
('万人', 'n')
('机构', 'n')
('信息', 'n')
('目的', 'n')
('中共', 'ORG')
('军队', 'n')
('政府', 'n')
('商业', 'n')
('客户', 'n')
('提供', 'v')
('对外国政治', 'n')
('军事', 'n')
('商业', 'n')
('人物', 'n')
('见解', 'n')
('有关', 'vn')
('各国', 'n')
('基础设施', 'n')
('军事', 'n')
('部署', 'vn')
('细节', 'n')
('以及', 'c')
('公众舆论分析', 'nz')
('目前', 'TIME')
('为止', 'v')
('整理', 'v')
('万人', 'n')
('个人', 'n')
('资料', 'n')
('包括', 'v')
('美国人', 'nz')
('澳大利亚', 'LOC')
('英国人', 'nz')
('加拿大', 'LOC')
('这些人', 'r')
('当中', 'f')
('不仅', 'c')
('包括', 'v')
('世界', 'n')
('著名', 'a')
('政客', 'n')
('商贾', 'n')
('科技界', 'n')
('新贵', 'n')
('学者', 'n')
('银行', 'n')
('老板', 'n')
('记者', 'n')
('律

('疫情', 'n')
('爆发', 'v')
('江苏', 'LOC')
('女', 'a')
('辅警', 'n')
('掀翻', 'v')
('淫乱', 'a')
('官场', 'n')
('网', 'n')
('曝', 'v')
('真人', 'n')
('有人', 'r')
('躺枪', 'n')
('魏晋', 'TIME')
('关于', 'p')
('江泽民', 'PER')
('死', 'vn')
('神秘', 'a')
('密码', 'n')
('地震', 'n')
('过后', 'TIME')
('清理', 'v')
('现场', 's')
('发现', 'v')
('男女', 'n')
('尸体', 'n')
('只有', 'v')
('夫妻', 'n')
('恐怖', 'a')
('还在', 'v')
('后面', 'f')
('呢11', 'xc')
('4618134ABOUTUS', 'n')
('关于', 'p')
('我们', 'r')
('联系', 'v')
('我们', 'r')
('加入', 'v')
('我们', 'r')
('服务', 'vn')
('条款', 'n')
('授权', 'v')
('许可', 'v')
('版权', 'n')
('声明', 'n')
('破网', 'nz')
('指南', 'n')
('短波', 'n')
('收听', 'v')
('网门', 'n')
('无界', 'v')
('动态', 'n')
('明慧网', 'nz')
('明慧电台神韵艺术团', 'ORG')
('全球', 'n')
('退党', 'v')
('服务', 'vn')
('中心', 'n')
('追查', 'v')
('国际大纪元新唐人电视台正见网希望之声湾区生活台日本和之心粤语台', 'nw')
('欧洲', 'LOC')
('希望', 'v')
('声', 'n')
('澳洲', 'LOC')
('生活', 'vn')
('台', 'n')
('下载', 'v')
('RightsReserved', 'n')
('中国', 'LOC')
('无法', 'vd')
('黑材料', 'n')
('影响', 'v')
('澳洲', 'LOC')
('纽约时报', 'ORG')
('中文', 'nz')
('网国际', 

('库克', 'PER')
('如何', 'r')
('成为', 'v')
('敌人', 'n')
('从', 'p')
('毛泽东', 'PER')
('习近平', 'PER')
('2021年', 'TIME')
('奥斯卡', 'PER')
('获奖', 'v')
('名单', 'n')
('赵婷', 'PER')
('游牧人生', 'nw')
('获', 'v')
('大奖', 'n')
('游牧人生', 'nw')
('与', 'p')
('美国', 'LOC')
('不该', 'v')
('存在', 'v')
('恐惧纽', 'n')
('约', 'd')
('中国', 'LOC')
('移民', 'n')
('袭', 'vn')
('踢', 'v')
('踩', 'v')
('头部', 'n')
('伤情', 'n')
('危重', 'a')
('赵婷', 'PER')
('获', 'v')
('奥斯卡', 'PER')
('最佳', 'a')
('导演', 'n')
('奖', 'n')
('游牧人生', 'nw')
('获', 'v')
('最佳', 'a')
('影片', 'n')
('赵婷', 'PER')
('指', 'v')
('辱华', 'nz')
('游牧人生', 'nw')
('中国', 'LOC')
('抵制', 'v')
('审查', 'v')
('国际中国商业', 'ORG')
('与', 'p')
('经济', 'n')
('镜头', 'n')
('科技', 'n')
('科学', 'n')
('健康教育', 'vn')
('文化', 'n')
('风尚', 'n')
('旅游房', 'n')
('地产', 'n')
('观点', 'n')
('与', 'c')
('评论', 'v')
('国际亚太南亚', 'LOC')
('美国', 'LOC')
('美洲', 'LOC')
('欧洲', 'LOC')
('中东', 'LOC')
('非洲', 'LOC')
('中国时政经济社会中外关系港澳台商业', 'ORG')
('与', 'p')
('经济', 'n')
('全球', 'n')
('经济', 'n')
('中国', 'LOC')
('经济', 'n')
('交易录', 'n')
('文化', 'n')
('阅读', 'v

('华', 'LOC')
('财报', 'n')
('大同', 'LOC')
('董事', 'n')
('会', 'v')
('将', 'd')
('出招', 'v')
('航空业', 'n')
('大规模', 'd')
('裁员', 'v')
('星宇航空', 'nz')
('却', 'd')
('趁势', 'd')
('为', 'v')
('疫情', 'n')
('超前', 'ad')
('部署', 'v')
('北', 'f')
('富银', 'n')
('系统', 'n')
('乱', 'n')
('修复', 'v')
('富邦', 'n')
('总行', 'n')
('证实', 'v')
('仿真', 'vn')
('情境', 'n')
('无法', 'v')
('测试', 'vn')
('放', 'v')
('新闻', 'n')
('国际', 'n')
('色', 'n')
('戒翻版', 'n')
('美媒', 'n')
('爆', 'vn')
('中国', 'LOC')
('女间谍', 'n')
('渗透', 'v')
('美国', 'LOC')
('政坛', 'n')
('至少', 'd')
('色诱', 'v')
('市长', 'n')
('企图', 'v')
('窃取', 'v')
('情报', 'n')
('连续', 'd')
('发表', 'v')
('国际', 'n')
('演说', 'vn')
('世界', 'n')
('人权日', 'n')
('蔡英文提', 'PER')
('中国', 'LOC')
('迫害', 'v')
('香港', 'LOC')
('重申', 'v')
('民主', 'an')
('自由', 'an')
('可怜', 'v')
('没', 'v')
('朋友', 'n')
('中国', 'LOC')
('与', 'p')
('印度', 'LOC')
('建交', 'v')
('纪念', 'v')
('邮票', 'n')
('取消', 'v')
('大外宣', 'd')
('业配文', 'nz')
('澳洲', 'LOC')
('大报', 'n')
('别创', 'v')
('一格', 'a')
('快闪', 'nz')
('中国', 'LOC')
('天朝妄想症', 'nz')
('发作', 'v')
('新闻'

('下载', 'v')
('重建', 'v')
('完整', 'a')
('数据库', 'n')
('估计', 'v')
('文本', 'n')
('鲍尔丁', 'PER')
('订', 'v')
('9月14日', 'TIME')
('发表', 'v')
('研究报告', 'n')
('发表', 'v')
('收到', 'v')
('安全', 'an')
('警告', 'vn')
('紧急', 'ad')
('返美', 'v')
('鲍尔丁', 'PER')
('不同', 'a')
('政府', 'n')
('工作', 'vn')
('人员', 'n')
('建议', 'v')
('这个', 'r')
('报告', 'v')
('出来', 'v')
('时候', 'n')
('不要', 'v')
('越南', 'LOC')
('是非常', 'd')
('喜欢', 'v')
('越南', 'LOC')
('被告知', 'v')
('中国', 'LOC')
('特工', 'n')
('越南', 'LOC')
('很', 'd')
('活跃', 'a')
('可能', 'v')
('有人身', 'n')
('安全', 'an')
('风险', 'n')
('鲍尔丁', 'nz')
('报告', 'n')
('分析', 'v')
('数据', 'n')
('从何而来', 'v')
('可能', 'v')
('如何', 'r')
('利用', 'v')
('为主', 'v')
('数据库', 'n')
('分享', 'v')
('美国', 'LOC')
('澳洲', 'LOC')
('英国', 'LOC')
('印度', 'LOC')
('日本', 'LOC')
('不同', 'a')
('国家', 'n')
('媒体', 'n')
('当地', 's')
('记者', 'n')
('追踪', 'v')
('详细', 'a')
('上榜', 'vn')
('名单', 'n')
('恢复', 'v')
('记录', 'vn')
('有约', 'd')
('涉及', 'v')
('美国', 'LOC')
('此外', 'c')
('涉及', 'v')
('澳大利亚', 'LOC')
('印度人', 'nz')
('英国人', 'nz')
('加拿大', 'LOC')
('台湾人

('Supplied', 'n')
('深圳', 'LOC')
('振华数据庞大', 'a')
('数据库', 'n')
('明确', 'v')
('说明', 'v')
('供', 'v')
('军', 'n')
('事情报', 'n')
('部门', 'n')
('使用', 'v')
('情报分析师', 'n')
('表示', 'v')
('该', 'r')
('数据库', 'n')
('鸡血', 'n')
('剑桥分析公司', 'ORG')
('Cambridge', 'nz')
('Analytica', 'nz')
('指', 'v')
('2016年', 'TIME')
('美国', 'LOC')
('大选', 'vn')
('前夕', 'TIME')
('剑桥分析公司', 'ORG')
('从', 'p')
('Facebook', 'nz')
('个人', 'n')
('数据', 'n')
('获取', 'v')
('大量', 'a')
('个人', 'n')
('信息', 'n')
('该', 'r')
('数据库', 'n')
('数据', 'n')
('转储', 'v')
('触手', 'n')
('伸', 'v')
('长', 'a')
('就是', 'v')
('说', 'v')
('可能', 'v')
('存在', 'v')
('复杂', 'a')
('全球', 'n')
('操作', 'vn')
('利用', 'v')
('人工智能', 'n')
('来', 'v')
('搜索', 'v')
('公开', 'n')
('可得', 'v')
('数据', 'n')
('创建', 'v')
('个人', 'n')
('机构', 'n')
('错综复杂', 'a')
('文件', 'n')
('探查', 'v')
('可能', 'v')
('存在', 'v')
('弱点', 'n')
('澳大利亚金融评论报', 'nw')
('AustralianFinancialReview', 'ORG')
('澳大利亚广播公司', 'ORG')
('ABC', 'xc')
('组成', 'v')
('国际', 'n')
('媒体', 'n')
('联盟', 'v')
('将', 'p')
('该', 'r')
('数据库', 'n')
('与', 'c'

('信息', 'n')
('说', 'v')
('中国', 'LOC')
('针对', 'p')
('澳大利亚', 'LOC')
('这样', 'r')
('国家', 'n')
('社会', 'n')
('诸多', 'a')
('方面', 'n')
('大量', 'ad')
('搜集', 'v')
('存储', 'v')
('这些', 'r')
('情报', 'n')
('并', 'c')
('利用', 'v')
('人工', 'n')
('智能', 'n')
('进行', 'v')
('极为', 'd')
('精细', 'a')
('处理', 'v')
('居心', 'v')
('确实', 'd')
('非常', 'd')
('险恶', 'a')
('对', 'p')
('入侵性', 'n')
('情报', 'n')
('收集', 'v')
('行动', 'n')
('担忧', 'vn')
('化名', 'v')
('为', 'v')
('Aeneas', 'PER')
('情报', 'n')
('官员', 'n')
('仔细', 'ad')
('研究', 'v')
('这些', 'r')
('数据', 'n')
('并', 'c')
('将', 'p')
('这种', 'r')
('技术', 'n')
('描述', 'v')
('为', 'v')
('马赛克', 'nz')
('情报', 'n')
('收集', 'v')
('从', 'p')
('各种', 'r')
('来源', 'n')
('获取', 'v')
('大量', 'a')
('信息', 'n')
('Aeneas', 'PER')
('说', 'v')
('情报', 'n')
('信息', 'n')
('各个', 'r')
('部分', 'n')
('就像', 'v')
('马赛克', 'PER')
('瓷砖', 'n')
('一样', 'a')
('如果', 'c')
('排列', 'v')
('正确', 'a')
('有意义', 'v')
('认为', 'v')
('这', 'r')
('不同', 'a')
('于', 'p')
('许多', 'a')
('西方', 's')
('机构', 'n')
('开展', 'v')
('情报', 'n')
('工作', 'n')
('信息', 'n')

('控', 'v')
('报道', 'vn')
('认为', 'v')
('公司', 'n')
('实际', 'd')
('中国振华电子集团', 'ORG')
('持有', 'v')
('振华电子', 'nz')
('央企中国电子信息产业集团', 'ORG')
('子公司', 'n')
('贵州省国资委', 'ORG')
('亦', 'd')
('份', 'q')
('入股', 'vn')
('报道指', 'n')
('振华数据', 'ORG')
('主要', 'a')
('客户', 'n')
('包括', 'v')
('解放军', 'n')
('中国共产党。中国电子信息产业集团', 'ORG')
('日前', 'TIME')
('美国国防部', 'ORG')
('认定', 'v')
('解放军营运。\u3000\u3000《经济通通信社', 'ORG')
('记者', 'n')
('尝试', 'v')
('登录', 'v')
('振华数据', 'ORG')
('官方', 'n')
('网站', 'n')
('发现', 'v')
('无法', 'vd')
('登录', 'v')
('部分', 'n')
('个人', 'n')
('数据', 'n')
('来源', 'n')
('不寻常', 'd')
('业界', 'n')
('疑涉', 'v')
('黑客', 'n')
('行为', 'n')
('＊\u3000\u3000巴尔丁', 'PER')
('北京大学', 'ORG')
('任教', 'v')
('２０１８年', 'TIME')
('担心', 'v')
('人身', 'n')
('安全', 'an')
('离开', 'v')
('并', 'c')
('越南', 'LOC')
('短暂', 'ad')
('居住', 'v')
('其后', 'TIME')
('因为', 'p')
('安全', 'an')
('原因', 'n')
('返回', 'v')
('美国', 'LOC')
('巴尔丁', 'PER')
('指出', 'v')
('发表', 'v')
('有关华为', 'v')
('文章', 'n')
('有人', 'r')
('极大', 'a')
('风险', 'n')
('泄露', 'v')
('上述', 'a')
('数据库', 'n')
('其后'

('美国', 'LOC')
('音', 'n')
('报道', 'v')
('振华', 'nz')
('方面', 'n')
('回应', 'v')
('称', 'v')
('企业', 'n')
('私营企业', 'n')
('数据', 'n')
('研究', 'v')
('使用', 'v')
('中国政府', 'ORG')
('没有关系', 'v')
('骗', 'v')
('粉红', 'a')
('但是', 'c')
('事件', 'n')
('曝光', 'v')
('目前', 'TIME')
('官网', 'n')
('已经', 'd')
('无法', 'vd')
('连接', 'v')
('心虚', 'a')
('另外', 'c')
('虽然', 'c')
('振华', 'PER')
('搜集', 'v')
('数据', 'n')
('大多', 'd')
('公开', 'a')
('数据', 'n')
('如来', 'PER')
('推特', 'ORG')
('脸书', 'nz')
('领英', 'nz')
('媒体', 'n')
('但是', 'c')
('Facebook', 'nz')
('发言人', 'n')
('BBC', 'nz')
('中文', 'nz')
('振华数据', 'ORG')
('搜集资料', 'n')
('方式', 'n')
('违反', 'v')
('使用', 'vn')
('条款', 'n')
('即使', 'c')
('公开', 'vn')
('资料', 'n')
('不可以', 'd')
('这样做', 'v')
('发言人', 'n')
('指', 'v')
('Facebook', 'nz')
('已经', 'd')
('将它', 'd')
('封锁', 'v')
('要求', 'v')
('对方', 'n')
('停止', 'v')
('相关', 'vn')
('行为', 'n')
('推特', 'ORG')
('指出', 'v')
('公司', 'n')
('振华数据', 'ORG')
('并没有', 'v')
('数据', 'n')
('分享', 'vn')
('协议', 'n')
('澳大利亚广播公司', 'ORG')
('ABC', 'xc')
('报道', 'n')
('称', 'v')
('振华数据', '

('解聘', 'vn')
('包定告诉自由亚洲电台', 'nz')
('追踪', 'v')
('华为', 'ORG')
('相关', 'v')
('中国', 'LOC')
('科技', 'n')
('监', 'vn')
('控议题', 'n')
('看过', 'v')
('相关', 'vn')
('数据库', 'n')
('直到', 'p')
('今年', 'TIME')
('初', 'n')
('才', 'd')
('拿到', 'v')
('这份', 'r')
('完整', 'a')
('数据', 'n')
('找', 'v')
('Internet', 'n')
('创办人', 'n')
('波特', 'PER')
('Robert', 'PER')
('Potter', 'n')
('一起', 'd')
('复原', 'v')
('并', 'c')
('整理', 'v')
('数据', 'n')
('最终', 'd')
('下载', 'v')
('并', 'c')
('重建', 'v')
('约', 'd')
('完整', 'a')
('数据库', 'n')
('估计', 'v')
('约', 'd')
('文本', 'n')
('包定原', 'nz')
('订', 'v')
('于', 'p')
('周', 'q')
('9月14日', 'TIME')
('发表', 'n')
('研究', 'vn')
('报告', 'v')
('却', 'd')
('发表', 'v')
('收到', 'v')
('安全', 'an')
('警告', 'vn')
('紧急', 'ad')
('返', 'v')
('美', 'an')
('包定', 'v')
('不同', 'a')
('政府', 'n')
('工作', 'vn')
('人员', 'n')
('建议', 'v')
('当', 'p')
('这个', 'r')
('报告', 'n')
('出来', 'v')
('时候', 'n')
('不要', 'v')
('越南', 'LOC')
('是非常', 'd')
('喜欢', 'v')
('越南', 'LOC')
('被告知', 'v')
('中国', 'LOC')
('特工', 'n')
('越南', 'LOC')
('很', 'd')
('活跃', 'a')
('可

('1', 'n')
('澳洲', 'LOC')
('记者', 'n')
('偷盗', 'v')
('振华公司', 'ORG')
('内部', 'f')
('数据库', 'n')
('是不是', 'v')
('严重', 'a')
('违法行为', 'n')
('不是', 'v')
('吹哨人', 'nz')
('活动', 'v')
('通过', 'p')
('揭露', 'v')
('违法行为', 'n')
('维护', 'v')
('公众', 'n')
('利益', 'n')
('数据', 'n')
('公司', 'n')
('利用', 'v')
('公开', 'a')
('信息', 'n')
('收集', 'v')
('个人', 'n')
('信息', 'n')
('政要', 'n')
('信息', 'n')
('是否', 'd')
('违法', 'v')
('它们', 'r')
('利用', 'v')
('只是', 'v')
('公开', 'vn')
('信息', 'n')
('因此', 'c')
('违法', 'v')
('如果', 'c')
('对标', 'v')
('美国', 'LOC')
('这样', 'r')
('数据公司', 'n')
('是不是', 'v')
('存在', 'v')
('西方', 's')
('是不是', 'v')
('违法', 'v')
('西方', 's')
('也是', 'v')
('违法', 'v')
('特别', 'd')
('欧洲', 'LOC')
('GDPR', 'n')
('数据', 'n')
('公司', 'n')
('买卖', 'v')
('私人', 'n')
('数据', 'n')
('是不是', 'v')
('违法', 'vn')
('比如', 'v')
('FB', 'nz')
('TWITTER', 'n')
('私人', 'n')
('数据', 'n')
('贩售', 'vn')
('买卖', 'v')
('数据', 'n')
('都', 'd')
('必须', 'd')
('不能', 'v')
('鉴别', 'v')
('个人', 'n')
('就是', 'd')
('不能', 'v')
('具体', 'a')
('号', 'n')
('同样', 'd')
('参见', 'v')
('GDPR', 

('国', 'n')
('政要', 'n')
('如今', 'TIME')
('曝光', 'v')
('台湾', 'LOC')
('名单', 'n')
('包含', 'v')
('外交部长', 'n')
('吴钊燮', 'PER')
('总统', 'TITLE')
('马英九', 'PER')
('亲民', 'v')
('党主席', 'n')
('宋楚瑜', 'PER')
('政要', 'n')
('企业', 'n')
('人士', 'n')
('及其', 'c')
('家人', 'n')
('都', 'd')
('这个', 'r')
('数据库', 'n')
('虽然', 'c')
('名单', 'n')
('未见', 'v')
('总统', 'TITLE')
('蔡英文', 'PER')
('高雄', 'n')
('市长', 'n')
('韩国瑜', 'PER')
('这份', 'r')
('名单', 'n')
('曝光', 'vn')
('已经', 'd')
('引发', 'v')
('各国', 'n')
('政府', 'n')
('高度', 'n')
('警戒', 'vn')
('振华数据', 'ORG')
('这', 'r')
('间', 'q')
('公司', 'n')
('成立', 'v')
('2018年', 'TIME')
('下半年', 'TIME')
('创办人', 'n')
('为', 'v')
('IBM工程师', 'ORG')
('王雪峰', 'PER')
('短短', 'a')
('时间', 'n')
('振华', 'vn')
('数据', 'n')
('已经', 'd')
('世界', 'n')
('各国', 'r')
('布局', 'n')
('至少', 'd')
('海外', 's')
('信息', 'n')
('处理', 'vn')
('中心', 'n')
('才能', 'v')
('创建', 'v')
('涵盖', 'v')
('全球', 'n')
('政商', 'n')
('名流', 'n')
('数据库', 'n')
('请继续', 'v')
('往下', 'd')
('阅读', 'v')
('中国国家', 'ORG')
('主席', 'n')
('习近平', 'PER')
('扬言', 'v')
('打造', 'v')


('收集', 'vn')
('也是', 'v')
('振华公司', 'ORG')
('大部分', 'n')
('数据', 'n')
('来源', 'n')
('根据', 'p')
('华盛顿邮报', 'nw')
('检视', 'v')
('数据库', 'n')
('美国', 'LOC')
('专家', 'n')
('对其', 'd')
('价值', 'n')
('评估', 'vn')
('意见', 'n')
('认为', 'v')
('重要性', 'n')
('专家', 'n')
('表示', 'v')
('数据库', 'n')
('信息', 'n')
('似乎', 'd')
('道琼斯公司', 'ORG')
('DowJones＆Company', 'nz')
('拥有', 'v')
('商业', 'n')
('信息', 'n')
('研究', 'vn')
('工具', 'n')
('Factiva', 'n')
('律商', 'n')
('联讯', 'v')
('LexisNexis', 'n')
('领英LinkedIn', 'nz')
('美国商业公司', 'ORG')
('那里', 'r')
('全盘', 'n')
('复制', 'v')
('里头', 'f')
('几乎', 'd')
('包含', 'v')
('人工分析', 'n')
('成果', 'n')
('情报', 'n')
('大部分', 'n')
('社交', 'n')
('媒体', 'n')
('库', 'n')
('似乎', 'd')
('任何人', 'r')
('都', 'd')
('可以', 'v')
('访问', 'v')
('公共', 'a')
('账户', 'n')
('搜集', 'v')
('而来', 'v')
('看过', 'v')
('这个', 'r')
('数据库', 'n')
('美国政府', 'ORG')
('网络', 'n')
('安全', 'an')
('承包商', 'n')
('里面', 'f')
('可能', 'v')
('黄金', 'n')
('军事', 'n')
('情报', 'n')
('目标', 'n')
('不够', 'd')
('有用', 'a')
('表示', 'v')
('振华', 'PER')
('称', 'v')
('数据库', 'n')


('用来', 'v')
('建构', 'v')
('军事', 'n')
('资料库', 'n')
('振华', 'PER')
('工程师', 'n')
('周鹏', 'PER')
('音译', 'n')
('领英', 'n')
('正在', 'd')
('打造', 'v')
('军事', 'n')
('部署', 'vn')
('模拟', 'vn')
('演示', 'vn')
('系统', 'n')
('除了', 'p')
('军方', 'n')
('人士', 'n')
('数据库', 'n')
('收录', 'v')
('华盛顿', 'LOC')
('影响力', 'n')
('中国', 'LOC')
('观察家', 'n')
('推文', 'v')
('这些', 'r')
('人士', 'n')
('包括', 'v')
('美国', 'LOC')
('战略', 'n')
('国际', 'n')
('研究中心', 'n')
('CenterforStrategicandInternationalStudies', 'ORG')
('中国', 'LOC')
('贸易', 'vn')
('专家', 'n')
('肯尼迪', 'PER')
('Scott', 'PER')
('Kennedy', 'PER')
('外国人看中国', 'nw')
('Sinocism', 'n')
('通讯的出版人利明璋', 'nw')
('Bill', 'n')
('Bishop', 'nz')
('兰德公司', 'ORG')
('Rand', 'n')
('Corp', 'n')
('研究', 'v')
('解放军的莫里斯', 'nw')
('LyleMorris', 'nz')
('根据', 'p')
('振华', 'PER')
('公开', 'v')
('公司', 'n')
('记录', 'n')
('显示', 'v')
('2018', 'TIME')
('年底', 'TIME')
('4月', 'TIME')
('期间', 'f')
('申请', 'v')
('搜集', 'v')
('新闻', 'n')
('信息', 'n')
('管理', 'v')
('数据', 'n')
('处理', 'v')
('视频', 'n')
('有关', 'v')
('专利', 'n')
('其中',

('中国', 'LOC')
('混动战', 'n')
('北京', 'LOC')
('澳洲', 'LOC')
('世界', 'n')
('大规模', 'd')
('监视', 'v')
('发现', 'v')
('秘密', 'n')
('发表', 'v')
('中国', 'LOC')
('混动战', 'n')
('北京', 'LOC')
('澳洲', 'LOC')
('世界', 'n')
('大规模', 'd')
('监视', 'v')
('发现', 'v')
('秘密', 'n')
('北京', 'LOC')
('军方', 'n')
('以及', 'c')
('情报', 'n')
('网络', 'n')
('有关', 'v')
('中国', 'LOC')
('公司', 'n')
('累积', 'v')
('含有', 'v')
('澳洲人', 'nz')
('具体', 'a')
('信息', 'n')
('巨大', 'a')
('数据库', 'n')
('其中', 'r')
('包括', 'v')
('知名', 'a')
('人士', 'n')
('影响力', 'n')
('信息', 'n')
('振华数据', 'ORG')
('信息', 'n')
('中国', 'LOC')
('情报', 'n')
('机构', 'n')
('国家安全部', 'ORG')
('使用', 'v')
('振华数据', 'ORG')
('主要', 'a')
('客户', 'n')
('有人民', 'n')
('解放军', 'n')
('中国共产党', 'ORG')
('收集', 'v')
('信息', 'n')
('包括', 'v')
('出生', 'vn')
('日期', 'n')
('住址', 'n')
('婚姻', 'n')
('状况', 'n')
('照片', 'n')
('政治', 'n')
('联系', 'vn')
('亲戚', 'n')
('以及', 'c')
('社交', 'n')
('媒体', 'n')
('账号', 'n')
('集成', 'v')
('推特', 'nz')
('脸书', 'nz')
('领', 'v')
('英', 'LOC')
('Instagram', 'n')
('甚至', 'd')
('TikTok', 'n')
('帐户', 'n')
('以

('信息', 'n')
('暴露', 'v')
('出来', 'v')
('岁月静好', 'a')
('日子', 'n')
('不过', 'd')
('肯定', 'd')
('有人', 'r')
('某些', 'r')
('大国', 'n')
('一直', 'd')
('监控', 'v')
('全世界', 'n')
('发表', 'v')
('本帖', 'n')
('最后', 'ad')
('多难', 'ad')
('兴邦', 'v')
('支持', 'v')
('任何', 'r')
('收集', 'v')
('数据', 'n')
('行为', 'n')
('不过', 'c')
('这点', 'r')
('东西', 'n')
('美国', 'LOC')
('棱镜', 'n')
('计划', 'n')
('比比', 'v')
('简直', 'd')
('发表', 'v')
('哪个', 'r')
('政府', 'n')
('搞', 'v')
('不好说', 'v')
('发表', 'v')
('发表', 'v')
('老大哥', 'n')
('正在', 'd')
('发表', 'v')
('其实', 'd')
('视频', 'n')
('可以', 'v')
('统治', 'v')
('全球', 'n')
('发表', 'v')
('发表', 'v')
('帖', 'n')
('最后', 'ad')
('sheldonw', 'nz')
('countriesconductintelligencegatheringoperationstocollectinformationaboutinfluentialforeignnationals', 'ORG')
('diplomatic', 'nz')
("concerningandsetsapartChina'sintelligencegathering", 'ORG')
('collectedbyminingofopensourcesofdatamaybebeingweaponisedtoengageinunacceptablepoliticalinterferenceinthedemocraticprocessincountriessuchasAustralia', 'ORG')
('发表', 'v')
('支持', '

('设备', 'n')
('制造商', 'n')
('TikTok', 'n')
('社交', 'n')
('媒体', 'n')
('美国', 'LOC')
('运作', 'vn')
('称', 'v')
('这些', 'r')
('公司', 'n')
('中共', 'ORG')
('政权', 'n')
('收据', 'n')
('数据', 'n')
('情报', 'n')
('从而', 'c')
('损害', 'v')
('美国', 'LOC')
('国家安全', 'n')
('这些', 'r')
('中国', 'LOC')
('公司', 'n')
('矢口否认', 'v')
('中国政府', 'ORG')
('联系', 'vn')
('音', 'n')
('新闻', 'n')
('编辑', 'n')
('时事', 'n')
('美国会共和党', 'ORG')
('领袖', 'n')
('要求', 'v')
('调查', 'v')
('TikTok', 'n')
('收集', 'v')
('数据', 'n')
('中国', 'f')
('外宣军', 'n')
('美暗渡陈仓', 'LOC')
('猛烈', 'ad')
('狙击', 'v')
('损失', 'n')
('时事', 'n')
('大家', 'r')
('谈', 'v')
('重播', 'vn')
('代码', 'n')
('已经', 'd')
('复制', 'v')
('剪贴板', 'n')
('网址', 'n')
('复制', 'v')
('剪', 'v')
('时事', 'n')
('大家', 'r')
('谈', 'v')
('莫迪', 'PER')
('感谢', 'v')
('美国', 'LOC')
('援助', 'v')
('抗', 'v')
('疫', 'n')
('为何', 'r')
('中国', 'LOC')
('善意', 'n')
('所动', 'vn')
('欢迎', 'v')
('YouTube', 'nz')
('直播', 'vn')
('聊天室', 'n')
('参与', 'v')
('节目', 'n')
('时事', 'n')
('大家', 'r')
('谈', 'v')
('重播', 'vn')
('代码', 'n')
('已经', 'd')
('复制', 'v')
('

('有关联', 'v')
('涉嫌', 'v')
('搜集', 'v')
('影响力', 'n')
('人士', 'n')
('档案', 'n')
('其中', 'f')
('包含', 'v')
('美国', 'n')
('总统', 'TITLE')
('川普', 'PER')
('前日', 'TIME')
('首相', 'n')
('安倍晋三', 'PER')
('澳洲', 'LOC')
('总理', 'n')
('莫里森', 'PER')
('印度', 'LOC')
('总理', 'n')
('莫迪', 'PER')
('国政要', 'n')
('由于', 'p')
('这份', 'r')
('名单', 'n')
('凸显', 'v')
('中共', 'ORG')
('渗透', 'v')
('网络', 'n')
('威胁', 'vn')
('因此', 'c')
('引起', 'v')
('外界', 'n')
('高度', 'd')
('警戒', 'v')
('中国', 'LOC')
('网站', 'n')
('禁止', 'v')
('创建', 'v')
('镜像', 'n')
('网站', 'n')
('返回', 'v')
('正版', 'n')
('中国', 'LOC')
('网站', 'n')
('川普', 'a')
('安倍', 'PER')
('国政', 'n')
('受害', 'v')
('澳洲广播公司', 'ORG')
('ABC', 'xc')
('英国', 'LOC')
('每日电讯报', 'nw')
('印度快报', 'nw')
('媒体', 'n')
('日', 'q')
('发稿', 'v')
('引述', 'v')
('北京大学', 'ORG')
('任职', 'v')
('美籍', 'n')
('经济', 'n')
('学者', 'n')
('鲍丁', 'PER')
('Chris', 'nz')
('Balding', 'n')
('获取', 'v')
('资料', 'n')
('指出', 'v')
('位于', 'v')
('中国', 'LOC')
('深圳', 'LOC')
('振华数据', 'ORG')
('公司', 'n')
('创建', 'v')
('数据库', 'n')
('收录', 'v')
('各国', 'n')
('

('解放军', 'n')
('情报', 'n')
('系统', 'n')
('惹事', 'v')
('习近平', 'PER')
('保权', 'v')
('视频', 'n')
('闫丽梦论文', 'nw')
('评析', 'vn')
('病毒', 'n')
('来源', 'n')
('存疑', 'v')
('视频', 'n')
('Kid', 'nz')
('完成', 'v')
('好友', 'n')
('遗愿', 'n')
('视频', 'n')
('疫情', 'n')
('严重', 'a')
('网友', 'n')
('暴露', 'v')
('钟南山', 'PER')
('到达', 'v')
('瑞丽', 'LOC')
('中共', 'ORG')
('修改', 'v')
('鲜语', 'n')
('朝鲜族', 'nz')
('下手', 'v')
('视频', 'n')
('三峡', 'LOC')
('工程', 'n')
('质量', 'n')
('猛士', 'n')
('装甲车', 'n')
('质量', 'n')
('问题', 'n')
('惊人', 'a')
('相似', 'a')
('视频', 'n')
('送', 'v')
('黄伟然', 'PER')
('妻子', 'n')
('哭求', 'v')
('当局', 'n')
('放', 'v')
('丈夫', 'n')
('返港', 'v')
('视频', 'n')
('媒披露习', 'v')
('被迫', 'd')
('下台', 'v')
('视频', 'n')
('美国', 'LOC')
('大使', 'n')
('预警', 'vn')
('离职', 'v')
('北京', 'LOC')
('外交', 'n')
('陷', 'v')
('空前', 'a')
('危机', 'n')
('视频', 'n')
('最多', 'd')
('评论', 'v')
('最多', 'a')
('袁弓夷', 'PER')
('美', 'an')
('创建', 'v')
('国际', 'n')
('新秩序', 'n')
('孤立', 'v')
('中共', 'ORG')
('习近平', 'PER')
('中共', 'ORG')
('罪恶', 'n')
('担责', 'v')
('查一查', 'v')
('武汉P4实验室'

('员工', 'n')
('曝', 'v')
('智能', 'n')
('坐垫', 'n')
('监视', 'v')
('一举一动', 'n')
('舆论', 'n')
('参议员', 'n')
('呼吁', 'v')
('澳中共', 'ORG')
('党员', 'n')
('请', 'v')
('登录', 'v')
('发表', 'v')
('评论', 'n')
('假如', 'c')
('习近平', 'PER')
('赵婷', 'PER')
('死亡', 'v')
('增至', 'v')
('接种', 'v')
('科兴者', 'n')
('跌破', 'v')
('中国', 'LOC')
('自由度', 'n')
('每况', 'n')
('愈', 'd')
('距离', 'v')
('道路', 'n')
('还有', 'v')
('多远', 'a')
('美国人口普查', 'nz')
('数据', 'n')
('出笼', 'v')
('加州', 'LOC')
('历史性', 'n')
('中国', 'LOC')
('疫苗', 'n')
('紧急', 'ad')
('授权', 'v')
('世卫', 'ORG')
('可望', 'v')
('内', 'f')
('孙大午', 'PER')
('移交', 'v')
('检方', 'n')
('审讯', 'v')
('当局', 'n')
('疑', 'v')
('加快', 'v')
('办案', 'vn')
('正常', 'ad')
('交班', 'v')
('时刻', 'd')
('逼近', 'v')
('习近平', 'PER')
('广西', 'LOC')
('视察', 'v')
('表情', 'n')
('最佳', 'a')
('导演', 'n')
('中国', 'LOC')
('官媒', 'n')
('微博', 'n')
('冷', 'ad')
('看新闻', 'nw')
('网', 'n')
('澳大利亚', 'LOC')
('传媒集团', 'n')
('创办', 'v')
('全球性', 'n')
('多功能', 'n')
('新闻', 'n')
('网站', 'n')
('世界风云变幻不断', 'nz')
('虚实', 'n')
('消息', 'n')
('层出', 'v')
('泛滥', 'v')
(

('我们', 'r')
('浑然不觉', 'a')
('战争', 'n')
('号角', 'n')
('早已', 'd')
('响起', 'v')
('没有', 'v')
('危机感', 'n')
('就是', 'v')
('台湾', 'LOC')
('目前', 'TIME')
('最大', 'a')
('危机', 'n')
('请', 'v')
('登录', 'v')
('注册', 'v')
('可能会', 'v')
('兴趣', 'n')
('天国世界', 'nz')
('究竟', 'd')
('不存在', 'v')
('天国世界', 'nz')
('或是', 'c')
('天堂', 'n')
('是否', 'd')
('存在', 'v')
('对于', 'p')
('神论者', 'n')
('无神论者', 'n')
('来说', 'v')
('永远', 'd')
('信者', 'n')
('恒信', 'n')
('信者恒不信', 'v')
('两极', 'n')
('对于', 'p')
('眼见为凭', 'v')
('来说', 'v')
('张良', 'PER')
('与', 'p')
('刘伯温', 'PER')
('人生', 'n')
('智能', 'n')
('中国', 'LOC')
('历史', 'n')
('故事', 'n')
('相当', 'd')
('篇章', 'n')
('来自', 'v')
('战争', 'n')
('乱世', 'v')
('之中', 'u')
('英雄豪杰', 'PER')
('斗智', 'v')
('谋略', 'a')
('故事', 'n')
('一向', 'd')
('为人', 'n')
('津津乐道', 'v')
('这些', 'r')
('战争', 'n')
('故事', 'n')
('总', 'd')
('少不了', 'v')
('足智多谋', 'a')
('军师', 'n')
('谋士', 'n')
('领导者', 'n')
('学', 'v')
('团队', 'n')
('发展', 'v')
('阶段', 'n')
('理论', 'v')
('美国', 'LOC')
('心理学', 'n')
('教授', 'n')
('布鲁斯', 'PER')
('塔克曼', 'PER')
('BruceW.Tuckman',

('职业', 'n')
('技能', 'n')
('标准', 'n')
('编制', 'vn')
('北京电工技术学会', 'ORG')
('联合', 'vd')
('开展', 'v')
('时速', 'n')
('北京农学会', 'ORG')
('组织', 'v')
('召开', 'v')
('北京农业科技', 'ORG')
('创新', 'vn')
('能力', 'n')
('企业', 'n')
('需求', 'n')
('对接', 'vn')
('应接不暇', 'vn')
('中科院', 'ORG')
('先进', 'a')
('制造', 'vn')
('北京预防医学会', 'ORG')
('发布', 'v')
('新冠', 'n')
('肺炎', 'n')
('防控', 'vn')
('相关', 'vn')
('关于', 'p')
('印发', 'v')
('中国科协', 'ORG')
('2020年', 'TIME')
('科普', 'vn')
('工作', 'n')
('要点', 'n')
('关于', 'p')
('印发', 'v')
('中国科协', 'ORG')
('2020年', 'TIME')
('科普', 'vn')
('工作', 'n')
('要点', 'n')
('北京', 'LOC')
('科学', 'n')
('传播', 'vn')
('大赛', 'n')
('圆满', 'ad')
('举办', 'v')
('市科协', 'ORG')
('中科院北京分院', 'ORG')
('围绕', 'v')
('推动', 'v')
('首都', 'n')
('科普发', 'vn')
('市科协', 'ORG')
('常委会', 'n')
('科普', 'vn')
('工作', 'vn')
('委员会', 'n')
('召开', 'v')
('工作', 'n')
('北京科学教育馆协会', 'ORG')
('领导', 'n')
('出席', 'v')
('2019年', 'TIME')
('地方', 'n')
('2019年', 'TIME')
('基层', 'n')
('科普', 'vn')
('工作者', 'n')
('能力', 'n')
('提升', 'vn')
('计划', 'n')
('培训', 'vn')
('北京市科协', 'ORG'

('认真', 'ad')
('学习', 'v')
('贯彻', 'v')
('中共中央政治局', 'ORG')
('经济', 'n')
('工作会议', 'n')
('精神', 'n')
('聚焦', 'v')
('北京', 'LOC')
('加快', 'v')
('建设', 'v')
('具有', 'v')
('全球', 'n')
('影响力', 'n')
('全国', 'n')
('科技', 'n')
('创新', 'vn')
('中心', 'n')
('热点', 'n')
('前沿', 'n')
('问题', 'n')
('不辱使命', 'v')
('搭建', 'v')
('政府', 'n')
('科研', 'vn')
('院所', 'n')
('企事业', 'n')
('单位', 'n')
('交流', 'vn')
('平台', 'n')
('举办', 'v')
('国际化', 'vn')
('高端', 'n')
('学术', 'n')
('活动', 'n')
('积极', 'ad')
('为政府', 'n')
('企业', 'n')
('提供', 'v')
('决策咨询服务', 'nz')
('不断', 'ad')
('提高', 'v')
('学会', 'n')
('影响力', 'n')
('知名度', 'n')
('努力', 'ad')
('办成', 'v')
('首都', 'n')
('一流', 'a')
('学术团体', 'n')
('回信', 'v')
('勉励', 'v')
('全国', 'n')
('广大', 'a')
('科技', 'n')
('工作者', 'n')
('全面', 'ad')
('建设', 'v')
('社会主义', 'n')
('现代化', 'vn')
('国家', 'n')
('贡献', 'v')
('科技', 'n')
('力量', 'n')
('2021年', 'TIME')
('新年', 'TIME')
('贺词', 'n')
('北京市科协', 'ORG')
('人类', 'n')
('传染病', 'n')
('博弈', 'vn')
('主题', 'n')
('展荣获', 'nz')
('北京市科协', 'ORG')
('首都', 'n')
('广大', 'a')
('科技', 'n')
('工作者', 'n')


('揪出', 'v')
('癌细胞', 'n')
('侵入', 'v')
('检查', 'vn')
('提升', 'v')
('治疗', 'vn')
('精准度', 'n')
('大肠癌', 'n')
('复发', 'v')
('下手', 'v')
('为', 'v')
('强', 'a')
('抽血', 'vn')
('检验', 'vn')
('准确率', 'n')
('达', 'v')
('美丽', 'a')
('身心', 'n')
('灵影', 'n')
('饿', 'v')
('却', 'd')
('暴食', 'v')
('分辨', 'v')
('压力', 'n')
('吃', 'v')
('远离', 'v')
('情绪性', 'n')
('饥饿', 'n')
('社交恐惧症', 'nz')
('症状', 'n')
('哪些', 'r')
('内向', 'n')
('代表', 'v')
('害怕', 'v')
('社交', 'n')
('影', 'n')
('光头', 'n')
('癌症', 'n')
('少女', 'n')
('骂', 'v')
('人妖', 'n')
('勇敢', 'ad')
('找回', 'v')
('自信', 'a')
('人生', 'n')
('重头', 'n')
('开始', 'v')
('退休', 'v')
('生活', 'n')
('失去', 'v')
('重心', 'n')
('人生', 'n')
('没有', 'v')
('目标', 'n')
('认知', 'vn')
('能力', 'n')
('恐', 'v')
('退化', 'vn')
('患部', 'n')
('清洁', 'a')
('很重要', 'a')
('中医师', 'n')
('治疗', 'v')
('湿疹', 'n')
('这个', 'r')
('步骤', 'n')
('关键', 'n')
('校园', 'n')
('初声', 'n')
('精选', 'v')
('毕展', 'v')
('教育', 'vn')
('科技', 'n')
('懒人', 'n')
('焦点', 'n')
('机师', 'n')
('染', 'v')
('疫', 'n')
('本土', 'n')
('拉', 'v')
('警报', 'n')
('国务机', 'n')
('费', 'v

('两岸', 'n')
('对话', 'v')
('各政', 'r')
('党', 'n')
('都', 'd')
('努力', 'a')
('02直播／华航', 'ORG')
('机师感染源', 'n')
('找到了', 'v')
('陈时中', 'PER')
('亲自', 'd')
('说明', 'v')
('14:00', 'TIME')
('狂酸', 'a')
('月', 'n')
('草莓兵', 'n')
('替代', 'v')
('役', 'n')
('男反遭呛', 'n')
('还', 'd')
('笑', 'v')
('别人', 'r')
('呛', 'v')
('麦当劳', 'nz')
('薯条', 'n')
('都', 'd')
('冷', 'a')
('送', 'v')
('员', 'n')
('抖', 'v')
('延', 'v')
('迟', 'a')
('真相', 'n')
('别怪', 'v')
('我们', 'r')
('房东', 'n')
('有权', 'v')
('进入', 'v')
('出租', 'v')
('房子', 'n')
('吗', 'xc')
('恐违', 'v')
('刑法', 'n')
('逼', 'v')
('犯人', 'n')
('听', 'v')
('鲨鱼宝宝', 'n')
('超过', 'v')
('小时', 'n')
('美国', 'LOC')
('狱警', 'n')
('起诉', 'v')
('虐囚川普', 'PER')
('确诊', 'v')
('全球', 'n')
('惊', 'v')
('学者', 'n')
('曝', 'v')
('真相', 'n')
('元首', 'n')
('染', 'v')
('疫', 'n')
('比例', 'n')
('高一般人', 'n')
('马国', 'n')
('高中生', 'n')
('少女', 'n')
('爆', 'v')
('红', 'a')
('多才多艺', 'nz')
('还', 'd')
('飘散', 'v')
('青春', 'n')
('关于', 'p')
('今日', 'TIME')
('传媒', 'v')
('股', 'q')
('公司', 'n')
('版权', 'n')
('所有', 'a')
('经', 'v')
('授权', 'vn'

('发榜', 'vn')
('升级', 'v')
('降级', 'vn')
('国融证券', 'ORG')
('连升', 'd')
('无惧', 'v')
('市场', 'n')
('震荡', 'vn')
('机构', 'n')
('研判', 'v')
('逢低', 'v')
('布局', 'n')
('正当时', 'n')
('股', 'q')
('海', 'n')
('导航', 'vn')
('8月27日', 'TIME')
('沪深', 'n')
('股市', 'n')
('公告', 'n')
('提示', 'v')
('8月27日', 'TIME')
('操盘', 'v')
('必读', 'vn')
('影响', 'v')
('股市', 'n')
('利好', 'n')
('利空', 'n')
('消息', 'n')
('内资', 'n')
('外资', 'n')
('悉数', 'd')
('出走', 'v')
('芯片', 'n')
('股', 'n')
('成为', 'v')
('重灾区', 'n')
('中芯国际创新低06/ST金花', 'ORG')
('董事长', 'n')
('疑卷入', 'v')
('桃色', 'n')
('纠纷', 'n')
('上任', 'v')
('不足', 'v')
('两月', 'TIME')
('指性侵', 'v')
('女下属07/证监会', 'ORG')
('公布', 'v')
('2020年', 'TIME')
('证券', 'n')
('公司', 'n')
('分类', 'vn')
('结果', 'n')
('券商', 'n')
('AA级', 'n')
('附表', 'n')
('贝佐斯', 'PER')
('成为', 'v')
('全球', 'n')
('首位', 'n')
('富豪', 'n')
('5G', 'q')
('年内', 'q')
('最大', 'a')
('事件', 'n')
('中国神网', 'nz')
('启动', 'v')
('上市公司', 'n')
('公告', 'n')
('出资', 'v')
('收盘', 'vn')
('标普纳', 'PER')
('指', 'v')
('再创', 'd')
('新高', 'n')
('赛富时领涨科技股', 'ORG')
('01/网', 'nz

('都', 'd')
('收录', 'v')
('这个', 'r')
('资料库', 'n')
('澳洲广播公司', 'ORG')
('指', 'v')
('资料库', 'n')
('似乎', 'd')
('军官', 'n')
('特别', 'd')
('有兴趣', 'v')
('例如', 'c')
('被标纪', 'n')
('可能', 'v')
('成为', 'v')
('美国', 'LOC')
('航空母舰', 'n')
('军官', 'n')
('资料库', 'n')
('内', 'f')
('详尽', 'a')
('升迁', 'vn')
('纪录', 'n')
('报道', 'n')
('称', 'v')
('中国人民解放军', 'ORG')
('共产党', 'ORG')
('都是', 'v')
('振华数据', 'ORG')
('主要', 'a')
('客户', 'n')
('之一', 'u')
('资料库', 'n')
('并不', 'd')
('单存', 'd')
('政要', 'n')
('个人', 'n')
('资料', 'n')
('他们', 'r')
('紧密', 'a')
('关系', 'n')
('榜上有名', 'v')
('例如', 'c')
('资料库', 'n')
('内', 'f')
('除了', 'p')
('载有', 'v')
('英国', 'LOC')
('首相', 'n')
('约翰逊', 'PER')
('资料', 'n')
('也有', 'v')
('大学', 'n')
('同学', 'n')
('古皮', 'n')
('DariusGuppy', 'n')
('名字', 'n')
('同时', 'd')
('注明', 'v')
('输', 'v')
('逊', 'a')
('关系', 'n')
('密切者', 'n')
('资料库', 'n')
('有约', 'v')
('人士', 'n')
('资料', 'n')
('包括', 'v')
('最少', 'd')
('美国人', 'nz')
('英国人', 'nz')
('澳大利亚', 'LOC')
('加拿大', 'LOC')
('日本人', 'nz')
('脸书', 'nz')
('个人', 'n')
('用户', 'n')
('数据', 'n')
('滥用', 

('在此', 'd')
('声明', 'v')
('本人', 'r')
('充分', 'a')
('理由', 'n')
('相信', 'v')
('于此', 'd')
('提出', 'v')
('争议', 'vn')
('内容', 'n')
('版权', 'n')
('保护', 'v')
('而且', 'c')
('并未', 'd')
('获得', 'v')
('版权', 'n')
('拥有者', 'n')
('代理人', 'n')
('法律', 'n')
('授权', 'vn')
('使用', 'vn')
('例如', 'v')
('合理', 'ad')
('使用', 'v')
('本人', 'r')
('确认', 'v')
('通知', 'n')
('提及', 'v')
('资讯', 'n')
('皆', 'd')
('正确', 'ad')
('无误', 'v')
('并且', 'c')
('虚伪', 'an')
('涉及', 'v')
('刑责', 'n')
('情事', 'n')
('前提', 'n')
('在此', 'd')
('声明', 'v')
('本人', 'r')
('指', 'v')
('内容', 'n')
('合法', 'a')
('拥有者', 'n')
('拥有者', 'n')
('合法', 'a')
('授权', 'vn')
('代理人', 'n')
('根据', 'p')
('版权', 'n')
('相关', 'vn')
('法律', 'n')
('规定', 'n')
('取得', 'v')
('独家', 'a')
('使用权', 'n')
('提供', 'v')
('法定', 'a')
('全名', 'n')
('电子', 'n')
('实体', 'n')
('签名', 'vn')
('请', 'v')
('通知', 'n')
('完整', 'ad')
('填写', 'v')
('寄', 'v')
('关闭', 'v')
('收藏', 'v')
('个人', 'n')
('搜藏夹', 'n')
('更改', 'vn')
('请', 'v')
('选择', 'v')
('搜藏夹', 'n')
('创建', 'v')
('搜藏夹', 'n')
('是否', 'd')
('公开', 'v')
('他人', 'r')
('浏览', 'v')
(

('人工智能', 'n')
('科技', 'n')
('监控', 'vn')
('相关', 'vn')
('议题', 'n')
('美国维吉尼亚大学', 'ORG')
('传媒', 'n')
('教授', 'n')
('孔安怡', 'PER')
('AynneKokas', 'nz')
('告诉', 'v')
('自由亚洲', 'LOC')
('电台', 'n')
('这', 'r')
('类', 'q')
('数据', 'n')
('搜集', 'vn')
('使用', 'v')
('方面', 'n')
('训练军', 'n')
('商用', 'v')
('人工智能算法', 'nz')
('信息战', 'n')
('则', 'd')
('锁定', 'v')
('特定', 'a')
('人员', 'n')
('情报', 'n')
('工作', 'n')
('台', 'n')
('台湾', 'LOC')
('数据库', 'n')
('发现', 'v')
('大多', 'd')
('详细', 'ad')
('记录', 'v')
('个人', 'n')
('最新', 'a')
('法庭', 'n')
('记录', 'v')
('比如', 'v')
('走私', 'v')
('贪', 'v')
('腐', 'an')
('收', 'v')
('贿', 'n')
('各种', 'r')
('细节', 'n')
('鲍尔丁', 'PER')
('说', 'v')
('他们', 'r')
('其他', 'r')
('国家', 'n')
('发现', 'v')
('这个', 'r')
('特性', 'n')
('鲍尔丁', 'PER')
('我们', 'r')
('发现', 'v')
('他们', 'r')
('搜集', 'v')
('各国', 'n')
('组织', 'n')
('犯罪者', 'n')
('数据', 'n')
('像你', 'r')
('说', 'v')
('法庭', 'n')
('文档', 'n')
('我们', 'r')
('只能', 'v')
('猜测', 'v')
('他们', 'r')
('列出', 'v')
('可能', 'v')
('可以', 'v')
('影响', 'v')
('一个人', 'n')
('方方面面', 'n')
('除了', 'p')

('史美伦', 'PER')
('信报', 'n')
('朱镕基', 'PER')
('习近平', 'PER')
('文昌讲政经(ruplayers.com/tools/lqWEtr3Vl2KorGg/video.html', 'ORG')
('快必', 'd')
('谭得志文本狱', 'PER')
('国安处', 'n')
('李桂华', 'PER')
('迟', 'ad')
('拉', 'v')
('证失职', 'v')
('雷鼎鸣', 'PER')
('教', 'v')
('精林', 'n')
('郑月娥', 'PER')
('贱', 'a')
('招迫', 'v')
('香港', 'LOC')
('全民', 'n')
('检测', 'v')
('教育局', 'n')
('杨润雄', 'PER')
('河蟹', 'n')
('耶稣', 'PER')
('爱', 'v')
('中国', 'LOC')
('D100', 'nz')
('风波', 'n')
('里', 'f')
('茶杯', 'n')
('足本', 'd')
('重温', 'v')
('主持', 'n')
('郑家富', 'PER')
('梁家权', 'n')
('ruplayers.com/tools/sJSw1b2tbWKormQ/video.html', 'ORG')
('陈彦霖', 'PER')
('离世', 'v')
('爆', 'v')
('林郑月娥', 'PER')
('政府', 'n')
('邓炳强', 'PER')
('同袍', 'n')
('玩', 'v')
('拖延', 'v')
('调查', 'v')
('新西兰澳洲', 'LOC')
('搞', 'v')
('全民', 'n')
('检测', 'v')
('健康码', 'n')
('旅游', 'vn')
('气泡头', 'n')
('都', 'd')
('传媒', 'n')
('黎智英', 'PER')
('玩', 'v')
('雷声', 'n')
('大雨', 'a')
('点', 'q')
('维多利亚讲', 'nz')
('林忌', 'n')
('林浩基', 'PER')
('ruplayers.com/tools/q5Glr5q4nWNqsIE/video.html', 'ORG')
('香港', 'LOC')
('

('系统', 'n')
('有关联', 'v')
('广东省', 'LOC')
('深圳市', 'LOC')
('振华数据', 'ORG')
('公司', 'ORG')
('标榜', 'v')
('自己', 'r')
('利用', 'v')
('遍布', 'v')
('全球', 'n')
('收集', 'vn')
('创建', 'v')
('超过', 'v')
('海外', 's')
('重要', 'a')
('人士', 'n')
('数据库', 'n')
('台', 'n')
('取得', 'v')
('相关', 'vn')
('资料', 'n')
('台湾', 'LOC')
('名单', 'n')
('首次', 'd')
('曝光', 'v')
('包含', 'v')
('马英九', 'PER')
('宋楚瑜', 'PER')
('台湾', 'LOC')
('政要', 'n')
('科技业', 'n')
('老板', 'n')
('及其', 'c')
('家人', 'n')
('都', 'd')
('数据库', 'n')
('中国深圳', 'ORG')
('振华数据', 'ORG')
('信息公司', 'ORG')
('ZhenhuaData', 'nz')
('泄漏', 'v')
('数据', 'n')
('显示', 'v')
('这家', 'r')
('中国人民解放军', 'ORG')
('中共安全情报系统有关连的中国公司', 'ORG')
('创建', 'v')
('约240万', 'd')
('全球', 'n')
('影响力', 'n')
('人士', 'n')
('OKIDB', 'n')
('个人', 'n')
('资料库', 'n')
('振华数据', 'ORG')
('公司', 'n')
('网站', 'n')
('介绍', 'v')
('OKIDB', 'n')
('资料库', 'n')
('网站', 'n')
('无法', 'vd')
('登录', 'v')
('研究者', 'n')
('台', 'n')
('提供', 'v')
('台湾', 'LOC')
('名单', 'n')
('首次', 'd')
('曝光', 'v')
('马英九', 'PER')
('宋楚瑜', 'PER')
('吴钊燮', 'PER')
('上榜', 'v')
(

('我们', 'r')
('放出', 'v')
('报告', 'n')
('数据库', 'n')
('原因', 'n')
('更是', 'd')
('希望', 'v')
('大众', 'n')
('知道', 'v')
('中国', 'LOC')
('搜集', 'v')
('海外', 's')
('个人', 'n')
('数据', 'n')
('行为', 'n')
('正在', 'd')
('发生', 'v')
('开放', 'v')
('自由', 'a')
('民主', 'a')
('国家', 'n')
('个人', 'n')
('机构', 'n')
('应该', 'v')
('更加', 'd')
('意识到', 'v')
('中国共产党', 'ORG')
('国家安全', 'n')
('情报', 'n')
('单位', 'n')
('正在进行', 'v')
('不对称', 'a')
('信息战', 'n')
('海外', 's')
('人士', 'n')
('隐私权', 'n')
('侵犯', 'vn')
('深圳', 'LOC')
('数据', 'n')
('库里', 'PER')
('台湾', 'LOC')
('名单', 'n')
('都', 'd')
('什幺', 'r')
('主持人', 'n')
('泄露', 'v')
('深圳', 'ORG')
('振华数据', 'ORG')
('库', 'n')
('台湾', 'LOC')
('部分', 'n')
('台', 'n')
('独家', 'd')
('取得', 'v')
('共有', 'v')
('台籍', 'n')
('人士', 'n')
('个人', 'n')
('资料', 'n')
('现在', 'TIME')
('请', 'v')
('记者', 'n')
('陈品洁', 'PER')
('详细', 'ad')
('介绍', 'v')
('这个', 'r')
('数据库', 'n')
('里面', 'f')
('什幺', 'r')
('栏目', 'n')
('记者', 'n')
('这个', 'r')
('台湾', 'LOC')
('数据库', 'n')
('报告', 'vn')
('作者', 'n')
('提供', 'v')
('英文', 'nz')
('方式', 'n')
('呈现', 'v')

('Johnston', 'ORG')
('振华数据', 'ORG')
('库', 'n')
('监控', 'vn')
('名单', 'n')
('称', 'v')
('都', 'd')
('感到', 'v')
('意外', 'n')
('访者', 'n')
('提供', 'v')
('目前', 'TIME')
('解密', 'v')
('资料库', 'n')
('发现', 'v')
('加拿大', 'LOC')
('名字', 'n')
('超过', 'v')
('关于', 'p')
('加拿大', 'LOC')
('条目', 'n')
('加拿大', 'LOC')
('政治', 'n')
('法律', 'n')
('学术', 'n')
('商业', 'n')
('犯罪者', 'n')
('人物', 'n')
('讯息', 'n')
('归纳', 'v')
('三等级', 'n')
('分配', 'v')
('似乎', 'd')
('直接', 'a')
('影响力', 'n')
('例如', 'c')
('国会', 'n')
('议员', 'n')
('高级', 'a')
('公务员', 'n')
('学术', 'n')
('研究者', 'n')
('刚', 'd')
('当选', 'v')
('保守党党', 'ORG')
('领', 'v')
('奥图尔', 'PER')
('ErinO', 'n')
('Toole', 'nz')
('在其内', 'd')
('分配', 'v')
('通常', 'd')
('当权者', 'n')
('亲戚', 'n')
('例如', 'c')
('总理', 'n')
('特鲁多', 'PER')
('女儿', 'n')
('国会议员', 'n')
('费凯迪', 'PER')
('儿子', 'n')
('等级', 'n')
('定罪者', 'n')
('主要', 'ad')
('经济', 'n')
('犯罪', 'vn')
('人物', 'n')
('玛格丽特·麦凯格', 'PER')
('约翰斯顿', 'PER')
('发现', 'v')
('加拿大', 'LOC')
('中国', 'LOC')
('企业', 'n')
('脱离', 'v')
('监控', 'v')
('范围', 'n')
('例如', 'c')
('加拿大核

#### choose specific NER: ORG, PER, TITLE, vd(動副詞), vn(動名詞), ad(形副詞), an(名形詞)
1. 繁轉簡
2. remove stop words (baidu)
3. 刪除文字為空者

- 原本有加入LOC,但國家名稱在詞頻方法中有非常多為common，因此移除LOC


In [9]:
## filtered_ner1, ner_lst
cc = OpenCC('tw2sp')
ner_lst = []
filtered_ner1 = []
for idx, (word, ner) in enumerate(ner_pair):
    temp = []
    for num in range(len(word)):
        if word[num] not in stopwords:
            word[num] = multi_repl(word[num],trim_dict)  # remove stop words
            if ner[num] == 'ORG' or ner[num] == 'PER' or ner[num] == 'TITLE': #or ner[num] == 'vd' or ner[num] == 'vn' or ner[num] == 'ad' or ner[num] == 'an': # remove some noise NER
                if word[num] != '':
                    cv_word = cc.convert(word[num])  ## 使用繁轉簡
#                     print((cv_word,ner[num]))  
                    filtered_ner1.append((cv_word,ner[num])) 
                    temp.append(cv_word)
    ner_lst.append(temp)

each_cnt = [Counter(row) for row in ner_lst]

## Setup Target Page

### 組合ner - org_title_per, org_per
- 將組合詞替代原先的分詞
- 包含ner組合後 & group 的 word list:  [('深圳', 'ORG', 1),('振华数据', 'ORG', 1),...

In [26]:
for idx, (word, ner, cat) in enumerate(ner_pair):
    if (idx + 1) == len(ner_pair) or (idx + 2) == len(ner_pair):
        break
    else:  # 直接將組合詞加入原先分詞好的list (ner_pair)
        n1_ner = ner_pair[idx+1]
        if cat == n1_ner[2]:
            n2_ner = ner_pair[idx+2]
            if ner == 'ORG' and n1_ner[1] == 'PER':
                new_wd = (word+n1_ner[0],'ORG+PER',cat)
                del ner_pair[idx:idx+2]
                ner_pair.insert(idx,new_wd) 
            elif ner == 'ORG' and n1_ner[1] == 'TITLE' and n2_ner[1] == 'PER':
                new_wd = (word+n1_ner[0]+n2_ner[0],'ORG+TITLE+PER',cat)
                del ner_pair[idx:idx+3]
                ner_pair.insert(idx,new_wd)

### 詞頻排序 - (直觀)只有ORG+TITLE+PER, ORG+PER

In [64]:
# df_all_pair[df_all_pair['cat'] == 2][40:80]
df_all_pair[:10]

Unnamed: 0,words,ner,cat
0,深圳,LOC,1
1,振华数据,ORG,1
2,信息技术有限公司,ORG,1
3,浏览量,n,1
4,近,ad,1
5,访问量,n,1
6,即可,v,1
7,查看,v,1
8,访问,vn,1
9,记录,n,1


In [27]:
df_all_pair = pd.DataFrame(ner_pair,columns=['words','ner','cat'])
# dataframe ORG+PER, ORG+TITLE+PER
df1 = df_all_pair[df_all_pair['ner'] == 'ORG+PER']
df2 = df_all_pair[df_all_pair['ner'] == 'ORG+TITLE+PER']
df_ppl_pair = pd.concat((df1,df2),ignore_index=True)
df_ppl_pair[:10]

Unnamed: 0,words,ner,cat
0,澳大利亚弗林德斯大学罗杰斯,ORG+PER,32
1,全美第五大投资银行贝尔斯登,ORG+PER,40
2,军事科学院国防科技创新研究院栗琳,ORG+PER,41
3,中国科学技术信息研究所刘耀,ORG+PER,41
4,中国社会科学院梁俊兰,ORG+PER,41
5,信息技术公司王雪峰,ORG+PER,41
6,国安处李桂华,ORG+PER,47
7,282壹传媒黎智英,ORG+PER,47
8,壹传媒创办人黎智英,ORG+TITLE+PER,3
9,振华首席执行官王雪峰,ORG+TITLE+PER,3


In [29]:
cnt = Counter(df_ppl_pair.cat).most_common()
for i in cnt:
    print('doc:%s, freq:%s'%(i[0],i[1]))

doc:41, freq:9
doc:49, freq:4
doc:23, freq:3
doc:24, freq:3
doc:45, freq:3
doc:32, freq:2
doc:47, freq:2
doc:3, freq:2
doc:10, freq:2
doc:16, freq:2
doc:28, freq:2
doc:44, freq:2
doc:40, freq:1
doc:7, freq:1
doc:9, freq:1
doc:13, freq:1
doc:15, freq:1
doc:38, freq:1


In [30]:
link = pd.DataFrame(getLink, columns=['doc','link'])
link['cnt'] = 0
for i in cnt:
    for idx in link.doc:
        if i[0] == idx:
            link['cnt'][idx-1] = i[1]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  link['cnt'][idx-1] = i[1]


In [31]:
link.sort_values(by=['cnt'],ascending=False, ignore_index=True)

Unnamed: 0,doc,link,cnt
0,41,http://www.bast.net.cn/art/2019/12/25/art_2334...,9
1,49,https://www.tiaotiaowen.com/articles/bsd8wy,4
2,24,https://www.rfa.org/mandarin/yataibaodao/junsh...,3
3,23,https://www.fountmedia.io/article/75492,3
4,45,https://www.taiwanjustice.net/2020/09/15/%E8%8...,3
5,10,https://www.abc.net.au/chinese/2020-09-14/chin...,2
6,28,https://www.rti.org.tw/news/view/id/2079508,2
7,16,https://newsin.us/%E6%8C%AF%E5%8D%8E%E6%95%B0%...,2
8,44,https://www.mingjingnews.com/article/195941-01,2
9,32,https://www.dw.com/zh/%E5%B0%8F%E5%BF%83%E6%95...,2


### TF-IDF萃取十大關鍵字、標註NER、

In [71]:
# dataframe all ner
df_all_pair = pd.DataFrame(ner_pair,columns=['words','ner','cat'])
df_all_pair.ner.unique()

array(['LOC', 'ORG', 'n', 'ad', 'v', 'vn', 'a', 's', 'nz', 'p', 'vd',
       'TITLE', 'q', 'd', 'r', 'an', 'w', 'TIME', 'PER', 'u', 'c', 'xc'],
      dtype=object)

In [68]:
doc_term_freq = []  # 每篇文章每個詞的頻率
doc_terms = []  # 每篇文章的詞 (normalized)
for i in range(len(final_text)):
    tempDF = df_all_pair[df_all_pair['cat']==i+1]
    terms = tempDF['words'].unique()
    doc_terms.append(terms)
    cnt = Counter(tempDF.words)
    doc_term_freq.append(cnt)
# doc_term_freq

In [69]:
# 计算tf
def tf(word, count):
    return count[word] / sum(count.values())

#计算count_list有多少个文件包含word
def n_containing(word, count_list):
    return sum(1 for count in count_list if word in count)

# 计算idf
def idf(word, count_list):
    return math.log(len(count_list) / (n_containing(word, count_list)))  

# 计算tf-idf
def tfidf(word, count, count_list):
    return tf(word, count) * idf(word, count_list)

In [70]:
all_sorted = {x:[] for x in ['words', 'scores', 'doc']}  ## 存放每篇文章所萃取出的關鍵字
for i, count in enumerate(doc_term_freq):
    print("Top words in document %d"%(i + 1))
    scores = {word: tfidf(word, count, doc_term_freq) for word in count}
    sorted_words = sorted(scores.items(), key=lambda x: x[1], reverse=True)    #type=list
    for word, score in sorted_words[:10]:
        all_sorted['words'].append(word)
        all_sorted['scores'].append(score)
        all_sorted['doc'].append(i+1)
        print("    Word: %s, TF-IDF: %s"%(word, round(score, 5)))
    print('\n')

Top words in document 1
    Word: 变更, TF-IDF: 0.06221
    Word: 咨询, TF-IDF: 0.05832
    Word: 历史, TF-IDF: 0.04925
    Word: 需, TF-IDF: 0.04186
    Word: 审批, TF-IDF: 0.03888
    Word: 开发, TF-IDF: 0.0381
    Word: 出资, TF-IDF: 0.0311
    Word: 添加, TF-IDF: 0.03069
    Word: 电子产品, TF-IDF: 0.02722
    Word: 南头街道, TF-IDF: 0.02333


Top words in document 2
    Word: 下线, TF-IDF: 0.0638
    Word: 鼓吹, TF-IDF: 0.04253
    Word: 可用于, TF-IDF: 0.04253
    Word: 带领, TF-IDF: 0.03496
    Word: 提问, TF-IDF: 0.03496
    Word: 总, TF-IDF: 0.03053
    Word: 混合战争, TF-IDF: 0.02738
    Word: 中国电子信息产业集团, TF-IDF: 0.02738
    Word: 执行长, TF-IDF: 0.02738
    Word: 干预, TF-IDF: 0.02738


Top words in document 3
    Word: 军力, TF-IDF: 0.04525
    Word: 黎智英, TF-IDF: 0.02657
    Word: 罗宾森, TF-IDF: 0.02586
    Word: 部署, TF-IDF: 0.02442
    Word: 周鹏, TF-IDF: 0.0232
    Word: 深红, TF-IDF: 0.01939
    Word: 痛批, TF-IDF: 0.01939
    Word: 苹果新闻网, TF-IDF: 0.01939
    Word: 台独, TF-IDF: 0.01856
    Word: 仿真, TF-IDF: 0.01856


Top wor

    Word: 

 , TF-IDF: 0.02319
    Word: 台, TF-IDF: 0.01742
    Word: 主持人, TF-IDF: 0.01739
    Word: 资料库, TF-IDF: 0.01356
    Word: 资料, TF-IDF: 0.01094
    Word: 台湾, TF-IDF: 0.01048
    Word: 怎幺, TF-IDF: 0.00832
    Word: 立委, TF-IDF: 0.00794
    Word: 人士, TF-IDF: 0.00769
    Word: 提到, TF-IDF: 0.0072




In [73]:
# 標註NER create dataframe
df_tfidf = pd.DataFrame(all_sorted)
ner = []
for i in range(len(final_text)):
    for k in range(len(df_tfidf)):
        if df_tfidf['doc'][k] == i+1:
            tempDF = df_all_pair[df_all_pair['cat'] ==i+1].drop_duplicates()
            tempDF.reset_index(inplace = True)
            for s in range(len(tempDF)):
                if df_tfidf['words'][k] ==  tempDF['words'][s]:
                    ner.append(tempDF['ner'][s])
                    break
df_tfidf['ner'] = ner

In [84]:
df_tfidf[df_tfidf['ner']=='r']

Unnamed: 0,words,scores,doc,ner
86,那个人,0.010006,10,r
225,那个人,0.010017,25,r
403,这场,0.016404,45,r
426,怎幺,0.008321,49,r


#### 計算詞向量

In [88]:
f = open('/Users/csti-user/Downloads/sgns.merge.word','r')
k = f.readlines()
f.close()

In [89]:
for i in k:
    print(i)

1292607 300

， 0.102387 0.111146 0.263319 0.023152 -0.016981 0.024967 -0.019429 0.148500 0.044953 0.231089 -0.195045 -0.060415 0.229814 0.125847 0.174458 0.186934 0.047486 0.122592 -0.139524 0.219931 0.078783 0.144782 -0.160593 -0.081857 0.083243 0.058926 0.177047 -0.171374 0.018400 -0.027682 -0.004983 -0.076983 0.131640 -0.113488 0.167113 -0.121429 0.063881 0.171087 -0.145927 0.083276 -0.170163 -0.074225 0.103492 0.093889 -0.155911 0.163988 -0.182002 0.157361 -0.191924 0.089651 0.068731 0.142282 -0.113051 0.132194 -0.326704 0.131645 -0.046067 -0.199591 -0.263973 -0.104769 -0.048914 0.014195 -0.019854 0.056857 0.059569 0.091732 0.083272 -0.167209 -0.033752 0.211743 0.035805 -0.000383 -0.089494 -0.012996 0.137302 -0.261788 0.087270 -0.167092 -0.279155 0.047554 -0.159121 -0.149205 0.235909 -0.279607 0.054076 -0.081279 0.121545 0.167018 -0.118002 0.371543 -0.148008 0.089215 0.042067 0.046976 -0.012934 0.140683 0.182944 -0.073797 0.193460 -0.133254 0.026854 -0.080276 0.144142 -0.304156 0.0

IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



KeyboardInterrupt: 

In [175]:
from gensim.models.word2vec import Word2Vec

In [176]:
w2v = pd.DataFrame(columns=['texts', 'idx'])
for idx, arr in enumerate(all_pair):
#     arr = arr.tolist()
    w2v = w2v.append({'texts':arr, 'idx': idx}, ignore_index=True)
w2v

Unnamed: 0,texts,idx
0,"[深圳, 信息技术限公司, 企查查提示注册成功请交易理优惠券处查看天体验券查下, 浏览量, ...",0
1,"[网站, 已, 下线, 王雪峰, 鼓吹, 混合战争, 国际, 网站, 已, 下线, 王雪峰,...",1
2,"[解密, 華, 數據, 立場, 深紅, 痛批, 黎智英, 與, 台獨, 工程師, 曾, 研發...",2
3,"[川普, 长女, 例, 演示, 搜集, 开源, 信息深圳, 伊万卡大纪元澳大利亚新闻网×搜寻...",3
4,"[華, 數據, 川普, 長女, 為, 例, 演示, 蒐集, 開源, 信息, 深圳, 華, 數...",4
5,"[深圳華, 數據, 信息, 技術, 維基百科, 百科, 全, 書, 深圳華, 數據, 信息,...",5
6,"[深圳, 華, 數據, 看, 中國, 國企, 監控, 資料庫, 外洩, 消息, 中文, 分類...",6
7,[©],7
8,"[收集, 美国, 大, 目标, 名人, 军方, 信息, 搜尋, 關鍵字, 收集, 美国, 大...",8
9,"[中国, 大规模, 监控, 泄露, 包括, 万, 澳洲人, 人, 信息, 中国, 大规模, ...",9


In [177]:
for idx, i in enumerate(w2v.texts):
    if len(i) == 0:
        w2v = w2v.drop([idx])
w2v

Unnamed: 0,texts,idx
0,"[深圳, 信息技术限公司, 企查查提示注册成功请交易理优惠券处查看天体验券查下, 浏览量, ...",0
1,"[网站, 已, 下线, 王雪峰, 鼓吹, 混合战争, 国际, 网站, 已, 下线, 王雪峰,...",1
2,"[解密, 華, 數據, 立場, 深紅, 痛批, 黎智英, 與, 台獨, 工程師, 曾, 研發...",2
3,"[川普, 长女, 例, 演示, 搜集, 开源, 信息深圳, 伊万卡大纪元澳大利亚新闻网×搜寻...",3
4,"[華, 數據, 川普, 長女, 為, 例, 演示, 蒐集, 開源, 信息, 深圳, 華, 數...",4
5,"[深圳華, 數據, 信息, 技術, 維基百科, 百科, 全, 書, 深圳華, 數據, 信息,...",5
6,"[深圳, 華, 數據, 看, 中國, 國企, 監控, 資料庫, 外洩, 消息, 中文, 分類...",6
7,[©],7
8,"[收集, 美国, 大, 目标, 名人, 军方, 信息, 搜尋, 關鍵字, 收集, 美国, 大...",8
9,"[中国, 大规模, 监控, 泄露, 包括, 万, 澳洲人, 人, 信息, 中国, 大规模, ...",9


In [178]:
corpus = w2v.texts.sample(frac=1)
model = Word2Vec(corpus, window=3) #陽春型 - 總共1602個詞，每個詞有100維

2021-05-21 14:01:53,483 - INFO - collecting all words and their counts
2021-05-21 14:01:53,484 - INFO - PROGRESS: at sentence #0, processed 0 words, keeping 0 word types
2021-05-21 14:01:53,492 - INFO - collected 6079 word types from a corpus of 30981 raw words and 48 sentences
2021-05-21 14:01:53,493 - INFO - Loading a fresh vocabulary
2021-05-21 14:01:53,498 - INFO - effective_min_count=5 retains 1185 unique words (19% of original 6079, drops 4894)
2021-05-21 14:01:53,498 - INFO - effective_min_count=5 leaves 23112 word corpus (74% of original 30981, drops 7869)
2021-05-21 14:01:53,503 - INFO - deleting the raw counts dictionary of 6079 items
2021-05-21 14:01:53,503 - INFO - sample=0.001 downsamples 63 most-common words
2021-05-21 14:01:53,504 - INFO - downsampling leaves estimated 20147 word corpus (87.2% of prior 23112)
2021-05-21 14:01:53,506 - INFO - estimated required memory for 1185 words and 100 dimensions: 1540500 bytes
2021-05-21 14:01:53,507 - INFO - resetting layer weights

In [179]:
## 檢驗訓練好的詞向量模型
def most_similar(w2v_model, words, topn=10):
    similar_df = pd.DataFrame()
    for word in words:
        try:
            similar_words = pd.DataFrame(w2v_model.wv.most_similar(word, topn=topn), columns=[word, 'cos'])
            similar_df = pd.concat([similar_df, similar_words], axis=1)
        except:
            print(word, "not found in Word2Vec model!")
    return similar_df

In [181]:
most_similar(model,['王雪峰','周鹏'])

Unnamed: 0,王雪峰,cos,周鹏,cos.1
0,公司,0.999887,通知,0.996905
1,資料庫,0.999879,时,0.996707
2,深圳,0.999878,理,0.996673
3,中國,0.999871,国,0.996654
4,與,0.999861,包括,0.996611
5,人,0.99986,版权,0.99661
6,年,0.999857,名單,0.996585
7,已,0.999856,並,0.996583
8,數據,0.999852,英国,0.996573
9,們,0.999851,蒐集,0.996561


In [183]:
model.wv.most_similar('周鹏')

[('通知', 0.9969050884246826),
 ('时', 0.9967068433761597),
 ('理', 0.9966732263565063),
 ('国', 0.9966539740562439),
 ('包括', 0.9966112971305847),
 ('版权', 0.9966099858283997),
 ('名單', 0.9965848326683044),
 ('並', 0.9965826272964478),
 ('英国', 0.9965730905532837),
 ('蒐集', 0.9965614676475525)]

In [184]:
model.wv.vocab.keys()  #model.wv.vectors  #

dict_keys(['字', '面包屑', '中国', '大', '德国', '声', '介绍', '提供', '服务', '信息', '保护', '声明', '互联网', '处', '留下', '种', '人', '观点', '商业', '公司', '早', '利', '些', '广告', '现', '发现', '正', '海量', '监控', '军事', '指', '网路', '上', '根', '研究', '调查', '系统', '搜集', '作', '情报', '中国政府', '单位', '创办人', '波特', '独立', '研究员', '鲍丁', '包括', '盛顿邮报', '内', '家', '新闻', '机构', '份', '部份', '基础', '库', '下载', '重建', '约', '完整', '估计', '文', '说', '民主', '国家', '法律', '外', '外国', '带', '真实', '威胁', '美国', '澳大利亚', '英国', '日电讯报', '卫报', '媒体', '周', '月日', '步', '公开', '报导', '内容', '未', '受', '才', '名', '深圳', '科技', '年', '收集', '社交', '政府', '客户', '海外', '关键', '称', '关', '政治', '人物', '国', '部署', '细节', '舆', '分析', '营销', '文件', '包含', '万人', '中', '报告', '指出', '泄露', '恢复', '记录', '万名', '美国人', '近', '英国人', '首相', '约翰逊', '莫里森', '成员', '名人', '担', '重', '海军', '军官', '推文', '档案', '家庭', '片', '直', '人士', '都', '然', '没', '证', '显示', '招聘', '描述', '目标', '军队', '回应', '采访', '时', '相关', '报道', '位', '姓', '业务', '负责人', '不', '整合', '模式', '合作', '伙伴', '特', '存', '样', '平台', '军方', '集团', '隐私', '倡议', '长期', '关注', '非', '大规模', '开源'

In [96]:
model.wv.vectors

array([[ 0.51522   , -0.34755117,  0.02856257, ..., -0.5155937 ,
        -0.11341139,  0.17871518],
       [ 0.4993312 , -0.3464844 ,  0.03208831, ..., -0.49490416,
        -0.11454304,  0.17727539],
       [ 0.54264355, -0.33415547,  0.13614203, ..., -0.51091266,
        -0.10583877,  0.1650165 ],
       ...,
       [ 0.0592349 , -0.04136999,  0.00962222, ..., -0.0562446 ,
        -0.01518707,  0.01744464],
       [ 0.04802441, -0.02979744,  0.00921943, ..., -0.04377791,
        -0.00779128,  0.01104703],
       [ 0.05102098, -0.03945457,  0.00423029, ..., -0.05812755,
        -0.00960899,  0.01804923]], dtype=float32)

In [12]:
corpus = [' '.join(x) for x in doc_terms]
corpus[2]

'振华 黎智英 壹会员 优惠 娱乐 周鹏 演示 相关 合作 服务 王雪峰 壹传媒黎智英 倾向偏 深红 中国政府 国安文武小英 林锡耀 洪耀福 深圳振华数据信息技术有限公司 澳洲网络安全公司罗宾森 David Robinson振华 删除 腾讯 所在 振华公司 采集 分析 直接 展示 罗宾森 拓尔思信息技术股份有限公司 中共中央办公厅 国务院 新华社 央视振华 殷琪 罗文嘉 胡亦嘉 研发 天津大学 深圳振华数据信息技术有限公司周鹏 研究 领英 大量 张锡铭 多 评估 近 搜集 作战 操控 认知 岑子杰 祸港乱港 林飞帆 澳洲广播公司 IBM王雪峰 中国共产党振华 成功 关连 报导 严重 调查 冗长 警戒 陈时中 出版 万华 屏东 全面 侯友宜 东山国三生 苗栗零 谷关 移动 聚扩 壹传媒 苹果日报 分级 APPLE ONLINE All rights reserved.'

In [197]:
OTP = df_tfidf[df_tfidf['ner']=='ORG+TITLE+PER']
OP = df_tfidf[df_tfidf['ner']=='ORG+PER']
mergeDF = pd.concat([OP,OTP])
mergeDF.reset_index(drop = True, inplace = True)
mergeDF

Unnamed: 0,words,scores,doc,ner
0,国际商业机器公司王雪峰,0.353802,2,ORG+PER
1,悉尼科技大学王雪峰,0.353802,2,ORG+PER
2,公司王雪峰,0.164762,2,ORG+PER
3,壹传媒黎智英,0.114465,3,ORG+PER
4,澳洲网络公司罗宾森,0.114465,3,ORG+PER
...,...,...,...,...
122,中国国家安总统安倍晋三,0.090507,38,ORG+TITLE+PER
123,中共总统川普,0.090507,38,ORG+TITLE+PER
124,中共部长吴钊燮,0.090507,38,ORG+TITLE+PER
125,北京大学教授鲍尔丁,0.116670,39,ORG+TITLE+PER


In [198]:
Counter(mergeDF.doc).most_common()

[(7, 5),
 (15, 5),
 (19, 5),
 (20, 5),
 (24, 5),
 (38, 5),
 (4, 4),
 (13, 4),
 (14, 4),
 (16, 4),
 (17, 4),
 (26, 4),
 (32, 4),
 (33, 4),
 (34, 4),
 (36, 4),
 (39, 4),
 (40, 4),
 (2, 3),
 (3, 3),
 (5, 3),
 (9, 3),
 (10, 3),
 (12, 3),
 (21, 3),
 (23, 3),
 (27, 3),
 (28, 3),
 (44, 3),
 (45, 3),
 (6, 2),
 (22, 2),
 (31, 2),
 (11, 1),
 (25, 1),
 (29, 1),
 (37, 1),
 (43, 1),
 (47, 1),
 (49, 1)]

### K-means文字聚類，看可否分出幾個clusters

In [173]:
# df = pd.DataFrame(columns=['data','index'])
# lac1 = LAC(mode='seg')  
# lac1.load_customization('custom_dict.txt')  # 增加title字典
# eachTexts = []
index = []
# for idx, texts in enumerate(final_text):
#     texts = cc.convert(texts) # 繁轉簡
#     texts = multi_repl(texts,trim_dict)  # 刪除停用詞
#     texts = re.sub(r'[a-zA-Z]',"", texts)  # 去除英文
#     texts = lac1.run(texts)  # 進行分詞
#     df = df.append({'data':texts, 'index': idx+1},ignore_index=True)
#     index.append(idx)
for idx, t in enumerate(df.data):
    for a in t:
        eachTexts.append(a)
        index.append(str(idx))

In [154]:
class KMeans:
    def cal_dist(self, p0, p1):
        """
        比較兩點的距離
        """
        return np.sqrt(np.sum((p0-p1)**2))
    
    def nearest_cluster_center(self, point, cluster_centers):
        """
        找到距離 point 最近的中心點
        """
        min_dist = float("inf")
        m = cluster_centers.shape[0]
        for i in range(m):
            d = self.cal_dist(point, cluster_centers[i])
            if min_dist > d:
                min_dist = d
        return min_dist 

    def get_centroids(self, datapoints, k):
        """
        K-means++ 演算法，取得初始化中心點
        """
        clusters = np.array([random.choice(datapoints)])
        dist = np.zeros(len(datapoints))
        
        for i in range(k-1):
            sum_dist = 0
            for j, point in enumerate(datapoints):
                dist[j] = self.nearest_cluster_center(point, clusters)
                sum_dist += dist[j]
            
            sum_dist *= random.random()
            for j, d in enumerate(dist):
                sum_dist = sum_dist - d
                if sum_dist <= 0:
                    clusters = np.append(clusters, [datapoints[j]], axis=0)
                    break
        
        return clusters
        
        
    def kmeans_plus_plus(self, datapoints, k=2):
        """
        K-means 演算法
        """
        # 定義資料維度
        d = datapoints.shape[1]
        # 最大的迭代次數
        Max_Iterations = 1000

        cluster = np.zeros(datapoints.shape[0])
        prev_cluster = np.ones(datapoints.shape[0])

        cluster_centers = self.get_centroids(datapoints, k)

        iteration = 0
        while np.array_equal(cluster, prev_cluster) is False or iteration > Max_Iterations:
            iteration += 1
            prev_cluster = cluster.copy()

            # 將每一個點做分群
            for idx, point in enumerate(datapoints):
                min_dist = float("inf")
                for c, cluster_center in enumerate(cluster_centers):
                    dist = self.cal_dist(point, cluster_center)
                    if dist < min_dist:
                        min_dist = dist  
                        cluster[idx] = c   # 指定該點屬於哪個分群

            # 更新分群的中心
            for k in range(len(cluster_centers)):
                new_center = np.zeros(d)
                members = 0
                for point, c in zip(datapoints, cluster):
                    if c == k:
                        new_center += point
                        members += 1
                if members > 0:
                    new_center = new_center / members
                cluster_centers[k] = new_center

        return cluster

In [145]:
# 使用 tf-idf 向量化
tfidf_vectorizer = TfidfVectorizer()
tfidf = tfidf_vectorizer.fit_transform(eachTexts)
tfidf = tfidf.toarray()
tfidf

array([[0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.]])

In [174]:
k = 4
Kmeans_cluster = KMeans()
speech_cluster_result = Kmeans_cluster.kmeans_plus_plus(tfidf, k)
cluster = [[] for _ in range(k)]

for idx, c in enumerate(speech_cluster_result):
    cluster[int(c)].append(index[idx])
    
for c, result in enumerate(cluster):
    print('Cluster {}: {}'.format(c, ' '.join(result)))

Cluster 0: 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0

## Single Doc Information Extraction

In [None]:
'''
研究人員選擇某一篇文章，直接回傳該篇「網址」
直接進行爬蟲、分詞、命名實體標注
保留某些特定的： (Who)人物 組織 職位、(What)事件
一樣要做組合NER
'''

In [92]:
def getFinalText(google_search_rs):
    html_text = []
    for idx, link in enumerate(google_search_rs):
        resp = requests.get(link, headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.141 Safari/537.36'})
        soup = BeautifulSoup(resp.content, 'html.parser')
        a_tag = soup.find_all('a')
        for a in a_tag:
            a.decompose()   
        html_text.append(soup.get_text()) 
    
    # 繁轉簡
    cc = OpenCC('tw2sp')
    temp = [cc.convert(texts) for texts in html_text]

    # 去除英文
    final_text = [re.sub(r'[a-zA-Z]',"", texts) for texts in temp]
    return final_text

In [281]:
def multi_repl(input_str):
    trim = ['\n', '\r', '\t', '\xa0', ' '] + list(enPunc)+list(zhPunc) ## 網頁亂碼+英文標點+中文標點
    trim_dict = {pat:'' for pat in trim}
    for k in trim_dict:
        input_str = input_str.replace(k, trim_dict[k])  ## 把stop words改為空白
    return input_str

In [108]:
def stopwords():
    # Load stop words
    f = open('/Users/csti-user/Downloads/NER/stopwords-master/baidu_stopwords.txt','r')
    k = f.readlines()
    f.close()
    stopwords = [lines.strip('\n') for lines in k]

    # 建構stopwords
    trim = ['\n', '\r', '\t', '\xa0'] + list(enPunc)+list(zhPunc) ## 網頁亂碼+英文標點+中文標點
    trim = trim + stopwords  # list of all stopwords
    return trim

In [283]:
def ner_extract(final_text):
    lac = LAC(mode='lac')  
    lac.load_customization('custom_dict.txt')  # 自行增加字典
    ner_model = lac.run(final_text)

    ner_pair = []
    trim = stopwords()
    docs = pd.DataFrame(columns=['texts', 'doc'])  # dataframe 每篇文章為一列
    for doc, (word, ner) in enumerate(ner_model):
        temp = []
        for num in range(len(word)):
            if word[num] not in trim: # remove stop words
                word[num] = multi_repl(word[num])
                if word[num] != '' and ner[num] != '' and ner[num] != 'f' and ner[num] != 'nw' and ner[num] != 'm':
                    temp.append(word[num])
                    ner_pair.append((word[num],ner[num],doc+1))
        docs = docs.append({'texts': temp, 'doc': doc+1}, ignore_index = True)
    ner_combine(ner_pair)
    return ner_pair

In [101]:
def ner_combine(ner_pair):
    for idx, (word, ner, cat) in enumerate(ner_pair):
        if (idx + 1) == len(ner_pair) or (idx + 2) == len(ner_pair):
            break
        else:  # 直接將組合詞加入原先分詞好的list (ner_pair)
            n1_ner = ner_pair[idx+1]
            if cat == n1_ner[2]:
                n2_ner = ner_pair[idx+2]
                if ner == 'ORG' and n1_ner[1] == 'PER':
                    new_wd = (word+n1_ner[0],'ORG+PER',cat)
                    del ner_pair[idx:idx+2]
                    ner_pair.insert(idx,new_wd) 
                elif ner == 'ORG' and n1_ner[1] == 'TITLE' and n2_ner[1] == 'PER':
                    new_wd = (word+n1_ner[0]+n2_ner[0],'ORG+TITLE+PER',cat)
                    del ner_pair[idx:idx+3]
                    ner_pair.insert(idx,new_wd)

In [288]:
def auto_extract(pair):
    df = pd.DataFrame(pair, columns=['word','ner','doc'])
    ## dataframe including some ner: org,title, per
    keywords = pd.concat((df[df['ner'] == 'ORG+TITLE+PER'],df[df['ner'] == 'ORG+PER'], df[df['ner'] == 'ORG'], 
                          df[df['ner'] == 'PER'])).reset_index()
    keywords = keywords.drop(columns=['index'])
    
    ## 15 most common words dataframe
    cnt = pd.DataFrame(Counter(keywords.word).most_common(15),columns=['words', 'cnt'])
    ## add ner
    cnt['ner'] = [keywords.ner[k] for i in range(len(cnt)) for k in range(len(keywords.word.unique())) if cnt.words[i] == keywords.word.unique()[k]]
    cnt = cnt.drop(columns=['cnt'])
    return cnt

In [402]:
def manual_input(pair):
    df = pd.DataFrame(pair, columns=['word','ner','doc'])
    ## dataframe including some ner: org, title, per
    keywords = pd.concat((df[df['ner'] == 'ORG+TITLE+PER'],df[df['ner'] == 'ORG+PER'], df[df['ner'] == 'ORG'], 
                          df[df['ner'] == 'PER'], df[df['ner'] == 'TITLE'])).sort_index()
    keywords = keywords.reset_index()
    keywords = keywords.drop(columns =['index'])
    
    cnt = auto_extract(pair)
    cntList = cnt.words.unique().tolist()
    
    idx = [i for i in range(len(keywords)) if keywords.word.iloc[i] in cntList]
    keywords = keywords.drop(idx).reset_index()
    keywords = keywords.drop(columns=['index', 'doc'])
    return keywords

In [399]:
## Automatic Word Segmentation and Name Entity Recognition
url = ['http://www.bast.net.cn/art/2019/12/25/art_23348_448376.html']
final_text = getFinalText(url)
pair = ner_extract(final_text)  # [('北京科学技术情报学会', 'ORG', 1),....

## programme: NER extract from single document, automatically show 10 to 15 keywords
auto_extract(pair) # return 15 keywords created automatically

## manual input: generate word segments from single document
manual_input(pair)

Unnamed: 0,words,ner
0,北京科学技术情报学会,ORG
1,北京市科学技术协会,ORG
2,中国科协,ORG
3,吴晨生,ORG
4,北京市科学技术协会学会部副部长李斌,ORG+TITLE+PER
5,北京科学技术情报学会理事长谢威,ORG+TITLE+PER
6,科技部中国科学技术信息研究所所长戴国强,ORG+TITLE+PER
7,科技部中国科技发展战略研究院调查统计中心主任邓大胜,ORG+TITLE+PER
8,中国电信研究院技术总监钱兵,ORG+TITLE+PER
9,中国国防科技信息中心总工真溱,ORG+TITLE+PER
