## 1. Wikipedis Chinese Corpus

### 1.1 Download Source File
> https://dumps.wikimedia.org/zhwiki/20190401/

### 1.2 Extract Data

Extract Data to a sigle Json file by **WikiExtractor**

$ `cd wikiextractor/`

$ `python3 WikiExtractor.py -b 2000M -o ~/team_vec2world/project_01/corpus/data/ --json --no-templates --processes 8 ~/Downloads/zhwiki-20190401-pages-articles-multistream1.xml-p1p162886.bz2`

Fomular of wiki json file<br>
{"id": "xxx", "url": "xxx", "title": "xxx", "text": "xxxxxx"}

### 1.3 Pre_Processing

In [19]:
import json

In [2]:
from collections import defaultdict

In [3]:
# Import tool of Switching Traditional Chinese to Simple Chinese
from hanziconv import HanziConv

In [4]:
# Init container
content = defaultdict(dict)

In [5]:
with open('./data/wiki_source_01', 'r') as f:
    for line in f:
        # Get content id and change type from str to int
        content_id = int(json.loads(line)['id'])
        # Get content url, type = str
        url = json.loads(line)['url']
        # Get content title, type = str
        title = json.loads(line)['title']
        # Get content text and switch to simple Chinese
        text = HanziConv.toSimplified(json.loads(line)['text'].strip())
        
        # Save to dic
        content[content_id]['url'] = url
        content[content_id]['title'] = title
        content[content_id]['text'] = text

### 1.4 Save result to json file

In [6]:
# Save content to new json file
with open('./data/wiki_sample_01.json', 'w', encoding='utf-8') as f:
    json.dump(content, f)

In [20]:
with open('./data/wiki_sample_01.json', 'r', encoding='utf-8') as f:
    content = json.load(f)

### 1.5 Save result to csv file

In [21]:
import pandas as pd

In [22]:
df = pd.DataFrame.from_dict(content, orient='index')
df = df.reset_index()
df = df.rename(columns={'index': 'id', 'text': 'content'})

In [23]:
# Check article number
print('Total Article Number: {}'.format(df.shape[0]))

Total Article Number: 39440


In [24]:
df.head(10)

Unnamed: 0,id,url,title,content
0,100,https://zh.wikipedia.org/wiki?curid=100,农业,农业\n\n农业是第一级产业，在现代有广狭之分。广义上的农业是种植业、林业、畜牧业、渔业的总...
1,100004,https://zh.wikipedia.org/wiki?curid=100004,遊戲橘子,游戏橘子\n\n游戏橘子数位科技股份有限公司（Gamania Digital Enterta...
2,100005,https://zh.wikipedia.org/wiki?curid=100005,孝淑睿皇后,孝淑睿皇后\n\n孝淑睿皇后（；），昂果都理巴颜系喜塔腊氏，昂果都理巴颜第五子萨璧图的后裔。...
3,100008,https://zh.wikipedia.org/wiki?curid=100008,河內市,河内市\n\n河内市（，）是越南的首都，古称「大罗」、「古螺」、「龙编」、「昇龙」、「昇隆」...
4,100010,https://zh.wikipedia.org/wiki?curid=100010,十足目,十足目\n\n十足目（学名：）又名十脚目，是节肢动物软甲纲的一目。体分头胸部及腹部。胸肢有八...
5,100011,https://zh.wikipedia.org/wiki?curid=100011,澳門通訊,澳门通讯\n\n澳门通讯业发展相对缓慢，自2000年流动电话市场引入竞争后，才得到较快的发展...
6,100014,https://zh.wikipedia.org/wiki?curid=100014,澳門交通,澳门交通\n\n澳门的交通工具主要由陆路、水路和航空交通所组成。澳门佔地虽小，但其陆路交通的...
7,100017,https://zh.wikipedia.org/wiki?curid=100017,空中客车,空中客车\n\n空中客车公司（，官方译名译为空中-{}-客车；台湾、港澳译为空中-{}-巴士...
8,100023,https://zh.wikipedia.org/wiki?curid=100023,额吉盐池,额吉盐池\n\n额吉盐池是中国内蒙古的盐湖，蒙古语意为母亲湖位于东乌珠穆沁旗西南50公里，是...
9,100026,https://zh.wikipedia.org/wiki?curid=100026,查干诺尔,查干诺尔\n\n查干诺尔是中国的一个内陆湖泊，位于内蒙古锡林郭勒盟阿巴嘎旗西南部，面积约20...


In [25]:
# Save content to new csv file
df.to_csv('./data/wiki_sample_01.csv', encoding='utf-8', index=False)

----

## 2. 今日头条新闻 Corpus

In [1]:
import pandas as pd
import os

In [2]:
news_toutiao_dir = './data/今日头条新闻数据/'

In [3]:
temp = []
for root, dirs, files in os.walk(news_toutiao_dir):
    # print(root)
    # print(files)
    for file in files:
        file_path = root + file
        print(file_path)
        df = pd.read_excel(file_path)
        df = df[['标题', '内容']]
        print(df.shape)
        temp.append(df)
df_news = pd.concat(temp, axis=0)

./data/今日头条新闻数据/今日头条-游戏.xlsx
(2153, 2)
./data/今日头条新闻数据/今日头条-娱乐.xlsx
(2201, 2)
./data/今日头条新闻数据/今日头条-时尚.xlsx
(1048, 2)
./data/今日头条新闻数据/今日头条-汽车.xlsx
(2092, 2)
./data/今日头条新闻数据/今日头条-军事.xlsx
(1781, 2)
./data/今日头条新闻数据/今日头条-体育.xlsx
(2169, 2)


In [5]:
df_news = df_news.reset_index()
df_news = df_news.rename(columns={'index': 'id', '标题': 'title', '内容': 'content'})
df_news['id'] = df_news['id'].apply(lambda x: x+1)

In [6]:
# Check news number
print('Total News Number: {}'.format(df_news.shape[0]))

Total News Number: 11444


In [7]:
df_news.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 11444 entries, 0 to 11443
Data columns (total 4 columns):
id         11444 non-null int64
id         11444 non-null int64
title      11444 non-null object
content    11444 non-null object
dtypes: int64(2), object(2)
memory usage: 357.7+ KB


In [8]:
df_news.sample(10)

Unnamed: 0,id,id.1,title,content
3649,3650,1497,六位内地老牌女星：哪一位才是你心中最美女神？她们都曾风华绝代,写下这个题目时，眼前会出现许多张靓丽的脸庞，或雍容华贵，或清丽婉约，或柔美清新，或知性端庄，...
11347,11348,2073,2011年NBA停摆，科比差点加入CBA，最后是什么原因让科比没来成？,体育让世界变得更加精彩，在我们日常的生活中，紧张刺激的体育赛事无疑给我们又增添了一份别样的色...
7946,7947,453,海军再出一院士！贡献比肩马伟明，二人联手让潜艇走上世界之巅,何琳何许人？一个把中国潜艇“藏起来”的大人物，很巧，跟我们的另一位国宝专家马伟明一样，都是海...
1926,1927,1927,再现官方劝退！海盗游戏《ATLAS》直接刷新幽灵船舰队围堵玩家,这几天小编已经是没什么时间来做其他事情了，一直在最近上线steam的海盗冒险生存游戏《ATL...
2654,2655,502,51岁王祖贤惊艳亮相：人到中年，终于学会不合群,前几天刚刚过去的圣诞节，王祖贤微博粉丝会上，突然发出了两张最新的近照，并且配文：圣诞快乐啊。...
11399,11400,2125,考辛斯续约将决定勇士未来，这五人必走一人，FMVP首当其冲,虽然没有任何关于交易的消息浮出水面，但是昨天爆出一个大消息，就是在2019年的休赛期，德马库...
10764,10765,1490,3连胜7连胜，近5战3败！前八还是摆烂？看看赛程，此队很不好过,摆烂的时间已不短了，对于布鲁克林篮网而言。四年前，布鲁克-洛佩兹+乔-约翰逊+杰克+德隆+阿...
4346,4347,2194,女明星都开始认真过冬！李沁张韶涵时尚又保暖而李宇春很是接地气,在大家的印象中，无论天气有多冷，女明星们为了美美的出现在大家面前，都会选择穿一些轻薄的衣服，...
9669,9670,395,科比又要喜当爹，第四个女儿即将诞生,1月2日，湖人队的传奇名宿科比在社交媒体上通告了自己的女儿即将诞生，这也是科比的第四个女儿，...
6269,6270,868,这款车售9000元，本田小公主，油耗2.2L，最畅销的踏板之一,五羊—本田喜悦100自1998年诞生以来，以其都有的产品魅力赢得了众多车友的喜爱，小公主的称...


In [9]:
df_news.to_csv('./data/toutiao_news_corpus.csv', encoding='utf-8', index=False)

----

## 3. News Chinese Corpus

In [46]:
cn_news_path = './data/sqlResult.csv'

In [47]:
df_cn_news = pd.read_csv(cn_news_path, encoding = 'gb18030')

In [48]:
df_cn_news = df_cn_news[['title', 'content']]

In [49]:
df_cn_news = df_cn_news.reset_index()
df_cn_news = df_cn_news.rename(columns={'index': 'id'})
df_cn_news['id'] = df_cn_news['id'].apply(lambda x: x+1)

In [68]:
# Drop data which content is empty
df_cn_news = df_cn_news.dropna(subset=['content'])

In [69]:
# Check news number
print('Total News Number: {}'.format(df_cn_news.shape[0]))

Total News Number: 87054


In [70]:
df_cn_news.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 87054 entries, 0 to 89610
Data columns (total 3 columns):
id         87054 non-null int64
title      87054 non-null object
content    87054 non-null object
dtypes: int64(1), object(2)
memory usage: 2.7+ MB


In [71]:
df_cn_news.sample(10)

Unnamed: 0,id,title,content
85434,85435,（社会·国际儿童节）卢旺达中国小朋友做客大使馆庆祝儿童节,新华社基加利６月３日电（记者吕天然）中国驻卢旺达大使馆３日举行“六一”国际儿童节庆祝活动...
21022,21023,（体育）（3）羽毛球——马来西亚公开赛：中国女双黄雅琼/汤金华晋级决赛,新华社照片，古晋（马来西亚），2017年4月8日\n（体育）（3）羽毛球——马来西亚公开赛：...
39706,39707,（体育）（13）第十届中国·百色国际山地户外运动挑战赛闭幕,新华社照片，凌云（广西），2017年4月24日\n （体育）（13）第十届中国·百色国际山...
72645,72646,[8]（外代二线）足球——曼联队备战欧罗巴联赛决赛,新华社照片，外代，2017年5月24日\n（外代二线）足球——曼联队备战欧罗巴联赛决赛\n5...
56500,56501,（两岸关系）平潭两岸快件中心启动运营,新华社福州５月１０日电（记者宓盈婷）记者１０日从平潭综合实验区管委会获悉，平潭两岸快件中...
71825,71826,[3]（外代二线）影片《圣鹿之死》亮相戛纳,新华社照片，外代，2017年5月23日\n（外代二线）影片《圣鹿之死》亮相戛纳\n5月22日...
88877,88878,新华社体育图片上周最佳2,尊敬的新华社摄影部体育照片用户，此稿为《新华社体育图片上周最佳》（2017年5月23日至6月...
71338,71339,（国际）美国国会参议院批准艾奥瓦州州长特里·布兰斯塔德为新任驻华大使,新华社照片，纽约，2017年5月22日\n（国际）美国国会参议院批准艾奥瓦州州长特里·布兰斯...
28335,28336,（体育）（1）羽毛球——新加坡公开赛：马林晋级半决赛,新华社照片，新加坡，2017年4月14日\n（体育）（1）羽毛球——新加坡公开赛：马林晋级半...
15312,15313,（体育）（9）篮球——CBA总决赛首场：新疆胜广东,新华社照片，乌鲁木齐，2017年3月31日\n（体育）（9）篮球——CBA总决赛首场：新疆胜...


In [72]:
df_cn_news.to_csv('./data/cn_news_corpus.csv', encoding='utf-8', index=False)

----

Combine two news corpus

In [73]:
df_total_news = pd.concat([df_news[['title', 'content']], df_cn_news[['title', 'content']]], axis=0)

In [74]:
df_total_news = df_total_news.reset_index()
df_total_news = df_total_news.rename(columns={'index': 'id'})
df_total_news['id'] = df_total_news['id'].apply(lambda x: x+1)

In [75]:
# Drop data which content is empty
df_total_news = df_total_news.dropna(subset=['content'])

In [76]:
# Check news number
print('Total News Number: {}'.format(df_total_news.shape[0]))

Total News Number: 98498


In [66]:
df_total_news.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 98498 entries, 0 to 101054
Data columns (total 3 columns):
id         98498 non-null int64
title      98498 non-null object
content    98498 non-null object
dtypes: int64(1), object(2)
memory usage: 3.0+ MB


In [64]:
df_total_news.sample(10)

Unnamed: 0,id,title,content
41686,30243,（体育）“京味儿”十足的“北京跑”受到参赛跑者喜爱,新华社北京４月１６日电（记者汪涌）２０１７北京国际长跑节暨北京半程马拉松１６日在天安门广...
80570,69127,（新华简讯）鲁哈尼在伊朗第１２届总统选举中获胜,新华社德黑兰５月２０日电伊朗内政部２０日宣布，现任总统鲁哈尼在伊朗第１２届总统选举中以５...
62205,50762,（国际）（6）玫瑰绽放“永恒之城”,新华社照片，罗马，2017年5月4日\n（国际）（6）玫瑰绽放“永恒之城”\n这是5月3日从...
74300,62857,（法治）（2）河北武强：“小小法治宣传员”活跃中学课堂,新华社照片，武强（河北），2017年5月15日\n河北武强：“小小法治宣传员”活跃中学课堂\...
32550,21107,（经济）（1）河北霸州：传统企业变革中求生存,新华社照片，霸州（河北），2017年4月8日\n河北霸州：传统企业变革中求生存\n4月8日，...
34719,23276,（经济）（2）深化税收改革 助力企业发展,新华社照片，福州，2017年4月10日\n深化税收改革助力企业发展\n4月10日，在福州市鼓...
86181,74738,（社会·广角）昆明两级法院集中发还执行款逾５亿元,新华社昆明５月２５日电（记者王研、李怀岩）昆明两级法院２５日同时举行执行案款集中发还大会...
31939,20496,[2]（外代二线）雅加达兴建快速交通系统工程,新华社照片，外代，2017年4月8日\n（外代二线）雅加达兴建快速交通系统工程\n4月6日，...
55376,43933,（体育）（3）篮球——周琦抵达休斯敦,新华社照片，休斯敦，2017年4月28日\n（体育）（3）篮球——周琦抵达休斯敦\n4月27...
6455,6456,爬坡时用这个档位，不仅爬坡更快，而且能省一半油,目前市场上有自动挡和手动挡两类汽车，并且自动挡在所占市场份额更大，销量更好一些。这是因为自动...


In [65]:
df_total_news.to_csv('./data/total_news_corpus.csv', encoding='utf-8', index=False)