## Wikipedis Chinese Corpus

### 1. Download Source File
> https://dumps.wikimedia.org/zhwiki/20190401/

### 2. Extract Data

Extract Data to a sigle Json file by **WikiExtractor**

$ `cd wikiextractor/`

$ `python3 WikiExtractor.py -b 2000M -o ~/team_vec2world/project_01/corpus/data/ --json --no-templates --processes 8 ~/Downloads/zhwiki-20190401-pages-articles-multistream1.xml-p1p162886.bz2`

Fomular of wiki json file<br>
{"id": "xxx", "url": "xxx", "title": "xxx", "text": "xxxxxx"}

### 3. Pre_Processing

In [1]:
import json

In [2]:
from collections import defaultdict

In [3]:
# Import tool of Switching Traditional Chinese to Simple Chinese
from hanziconv import HanziConv

In [4]:
# Init container
content = defaultdict(dict)

In [5]:
with open('./data/wiki_source_01', 'r') as f:
    for line in f:
        # Get content id and change type from str to int
        content_id = int(json.loads(line)['id'])
        # Get content url, type = str
        url = json.loads(line)['url']
        # Get content title, type = str
        title = json.loads(line)['title']
        # Get content text and switch to simple Chinese
        text = HanziConv.toSimplified(json.loads(line)['text'].strip())
        
        # Save to dic
        content[content_id]['url'] = url
        content[content_id]['title'] = title
        content[content_id]['text'] = text

### 4. Save result to json file

In [6]:
# Save content to new json file
with open('./data/wiki_sample_01.json', 'w', encoding='utf-8') as f:
    json.dump(content, f)

### 5. Save result to csv file

In [7]:
import pandas as pd

In [8]:
df = pd.DataFrame.from_dict(content, orient='index')
df = df.reset_index()
df = df.rename(columns={'index': 'id'})

In [9]:
# Check article number
print('Total Article Number: {}'.format(df.shape[0]))

Total Article Number: 39440


In [10]:
df.head(10)

Unnamed: 0,id,url,title,text
0,13,https://zh.wikipedia.org/wiki?curid=13,数学,数学\n\n数学是利用符号语言研究数量、结构、变化以及空间等概念的一门学科，从某种角度看属于...
1,18,https://zh.wikipedia.org/wiki?curid=18,哲学,哲学\n\n哲学（）是研究普遍的、根本的问题的学科，包括存在、知识、价值、理智、心灵、语言等...
2,21,https://zh.wikipedia.org/wiki?curid=21,文學,文学\n\n文学（），在最广泛的意义上，是任何单一的书面作品。\n\n更严格地说，文学写作被...
3,22,https://zh.wikipedia.org/wiki?curid=22,历史,历史\n\n历史（现代汉语词汇，古典文言文称之为史），指人类社会过去的事件和行动，以及对这些...
4,25,https://zh.wikipedia.org/wiki?curid=25,计算机科学,计算机科学\n\n计算机科学（，有时缩写为）是系统性研究信息与计算的理论基础以及它们在计算机...
5,39,https://zh.wikipedia.org/wiki?curid=39,民族,民族\n\n民族，又称人，简称民、族。\n\n在汉语中，民族一词具有十分丰富而复杂的内涵，可...
6,45,https://zh.wikipedia.org/wiki?curid=45,戏剧,戏剧\n\n戏剧是演员将某个故事或情境，以对话、歌唱或动作等方式所表演出来的艺术。戏剧有四个...
7,48,https://zh.wikipedia.org/wiki?curid=48,电影,电影\n\n电影是一种表演艺术、视觉艺术及听觉艺术，利用胶卷、录影带或数位媒体将影像和声音捕...
8,51,https://zh.wikipedia.org/wiki?curid=51,音乐,音乐\n\n音乐，广义而言，就是指任何以声音组成的艺术。英文Music一词源于古希腊语的μο...
9,53,https://zh.wikipedia.org/wiki?curid=53,经济学,经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“...


In [11]:
# Save content to new csv file
df.to_csv('./data/wiki_sample_01.csv', encoding='utf-8', index=False)

----

## 今日头条新闻 Corpus

In [4]:
import pandas as pd
import os

In [5]:
news_toutiao_dir = './data/今日头条新闻数据/'

In [6]:
temp = []
for root, dirs, files in os.walk(news_toutiao_dir):
    # print(root)
    # print(files)
    for file in files:
        file_path = root + file
        print(file_path)
        df = pd.read_excel(file_path)
        df = df[['标题', '内容']]
        print(df.shape)
        temp.append(df)
df_news = pd.concat(temp, axis=0)

./data/今日头条新闻数据/今日头条-游戏.xlsx
(2153, 2)
./data/今日头条新闻数据/今日头条-娱乐.xlsx
(2201, 2)
./data/今日头条新闻数据/今日头条-时尚.xlsx
(1048, 2)
./data/今日头条新闻数据/今日头条-汽车.xlsx
(2092, 2)
./data/今日头条新闻数据/今日头条-军事.xlsx
(1781, 2)
./data/今日头条新闻数据/今日头条-体育.xlsx
(2169, 2)


In [7]:
df_news = df_news.reset_index()
df_news = df_news.rename(columns={'index': 'id', '标题': 'title', '内容': 'text'})
df_news['id'] = df_news['id'].apply(lambda x: x+1)

In [8]:
df_news.shape

(11444, 3)

In [9]:
df_news.sample(10)

Unnamed: 0,id,title,text
8485,992,装甲碾压 以寡击众！美媒盘点影响装甲战的10种坦克,10.英国“百夫长”坦克“百夫长”坦克的设计初衷是让英国坦克拥有对抗德国“豹”式和“虎”式坦...
4405,52,不对称设计为何备受设计师的喜爱？ STYLEMODE官方 ⋅ 评论...,对称性设计虽然有工整之美，但相较于两边异同的不对称款式，更显得新颖吸睛。不对称设计作为其中一...
1721,1722,魔兽世界8.1：达萨罗之战珠宝王冠，每天扣一颗宝石，药钱都省了,玩游戏找热点，点击关注不迷路魔兽世界8.1版本中的新团本达萨罗之战，将会在1月24日的时候开...
3533,1381,"2018剧热歌火的原声TOP10,《香蜜》排第三，听过6首以上都是剧迷",2018剧热歌火的原声TOP10，香蜜才排第三，听过6首以上的都是剧迷影视原声带就跟配音一样...
4634,281,戳破“肌肤排毒”背后的谎言 甄垚谈护肤 ⋅ 评论 ⋅ 1天前 ...,“肌肤排毒”这个概念已经流行了很多年。当用了某款产品出现红肿、爆豆、脱皮时，客服经常会告诉您...
4186,2034,54岁的张曼玉和26岁的周冬雨同框：后者太嫩？法式优雅不设限,少壮狮子还缺食忍饿；但寻求耶和华的，什么好处都不缺。The lions may grow w...
5961,560,大车那么慢，我能弯道超车吗？,对于很多没有太多道路驾驶经验的人来说，他们刚刚脱离了刚上路那段时间的彷徨，进入到一个“我觉得...
1254,1255,刺激战场：它有M4的伤害，冲锋枪的射速，以及98k的稳定性,在游戏中哪些枪械最受到玩家的喜爱呢？应该是m4a1和98k这两把枪了。AKM虽然也有很多喜欢...
627,628,C级薇恩出电刀，A级薇恩裸破败，S级薇恩：自信的人只认它,薇恩这个英雄一直以来都是很多玩家心中的信仰级英雄，她是唯一一个没有任何AOE伤害的ADC，不...
7183,1782,买不起普拉多？那不如来看看它吧，一箱油续航700KM，售15万！,国产车仅几年发展的真的可圈可点了，像长城、吉利、上汽等这些车企这几年生产的国产车都很受欢迎。...


In [10]:
df_news.to_csv('./data/toutiao_news_corpus.csv', encoding='utf-8', index=False)