## Wikipedis Chinese Corpus

### 1. Download Source File
> https://dumps.wikimedia.org/zhwiki/20190401/

### 2. Extract Data

Extract Data to a sigle Json file by **WikiExtractor**

$ `cd wikiextractor/`

$ `python3 WikiExtractor.py -b 2000M -o ~/team_vec2world/project_01/corpus/data/ --json --no-templates --processes 8 ~/Downloads/zhwiki-20190401-pages-articles-multistream1.xml-p1p162886.bz2`

Fomular of wiki json file<br>
{"id": "xxx", "url": "xxx", "title": "xxx", "text": "xxxxxx"}

### 3. Pre_Processing

In [1]:
import json

In [2]:
from collections import defaultdict

In [3]:
# Import tool of Switching Traditional Chinese to Simple Chinese
from hanziconv import HanziConv

In [4]:
# Init container
content = defaultdict(dict)

In [5]:
with open('./data/source_data_01', 'r') as f:
    for line in f:
        # Get content id and change type from str to int
        content_id = int(json.loads(line)['id'])
        # Get content url, type = str
        url = json.loads(line)['url']
        # Get content title, type = str
        title = json.loads(line)['title']
        # Get content text and switch to simple Chinese
        text = HanziConv.toSimplified(json.loads(line)['text'].strip())
        
        # Save to dic
        content[content_id]['url'] = url
        content[content_id]['title'] = title
        content[content_id]['text'] = text

### 4. Save result to json file

In [6]:
# Save content to new json file
with open('./data/pre_data_01.json', 'w', encoding='utf-8') as f:
    json.dump(content, f)

### 5. Save result to csv file

In [7]:
import pandas as pd

In [8]:
df = pd.DataFrame.from_dict(content, orient='index')
df = df.reset_index()
df = df.rename(columns={'index': 'id'})

In [13]:
df.head(10)

Unnamed: 0,id,url,title,text
0,13,https://zh.wikipedia.org/wiki?curid=13,数学,数学\n\n数学是利用符号语言研究数量、结构、变化以及空间等概念的一门学科，从某种角度看属于...
1,18,https://zh.wikipedia.org/wiki?curid=18,哲学,哲学\n\n哲学（）是研究普遍的、根本的问题的学科，包括存在、知识、价值、理智、心灵、语言等...
2,21,https://zh.wikipedia.org/wiki?curid=21,文學,文学\n\n文学（），在最广泛的意义上，是任何单一的书面作品。\n\n更严格地说，文学写作被...
3,22,https://zh.wikipedia.org/wiki?curid=22,历史,历史\n\n历史（现代汉语词汇，古典文言文称之为史），指人类社会过去的事件和行动，以及对这些...
4,25,https://zh.wikipedia.org/wiki?curid=25,计算机科学,计算机科学\n\n计算机科学（，有时缩写为）是系统性研究信息与计算的理论基础以及它们在计算机...
5,39,https://zh.wikipedia.org/wiki?curid=39,民族,民族\n\n民族，又称人，简称民、族。\n\n在汉语中，民族一词具有十分丰富而复杂的内涵，可...
6,45,https://zh.wikipedia.org/wiki?curid=45,戏剧,戏剧\n\n戏剧是演员将某个故事或情境，以对话、歌唱或动作等方式所表演出来的艺术。戏剧有四个...
7,48,https://zh.wikipedia.org/wiki?curid=48,电影,电影\n\n电影是一种表演艺术、视觉艺术及听觉艺术，利用胶卷、录影带或数位媒体将影像和声音捕...
8,51,https://zh.wikipedia.org/wiki?curid=51,音乐,音乐\n\n音乐，广义而言，就是指任何以声音组成的艺术。英文Music一词源于古希腊语的μο...
9,53,https://zh.wikipedia.org/wiki?curid=53,经济学,经济学\n\n经济学是一门对产品和服务的生产、分配以及消费进行研究的社会科学。西方语言中的“...


In [14]:
# Save content to new csv file
df.to_csv('./data/pre_data_01.csv', encoding='utf-8')