# 從 Wikipedia 取得中文語料

Wikipedia 提供了可離線使用的資料庫，我們可以很方便的從 **[維基百科:資料庫下載](https://zh.wikipedia.org/wiki/Wikipedia:%E6%95%B0%E6%8D%AE%E5%BA%93%E4%B8%8B%E8%BD%BD)** 取得最新的資料集。以 2021-02-01 為例，中文語料的壓縮檔下載大小約為 2.1G，我們可以透過以下方式取得。

In [1]:
#remote_url = 'https://dumps.wikimedia.org/zhwiki/20210201/zhwiki-20210201-pages-articles-multistream1.xml-p1p187712.bz2'
#local_url = 'D:\data\corpus\zhwiki-20210201-pages-articles-multistream.xml.bz2'

remote_url = 'https://dumps.wikimedia.org/zhwiki/20210201/zhwiki-20210201-pages-articles-multistream-index1.txt-p1p187712.bz2'
local_url = 'D:\data\corpus\zhwiki-20210201-pages-articles-multistream-index1.txt-p1p187712.bz2'

import requests

myfile = requests.get(remote_url)
open(local_url, 'wb').write(myfile.content)

705631

## 解析 Wikipedia dumps

Wikipedia dumps 是壓縮的 XML 檔案，裡面充滿了標籤，我們可以用 [`gensim.corpora.WikiCorpus`](https://radimrehurek.com/gensim/corpora/wikicorpus.html) 內建的解析器來擷取想要的內容。

> `classgensim.corpora.wikicorpus.WikiCorpus`(fname, processes=None, lemmatize=False, dictionary=None, filter_namespaces=('0', ), tokenizer_func=<function tokenize>, article_min_tokens=50, token_min_len=2, token_max_len=15, lower=True, filter_articles=None)

    
從官方文件中我們可以看到，`WikiCorpus` 會自動篩選至少50個詞彙的內容，完整的參數說明如下：

**Parameters**
- **fname (str)** : Path to the Wikipedia dump file.
- **processes (int, optional)** : Number of processes to run, defaults to max(1, number of cpu - 1).
- **lemmatize (bool)** : Use lemmatization instead of simple regexp tokenization. Defaults to True if you have the pattern package installed.
- **dictionary (Dictionary, optional)** : Dictionary, if not provided, this scans the corpus once, to determine its vocabulary IMPORTANT: this needs a really long time.
- **filter_namespaces (tuple of str, optional)** : Namespaces to consider.
- **tokenizer_func (function, optional)** : Function that will be used for tokenization. By default, use tokenize(). If you inject your own tokenizer, it must conform to this interface: tokenizer_func(text: str, token_min_len: int, token_max_len: int, lower: bool) -> list of str
- **article_min_tokens (int, optional)** : Minimum tokens in article. Article will be ignored if number of tokens is less.
- **token_min_len (int, optional)** : Minimal token length.
- **token_max_len (int, optional)** : Maximal token length.
- **lower (bool, optional)** : If True - convert all text to lower case.
- **filter_articles (callable or None, optional)** : If set, each XML article element will be passed to this callable before being processed. Only articles where the callable returns an XML element are processed, returning None allows filtering out some articles based on customised rules.

In [4]:
from gensim.corpora import WikiCorpus

local_url = 'D:\data\corpus\zhwiki-20210201-pages-articles-multistream.xml.bz2'
outputfile = 'D:\data\corpus\zhwiki-20210201.txt'

# 1. Initialize WikiCorpus
wiki_corpus = WikiCorpus(local_url, dictionary={})
texts_num = 0

# 2. Proceed conversion
with open(outputfile,'w',encoding='utf-8') as output:
    for text in wiki_corpus.get_texts():
        output.write(' '.join(text) + '\n')
        texts_num += 1
        if texts_num % 10000 == 0:
            print("已處理 %d 篇文章" % texts_num)
            


已處理 10000 篇文章
已處理 20000 篇文章
已處理 30000 篇文章
已處理 40000 篇文章
已處理 50000 篇文章
已處理 60000 篇文章
已處理 70000 篇文章
已處理 80000 篇文章
已處理 90000 篇文章
已處理 100000 篇文章
已處理 110000 篇文章
已處理 120000 篇文章
已處理 130000 篇文章
已處理 140000 篇文章
已處理 150000 篇文章
已處理 160000 篇文章
已處理 170000 篇文章
已處理 180000 篇文章
已處理 190000 篇文章
已處理 200000 篇文章
已處理 210000 篇文章
已處理 220000 篇文章
已處理 230000 篇文章
已處理 240000 篇文章
已處理 250000 篇文章
已處理 260000 篇文章
已處理 270000 篇文章
已處理 280000 篇文章
已處理 290000 篇文章
已處理 300000 篇文章
已處理 310000 篇文章
已處理 320000 篇文章
已處理 330000 篇文章
已處理 340000 篇文章
已處理 350000 篇文章
已處理 360000 篇文章
已處理 370000 篇文章
已處理 380000 篇文章


In [6]:
# Print the first line of the generated txt
outputfile = 'D:\data\corpus\zhwiki-20210201.txt'
with open(outputfile, 'r') as f:
    t = f.readline()
    print(t)

歐幾里得 西元前三世紀的古希臘數學家 現在被認為是幾何之父 此畫為拉斐爾的作品 雅典學院 数学 是利用符号语言研究數量 结构 变化以及空间等概念的一門学科 从某种角度看屬於形式科學的一種 數學透過抽象化和邏輯推理的使用 由計數 計算 數學家們拓展這些概念 對數學基本概念的完善 早在古埃及 而在古希臘那裡有更為嚴謹的處理 從那時開始 數學的發展便持續不斷地小幅進展 世紀的文藝復興時期 致使數學的加速发展 直至今日 今日 數學使用在不同的領域中 包括科學 工程 醫學 經濟學和金融學等 有時亦會激起新的數學發現 並導致全新學科的發展 數學家也研究純數學 就是數學本身的实质性內容 而不以任何實際應用為目標 雖然許多研究以純數學開始 但其过程中也發現許多應用之处 詞源 西方语言中 數學 一詞源自於古希臘語的 其有 學習 學問 科學 數學研究 即使在其語源內 其形容詞 意思為 和學習有關的 用功的 亦會被用來指 數學的 其在英语中表面上的複數形式 及在法语中的表面複數形式 可溯至拉丁文的中性複數 由西塞罗譯自希臘文複數 此一希臘語被亚里士多德拿來指 萬物皆數 的概念 汉字表示的 數學 一詞大約产生于中国宋元時期 多指象數之學 但有時也含有今天上的數學意義 例如 秦九韶的 數學九章 永樂大典 數書九章 也被宋代周密所著的 癸辛雜識 記爲 數學大略 數學通軌 明代柯尚遷著 数学钥 清代杜知耕著 數學拾遺 清代丁取忠撰 直到 經過中國數學名詞審查委員會研究 算學 數學 兩詞的使用狀況後 確認以 數學 表示今天意義上的數學含義 历史 奇普 印加帝國時所使用的計數工具 玛雅数字 數學有着久遠的歷史 中國古代的六艺之一就有 數學一詞在西方有希腊语詞源 mathematikós 意思是 学问的基础 源于 máthema 科学 知识 学问 時間的長短等抽象的數量關係 比如时间单位有日 季節和年等 算術 加減乘除 也自然而然地產生了 歷史上曾有過許多不同的記數系統 在最初有歷史記錄的時候 為了解數字間的關係 為了測量土地 以及為了預測天文事件而形成的 结构 空间及时间方面的研究 到了 世纪 算术 微积分的概念也在此時形成 随着數學轉向形式化 從古至今 數學便一直不斷地延展 且與科學有豐富的相互作用 兩者的發展都受惠於彼此 在歷史上有著許多數學發現 並且直至今日都不斷地有新的發現 據mikhail

上面的兩段程式碼花了大約10幾分鐘的時間，將 2.08Gb （解壓縮大約 8.7Gb）內含 380,000 篇文章的 wikipedia dumps 轉為一個龐大的文字檔（1.28Gb），並且展示了檔案的第一行。我們可以發現，`WikiCorpus` 會將簡體、繁體以及其他語言的文字都混在一起（如果多看幾行還會發現德文跟拉丁文），其他的語言會在後續的處理中自動被忽略，但是簡體需要進一步的處理，否則簡繁體的同一個詞彙會被當做不同的兩個詞處理。

[**Open Chinese Convert 開放中文轉換** (`OpenCC`)](https://github.com/BYVoid/OpenCC) 是簡單好用的簡繁轉換工具，簡單的用法：

> import opencc

> converter = opencc.OpenCC('s2t.json')

> converter.convert('汉字')  # 漢字


- hk2s: Traditional Chinese (Hong Kong standard) to Simplified Chinese
- s2hk: Simplified Chinese to Traditional Chinese (Hong Kong standard)
- s2t: Simplified Chinese to Traditional Chinese
- s2tw: Simplified Chinese to Traditional Chinese (Taiwan standard)
- s2twp: Simplified Chinese to Traditional Chinese (Taiwan standard, with phrases)
- t2hk: Traditional Chinese to Traditional Chinese (Hong Kong standard)
- t2s: Traditional Chinese to Simplified Chinese
- t2tw: Traditional Chinese to Traditional Chinese (Taiwan standard)
- tw2s: Traditional Chinese (Taiwan standard) to Simplified Chinese
- tw2sp: Traditional Chinese (Taiwan standard) to Simplified Chinese (with phrases)

In [13]:
import opencc
converter = opencc.OpenCC('s2tw.json')

inputfile = 'D:\data\corpus\zhwiki-20210201.txt'
outputfile = 'D:\data\corpus\zhwiki-20210201-zhtw.txt'

line_count = 0

fout = open(outputfile, 'w')
with open(inputfile, 'r') as fin:
    while True:
        line = fin.readline()
        if not line:
            break
        newline = converter.convert(line)
        fout.write(newline)
        line_count += 1
        if line_count % 10000 == 0:
            print("已處理 %d 篇文章" % line_count)
fout.close()

In [14]:
with open(outputfile, 'r') as f:
    t = f.readline()
    print(t)

歐幾裡得 西元前三世紀的古希臘數學家 現在被認為是幾何之父 此畫為拉斐爾的作品 雅典學院 數學 是利用符號語言研究數量 結構 變化以及空間等概念的一門學科 從某種角度看屬於形式科學的一種 數學透過抽象化和邏輯推理的使用 由計數 計算 數學家們拓展這些概念 對數學基本概念的完善 早在古埃及 而在古希臘那裡有更為嚴謹的處理 從那時開始 數學的發展便持續不斷地小幅進展 世紀的文藝復興時期 致使數學的加速發展 直至今日 今日 數學使用在不同的領域中 包括科學 工程 醫學 經濟學和金融學等 有時亦會激起新的數學發現 並導致全新學科的發展 數學家也研究純數學 就是數學本身的實質性內容 而不以任何實際應用為目標 雖然許多研究以純數學開始 但其過程中也發現許多應用之處 詞源 西方語言中 數學 一詞源自於古希臘語的 其有 學習 學問 科學 數學研究 即使在其語源內 其形容詞 意思為 和學習有關的 用功的 亦會被用來指 數學的 其在英語中表面上的複數形式 及在法語中的表面複數形式 可溯至拉丁文的中性複數 由西塞羅譯自希臘文複數 此一希臘語被亞里士多德拿來指 萬物皆數 的概念 漢字表示的 數學 一詞大約產生於中國宋元時期 多指象數之學 但有時也含有今天上的數學意義 例如 秦九韶的 數學九章 永樂大典 數書九章 也被宋代周密所著的 癸辛雜識 記為 數學大略 數學通軌 明代柯尚遷著 數學鑰 清代杜知耕著 數學拾遺 清代丁取忠撰 直到 經過中國數學名詞審查委員會研究 算學 數學 兩詞的使用狀況後 確認以 數學 表示今天意義上的數學含義 歷史 奇普 印加帝國時所使用的計數工具 瑪雅數字 數學有著久遠的歷史 中國古代的六藝之一就有 數學一詞在西方有希臘語詞源 mathematikós 意思是 學問的基礎 源於 máthema 科學 知識 學問 時間的長短等抽象的數量關係 比如時間單位有日 季節和年等 算術 加減乘除 也自然而然地產生了 歷史上曾有過許多不同的記數系統 在最初有歷史記錄的時候 為瞭解數字間的關係 為了測量土地 以及為了預測天文事件而形成的 結構 空間及時間方面的研究 到了 世紀 算術 微積分的概念也在此時形成 隨著數學轉向形式化 從古至今 數學便一直不斷地延展 且與科學有豐富的相互作用 兩者的發展都受惠於彼此 在歷史上有著許多數學發現 並且直至今日都不斷地有新的發現 據mikhail

從第一行的結果看起來已經成功的轉換成繁體，接下來我們要進行分詞（word segmentation）的工作。


## 斷詞（Word Segmentation）

