In [None]:
# 安装genism
!pip install genism

## 下载 Wikipedia 文件

- [下载地址](https://dumps.wikimedia.org/enwiki/latest/)
- 数据文件约10-20G，注意你的存储空间和下载时间
- 你可以使用自己觉得合适大小的数据文件进行替换

In [None]:
"""
Creates a corpus from Wikipedia dump file.
Inspired by:
https://github.com/panyang/Wikipedia_Word2vec/blob/master/v1/process_wiki.py
文件存储为 make_wiki_corpus.py
"""

import sys
from gensim.corpora import WikiCorpus

def make_corpus(in_f, out_f): # 接收两个参数，输入文件名称和输出文件名称

	"""Convert Wikipedia xml dump file to text corpus"""

	output = open(out_f, 'w')
	wiki = WikiCorpus(in_f) # 直接调用gensim的能力对wiki的xml文件进行解码

	i = 0
	for text in wiki.get_texts():
		output.write(bytes(' '.join(text), 'utf-8').decode('utf-8') + '\n')
		i = i + 1
		if (i % 10000 == 0):
			print('Processed ' + str(i) + ' articles')
	output.close()
	print('Processing complete!')


if __name__ == '__main__':

	if len(sys.argv) != 3:
		print('Usage: python make_wiki_corpus.py <wikipedia_dump_file> <processed_text_file>')
		sys.exit(1)
	in_f = sys.argv[1]
	out_f = sys.argv[2]
	make_corpus(in_f, out_f)

- 使用命令行调用Python的方式调用代码
- 调用时长基于你的电脑性能波动

```bash
python make_wiki_corpus enwiki-latest-pages-articles.xml.bz2 wiki_en.txt
```

## 对生成完成的文本簇文件进行检查

- 基于巨大的文本量，即使是极为强大的个人电脑也很难直接将完成生成的文本簇载入内存中
- 可以采用一次读取50行数据的方式，逐步载入数据并进行文本检查工作
- 通过与命令行的交互，可以实现对文本信息的检查确认
- 检查完文本后按下任何按钮继续检查后续50条文本
- 检查完文本后键入`STOP`则会停职检查直接载入全部剩余文本

In [None]:
"""
Checks a corpus created from a Wikipedia dump file.
"""

import sys, time

def check_corpus(input_file):
    
    # 从文本簇中获取50条文本数据
    # 不进行手动退出则不会主动退出
    while(1):
        for lines in range(50):
            print(input_file.readline())
        user_input = input('>>> Type \'STOP\' to quit or hit Enter key for more <<< ')
        if user_input == 'STOP':
            break


def load_corpus(input_file):

    """Loads corpus from text file"""

    print('Loading corpus...')
    time1 = time.time()
    corpus = input_file.read()
    time2 = time.time()
    total_time = time2-time1
    print('It took %0.3f seconds to load corpus' %total_time)
    return corpus


if __name__ == '__main__':

    if len(sys.argv) != 2:
        print('Usage: python check_wiki_corpus.py <corpus_file>')
        sys.exit(1)

    corpus_file = open(sys.argv[1],'r')
    check_corpus(corpus_file)
    corpus = load_corpus(corpus_file)

- 使用命令行的方式调用函数

```bash
python check_wiki_corpus.py wiki_en.txt
```