#### 使用 xmlReader.py 读取 xml 文件， 将 < page > 标签对应的文本读写下来

In [19]:
import xml.sax
import sys

class XmlHandler( xml.sax.ContentHandler ):
	def __init__(self):
		self.currentTag = ""
		self.text_id = 0
		self.currentTitle = ''
		self.fileOut = ''


	# 元素开始事件处理
	def startElement(self, tag, attributes):
		if(tag == 'text'):
			self.text_id += 1
			fpath = 'pages/'+str(self.text_id>>16 & 255)+'/'+\
            str(self.text_id>>8 & 255)+'/'+str(self.text_id&255)
			sys.stdout.write(fpath+'\r')
			self.fileOut = open(fpath,'w',encoding='utf8')
			self.fileOut.write('title|'+self.currentTitle+'\n')
		self.currentTag = tag


	# 元素结束事件处理
	def endElement(self, tag):
		if(tag == 'text'):
			self.fileOut.close()
		self.currentTag = ''



	# 内容事件处理
	def characters(self, content):
		if(self.currentTag == 'title'):
			self.currentTitle = content
		if(self.currentTag == 'text'):
			self.fileOut.write(content)
    

In [21]:
import os

for i in range(256):
    for j in range(256):
        os.makedirs('./pages/'+str(i)+'/'+str(j))
RUN = 0
if(RUN):
    # 创建一个 XMLReader
    parser = xml.sax.make_parser()
    # turn off namepsaces
    parser.setFeature(xml.sax.handler.feature_namespaces, 0)

    # 重写 ContextHandler
    Handler = XmlHandler()
    parser.setContentHandler( Handler )
    

最后一个文件 pages/46/59/180

In [10]:
pageNum = 46*256*256+59*256+180
print(pageNum)

3029940


In [11]:
import sys
RUN = 0
if(RUN):
    with open('titles','w',encoding='utf8') as fout:
        for idx in range(4000000):
            fpath = 'pages/'+str(idx>>16 & 255)+'/'+ \
                str(idx>>8 & 255)+'/'+str(idx&255)
            sys.stdout.write(fpath+'\r')
            try:
                with open(fpath,encoding='utf8') as fin:
                    title = fin.readline().split('|')[1]
                    fout.write(title)
            except Exception as e:
                print(e)
        

In [39]:
title2idx = {}
id = 0
with open('titles',encoding='utf8') as f:
    for t in f.readlines():
        id += 1
        t = t.strip('\n')
        if(t not in title2idx):
            title2idx[t] = [id,]
        else:
            title2idx[t].append(id)
print(len(title2idx))
            

3029556


In [44]:
title2idx['EN']

[589840, 2900880]

In [47]:

import sys,time
# 显示进度条
def processBar(index, totalNum):
    bar = '#'*int((index/totalNum)*50)
    sys.stdout.write(str(int((index/totalNum)*100))+'%  ||'+bar+'->'+str(index)+'/'+str(totalNum)+"\r")



#### jieba 为分词工具

In [98]:
import jieba
jieba.load_userdict('dict/dict_unique')

#### 繁简转换测试

In [49]:
from langconv import *

line = '為当今世界著名的[[美國]][[網球]]女子巨星，網球史上最伟大的女子选手之一，\
    美國體育史上最佳女子網球选手（與[[克里斯·埃弗特|Chris Evert]]並列），\
    全世界第一位網球大滿貫黑人女單冠軍，單打最高世界排名第一，\
    23座大滿貫女單冠軍得主，網球史上第二位女子單打生涯全滿貫得主。'
# 转换繁体到简体
line = Converter('zh-hans').convert(line)
print(line)
# 转换简体到繁体
line = Converter('zh-hant').convert(line)
print(line)

为当今世界著名的[[美国]][[网球]]女子巨星，网球史上最伟大的女子选手之一，    美国体育史上最佳女子网球选手（与[[克里斯·埃弗特|Chris Evert]]并列），    全世界第一位网球大满贯黑人女单冠军，单打最高世界排名第一，    23座大满贯女单冠军得主，网球史上第二位女子单打生涯全满贯得主。
為當今世界著名的[[美國]][[網球]]女子巨星，網球史上最偉大的女子選手之一，    美國體育史上最佳女子網球選手（與[[克裡斯·埃弗特|Chris Evert]]併列），    全世界第一位網球大滿貫黑人女單冠軍，單打最高世界排名第一，    23座大滿貫女單冠軍得主，網球史上第二位女子單打生涯全滿貫得主。


#### 找出包含问题中关键词的文档

In [62]:
def idx2file(id):
    fpath = 'pages/'+str(id>>16 & 255)+'/'+\
            str(id>>8 & 255)+'/'+str(id&255)
    return fpath

In [75]:
stopWords = ['上','的','什么','什麼','是','大','第几',\
             '过','多少','多少次','？','哪','谁','哪里',\
            '哪个','哪种','哪位','哪座','指','和']

def findDoc(query):
    keyList = []
    for word in jieba.cut_for_search(query):
        if(word not in stopWords):
            try:
                #print(word)
                keyList.extend(title2idx[word])
            except Exception as e:
                pass
    return keyList

findDoc('马尔代夫的第一大支柱产业是什么')

[8504, 8416]

#### 找到包含关键词最多的语段

查询的时候分别用简体繁体查了一遍

In [76]:
def findLine(query, minLen=10, maxReturn=1):
    s = []
    docList = findDoc(query)
    keywords = '.'.join(jieba.cut_for_search(query)).split('.')
    #keywords = '.'.join(jieba.cut(query,cut_all=False)).split('.')


    for docIdx in docList:
        with open(idx2file(docIdx),encoding='utf8') as f:
            for line in f.readlines():
                if(len(line) > minLen):
                    tf = {}
                    for word in jieba.cut_for_search(line):
                        if(word in keywords and word not in stopWords):
                            tf[word] = 1 
                    bingo = len(tf)
                    s.append(('位于page_'+str(docIdx)+'   '+line,bingo))
                    
    query = Converter('zh-hant').convert(query)
    docList = findDoc(query)
    keywords = '.'.join(jieba.cut_for_search(query)).split('.')
    #keywords = '.'.join(jieba.cut(query,cut_all=False)).split('.')
    #print(keywords)

    for docIdx in docList:
        with open(idx2file(docIdx),encoding='utf8') as f:
            for line in f.readlines():
                if(len(line) > minLen):
                    tf = {}
                    for word in jieba.cut_for_search(line):
                        if(word in keywords and word not in stopWords):
                            tf[word] = 1 
                    bingo = len(tf)
                    s.append(('位于page_'+str(docIdx)+'   '+line,bingo))
    s = sorted(s,key=lambda x:x[1], reverse=1)
    return [item[0] for item in s[:maxReturn]]

#### 查询

In [78]:
query = '华英字典》的作者是'
findLine(query,maxReturn=1)

['位于page_42587   1815年，[[英國]]傳教士[[馬禮遜]]在[[澳門]]為了翻譯工作，編寫了中國第一部英語學習字典《[[華英字典]]》。[[馬禮遜]]在倫敦時候，曾經得到一名中國人的教導下學習一年漢語，抵達[[廣東]]後，曾翻譯《[[三字經]]》及《[[大學 (經傳)|大學]]》，並且編寫過漢語語法書籍，所以對中國文化及語言有一定了解。因此在《[[華英字典]]》可以找到很多出自《[[紅樓夢]]》和《[[論語]]》的例句。《[[華英字典]]》是世界上第一本英漢－漢英對照的字典，篇幅大內容豐，有豐富的例句及解釋，並收錄大量成語、俗語。1844年[[衛三畏]]的《[[英華韻府歷階]]》及1847年[[麥都思]]的《[[英漢字典]]》都把它當作參照基礎。\n']

#### 训练样本

In [79]:
questions = []
with open('wdm_assignment_3_samples.txt',encoding='utf8') as fin:
    for line in fin.readlines():
        questions.append(line.split('\t')[0])

questions[:10]

['马尔代夫的第一大支柱产业是什么？',
 '澳大利亚是南半球面积第几大的国家？',
 '阿根廷国家足球队赢得过多少次美洲杯冠军？',
 '平均人口密度最高的大洲是？',
 '中国历史上最杰出的浪漫主义诗人是？',
 '甲午战争爆发的标志是？',
 '《华英字典》的作者是？',
 '《资治通鉴》的撰写一共耗时多少年？',
 '世界上首位从南坡登上珠穆朗玛峰的女性的国籍是？',
 '最后宣布废除奴隶制度的行政地区是？']

#### 样本问答测试

In [80]:
for q in questions:
    print('问:',q)
    print('答:',findLine(q,maxReturn=1))
    print()

问: 马尔代夫的第一大支柱产业是什么？
答: ['位于page_8504   马尔代夫是个岛国，陆地面积相当狭窄。[[工业]]、[[农业]]水平低下。[[渔业]]、[[航运]]和[[旅游]]是三大经济支柱。近年来，随着旅游业的发展，旅游收入已达到了国民总产值的70%以上。成为马尔代夫的第一支柱产业。\n']

问: 澳大利亚是南半球面积第几大的国家？
答: ["位于page_697   = 1-876429-37-2|date=2003}}</ref><ref>{{cite web |title = Australia |work=Oxford Dictionaries |date=April 2010 |publisher=Oxford University Press |url = http://oxforddictionaries.com/definition/english/Australia |accessdate=2012-07-26}}</ref>，[[缩写]]为'''AU'''、'''AUS'''），中文环境下（尤其是臺灣、香港等地）常使用「'''澳-{}-洲'''」代替“-{zh-cn:澳大利亚;zh-tw:澳大利亞}-”，是全球[[面积]]第六大的[[国家]]，[[大洋洲]]最大的国家和[[南半球]]第二大的国家。澳大利亚国土包括澳大利亚大陆，[[塔斯曼尼亚|塔斯曼尼亚岛]]及数个海外的岛屿，面积和[[美國本土]]相似，是[[世界]]上唯一一个国土覆盖整个[[大陆]]的国家。與隔海相望的东南近邻是[[紐西蘭]]，西北是[[印度尼西亚]]，北边是[[巴布亚新几内亚]]、[[西巴布亚]]及[[东帝汶]]。\n"]

问: 阿根廷国家足球队赢得过多少次美洲杯冠军？
答: ["位于page_1470   阿根廷的官方国家运动是{{tsl|en | Pato |鸭球}}，<ref>{{cite web|url=http://www.en.argentina.ar/_en/sports/C480-pato-argentinas-national-sport.php|title=Pato, Argentina's national sport|publisher=Argentina.ar|accessdate=2009-09-01}}</ref>这是一种争夺六

答: ["位于page_226727   *[[博士后]]不属于'''学位'''，指学者在取得博士学位之后继续专门从事相关研究并深造，是[[研究]]职位\n"]

问: 现存所有老虎亚种中最小的亚种是？
答: ['位于page_115095   {{Otheruses|中 (消歧義)|subject=與方位相關的內容|other=其他意思}}\n']

问: 目前的北回归线位置是由哪个组织确定的？
答: ['位于page_12299   目前的北回归线（“南回归线”亦同）位置是[[联合国教科文组织]]（UNESCO）于1976年第16届[[国际天文联合会]]确定的，它只是一个以方便教学和理解为目的的参考值，并非北回归线的准确地理位置。实际上，受[[岁差]]、[[章動]]和[[极移]]等天文因素的影响，南、北回归线位置并非固定不变。以北回归线为例，它的纬度上限：北在北纬24°14′39″，南在北纬22°37′56″，相差约180公里，往复周期约为37,158年。目前北回归线正每年向南移动大约0.47秒，约14.4米，已于2009年夏至日经过周期中点，即23度26分17秒，并继续南移，直到公元11300年到达最南点时才会再北返。因此各地所立的北回归线界碑实际上没有天文意义，但研究北回归线的变化周期則具有重要天文、地理和历史人文意义<ref>[http://www.chinanews.com/life/news/2009/06-17/1738151.shtml]</ref>。\n']

问: 首先分离出元素氟的化学家是？
答: ['位于page_11642   在所有元素中，氟在宇宙中的丰度排名为24，在地壳中丰度排名13。[[萤石]]是氟的主要矿物来源，1529年该矿物的性质首次被描述。由于在[[冶炼]]中将萤石加入金属矿石可以降低矿石的熔点，萤石和氟包含有拉丁语中表示流动的词根fluo。尽管在1810年就已经认为存在氟这种元素，由于氟非常难以从其化合物中分离出来，并且分离过程也非常危险，直到1886年，法国化学家[[亨利·莫瓦桑]]才采用低温[[电解]]的方法分离出氟单质。许多早期的实验者都因为他们分离氟单质的尝试受到伤害甚至去世。莫瓦桑的分离方法在现代生产中仍在使用。自[[第二次世界大战]]的[[曼哈顿工程]]以来，单质氟的最大应用就是合成[[浓缩铀|铀浓缩]]所需

答: ['位于page_39524   鞏俐於2006年出演张艺谋執導的《[[滿城盡帶黃金甲]]》，這是十一年後的再度合作<ref>[http://ent.china.com/zh_cn/movie/news/205/20060922/13643566.html 再合作 张艺谋巩俐十年一别刮目相看] 中華網電影頻道 2006年9月22日</ref>，凭借此片获得[[第26屆香港電影金像獎]]最佳女主角。张艺谋与巩俐在事业和感情上都曾是亲密无间的伴侣，一系列的合作使这对导演和演员达到了两人事业的巅峰。然而在交往8年、合作過7部电影之后，两人最终还是分手。到了90年代中期，随着与张艺谋的分手，她也开始转换套路，开始饰演旧时代的城市女性和古代人物，例如《[[画魂]]》、《[[霸王別姬 (電影)|霸王别姬]]》、《[[漂亮妈妈]]》、《[[周渔的火车]]》等等。\n']

问: 打进世界杯历史上最伟大进球的球员退役于哪一年？
答: ['位于page_7   历史并不是归类于[[人文科学]]或[[社会科学]]中，而是其间的桥梁，合并了两大领域的研究方法。一般来说，史学家通过研究各种[[书面文字]]但并不局限於此，努力并尝试解答和历史有关的问题。历史知识的原始资料分为三种：文字记载的、口头流传的、保留下来的历史遗迹，通常历史学家会综合三种方法进行研究，而文字记载经常被作为强调的重点，因为它普遍纪录了发展的时间。这种强调引申出了一个新领域，[[史前史]]，也可称为史前学，研究的是没有书面纪录的那一个时期。由于世界各地文字出现的时间各不相同，所以史前史和历史的主要区别是根据具体的论题而决定。学者们为了易于研究，根据过去人类的范围将其划分为不同的阶段。划分过去的方法繁多，包括按年代分类，按文化习俗分类，按不同主题分类。这三种分类经常会有重叠，比如“阿根廷的劳工运动的演变，1930-1945”。\n']

问: 西班牙第二大城市属于哪一种气候？
答: ['位于page_349   西班牙在欧洲和世界上是非常著名的旅游胜地，有着很舒适的地中海气候并且阳光充足，是很多旅行者的度假天堂。在2010年西班牙的觀光人口数量达到了5千3百万，排到在全世界第四位，仅次于第一位的法国、第二位的美国和第三位的中国。在2010年觀光业在西班牙国家的国内生产总值占89%，并且在觀光业上的年收入总值世界排名第

答: ["位于page_349   '''西班牙王国'''（{{lang-es|'''Reino de España'''}}），通稱'''西班牙'''（{{lang-es|'''España'''}}），古籍譯為'''日斯巴尼亞'''或'''以西巴尼亞'''，《[[聖經]]》曾譯為「'''士班雅'''」<ref>{{cite web |url=http://biblegeography.holylight.org.tw/index/condensedbible_detail?id=3932&top=0016 |title=地名詳解：士班雅 (Spain) |work=聖光聖經地理 |accessdate=2017-06-27}}</ref>，是位於[[欧洲]][[南欧|西南部]]的[[君主立宪制]][[国家]]，与[[葡萄牙]]同处於[[伊比利亚半岛]]，东北部与[[法国]]及[[安道尔]]接壤，國土面積則佔伊比利亚半岛的五分之四。其[[领土]]还包括[[地中海]]中的[[巴利阿里群岛]]、[[大西洋]]的[[加那利群岛]]、以及在[[非洲]]北部的[[休达]]和[[梅利利亚]]。首都兼最大都市為[[馬德里]]。\n"]

问: 莱昂纳多第一次获得奥斯卡提名是多少岁？
答: ['位于page_2559134   title|莱昂纳多\n']

问: 唯一获得香港电影金像奖最佳女配角的中国大陆演员是？
答: ['位于page_114712   香港電影始於1913年[[黎民偉]]編演的首部港片《[[莊子試妻 (電影)|莊子試妻]]》。[[二次大戰]]後，大批中國大陸電影人才及資金南下，中華、永華、長城等公司先後成立，粵語片大放異彩。當中胡鵬1949年開創的《黃飛鴻》電影，連拍60個多部，成為世界史上最長壽的系列電影。[[任劍輝]]、[[白雪仙]]的演出亦被傳頌數十年<ref>{{cite web|url=http://www.avenueofstars.com.hk/tc/hong-kong-movie-history|title=星光大道: 香港電影發展里程}}</ref>。加上東亞各國政府一度只容許香港電影入口，令香港享有「東方荷里活」之稱，[[李小龍]]、[[許冠文]]、[[吳宇森]]、[[周潤發]]、[[梁朝伟]]、[[梁家輝]]、[[李連杰]]、[[成龍]

答: ['位于page_35692   title|清明上河图\n']

问: 巩俐获得香港电影金像奖最佳女主角的影片导演是谁？
答: ['位于page_39524   鞏俐於2006年出演张艺谋執導的《[[滿城盡帶黃金甲]]》，這是十一年後的再度合作<ref>[http://ent.china.com/zh_cn/movie/news/205/20060922/13643566.html 再合作 张艺谋巩俐十年一别刮目相看] 中華網電影頻道 2006年9月22日</ref>，凭借此片获得[[第26屆香港電影金像獎]]最佳女主角。张艺谋与巩俐在事业和感情上都曾是亲密无间的伴侣，一系列的合作使这对导演和演员达到了两人事业的巅峰。然而在交往8年、合作過7部电影之后，两人最终还是分手。到了90年代中期，随着与张艺谋的分手，她也开始转换套路，开始饰演旧时代的城市女性和古代人物，例如《[[画魂]]》、《[[霸王別姬 (電影)|霸王别姬]]》、《[[漂亮妈妈]]》、《[[周渔的火车]]》等等。\n']

问: 打进世界杯历史上最伟大进球的球员退役于哪一年？
答: ['位于page_7   历史并不是归类于[[人文科学]]或[[社会科学]]中，而是其间的桥梁，合并了两大领域的研究方法。一般来说，史学家通过研究各种[[书面文字]]但并不局限於此，努力并尝试解答和历史有关的问题。历史知识的原始资料分为三种：文字记载的、口头流传的、保留下来的历史遗迹，通常历史学家会综合三种方法进行研究，而文字记载经常被作为强调的重点，因为它普遍纪录了发展的时间。这种强调引申出了一个新领域，[[史前史]]，也可称为史前学，研究的是没有书面纪录的那一个时期。由于世界各地文字出现的时间各不相同，所以史前史和历史的主要区别是根据具体的论题而决定。学者们为了易于研究，根据过去人类的范围将其划分为不同的阶段。划分过去的方法繁多，包括按年代分类，按文化习俗分类，按不同主题分类。这三种分类经常会有重叠，比如“阿根廷的劳工运动的演变，1930-1945”。\n']

问: 西班牙第二大城市属于哪一种气候？
答: ['位于page_349   西班牙在欧洲和世界上是非常著名的旅游胜地，有着很舒适的地中海气候并且阳光充足，是很多旅行者的度假天堂。在2010年西班牙的觀光人口数量达到了5千3百万，排到在全世界第四位，仅次于第

答: ["位于page_9039   '''文艺复兴'''（{{lang-it|'''Rinascimento'''}}，由'''ri-'''（“重新”）和'''nascere'''（“出生”）构成）<ref>{{cite web|url=http://www.etymonline.com/index.php?search=renaissance&searchmode=none |title=Renaissance, Online Etymology Dictionary |publisher=Etymonline.com |date= |accessdate=2009-07-31}}</ref>，是一场大致发生在14世纪至17世纪的[[文化运动]]，在[[中世纪晚期]]发源于[[意大利]]中部的[[佛罗伦萨]]，即[[意大利文艺复兴]]，后扩展至[[欧洲]]各国。\n"]

问: 西班牙国家德比的两支球队一共夺得过多少次西甲冠军？52

答: ["位于page_349   '''西班牙王国'''（{{lang-es|'''Reino de España'''}}），通稱'''西班牙'''（{{lang-es|'''España'''}}），古籍譯為'''日斯巴尼亞'''或'''以西巴尼亞'''，《[[聖經]]》曾譯為「'''士班雅'''」<ref>{{cite web |url=http://biblegeography.holylight.org.tw/index/condensedbible_detail?id=3932&top=0016 |title=地名詳解：士班雅 (Spain) |work=聖光聖經地理 |accessdate=2017-06-27}}</ref>，是位於[[欧洲]][[南欧|西南部]]的[[君主立宪制]][[国家]]，与[[葡萄牙]]同处於[[伊比利亚半岛]]，东北部与[[法国]]及[[安道尔]]接壤，國土面積則佔伊比利亚半岛的五分之四。其[[领土]]还包括[[地中海]]中的[[巴利阿里群岛]]、[[大西洋]]的[[加那利群岛]]、以及在[[非洲]]北部的[[休达]]和[[梅利利亚]]。首都兼最大都市為[[馬德里]]。\n"]

问: 莱昂纳多第一次获得奥斯卡提名是多少岁？
答: ['位于page_2559134   title|莱昂

答: ["位于page_670   '''首都'''、'''國都'''或'''京'''（'''[[京師]]／城／都'''），以[[現代]][[政治]]角度而言，通常指一個[[國家]]的[[中央政府]]所在地的首要[[行政中心]][[城市]]<ref>{{cite book |title=國語辭典（節本）|author=臺灣商務印書館編審部 |publisher=[[臺灣商務印書館]] |origyear=1937-03|year=1976 |edition = 台三版 |quote =國都：一國中央政府之所在地|pages = 369}}</ref><ref>{{cite web |title=中華人民共和國行政區劃 |quote=在歷史上和習慣上，各省級行政區都有簡稱。省級人民政府駐地稱省會（首府），中央人民政府所在地是首都。北京就是中國的首都。|url = http://www.gov.cn/test/2005-06/15/content_18253.htm |date=2005-06-15 |accessdate=2009-08-13 |website = 中國政府網 }}</ref>，也是[[政治]]活动的中心城市、各类[[国家]]级[[机关]]集中駐紮地、国家[[主权]]的象徵城市。\n"]

问: 中国的第三大岛屿是哪个岛
答: ['位于page_96   中國經濟曾经在相当长的历史时期中在世界上占有重要的地位，其周期通常与[[中国朝代|王朝]]的兴衰与更替相對應。[[中國經濟史]]可分为几个階段：第一階段為遠古至[[西晉]]末年，其中以[[三國]][[孫吳]]時轉變較大；第二階段為[[東晉]]至[[北宋]]末年，其中以[[唐]][[安史之亂]]劃分為前後；第三階段為[[南宋]]建立至[[第一次鸦片战争|鴉片戰爭]]<ref name="Zhang1957">張家駒，《兩宋經濟重心的南移》，湖北人民出版社，1957年</ref>。工业革命後，西方國家的工業成品，無論在數量和質量上，相較於當時中国純手工業經濟出産的商品，佔有壓倒性的優勢。而且，由于明清兩代以來，中國對外政策趨於保守，並對外實行海禁，使得西方工業化的影响步伐在中国国門前站住了腳，中国在19世紀末以前，一直沒有很好地進行工業化，經濟遂落後於西方。1978年[[改革開放]]施行後，[[中国经济]

答: ['位于page_12188   旅美學人[[夏志清]]則認為《荷塘月色》這些文字“‘美’得化不開……讀了實在令人肉麻”，“其實朱自清五四時期的散文（《背影》可能是唯一的例外），讀後令人肉麻，那裡比得上琦君？”，“《背影》究竟不是韓愈的《祭十二郎文》，蘇軾的《前赤壁賦》這樣擲地有金石聲的好文章，用不著當它為中國散文的代表作來代代傳誦。”，至於《匆匆》、《荷塘月色》等名文則“文品太低，現在一般副刊上的散文（且不論名家的），調子都比《匆匆》高”，“即使最著名的《背影》，文中作者流淚的次數太多了……虧得胖父親上下月臺買桔子那段文字寫得好，否則全文實無感人之處。”<ref>夏志清《人的文學》中《琦君的散文（《書簡》節錄）》，福建教育出版社，2010年1月</ref>。\n']

问: 菱形有几条边
答: ['位于page_10774   在[[图论]]中，边（{{lang|en|Edge，Line}}）是两个事物间某种特定关系的抽象化。两个事物间有联系，则这两个事物代表的顶点间就连有边，用一根直线或曲线表示。\n']

问: 明朝皇帝姓什么
答: ['位于page_196758   \'\'\'明朝\'\'\'（1368年1月23日－1644年4月25日{{NoteTag|史學界通常以1644年作為明朝亡國之年，而[[南明]]至1662年滅亡，[[明鄭]]至1683年滅亡<ref name="明太祖的開國規模"/>。}}）是[[中國歷史]]上最後一個由[[漢人]]建立的大一统王朝，歷經十二世、十六位[[中國君主列表|皇帝]]，國祚共276年。元末天下大乱，朱元璋乘势崛起，1368年，在扫灭[[陈友谅]]、[[張士誠]]和[[方国珍]]等群雄勢力后，于当年[[农历]]正月初四日在应天府[[登基]]，[[国号]]\'\'\'大明\'\'\'<ref name="国号">明[[朱國禎]]《[[湧幢小品]]》卷二「國號」條：“[[國號]]上加大字，始於[[元朝|胡元]]，我朝因之。……其言[[漢朝|大漢]]、[[唐朝|大唐]]、[[宋朝|大宋]]者，乃臣子及外夷尊稱之詞。”</ref>，由於[[皇室]]姓[[朱姓|朱]]，因此又稱\'\'\'朱明\'\'\'<ref name="明太祖的開國規模"/>。建国之初，明太祖[[朱元璋]]定都於[[應天府 (明朝)|應天府]]（今[

答: ['位于page_64043   [[明朝]]旅行家、地理学家[[徐霞客]]两次登临黄山，赞叹说：“[[五嶽]]归来不看山，黄山归来不看嶽”。徐霞客评黄山有“[[泰山|泰岱]]之雄伟、[[华山]]之险峻、[[衡山|衡岳]]之烟云、[[庐山|匡庐]]之飞瀑、[[雁荡山|雁荡]]之巧石、[[峨嵋山|峨嵋]]之清秀”<ref>[[明]]·[[徐霞客]]，《漫游黄山仙境》</ref>。并被世人誉为“天下第一奇山”。1979年[[邓小平]]游览黄山，说“这里是发展旅游的好地方，是你们发财的地方，要有点雄心壮志，把黄山的牌子打出去”。<ref>[http://news.sina.com.cn/o/2004-08-11/00383355935s.shtml]“把黄山的牌子打出去”</ref>\n']

问: 第一次工业革命开始的标志是瓦特改良了什么机械
答: ['位于page_9430   **[[第一次工业革命]]\n']

问: 赤道几内亚的首都是哪座城市
答: ['位于page_26052   |最大城市名稱 = [[巴塔 (赤道几内亚)]]\n']

问: 中途岛在哪个大洋
答: ["位于page_2038479   '''中途'''可以指：\n"]

问: 白果是哪种植物的果实
答: ['位于page_13601   除被子植物外，某些植物也可以通过单性结实形成果实，这样形成的果实在外形上与正常果实相似，但其中的种子没有[[生殖]]能力，通常发生不同程度的退化，甚至完全消失\n']

问: 世界第一高峰是我国的什么山峰
答: ["位于page_5718   {{otheruses|subject=世界一词的概念|other=[[贾樟柯]]导演的电影|世界 (电影)}}'''世界'''，亦稱'''天地'''、'''天下'''、'''人间'''、'''世间'''、'''万物'''、'''世上'''等，是對所有[[事物]]的代稱。可以有下列意思：\n"]

问: 著名的啤酒品牌喜力创始于哪个欧洲国家
答: ['位于page_10777   如[[都柏林]]地区的高硬度水适合酿造[[司陶特啤酒]]，如著名的健力士品牌黑啤；捷克Pilsen地区的软水适合酿制淡色贮藏啤酒，比如皮尔森啤酒。[[英格兰]]波顿地区的的水含有的硫酸钙（石膏）较高，这种富含硫酸钙的水有助于酿制淡啤酒

答: ["位于page_7862   '''條約'''，根据1969年《[[维也纳条约法公约]]》的定义，是指[[国际法]]主体之间签订的有关其权利义务的受国际法管辖的书面[[协定]]。廣義的條約包括有关[[政治]]、[[經濟]]、[[軍事]]與[[文化]]等各種協定，条约的名称则有[[公約]]、[[協定]]、[[議定書]]、[[換文]]、[[聯合國宣言]]和[[憲章]]等不同的称呼；狹義的條約指重大的政治性的協定，如同盟條約、邊界條約等。但並不是所有國際間的協定都是條約，有部份只屬於[[合約]]。\n"]



In [81]:
def showFile(idx):
    with open(idx2file(idx),encoding='utf8') as f:
        print(f.read())

title2idx中包含太多无用话题，剔除掉titles包含下列词语的title

In [94]:
stop = ['Category','Wikipedia','MediaWiki','Template','File','Topic']
with open('wiki_dict','w',encoding='utf8') as fout:
    for line in title2idx:
        flag = 1
        for w in stop:
            if(w in line):
                flag = 0
        if(flag):
            fout.write(line+'\n')

In [97]:
wiki_dict = {}
with open('wiki_dict',encoding='utf8') as fin:
    for line in fin.readlines():
        wiki_dict[line.strip('\n')] = title2idx[line.strip('\n')]
        
print(len(wiki_dict))

1749069


可以看出wiki_dict比title2idx缩小了一半

In [111]:
def possibleTopic(word):
    list = {}
    for k in wiki_dict:
        if(word in k):
            list[k] = wiki_dict[k]
    return list

In [112]:
possibleTopic('日本')

{'日本行政區劃': [624],
 '日本国旗': [648],
 '日本電影列表': [1022],
 '日本语': [1562],
 '日本都道府縣面積列表': [1874],
 '日本县份人口表': [1880],
 '日本旅游团珠海买春事件': [2006],
 '日本大学列表': [2047],
 '日本历史': [3055],
 '日本幕府將軍列表': [3069],
 '日本天皇列表': [3092],
 '日本天皇名单': [3984],
 '日本禪宗': [5052],
 '日本对慰安妇民间赔偿': [7276],
 '日本对慰安妇民间索赔': [7277],
 '日本神話': [7613],
 '日本动画': [8725],
 '日本內閣總理大臣': [9403],
 '日本電氣': [9660],
 '九州 (日本)': [11620],
 '日本内阁总理大臣': [12144],
 '战国时代 (日本)': [12304],
 '日本清酒': [12866],
 '日本歷史': [12966],
 '日本海': [13592],
 '日本海命名爭議': [13603],
 '日本海称呼争议': [13604],
 '日本料理': [13943],
 '日本神道教': [15193],
 '津市 (日本)': [15882],
 '日本漫畫家': [16054],
 '日本炒面': [16413],
 '日本漫畫': [16512],
 '日本電視台': [17469],
 '日本电视台': [17526],
 '日本忍者': [17716],
 '将棋 (日本)': [18691],
 '日本大學列表': [18998],
 '日本統治時期': [19089],
 '日本發條': [20146],
 '日本公眾假期': [20182],
 '日本放送協會': [20545],
 '日本放送协会': [20741],
 '日本教育': [21531],
 '中華民國與日本國間和平條約': [22510],
 '日本食品': [22702],
 '日本漫画': [23948],
 '日本語': [25250],
 '南北朝时代 (日本)': [25682],
 '日本Falcom': [26341],
 '日本汉字': [27823],
 '日

In [3]:
import re
re.sub(r' *','sdf sdf as','')

''

十分低效