## 注意(attention)！开始做前必读项！

- 所有的代码一定要在这个文件里面编写，不要自己创建一个新的文件
- 对于提供的数据集，不要改存储地方，也不要修改文件名和内容
- 确保到时候git pull之后我们可以直接运行这个 starter_code文件
- 不要重新定义函数（如果我们已经定义好的），按照里面的思路来编写。当然，除了我们定义的部分，如有需要可以自行定义函数或者模块
- 写完之后，重新看一下哪一部分比较慢，然后试图去优化。一个好的习惯是每写一部分就思考这部分代码的时间复杂度和空间复杂度，AI工程是的日常习惯！
- 第一次作业很重要，一定要完成！ 相信会有很多的收获！

## Part 1: 搭建一个分词工具

### Part 1.1  基于枚举方法来搭建中文分词工具

此项目需要的数据：
1. 综合类中文词库.xlsx： 包含了中文词，当做词典来用
2. 以变量的方式提供了部分unigram概率 word_prob


举个例子： 给定词典=[我们 学习 人工 智能 人工智能 未来 是]， 另外我们给定unigram概率：p(我们)=0.25, p(学习)=0.15, p(人工)=0.05, p(智能)=0.1, p(人工智能)=0.2, p(未来)=0.1, p(是)=0.15

#### Step 1: 对于给定字符串：”我们学习人工智能，人工智能是未来“, 找出所有可能的分割方式
- [我们，学习，人工智能，人工智能，是，未来]
- [我们，学习，人工，智能，人工智能，是，未来]
- [我们，学习，人工，智能，人工，智能，是，未来]
- [我们，学习，人工智能，人工，智能，是，未来]
.......


#### Step 2: 我们也可以计算出每一个切分之后句子的概率
- p(我们，学习，人工智能，人工智能，是，未来)= -log p(我们)-log p(学习)-log p(人工智能)-log p(人工智能)-log p(是)-log p(未来)
- p(我们，学习，人工，智能，人工智能，是，未来)=-log p(我们)-log p(学习)-log p(人工)-log p(智能)-log p(人工智能)-log p(是)-log p(未来)
- p(我们，学习，人工，智能，人工，智能，是，未来)=-log p(我们)-log p(学习)-log p(人工)-log p(智能)-log p(人工)-log p(智能)-log p(是)-log p(未来)
- p(我们，学习，人工智能，人工，智能，是，未来)=-log p(我们)-log p(学习)-log p(人工智能)-log p(人工)-log p(智能)-log(是)-log p(未来)
.....

#### Step 3: 返回第二步中概率最大的结果

In [3]:
# TODO: 第一步： 从dic.txt中读取所有中文词。
#  hint: 思考一下用什么数据结构来存储这个词典会比较好？ 要考虑我们每次查询一个单词的效率。 
dic_words = ["北京","的","天","气","天气","真","好","真好","啊","真好啊", 
             "今","今天","课程","内容","有","很","很有","意思","有意思","课",
             "程","经常","意见","意","见","有意见","分歧","分", "歧"]    # 保存词典库中读取的单词
dic_word = ["北京","的","天","气","天气","北京","的","天","气","天气","真","好","真好","啊","真好啊","北京","的","天","气","天气","真","好","真好","啊","真好啊", 
             "今","今天","课程","内容","有","很","很有","意思","内容","有","很","很有","意思","有意思","课","今","今天","课程","内容","有","很","很有","意思","有意思","课",
             "程","经常","意见","意","见","程","经常","意见","意","见","有意见","分歧","分", "歧"]    # 保存词典库中读取的单词
# 以下是每一个单词出现的概率。为了问题的简化，我们只列出了一小部分单词的概率。 在这里没有出现的的单词但是出现在词典里的，统一把概率设置成为0.00001
# 比如 p("学院")=p("概率")=...0.00001

word_prob = {"北京":0.03,"的":0.08,"天":0.005,"气":0.005,"天气":0.06,"真":0.04,"好":0.05,"真好":0.04,"啊":0.01,"真好啊":0.02, 
             "今":0.01,"今天":0.07,"课程":0.06,"内容":0.06,"有":0.05,"很":0.03,"很有":0.04,"意思":0.06,"有意思":0.005,"课":0.01,
             "程":0.005,"经常":0.08,"意见":0.08,"意":0.01,"见":0.005,"有意见":0.02,"分歧":0.04,"分":0.02, "歧":0.005}

print (sum(word_prob.values()))

1.0000000000000002


In [4]:
#  分数（10）
## TODO 请编写word_segment_naive函数来实现对输入字符串的分词
def word_segment_naive(input_str):
    """
    1. 对于输入字符串做分词，并返回所有可行的分词之后的结果。
    2. 针对于每一个返回结果，计算句子的概率
    3. 返回概率最高的最作为最后结果
    
    input_str: 输入字符串   输入格式：“今天天气好”
    best_segment: 最好的分词结果  输出格式：["今天"，"天气"，"好"]
    """
    max_len = 5
    input_len = len(input_str)
    segment = []
    
    while input_len > 0:
        word = input_str[0:max_len]
        while word not in dic_words:
            if len(word) == 1:
                break
            word = word[0:len(word)-1]
        segment.append(word)
        input_str = input_str[len(word):]
        input_len = len(input_str) 
    return segment    

In [5]:
# 测试
print (word_segment_naive("北京的天气真好啊"))
print (word_segment_naive("今天的课程内容很有意思"))
print (word_segment_naive("经常有意见分歧"))

['北京', '的', '天气', '真好啊']
['今天', '的', '课程', '内容', '很有', '意思']
['经常', '有意见', '分歧']


### Part 1.2  基于维特比算法来优化上述流程

此项目需要的数据：
1. 综合类中文词库.xlsx： 包含了中文词，当做词典来用
2. 以变量的方式提供了部分unigram概率word_prob


举个例子： 给定词典=[我们 学习 人工 智能 人工智能 未来 是]， 另外我们给定unigram概率：p(我们)=0.25, p(学习)=0.15, p(人工)=0.05, p(智能)=0.1, p(人工智能)=0.2, p(未来)=0.1, p(是)=0.15

#### Step 1: 根据词典，输入的句子和 word_prob来创建带权重的有向图（Directed Graph） 参考：课程内容
有向图的每一条边是一个单词的概率（只要存在于词典里的都可以作为一个合法的单词），这些概率已经给出（存放在word_prob）。
注意：思考用什么方式来存储这种有向图比较合适？ 不一定只有一种方式来存储这种结构。 

#### Step 2: 编写维特比算法（viterebi）算法来找出其中最好的PATH， 也就是最好的句子切分
具体算法参考课程中讲过的内容

#### Step 3: 返回结果
跟PART 1.1的要求一致

In [6]:
# dp[1] = True 意味着S1 in words
# dp[2] = True 意味着:dp[1] = True and S2 in words 或者 S1S2 in words
# dp[i] = True 意味着:dp[i-1] = True and Si in words 或者 dp[i-2] = True and S(i-1)Si in words
# 或者 dp[i-3] = True and S(i-2)S(i-1) in words.....
def word_break(input_str,words):
    # 初始化dp数组全为False,若dp[i]=True则完全可分，dp[i]=False则不完全可分
    dp = [False for i in range(len(input_str)+1)]
    # dp[0] 固定可分
    dp[0] = True
    for index in range(1,len(input_str)+1):    
        for i in range(0,index):
            if dp[i] is True and input_str[i:index] in words:
                dp[index] = True
    return dp[len(input_str)]

In [7]:
#  分数（10）
## TODO 请编写word_segment_viterbi函数来实现对输入字符串的分词
"""
    1. 对于输入字符串做分词，并返回所有可行的分词之后的结果。
    2. 针对于每一个返回结果，计算句子的概率
    3. 返回概率最高的最作为最后结果
    
    input_str: 输入字符串   输入格式：“今天天气好”
    best_segment: 最好的分词结果  输出格式：["今天"，"天气"，"好"]
"""
segments = []
def word_segment_viterbi(input_str,strl=''):
    # TODO： 第一步： 计算所有可能的分词结果，要保证每个分完的词存在于词典里，这个结果有可能会非常多。 
    # 存储所有分词的结果。如果次字符串不可能被完全切分，则返回空列表(list)
    if word_break(input_str,dic_words):
        if len(input_str) == 0:
            segments.append(strl[1:])
        for i in range(1, len(input_str)+1):
            if input_str[:i] in dic_words:
                word_segment_viterbi(input_str[i:],strl+' '+input_str[:i])
    return segments   

In [8]:
# TODO: 第二步：循环所有的分词结果，并计算出概率最高的分词结果，并返回
def best_segment(segments):
    score = 0
    best_score = 0
    split_str = []
    best_segment = []
    
    for size in range(len(segments)):
        split_str.append(segments[size].split())

    for i in range(len(split_str)):
        for j in range(len(split_str[i])):
            score+=word_prob.get(split_str[i][j])
            if score > best_score:
                best_score = score
                best_segment = split_str[i]
    return best_segment

In [9]:
# 测试
segments = word_segment_viterbi("北京的天气真好啊")
print(best_segment(segments))
segments = word_segment_viterbi("今天的课程内容很有意思")
print(best_segment(segments))
segments = word_segment_viterbi("经常有意见分歧")
print(best_segment(segments))

['北京', '的', '天气', '真好啊']
['今天', '的', '课程', '内容', '很有', '意思']
['经常', '有意见', '分歧']


In [10]:
# 分数（3）
# TODO: 第一种方法和第二种方法的时间复杂度和空间复杂度分别是多少？
第一个方法： 
时间复杂度= , 空间复杂度=

第二个方法：
时间复杂度= , 空间复杂度=

SyntaxError: invalid character in identifier (<ipython-input-10-711821223cd7>, line 3)

In [None]:
# 分数（2）
# TODO：如果把上述的分词工具持续优化，有哪些可以考虑的方法？ （至少列出3点）
- 0. （例）， 目前的概率是不完整的，可以考虑大量的语料库，然后从中计算出每一个词出现的概率，这样更加真实
- 1.
- 2.
- 3. 

## Part 2:  搭建一个简单的问答系统

本次项目的目标是搭建一个基于检索式的简单的问答系统。至于什么是检索式的问答系统请参考课程直播内容/PPT介绍。 

通过此项目，你将会有机会掌握以下几个知识点：
1. 字符串操作   2. 文本预处理技术（词过滤，标准化）   3. 文本的表示（tf-idf, word2vec)  4. 文本相似度计算  5. 文本高效检索

此项目需要的数据：
1. dev-v2.0.json: 这个数据包含了问题和答案的pair， 但是以JSON格式存在，需要编写parser来提取出里面的问题和答案。 
2. glove.6B: 这个文件需要从网上下载，下载地址为：https://nlp.stanford.edu/projects/glove/， 请使用d=100的词向量

##### 检索式的问答系统
问答系统所需要的数据已经提供，对于每一个问题都可以找得到相应的答案，所以可以理解为每一个样本数据是 <问题、答案>。 那系统的核心是当用户输入一个问题的时候，首先要找到跟这个问题最相近的已经存储在库里的问题，然后直接返回相应的答案即可。 举一个简单的例子：

假设我们的库里面已有存在以下几个<问题,答案>：
<"贪心学院主要做什么方面的业务？”， “他们主要做人工智能方面的教育”>
<“国内有哪些做人工智能教育的公司？”， “贪心学院”>
<"人工智能和机器学习的关系什么？", "其实机器学习是人工智能的一个范畴，很多人工智能的应用要基于机器学习的技术">
<"人工智能最核心的语言是什么？"， ”Python“>
.....

假设一个用户往系统中输入了问题 “贪心学院是做什么的？”， 那这时候系统先去匹配最相近的“已经存在库里的”问题。 那在这里很显然是 “贪心学院是做什么的”和“贪心学院主要做什么方面的业务？”是最相近的。 所以当我们定位到这个问题之后，直接返回它的答案 “他们主要做人工智能方面的教育”就可以了。 所以这里的核心问题可以归结为计算两个问句（query）之间的相似度。

在本次项目中，你会频繁地使用到sklearn这个机器学习库。具体安装请见：http://scikit-learn.org/stable/install.html  sklearn包含了各类机器学习算法和数据处理工具，包括本项目需要使用的词袋模型，均可以在sklearn工具包中找得到。 另外，本项目还需要用到分词工具jieba, 具体使用方法请见 https://github.com/fxsjy/jieba

### Part 2.1  第一部分： 读取文件，并把内容分别写到两个list里（一个list对应问题集，另一个list对应答案集）

In [16]:
import jieba
import nltk
import operator
import json
import numpy as np
import scipy.spatial.distance as distance
from nltk.corpus import stopwords
from nltk.probability import FreqDist
from nltk.stem import WordNetLemmatizer
from sklearn.feature_extraction.text import TfidfVectorizer
from matplotlib import pyplot as plt
from nltk.corpus import wordnet
import matplotlib as mpl
from sklearn import feature_extraction  
from sklearn.feature_extraction.text import TfidfTransformer  
from sklearn.feature_extraction.text import CountVectorizer 
from sklearn.metrics.pairwise import cosine_similarity

In [20]:

qlist_new = []
#预处理 数据清洗 停用词 小写 去标点
def clean_words(strWords):
    stopWords = stopwords.words("english")
    wordList = nltk.word_tokenize(strWords)
    lemmatizer = WordNetLemmatizer()
    filteredWords = [lemmatizer.lemmatize(word.lower()) for word in wordList if word.isalpha() and word.lower() not in stopWords]
    return filteredWords
# for index in range(len(qlist)):
#     filterword = clean_words(qlist[index])
#     qlist_new.append(filterword)
# print(qlist_new)

In [21]:
# 分数（5）
def read_corpus(filePath):
    """
    读取给定的语料库，并把问题列表和答案列表分别写入到 qlist, alist 里面。 在此过程中，不用对字符换做任何的处理（这部分需要在 Part 2.3里处理）
    qlist = ["问题1"， “问题2”， “问题3” ....]
    alist = ["答案1", "答案2", "答案3" ....]
    务必要让每一个问题和答案对应起来（下标位置一致）
    """
    qlist = []
    alist = []
    # 问题的关键词列表
    qlist_keyword = []
    with open(filePath) as file:
        json_text = file.read()
        json_dict = json.loads(json_text)
        
    for data in json_dict["data"]:
            for paragraphs in data["paragraphs"]:
                for qas in paragraphs["qas"]:
                    qlist.append(qas['question'])
                    alist.append(qas["answers"])
                    qlist_keyword.append(clean_words(qas['question']))

    assert len(qlist) == len(alist)  # 确保长度一样
    return qlist, alist,qlist_keyword

In [22]:
qlist,alist,qlist_keyword = read_corpus("data/train-v2.0.json")
print(qlist[1])
print(alist[1][0]['text'])

What areas did Beyonce compete in when she was growing up?
singing and dancing


### Part 2.2 理解数据（可视化分析/统计信息）
对数据的理解是任何AI工作的第一步，需要充分对手上的数据有个更直观的理解。 

In [38]:
# 分数（10）
# 统计一下在qlist 总共出现了多少个单词？
#       这里需要做简单的分词，对于英文我们根据空格来分词即可，其他过滤暂不考虑（只需分词）
# qlist = ["Where a was Chopin's Where?", "Where was the Chopin's funeral held", "How long was Chopin's funeral delayed", "Who held Who Chopins held"]
def word_count(qlist):
    ques = []
    set_que = []
    word_total = 0
    print(len(qlist))
    for index in range(len(qlist)):
        ques.append(qlist[index].split())
    for index in range(len(ques)):
        word_total += len(ques[index])
    print(word_total)
    return word_total,ques

In [39]:
word_total,ques = word_count(qlist)
print(ques)

130319
1289353


IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.

Current values:
NotebookApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
NotebookApp.rate_limit_window=3.0 (secs)



In [40]:
# 统计一下在qlist 总共出现了多少个不同的单词？
def wordSet_count(ques):
    # 定义一个集合qSet用来存储整个列表的所有单词，无重复
    qSet = set([])
    # 遍历整个数据集的每个单词word
    for word in ques:
        qSet = qSet | set(word)  
    return list(qSet)

In [41]:
print(len(wordSet_count(ques)))

76474


In [42]:
# TODO: 统计一下qlist中每个单词出现的频率，并把这些频率排一下序，然后画成plot. 比如总共出现了总共7个不同单词，而且每个单词出现的频率为 4, 5,10,2, 1, 1,1
#       把频率排序之后就可以得到(从大到小) 10, 5, 4, 2, 1, 1, 1. 然后把这7个数plot即可（从大到小）
#       需要使用matplotlib里的plot函数。y轴是词频
# 定义一个字典计数word_count   
def sorted_word(isReverse):
    word_count = {}
    word_prob = []
    for index in range(len(ques)): 
        for word in range(len(ques[index])):
            if ques[index][word] not in word_count.keys():word_count[ques[index][word]] = 0
            word_count[ques[index][word]] += 1
#     print(word_count)
    # print(len(qlist))

    for key in word_count:
        word_count[key] = word_count[key]/word_total
#     print(word_count)
    if(isReverse):
        sorted_word = sorted(word_count.items(), key=operator.itemgetter(1), reverse=True)
    else:
        sorted_word = sorted(word_count.items(), key=operator.itemgetter(1), reverse=False)
    print(sorted_word)
    for index in range(len(sorted_word)):
        word_prob.append(sorted_word[index][1])

In [43]:
sorted_word(False)



In [None]:
# import nltk
# nltk.download('stopwords')
# import nltk
# nltk.download('punkt')
# nltk.download('wordnet')
stopWords = stopwords.words("english")
qlist_new = []
#预处理 数据清洗 停用词 小写 去标点
def clean_words(strWords):
    wordList = nltk.word_tokenize(strWords)
    lemmatizer = WordNetLemmatizer()
    filteredWords = [lemmatizer.lemmatize(word.lower()) for word in wordList if word.isalpha() and word.lower() not in stopWords]
    return filteredWords
for index in range(len(qlist)):
    filterword = clean_words(qlist[index])
    qlist_new.append(filterword)
print(qlist_new)

In [None]:
# TODO： 从上面的图中能观察到什么样的现象？ 这样的一个图的形状跟一个非常著名的函数形状很类似，能所出此定理吗？ 
#       hint: [XXX]'s law
## 设置字符集，防止中文乱码
mpl.rcParams['font.sans-serif']=[u'simHei']
mpl.rcParams['axes.unicode_minus']=False
t=np.arange(len(word_prob))
plt.figure(facecolor='w')#建一个画布，facecolor是背景色
plt.plot(t, word_prob, 'r', linewidth=1, label='词频')
plt.legend(loc = 'upper right')#显示图例，设置图例的位置
plt.title("每个单词出现的频率", fontsize=15)
plt.grid(b=False)#加网格
plt.show()
# def plot_words(wordList):
#     fDist = FreqDist(wordList)
#     #print(fDist.most_common())
#     print("单词总数: ",fDist.N())
#     print("不同单词数: ",fDist.B())
#     fDist.plot(10)
# all_question = " ".join(qlist)
# qWordLst = clean_words(all_question)
# plot_words(qWordLst)

In [44]:
# TODO: 在qlist和alist里出现次数最多的TOP 10单词分别是什么？ 
def top10():
    words = []
    for index in range(10):
        words.append(word_count[index][0])
    return words

In [45]:
print(top10())

TypeError: 'function' object is not subscriptable

### 2.3 文本预处理
次部分需要尝试做文本的处理。在这里我们面对的是英文文本，所以任何对英文适合的技术都可以考虑进来。

In [None]:
# 分数（10）

# TODO: 对于qlist, alist做文本预处理操作。 可以考虑以下几种操作：
#       1. 停用词过滤 （去网上搜一下 "english stop words list"，会出现很多包含停用词库的网页，或者直接使用NLTK自带的）   
#       2. 转换成lower_case： 这是一个基本的操作   
#       3. 去掉一些无用的符号： 比如连续的感叹号！！！， 或者一些奇怪的单词。
#       4. 去掉出现频率很低的词：比如出现次数少于10,20....
#       5. 对于数字的处理： 分词完只有有些单词可能就是数字比如44，415，把所有这些数字都看成是一个单词，这个新的单词我们可以定义为 "#number"
#       6. stemming（利用porter stemming): 因为是英文，所以stemming也是可以做的工作
#       7. 其他（如果有的话）
#       请注意，不一定要按照上面的顺序来处理，具体处理的顺序思考一下，然后选择一个合理的顺序
#  hint: 停用词用什么数据结构来存储？ 不一样的数据结构会带来完全不一样的效率！ 
# ["Where a was Chopin's Where?", "Where was the Chopin's funeral held", "How long was Chopin's funeral delayed", "Who held Who Chopins held"]
stopWords = stopwords.words("english")
qlist_new = []
#预处理 数据清洗 停用词 小写 去标点
def clean_words(strWords):
    wordList = nltk.word_tokenize(strWords)
    lemmatizer = WordNetLemmatizer()
    filteredWords = [lemmatizer.lemmatize(word.lower()) for word in wordList if word.isalpha() and word.lower() not in stopWords]
    return filteredWords
for index in range(len(qlist)):
    filterword = clean_words(qlist[index])
    print(filterword)
    qlist_new.append(filterword)
print(qlist_new)

In [None]:
# TODO: 在前面步骤里，我们删除了出现次数比较少的单词，那你选择的阈值是多少（小于多少的去掉？）， 这个阈值是根据什么来选择的？ 
# 

### 2.4 文本表示
当我们做完关键的预处理过程之后，就需要把每一个文本转换成向量。

In [None]:
# 分数（10）

# TODO: 把qlist中的每一个问题字符串转换成tf-idf向量, 转换之后的结果存储在X矩阵里。 X的大小是： N* D的矩阵。 这里N是问题的个数（样本个数），
#       D是字典库的大小。 
        
def tfidf(qlist):
    # 每一个问题字符串转换成tf-idf向量
    vectorizer = TfidfVectorizer(smooth_idf=False, lowercase=True, stop_words=stopWords)
    # 得到的是csr_matrix型矩阵（压缩后的稀疏矩阵）
    vectorizer.fit_transform(qlist)
    # 获取词列表
    keywordList = vectorizer.get_feature_names()
    return keywordList

In [None]:
wordlist = tfidf(qlist)
print(wordlist)

In [None]:
# TODO: 矩阵X有什么特点？ 计算一下它的稀疏度

def calculate_sparse(keywordList):
    wordNum = len(keywordList)
    # 获取question总数
    docNum = len(qlist)
    #print(docNum)
    # 计算矩阵大小
    matrixSize = wordNum * docNum
    #print(matrixSize)
    # 计算零元素个数
    zeroElementNum = 0
    for question in qlist:
        for tmpWord in keywordList:
            if tmpWord not in question:
                zeroElementNum += 1

    # 根据tf-idf公式，若tf为0，那么其tf-idf值必然为零 tf-idf矩阵的稀疏度为
    return zeroElementNum / matrixSize

In [None]:
sparseDeg = calculate_sparse(wordlist)
print(sparseDeg)  # 打印出稀疏度

In [None]:
# 两个问题之间的相似度(余弦相似度计算)
def cosine_similarity(input_q, que_dict):
    simi_dict = {}
    vectorizer = TfidfVectorizer(smooth_idf=False, lowercase=True, stop_words=stopWords)
    for index, question in que_dict.items():
        tfidf = vectorizer.fit_transform([input_q, question])
        simi_value = ((tfidf * tfidf.T).A)[0, 1]
        if simi_value > 0:
            simi_dict[index] = simi_value
    return simi_dict

### 2.5 对于用户的输入问题，找到相似度最高的TOP5问题，并把5个潜在的答案做返回

In [None]:
# 分数（10）

# def top5results(input_q):
#     """
#     给定用户输入的问题 input_q, 返回最有可能的TOP 5问题。这里面需要做到以下几点：
#     1. 对于用户的输入 input_q 首先做一系列的预处理，然后再转换成tf-idf向量（利用上面的vectorizer)
#     2. 计算跟每个库里的问题之间的相似度
#     3. 找出相似度最高的top5问题的答案
#     """

def top5results(input_q):
    que_dict = {}
    for index, question in enumerate(qlist):
        que_dict[index] = question
    simi_dict = cosine_similarity(input_q, que_dict)
    d = sorted(simi_dict, key=simi_dict.get, reverse=True)
    #print(d)
    # Top5最相似问题和对应的答案
    print("Top5相似-基于余弦相似度")
    for index in d[:5]:
        print("问题： " + qlist[index])
        print("答案： " + alist[index])

In [None]:
# TODO: 编写几个测试用例，并输出结果
print (top5results("what are you doing?"))
print (top5results("At what age did Frédéric move to Paris?"))

In [None]:
# 分数（5）

# TODO: 上面的top5results算法的时间复杂度和空间复杂度分别是多少？

时间复杂度 = O()， 空间复杂度 = O()

### 2.6 利用倒排表的优化。 
上面的算法，一个最大的缺点是每一个用户问题都需要跟库里的所有的问题都计算相似度。假设我们库里的问题非常多，这将是效率非常低的方法。 这里面一个方案是通过倒排表的方式，先从库里面找到跟当前的输入类似的问题描述。然后针对于这些candidates问题再做余弦相似度的计算。这样会节省大量的时间。

In [None]:
# 分数（10）

# TODO: 基于倒排表的优化。在这里，我们可以定义一个类似于hash_map, 比如 inverted_index = {}， 然后存放包含每一个关键词的文档出现在了什么位置，
#       也就是，通过关键词的搜索首先来判断包含这些关键词的文档（比如出现至少一个），然后对于candidates问题做相似度比较。
# 
def invert_idxTable(qlist_kw):  # 定一个简单的倒排表
    invertTable = {}
    for idx, tmpLst in enumerate(qlist_kw):
        for kw in tmpLst:
            if kw in invertTable.keys():
                invertTable[kw].append(idx)
            else:
                invertTable[kw] = [idx]
    return invertTable
# 计算倒排表
invertTable = invert_idxTable(qlist_keyword) 
#    给定用户输入的问题 input_q, 返回最有可能的TOP 5问题。这里面需要做到以下几点：
#    1. 利用倒排表来筛选 candidate
#    2. 对于用户的输入 input_q 首先做一系列的预处理，然后再转换成tf-idf向量（利用上面的vectorizer)
#    3. 计算跟每个库里的问题之间的相似度
#    4. 找出相似度最高的top5问题的答案
def filter_questionByInvertTab(inputq_keyword, qlist, invertTable):
    idx_lst = []
    q_dict = {}
    for kw in inputq_keyword:
        if kw in invertTable.keys():
            idx_lst.extend(invertTable[kw])
    idxSet = set(idx_lst)
    for idx in idxSet:
        q_dict[idx] = qlist[idx]
    return q_dict

def top5results_invidx(input_q):
    inputq_keyword = clean_words(input_q)
    filtered_qdict = filter_questionByInvertTab(inputq_keyword, qlist, invertTable)
    # 计算相似度
    simi_dict = cosine_similarity(input_q, filtered_qdict)
    d = sorted(simi_dict, key=simi_dict.get, reverse=True)
    #print(d)
    # Top5最相似问题，及它们对应的答案
    print("Top5相似-基于倒排表")
    for idx in d[:5]:
        print("问题： " + qlist[idx])
        print("答案： " + alist[idx])

In [None]:
# TODO: 编写几个测试用例，并输出结果
print (top5results_invidx("At what age did Frédéric move to Paris?"))
print (top5results_invidx(""))

In [None]:
# 分数（3）

# TODO: 上面的top5results算法的时间复杂度和空间复杂度分别是多少？

时间复杂度 = O()， 空间复杂度 = O()

### 2.7 基于词向量的文本表示
上面所用到的方法论是基于词袋模型（bag-of-words model）。这样的方法论有两个主要的问题：1. 无法计算词语之间的相似度  2. 稀疏度很高。 在2.7里面我们
讲采用词向量作为文本的表示。词向量方面需要下载： https://nlp.stanford.edu/projects/glove/ （请下载glove.6B.zip），并使用d=100的词向量（100维）。


In [None]:
# 分数（10）

# TODO
# emb = # 读取每一个单词的嵌入。这个是 D*H的矩阵，这里的D是词典库的大小， H是词向量的大小。 这里面我们给定的每个单词的词向量，那句子向量怎么表达？
      # 其中，最简单的方式 句子向量 = 词向量的平均（出现在问句里的）， 如果给定的词没有出现在词典库里，则忽略掉这个词。
#     """
#     给定用户输入的问题 input_q, 返回最有可能的TOP 5问题。这里面需要做到以下几点：
#     1. 利用倒排表来筛选 candidate
#     2. 对于用户的输入 input_q，转换成句子向量
#     3. 计算跟每个库里的问题之间的相似度
#     4. 找出相似度最高的top5问题的答案
#     """
def top5results_emb(input_q):
    def get_vectorValue(keywordList):
        filePath = "./data/glove.6B/glove.6B.100d.txt"
        vectorValueList = []
        with open(filePath, 'r', encoding='UTF-8') as file:
            for line in file.readlines():
                tmpLst = line.rstrip('\n').split(" ")
                word = tmpLst[0]
                if word in keywordList:
                    vectorValueList.append([float(x) for x in tmpLst[1:]])
        # 按关键词的平均，算句子的向量
        vectorSum = np.sum(vectorValueList, axis=0)
        return vectorSum / len(vectorValueList)
    
    inputq_kw = clean_words(input_q)
    # input Question中的keywords
    input_question_vector = get_vectorValue(inputq_kw)
    simi_dict = {}
    filtered_qdict = filter_questionByInvertTab(inputq_kw, qlist, invertTable)
    for idx, question in filtered_qdict.items():
        # 取得当前问题的Vector值
        filtered_question_vector = get_vectorValue(clean_words(question))
        # 计算与输入问句的cos similarity
        simi_dict[idx] = 1 - distance.cosine(input_question_vector, filtered_question_vector)

    d = sorted(simi_dict, key=simi_dict.get, reverse=True)
    print(d)
    # Top5最相似问题对应的答案
    print("计算Top5相似-基于词向量及倒排表")
    for idx in d[:5]:
        print("问题：" + qlist[idx])
        print("答案：" + alist[idx])


In [None]:
# TODO: 编写几个测试用例，并输出结果
print (top5results_emb("At what age did Frédéric move to Paris?"))
print (top5results_emb(""))

# 我们在验收作业时在后台会建立几个测试用例，来验证返回的准确性。

### 2.8 做完本次项目做完之后有什么收获？ 

#分数（2）

回答 = “”