# Vietnamese Question Answering base on IR


# Requirements
 - Window or Unix/Linux environment
 - Python 2.7
 - nltk

 - sklearn
 - googleapiclient : pip install --upgrade google-api-python-client
 - BeautifulSoup
 - plotly
 - underthesea
 - nltk
 
# Originial Architecture
 - Question Answering based IR - Speech and language processing (daniel jurafsky)
 - https://web.stanford.edu/~jurafsky/slp3/24.pdf
 
<img src="QA.png">

# Import library & Setting Parameter

In [1]:
import pickle
from googleapiclient.discovery import build
from bs4 import BeautifulSoup
import requests
import timeit
import time
from multiprocessing import Pool
import string
import numpy as np
from difflib import SequenceMatcher
from nltk import sent_tokenize
from underthesea import word_tokenize
from underthesea import ner
from collections import defaultdict

Seach_api_key = "AIzaSyCrmlMtMcJYVYSe731vyrVSAREKafE49Rk"                    #Change this
Custom_Search_Engine_ID = "005336700654283051786:1mzldt1husk"                #Change this
    
stopwords = set(open('stopwords.txt').read().decode('utf-8').split(' ')[:-1])
puct_set = set([c for c in '!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'])

def tokenize(text):
    sents = sent_tokenize(text)
    sents = [word_tokenize(s,format = 'text') for s in sents]
    return sents

def get_entities(seq):
    i = 0
    chunks = []
    seq = seq + ['O']  # add sentinel
    types = [tag.split('-')[-1] for tag in seq]
    while i < len(seq):
        if seq[i].startswith('B'):
            for j in range(i+1, len(seq)):
                if seq[j].startswith('I') and types[j] == types[i]:
                    continue
                break
            chunks.append((types[i], i, j))
            i = j
        else:
            i += 1
    return chunks

def _get_chunks(words, tags):
    chunks = get_entities(tags)
    res = defaultdict(list)
    for chunk_type, chunk_start, chunk_end in chunks:
        res[chunk_type].append(' '.join(words[chunk_start: chunk_end]))
    return res

def ner_extraction(text):
    res = ner(text)
    words = [r[0] for r in res]
    tags = [t[3] for t in res]
    
    return _get_chunks(words,tags)

def generateBigram(words):
    bigrams = [words[i] + '_' + words[i+1] for i in range(0,len(words) - 1)]
    return bigrams

def noiseSent(sent):
    if len(sent.split()) <= 3 or len(sent.split()) > 100:
        return True
    
    if len(sent) <= 30:
        return True
    
    if all(ord(c) < 128 for c in sent):
        return True
    
    if not any(c.isalpha() for c in sent):
        return True


# Define Class

In [2]:
class Passage:
    def __init__(self,string,rank,num_key):
        self.sent = string            #sentences
        self.ner = []                 #named entities
        self.num_key = num_key        #number of match keywords
        self.len_long_seq = 0         #length of longest exact sequence of question keywords
        self.rank = rank              #rank of own document
        self.ngram_overlap = 0        #ngram overlap question
        self.proximity = 0            #shortest keywords that cover all keywords
        self.score = 0                #Overall score

### That is everything this system require . Time to do experiments : 

The QA system are able to answer all below type of question :
 - PERSON (PER)
 - LOCATION (LOC)
 - ORGANIZATION (ORG)

# Input question & Keywords Selection

In [3]:
query = u"Người đầu tiên đặt chân lên mặt trăng ?"
#AnswerType = PER-ORG-LOC
AnswerType = "PER"

def keywords_extraction(sentences):
    sent = sentences.lower()
    sent = sent.split()
    sent = [s for s in sent if s not in stopwords and s not in puct_set]
    return sent

token_query = tokenize(query)[0]
keywords = keywords_extraction(token_query)
print query
print 'Keywords : ' + ' , '.join(keywords)

Người đầu tiên đặt chân lên mặt trăng ?
Keywords : người , đầu_tiên , đặt_chân , mặt_trăng


# Get Relevant Document
 - Using google seach API to get relevant document

In [4]:
start = time.time()
service = build("customsearch", "v1",developerKey=Seach_api_key)

def ggsearch(i):
    if (i == 0):
        res = service.cse().list(q=query,cx = Custom_Search_Engine_ID).execute()
    else:
        res = service.cse().list(q=query,cx = Custom_Search_Engine_ID,num=10,start = i*10).execute()
    return res[u'items']
    
pool = Pool(4)
pages_content = pool.map(ggsearch,range(3))
pool.terminate()

pages_content = [j for i in pages_content for j in i]

document_urls = []
document_titles = []
for page in pages_content:
    if 'fileFormat' in page:
        print 'Skip ' +  page[u'link']
        continue
    document_urls.append(page[u'link'])
    document_titles.append(page[u'title'])
    
for i in range(0,5):
    print document_titles[i]
    print document_urls[i]
    
print time.time() - start

Neil Armstrong – Wikipedia tiếng Việt
https://vi.wikipedia.org/wiki/Neil_Armstrong
Top 10 Sự Thật - Phi Hành Gia Amstrong Người Đầu Tiên Đặt Chân ...
https://www.youtube.com/watch?v=BtF8s7yD9Jo
Con người lần đầu đặt chân lên Mặt Trăng khi nào? - Tư vấn - Zing.vn
https://news.zing.vn/con-nguoi-lan-dau-dat-chan-len-mat-trang-khi-nao-post838809.html
Kỷ niệm 45 năm con người đặt chân lên Mặt Trăng - YouTube
https://www.youtube.com/watch?v=esqt3QCrtxQ
Lần đầu tiên con người đặt chân lên Mặt trăng | baotintuc.vn
https://baotintuc.vn/giai-mat/lan-dau-tien-con-nguoi-dat-chan-len-mat-trang-20140716160619157.htm
1.56707000732


# Passage Retrieval
 - Get all sentences from all document

#### Get all candidate passages from all documents

In [5]:
passages = []
total_start = time.time()
    
def chunks(l, n):
    for i in range(0, len(l), n):
        yield l[i:i + n]

def getContent(para):
    url = para[0]
    rank = int((para[1] + 10)/10) - 1 
    passages = []
    try:
        html = requests.get(url, timeout = 5)
    except:
        print 'Cannot read ' + url
        return []
    
    tree = BeautifulSoup(html.text,'lxml')
    for invisible_elem in tree.find_all(['script', 'style']):
        invisible_elem.extract()
    
    sents = []
    text_chunks = list(chunks(tree.get_text(),100000))
    for text in text_chunks:
        sents += tokenize(text)
    
    for sent in sents:
        sent = sent.strip()
        if not noiseSent(sent):
            sent_keywords = keywords_extraction(sent)
            num_overlap_keywords = len(set(sent_keywords) & set(keywords))
            if num_overlap_keywords > 0:
                passages.append(Passage(sent,rank,num_overlap_keywords))
                
    return passages

pool = Pool(20)
passages = pool.map(getContent,[(document_urls[i],i) for i in range(0,len(document_urls))])
pool.terminate()
passages = [j for i in passages for j in i]

#### Named entity recognition,  Eliminate passages have no entity match answer type

In [6]:
for i in range(0,len(passages)):
    passages[i].ner = list(set(ner_extraction(passages[i].sent)[AnswerType]))

print 'Number of passages : ' + str(len(passages))
passages = [p for p in passages if len(p.ner) > 0]
print 'After Filtering : ' + str(len(passages))

Number of passages : 323
After Filtering : 212


In [7]:
for p in passages[:5]:
    print p.sent
    print ' # '.join(p.ner)
    print '\n'

Thời_khắc lịch_sử , Armstrong và Buzz Aldrin đặt_chân lên bề_mặt Mặt_Trăng và dành 2,5 giờ khám_phá trong_khi Michael Collins ở lại trên quỹ_đạo trong Module Command .
Module Command # Armstrong


Năm 1969 , Armstrong nhận nhiệm_vụ tham_gia chuyến bay Apollo 11 và sứ_mệnh đại_diện cho cả ngành hàng_không vũ_trụ Mỹ trong việc đặt_chân lên Mặt_Trăng .
Armstrong


Armstrong bước trên mặt_trăng , 20 tháng 7 năm 1969 .
Armstrong


" Đây là bước_đi nhỏ của một con_người , nhưng là bước_tiến lớn của nhân_loại " Sáng_sớm ngày 20/7/1969 , Armstrong trở_thành người đầu_tiên đặt_chân xuống Mặt_Trăng với câu_nói nổi_tiếng : " Đây là bước_đi nhỏ của một con_người , nhưng là bước_tiến lớn của nhân_loại " .
Armstrong


Mặc_dù từng lái máy_bay chiến_đấu cho hải_quân Mỹ , làm phi_công thử_nghiệm và phi_hành gia cho Cơ_quan Hàng_không vũ_trụ Mỹ ( NASA ) , Armstrong chưa bao_giờ cho_phép bản_thân chìm_đắm trong ánh hào_quang sau chuyến bay lên Mặt_Trăng vào năm 1969 .
Cơ_quan Hàng_không # Mặc_dù # Armstr

#### Filter Passages by number of keyword

 - Find the maximum number of question keyword contain in a passages
 - Keep passages have number of question keyword < MAX

In [8]:
print 'Total passages : ' +  str(len(passages))
max_keyword = 0
min_num_passages = 20
for p in passages:
    if p.num_key > max_keyword:
        max_keyword = p.num_key
        
while (True):
    num_candidate_passages = 0
    for p in passages:
        if p.num_key >= max_keyword:
            num_candidate_passages += 1
    if (num_candidate_passages >= min_num_passages or max_keyword == 1):
        break
    else:
        max_keyword -=1
        
print 'Max number of question keyword : ' + str(max_keyword)
passages = [p for p in passages if p.num_key >= max_keyword]
print 'After filtering : ' +  str(len(passages)) + '\n'
for i in range(0,min(3,len(passages))):
    print str(i) + ' - ' + passages[i].sent + '\n'

Total passages : 212
Max number of question keyword : 4
After filtering : 33

0 - " Đây là bước_đi nhỏ của một con_người , nhưng là bước_tiến lớn của nhân_loại " Sáng_sớm ngày 20/7/1969 , Armstrong trở_thành người đầu_tiên đặt_chân xuống Mặt_Trăng với câu_nói nổi_tiếng : " Đây là bước_đi nhỏ của một con_người , nhưng là bước_tiến lớn của nhân_loại " .

1 - Người_ta sẽ nói rằng ông ấy là người đầu_tiên đặt_chân lên một thiên_thể ngoài Trái_Đất " Gia_đình Armstrong tuyên_bố trong cáo_phó trong đám_tang ông : " Neil Armstrong là một vị anh_hùng bất_đắc_dĩ , bởi ông ấy nghĩ rằng đặt_chân lên Mặt_Trăng chỉ là một phần của_công_việc " Tham_khảo [ sửa | sửa mã nguồn ] Chú_thích ^ “ Neil Armstrong ' s Death — a Medical Perspective ” .

2 - Top 10 Sự_Thật - Phi_Hành Gia Amstrong Người Đầu_Tiên Đặt_Chân Lên Mặt_Trăng - YouTube Bỏ_qua điều hướng VN Đăng nhập Tìm_kiếm Đang tải ... Chọn ngôn_ngữ của bạn .



## Ranking Passages
- number of words
- number of named entities
- number of keywords
- length of longest exact sequence of question keywords
- rank of own document
- ngram overlap question

In [9]:
for i in range(0,len(passages)):
    score = 3
    score -= passages[i].rank
    score -= len(passages[i].ner)
    score += passages[i].num_key
    score -= int(len(passages[i].sent.split()) / 50.0)
    
    x = token_query.lower().split()
    y = p.sent.lower().split()
    s = SequenceMatcher(None, x, y)
    score += s.find_longest_match(0, len(x), 0, len(y)).size
    
    bigram_q = generateBigram(x)
    bigram_p = generateBigram(y)
    score += len(set(bigram_q) & set(bigram_p))
    
    passages[i].score = score

# Answer Extraction

 - Correct answer is the entity with highest score
 - Answer score = Sum( Score of passages that contain the answer)

In [10]:
candidates = [p.ner for p in passages]
candidates = list(set([j for i in candidates for j in i]))
candidates = [(c,0) for c in candidates]
candidates = dict(candidates)

for p in passages:
    for ner in p.ner:
        candidates[ner] += p.score

candidates = candidates.items()

candidates = sorted(candidates, key = lambda x: x[1],reverse = True)
candidates = candidates[:10]
total_score = float(sum([c[1] for c in candidates[:5]]))

for c in candidates:
    print c[0], round((c[1] / total_score) * 100,2), "%"
    

Neil Armstrong 55.17 %
Armstrong 16.38 %
Buzz Aldrin 11.21 %
Phi_Hành Gia 9.48 %
Chắc_hẳn 7.76 %
Video 7.76 %
Câu_hỏi 7.76 %
Michael Collins 6.9 %
ĐẶT_CHÂN LÊN MẶT_TRĂNG 5.17 %
Xếp_hạng 5.17 %
