In [1]:
import PIL
import subprocess
import re
import os
import time
import io
import cv2
import requests
import bs4
import jieba
import jieba.analyse
from IPython.display import display, HTML
import json

In [2]:
def capture_img():
    subprocess.call('.\\adb\\adb shell /system/bin/screencap -p /sdcard/screenshot.png')
    time.sleep(0.1)
    subprocess.call('.\\adb\\adb pull /sdcard/screenshot.png %s' % './tmp/screenshot.png')
    time.sleep(0.1)
    
    return cv2.imread('./tmp/screenshot.png')

In [3]:
%run key.py

In [4]:
from aip import AipOcr

client = AipOcr(AIP_APP_ID, AIP_API_KEY, AIP_SECRET_KEY)

In [5]:
def get_text_in_region(aip_rst, region):
    s = ''
    if 'words_result' in aip_rst:
        words = []
        for p in aip_rst['words_result']:
            loc = p['location']
            if loc['top'] > region[0] and loc['top'] + loc['height'] < region[1] \
                and loc['left'] > region[2] and loc['left'] + loc['width'] < region[3]:
                if loc['left'] < 1080 / 2: # only get words that starts from left
                    words.append(p['words'])
        s = ''.join(words)
        
    if s != '':
        # remove heading, like 1. A. B.
        if re.match(r"^A|B|C|\d+\.|,|。|，", s) != None: 
            ss = re.split(r"\.|,|。|，",s)
            if len(ss) > 1:
                s = ''.join(ss[1:])
            
    return s

In [6]:
def ocr(im, regions):
    _, byte_arr = cv2.imencode('.jpg', im, [int(cv2.IMWRITE_JPEG_QUALITY), 90])
    aip_rst = client.general(byte_arr.tobytes())
    return [get_text_in_region(aip_rst, region) for region in regions]

In [7]:
def go_search(s, engine='google'):
    if engine == 'google':
        os.system('start www.google.com/search?q=%s' % s)
    elif engine == 'baidu':
        os.system('start www.baidu.com/s?wd=%s' % s)

In [8]:
def search(question):
    rst = requests.get('http://www.baidu.com/s?wd=%s&rn=50' % question)
    rst.encoding = 'utf-8'
    search_rst = rst.text
    
    soup = bs4.BeautifulSoup(search_rst, 'html.parser')
    rst = soup.select('div#content_left')[0]
    return rst.text

def search_advanced(question_words, opt_words, return_string=True, engine='baidu'):
    '''
    Advanced search
    question_words: list of words of the question
    opt_words: list of list of words of the options
    '''
    all_opt_words = []
    
    for words in opt_words:
        all_opt_words += words
        
    
    if engine == 'baidu':
        rst = requests.get('http://www.baidu.com/s?q1=%s&q2=&q3=%s&q4=&rn=50' % (
            '+'.join(question_words),
            '+'.join(all_opt_words)))
        print('http://www.baidu.com/s?q1=%s&q2=&q3=%s&q4=&rn=50' % (
            '+'.join(question_words),
            '+'.join(all_opt_words)))
        rst.encoding = 'utf-8'
        search_rst = rst.text

        soup = bs4.BeautifulSoup(search_rst, 'html.parser')
        rst = soup.select('div#content_left')[0]

        if return_string:
            return rst.text
        else:
            ret = []

            containers = rst.select('.c-container')

            for c in containers:
                datum = {}
                title = c.select('h3')
                title = title[0].text if len(title) > 0 else ''

                abstract = c.select('.c-abstract')
                abstract = abstract[0].text if len(abstract) > 0 else ''

                datum['title'] = title
                datum['abstract'] = abstract

                datum['html'] = str(c)
                ret.append(datum)
            return ret
            
    elif engine == 'google':
        
        query = '%20'.join(question_words) + '%20' + '%20OR%20'.join(all_opt_words)
        url = 'https://www.googleapis.com/customsearch/v1?key=%s&cx=%s&q=%s' % (
            G_KEY,
            G_CX,
            query)
        print(url)
        rst = requests.get(url, proxies={'http':'127.0.0.1:1080','https':'127.0.0.1:1080'}, verify=False)
        rst = json.loads(rst.text)
        
        ret = []
        
        for item in rst['items']:
            title = item['title']
            abstract = item['snippet']
            
            html = '<h3>%s</h3>' % item['htmlTitle'] + item['htmlSnippet']
            
            datum = {'title':title, 'abstract':abstract, 'html':html}
            
            ret.append(datum)
            
        return '' if return_string else ret
        
    return '' if return_string else []

In [9]:
def occur_count(s,words):
    n = 0
    for word in words:
        n += len(re.findall(word, s))
    return n


def score(search_rst, opts_words_search):
    scores = [0 for i in opts_words_search]
    decay = 0.5
    weight = 1
    
    for c in search_rst:
        title = c['title']
        abstract = c['abstract']
        
        b_find_any = False
        for i, opt_words in enumerate(opts_words_search):
            for w in opt_words:
                if w in title:
                    scores[i] += weight
                    b_find_any = True
                    break
                elif w in abstract:
                    scores[i] += weight * 0.5
                    b_find_any = True
                    break
    
        if b_find_any:
            weight *= decay
        
    return scores

# TODO: cosine similarity

In [10]:
def keywords(question, opt_a, opt_b, opt_c):
    quest_words = jieba.analyse.extract_tags(question, allowPOS=['n','nr','ns','nt','nz','nl','ng'])
    opt_words = jieba.analyse.extract_tags(' '.join([opt_a,opt_b,opt_c]), allowPOS=['n','nr','ns','nt','nz','nl','ng'])
    words = quest_words + opt_words
    return words

In [11]:
def dump_question(question, opt_a, opt_b, opt_c):
    with open('questions.txt','a+') as f:
        f.write(','.join([question, opt_a, opt_b, opt_c]) + '\n')

In [12]:
def search_ans(question, opt_a, opt_b, opt_c, engine='baidu'):

    # question might be too long
    len_q = len(question)
    len_opt = len(opt_a) + len(opt_b) + len(opt_c)

    if len_q + len_opt > 37:
        words = jieba.analyse.extract_tags(question)
        quest_words = []
        l = 0

        for w in reversed(words):
            l += len(w)
            if l < 37 - len_opt:
                quest_words.append(w)
            else:
                break

    else:
        quest_words = [question]

    opts = [opt_a, opt_b, opt_c]
    opt_words = []

    for opt in opts:
#             opt_words.append(list(map(lambda p:p.word, filter(lambda p:p.flag.startswith('n'), 
#                                                  jieba.posseg.cut(opt)))))
        if len(opt) > 4:
            opt_words.append(jieba.analyse.extract_tags(opt))
        else:
            opt_words.append([opt])

#         rst = search(question)
#         time.sleep(0.1)
#         rst += search('%20'.join(quest_words))
    search_rst = search_advanced(quest_words, opt_words, return_string=False, engine=engine)
#         print(rst)


    opt_w_search = [jieba.lcut_for_search(o) for o in opts]

    # 选项间去重, 仍然有bug：如:"A. 金，B. 金刚石"的场景
    common_words = set(opt_w_search[0]).intersection(set(opt_w_search[1])).intersection(set(opt_w_search[2]))

    if len(common_words) != 0:
        opt_w_search_reduced = [list(filter(lambda word:not word in common_words, opt_w)) for opt_w in opt_w_search]
        opt_w_search_reduced = [opt_w_search_reduced[i] if len(opt_w_search_reduced[i]) > 0 else opt_w_search[i]\
                               for i in range(3)]
    else:
        opt_w_search_reduced = opt_w_search
#     print(opt_w_search_reduced)


    scores = score(search_rst, opt_w_search_reduced)
    # 考虑反向问题，比方说在战国初期下列哪一个国家*未*与燕国相邻?
    neg_words = ['不','未','没有']

    neg_question = False
    for nw in neg_words:
        if nw in question:
            neg_question = True
#             print('!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!')
#             print('!!               疑似反向问题              !!!')
#             print('!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!')
            display(HTML('<h2>疑似反向问题!!</h2>'))
            break

    ans = [('A',opt_a,scores[0]),
          ('B',opt_b,scores[1]),
          ('C',opt_c,scores[2])]

    print('question:', question)
    for p in sorted(ans, key=lambda p:p[2], reverse=True):
        print(p)

    # Show top search result
#     print('----------------------------')
    for i in range(2):
#         print(rst_soup.select('.c-container')[i])
        if i < len(search_rst):
            display(HTML(search_rst[i]['html']))
#     print('----------------------------')

#         go_search(question)

    dump_question(question, opt_a, opt_b, opt_c)

In [13]:
def search_ans_from_pic(im, game='baiwan'):
    print('Parsing pic...')
    
    if game == 'baiwan':
        #百万英雄
        question, opt_a, opt_b, opt_c = ocr(im,
                       [(300,600,0,1080),
                       (655,815,0,1080),
                       (845,1005,0,1080),
                       (1035,1200,0,1080)])
    elif game == 'zhishi':
        #芝士超人
        question, opt_a, opt_b, opt_c = ocr(im,
                       [(280,580,0,1080),
                       (580,735,0,1080),
                       (775,930,0,1080),
                       (970,1125,0,1080)])
    elif game == 'chongding':
        #冲顶大会
        question, opt_a, opt_b, opt_c = ocr(im,
                       [(305,645,0,1080),
                       (645,775,0,1080),
                       (805,940,0,1080),
                       (970,1105,0,1080)])
    else:
        return

    if question != '':
        search_ans(question, opt_a, opt_b, opt_c)
        return True
    else:
        print('No question found!')
        return False

In [14]:
im = cv2.imread('./tmp/screenshot.png')
im = im[:1200,:,:]

In [15]:
search_ans_from_pic(im, game='baiwan')

Parsing pic...


Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\wangz\AppData\Local\Temp\jieba.cache
Loading model cost 0.824 seconds.
Prefix dict has been built succesfully.


http://www.baidu.com/s?q1=以下+作者+人生+自是&q2=&q3=声声慢+寻寻觅觅+生查子+元夕+纤云弄巧+鹊桥&q4=&rn=50


question: “人生自是有情痴此恨不关风与月”的作者还写过以下哪部词作?
('B', '《生查子元夕》', 1.0332040935754776)
('C', '《鹊桥仙·纤云弄巧》', 0.8720669597387314)
('A', '《声声慢·寻寻觅觅》', 0.8225145488977432)


0,1,2
李清照《声声慢》,7个回答,2009-08-30
声声慢 李清照,2个回答,2015-07-27


0,1,2
厦门大学网络教育2015-2016学年第一学期大学....doc,评分:0/5,3页


True

In [16]:
while True:
    ipt = input()
    if ipt == 'q':
        break
    else:
        im = capture_img()
        search_ans_from_pic(im[:1200,:,:], game='baiwan')

q


In [17]:
game = 'baiwan'
engine = 'baidu'

STATE_STANDBY = 0
STATE_PARSING = 1
STATE_COOLDOWN = 2

state = STATE_COOLDOWN

if game == 'baiwan':
    questionbox_template = cv2.imread('template_baiwan.jpg')

while True:
    if state == STATE_STANDBY:
        im = capture_img()
        
        match = cv2.matchTemplate(im,
            questionbox_template,
            cv2.TM_CCOEFF_NORMED)
        print('正在等待答题框出现，答题框相似度:', match.max())
        if match.max() > 0.6:
            # 等待文字显示动画完成
            print('发现答题框，正在等待题目文字显示完成……')
            time.sleep(0.5)
            state = STATE_PARSING
        else:
            time.sleep(0.1)
    elif state == STATE_PARSING:
        print('正在解析……')
        im = capture_img()
        
        match = cv2.matchTemplate(im,
            questionbox_template,
            cv2.TM_CCOEFF_NORMED)
#         print(match)
        if match.max() > 0.6:
            ok = search_ans_from_pic(im[:1200,:,:], game=game)
        
            if ok:
                print('完成搜索，进入待机状态')
                state = STATE_COOLDOWN
            else:
                print('未找到答案，重新解析题目文本……')
                time.sleep(0.1)
        else:
            print('答题框消失，进入等待状态')
            state = STATE_STANDBY
    elif state == STATE_COOLDOWN:
        print('待机中，按回车键继续，按q退出')
        ipt = input()
        if ipt != 'q':
            print('进入等待状态……')
            state = STATE_STANDBY
        else:
            break

待机中，按回车键继续，按q退出

进入等待状态……
正在等待答题框出现，答题框相似度: 0.655504
发现答题框，正在等待题目文字显示完成……
正在解析……
Parsing pic...
http://www.baidu.com/s?q1=唐太宗的原名叫?&q2=&q3=李渊+李世民+李隆基&q4=&rn=50
question: 唐太宗的原名叫?
('C', '李隆基', 1.0470886528865435)
('B', '李世民', 0.9800567626833754)
('A', '李渊', 0.08229410852192132)


0,1,2
唐太宗的名字是什么?,5个回答,2013-04-25
李世民原名是什么,4个回答,2014-10-16
唐朝李世民有哪些文官武将,4个回答,2009-02-09


完成搜索，进入待机状态
待机中，按回车键继续，按q退出

进入等待状态……
正在等待答题框出现，答题框相似度: 0.208717
正在等待答题框出现，答题框相似度: 0.650339
发现答题框，正在等待题目文字显示完成……
正在解析……
Parsing pic...
http://www.baidu.com/s?q1=唐太宗的原名叫?&q2=&q3=李渊+李世民+李隆基&q4=&rn=50
question: 唐太宗的原名叫?
('C', '李隆基', 1.0470886528865435)
('B', '李世民', 0.9800567626833754)
('A', '李渊', 0.08229410852192132)


0,1,2
唐太宗的名字是什么?,5个回答,2013-04-25
李世民原名是什么,4个回答,2014-10-16
唐朝李世民有哪些文官武将,4个回答,2009-02-09


完成搜索，进入待机状态
待机中，按回车键继续，按q退出

进入等待状态……
正在等待答题框出现，答题框相似度: 0.232821
正在等待答题框出现，答题框相似度: 0.733904
发现答题框，正在等待题目文字显示完成……
正在解析……
Parsing pic...
http://www.baidu.com/s?q1=人们经常通过注射外源性胰岛素的方法来治疗以下哪种疾病?&q2=&q3=高血压+糖尿病+骨质疏松&q4=&rn=50
question: 人们经常通过注射外源性胰岛素的方法来治疗以下哪种疾病?
('B', '糖尿病', 1.9999999999999858)
('C', '骨质疏松', 6.103515625e-05)
('A', '高血压', 7.629394588093419e-06)


完成搜索，进入待机状态
待机中，按回车键继续，按q退出

进入等待状态……
正在等待答题框出现，答题框相似度: 0.225316
正在等待答题框出现，答题框相似度: 0.241717
正在等待答题框出现，答题框相似度: 0.255894
正在等待答题框出现，答题框相似度: 0.218208
正在等待答题框出现，答题框相似度: 0.278355
正在等待答题框出现，答题框相似度: 0.206802
正在等待答题框出现，答题框相似度: 0.769741
发现答题框，正在等待题目文字显示完成……
正在解析……
Parsing pic...
http://www.baidu.com/s?q1=以下哪首不是张学友原唱的歌曲?&q2=&q3=爱如+潮水+心如刀割+《吻别》&q4=&rn=50


question: 以下哪首不是张学友原唱的歌曲?
('C', '《吻别》', 1.999969480559228)
('A', '《爱如潮水》', 0)
('B', '《心如刀割》', 0)


完成搜索，进入待机状态
待机中，按回车键继续，按q退出

进入等待状态……
正在等待答题框出现，答题框相似度: 0.790024
发现答题框，正在等待题目文字显示完成……
正在解析……
Parsing pic...
http://www.baidu.com/s?q1=相对原子质量最小的稀有气体是?&q2=&q3=氖+氦+氪&q4=&rn=50
question: 相对原子质量最小的稀有气体是?
('B', '氦', 1.9018330575199798)
('C', '氪', 0.2815164765052032)
('A', '氖', 0.15676829405128956)


完成搜索，进入待机状态
待机中，按回车键继续，按q退出

进入等待状态……
正在等待答题框出现，答题框相似度: 0.265058
正在等待答题框出现，答题框相似度: 0.221446
正在等待答题框出现，答题框相似度: 0.151815
正在等待答题框出现，答题框相似度: 0.235856
正在等待答题框出现，答题框相似度: 0.226434
正在等待答题框出现，答题框相似度: 0.199557
正在等待答题框出现，答题框相似度: 0.214228
正在等待答题框出现，答题框相似度: 0.770567
发现答题框，正在等待题目文字显示完成……
正在解析……
Parsing pic...
http://www.baidu.com/s?q1=毛泽东诗句“虎踞龙盘今胜昔"说的是哪个城市?&q2=&q3=长沙+贵阳+南京&q4=&rn=50
question: 毛泽东诗句“虎踞龙盘今胜昔"说的是哪个城市?
('C', '南京', 1.9843597412109375)
('A', '长沙', 0)
('B', '贵阳', 0)


完成搜索，进入待机状态
待机中，按回车键继续，按q退出

进入等待状态……
正在等待答题框出现，答题框相似度: 0.218916
正在等待答题框出现，答题框相似度: 0.231622
正在等待答题框出现，答题框相似度: 0.203084
正在等待答题框出现，答题框相似度: 0.203231
正在等待答题框出现，答题框相似度: 0.786702
发现答题框，正在等待题目文字显示完成……
正在解析……
Parsing pic...
http://www.baidu.com/s?q1=一般来说树枝上哪部分叶子最后枯落?&q2=&q3=树干+靠近+部分+树枝中部+树梢部分&q4=&rn=50
question: 一般来说树枝上哪部分叶子最后枯落?
('A', '靠近树干部分', 1.998046874067768)
('C', '树梢部分', 1.4931001053018917)
('B', '树枝中部', 1.0019531250004547)


完成搜索，进入待机状态
待机中，按回车键继续，按q退出
q


In [22]:
with open('questions.txt','r') as f:
    i = 0
    for line in f:
        question, opt_a, opt_b, opt_c = map(lambda s:s.strip(), line.split(','))
        search_ans(question, opt_a, opt_b, opt_c, engine='google')
        time.sleep(1)
        i += 1
        if i > 3:
            break

https://www.googleapis.com/customsearch/v1?key=AIzaSyBUPnxUmLLBcDg90ePFuSUUAS5ov9pM_gc&cx=018331586364722641289:r3cvkpozqwq&q=以下哪个海沟最深?%20马里亚纳%20OR%20海沟%20OR%20波多黎各%20OR%20海沟%20OR%20海沟%20OR%20菲律宾
question: 以下哪个海沟最深?
('A', '马里亚纳海沟', 1.9306640625)
('C', '菲律宾海沟', 0.5)
('B', '波多黎各海沟', 0)


https://www.googleapis.com/customsearch/v1?key=AIzaSyBUPnxUmLLBcDg90ePFuSUUAS5ov9pM_gc&cx=018331586364722641289:r3cvkpozqwq&q=“桃李满天下”中的“桃李”一般用来指代?%20老师%20OR%20学生%20OR%20前辈
question: “桃李满天下”中的“桃李”一般用来指代?
('B', '学生', 1.375)
('A', '老师', 0.138671875)
('C', '前辈', 0)


https://www.googleapis.com/customsearch/v1?key=AIzaSyBUPnxUmLLBcDg90ePFuSUUAS5ov9pM_gc&cx=018331586364722641289:r3cvkpozqwq&q=食用适量的海苔可以预防甲状腺肿大是因为海苔中的哪种元素?%20钙%20OR%20碘%20OR%20锌
question: 食用适量的海苔可以预防甲状腺肿大是因为海苔中的哪种元素?
('B', '碘', 1.0068359375)
('A', '钙', 0.4716796875)
('C', '锌', 0.2666015625)


https://www.googleapis.com/customsearch/v1?key=AIzaSyBUPnxUmLLBcDg90ePFuSUUAS5ov9pM_gc&cx=018331586364722641289:r3cvkpozqwq&q=《马里奥》系列游戏中马里奥吃哪种植物可以体积变大?%20蘑菇%20OR%20土豆%20OR%20西红柿
question: 《马里奥》系列游戏中马里奥吃哪种植物可以体积变大?
('A', '蘑菇', 0)
('B', '土豆', 0)
('C', '西红柿', 0)


In [19]:
%debug

> [1;32m<ipython-input-15-f62a4f304eeb>[0m(79)[0;36msearch_ans[1;34m()[0m
[1;32m     77 [1;33m    [1;32mfor[0m [0mi[0m [1;32min[0m [0mrange[0m[1;33m([0m[1;36m2[0m[1;33m)[0m[1;33m:[0m[1;33m[0m[0m
[0m[1;32m     78 [1;33m[1;31m#         print(rst_soup.select('.c-container')[i])[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m---> 79 [1;33m        [0mdisplay[0m[1;33m([0m[0mHTML[0m[1;33m([0m[0msearch_rst[0m[1;33m[[0m[0mi[0m[1;33m][0m[1;33m[[0m[1;34m'html'[0m[1;33m][0m[1;33m)[0m[1;33m)[0m[1;33m[0m[0m
[0m[1;32m     80 [1;33m[1;31m#     print('----------------------------')[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m     81 [1;33m[1;33m[0m[0m
[0m
ipdb> search_rst
[{'title': '百度地图-GT游戏平台', 'abstract': '索尼申请《最后的守护者》商标有生之年系列又来了 · 视觉Plus《兵王2》风景视频告别\n雾霾 · 《征服》：请告诉我这个游戏怎么 ..... 童年已毁被玩坏的《马里奥》动图赏 · \nCSOL2捉迷藏模式新手教学三种娱乐玩法乐享不停 · 纸巾已经用 ..... 操控新革命百\n变可拆分手柄Grifta公布 · 丘比特之箭biu！《守护之光》陪你浪漫白色情人节 · 更高，\n更快，更\xa0...', 'html': '<h3>百度地图-GT<b>游戏</b>平台</h