## Bool search

In [52]:
from sklearn.feature_extraction.text import TfidfVectorizer
from functools import reduce
import numpy as np
import jieba
import os
import re

In [2]:
def cut(content):
    return ' '.join(jieba.cut(content))

In [11]:
def build_corpus(path):
    corpus = []
    for f in os.listdir(path):
        if not f.endswith('.txt'):
            continue

        try:
            book_corpus = []
            for line in open(os.path.join(path, f), 'r'):
                book_corpus.append(cut(line))
            corpus.append(' '.join(book_corpus))
        except Exception:
            print(f)
            print(line)
            raise
    return corpus

In [12]:
path = '../data/chinese-novels'

In [13]:
corpus = build_corpus(path)

In [14]:
len(corpus)

461

In [15]:
vectorizer = TfidfVectorizer()
tfidf = vectorizer.fit_transform(corpus)

In [16]:
tfidf

<461x130144 sparse matrix of type '<class 'numpy.float64'>'
	with 532032 stored elements in Compressed Sparse Row format>

In [17]:
words_tfidf = tfidf.transpose()

In [18]:
words_tfidf

<130144x461 sparse matrix of type '<class 'numpy.float64'>'
	with 532032 stored elements in Compressed Sparse Column format>

In [20]:
np.where(words_tfidf[0].toarray() != 0)

(array([0]), array([415]))

In [23]:
vectorizer.get_feature_names()[-10:]

['龟山', '龟相', '龟纽', '龟背', '龟蛇', '龟蛇失', '龟蛇生', '龟鉴', '龟长', '龟鳖']

In [79]:
vectorizer.vocabulary_['刺史']

24898

In [68]:
vectorizer.vocabulary_['鸣金']

128992

In [80]:
np.where(words_tfidf[24898].toarray()[0] != 0)

(array([  0,   2,   7,  22,  39,  44,  70,  74,  84,  88, 109, 120, 128,
        134, 142, 203, 209, 216, 220, 225, 232, 238, 259, 261, 276, 285,
        287, 302, 322, 342, 350, 368, 373, 380, 426, 433, 440]),)

In [70]:
np.where(words_tfidf[128992].toarray()[0] != 0)

(array([  1,  41,  47,  82, 112, 131, 184, 250, 275, 285, 297, 313, 323,
        331, 334, 361, 422, 441]),)

In [81]:
words_tfidf[[24898, 35233]].toarray()

array([[0.0331359 , 0.        , 0.01414119, 0.        , 0.        ,
        0.        , 0.        , 0.01238401, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.0152932 , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.01308649,
        0.        , 0.        , 0.        , 0.        , 0.03733813,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.01344691, 0.        , 0.        , 0.  

In [82]:
doc1 = set(np.where(words_tfidf[24898].toarray()[0])[0])

In [83]:
doc2 = set(np.where(words_tfidf[128992].toarray()[0])[0])

In [84]:
doc1 & doc2

{285}

In [85]:
docs = [set(np.where(words_tfidf[i].toarray()[0])[0]) for i in (24898, 128992)]

In [86]:
docs

[{0,
  2,
  7,
  22,
  39,
  44,
  70,
  74,
  84,
  88,
  109,
  120,
  128,
  134,
  142,
  203,
  209,
  216,
  220,
  225,
  232,
  238,
  259,
  261,
  276,
  285,
  287,
  302,
  322,
  342,
  350,
  368,
  373,
  380,
  426,
  433,
  440},
 {1,
  41,
  47,
  82,
  112,
  131,
  184,
  250,
  275,
  285,
  297,
  313,
  323,
  331,
  334,
  361,
  422,
  441}]

In [87]:
docs = reduce(lambda x, y: x & y, docs)

In [88]:
docs

{285}

## Show search result

In [89]:
for doc_idx in docs:
    print('=' * 100)
    content = corpus[doc_idx]
    pat = re.compile('(刺史|鸣金)')
    content = pat.sub('########\g<1>########', content)
    print(content)

第四十八回 · 宴 长江 曹操 赋诗         锁 战船 北 军用 武 
 
         却说 庞统 闻言 ， 吃 了 一惊 ， 急 回视 其人 ， 原来 却是 徐庶 。 统见 是 故人 ， 心 下方 定 。 回顾 左右 无人 ， 乃曰 ： “ 你 若 说破 我计 ， 可惜 江南 八十一 州 百姓 ， 皆 是 你 送 了 也 ！ ” 庶笑 曰 ： “ 此间 八十三万 人马 ， 性命 如何 ？ ” 统曰 ： “ 元直 真欲破 我 计耶 ？ ” 庶 曰 ： “ 吾 感 刘皇叔 厚恩 ， 未尝 忘报 。 曹操 送死 吾 母 ， 吾 已 说 过 终身 不设 一谋 ， 今 安肯 破兄 良策 ？ 只是 我 亦 随军 在 此 ， 兵败 之后 ， 玉石不分 ， 岂能 免难 ？ 君当教 我 脱身 之术 ， 我 即 缄口 远避 矣 。 ” 统笑 曰 ： “ 元直 如此 高见远识 ， 谅此 有 何难哉 ！ ” 庶 曰 ： “ 愿 先生 赐教 。 ” 统去 徐庶 耳边 略 说 数句 。 庶 大喜 ， 拜谢 。 庞统别 却 徐庶 ， 下船 自回 江东 。 
 
         且说 徐庶 当晚 密使 近人 去 各寨 中 暗布 谣言 。 次日 ， 寨 中 三三五五 ， 交头接耳 而 说 。 早有 探事人 报知 曹操 ， 说 ： “ 军中 传言 西凉州 韩遂 、 马腾 谋反 ， 杀 奔 许都 来 。 ” 操大惊 ， 急 聚众 谋士 商议 曰 ： “ 吾 引兵 南征 ， 心中 所忧者 ， 韩遂 、 马腾 耳 。 军中 谣言 ， 虽未 辨 虚实 ， 然 不可不 防 。 ” 言 未 毕 ， 徐庶 进 曰 ： “ 庶 蒙丞相 收录 ， 恨 无 寸功 报效 。 请 得 三千 人马 ， 星夜 往散关 把住 隘口 ； 如 有 紧急 ， 再行 告报 。 ” 操喜 曰 ： “ 若得元 直去 ， 吾 无忧 矣 ！ 散关 之上 ， 亦 有 军兵 ， 公 统领 之 。 目下 拨 三千 马步军 ， 命 臧霸 为 先锋 ， 星夜 前去 ， 不可 稽迟 。 ” 徐庶 辞 了 曹操 ， 与 臧霸 便行 。 此 便是 庞统 救 徐庶 之计 。 后人 有 诗 曰 ： “ 曹操 征南 日日 忧 ， 马腾 韩 遂 起 戈矛 。 凤雏 一语 教 徐庶 ， 正似 游鱼 脱 钓钩 。 ” 曹操 自遣 徐庶 去 后 ， 心中 稍