### ルールベースでクラスタリングを行う。

In [1]:
# 有名がある時Trueを返す。
def contain_yumei(tokens):
    for token in tokens:
        if token['lemma'] == '有名':
            return True
    return False

# 地名を含んでいる時Trueを返す
def contain_LOC(tokens):
    for token in tokens:
        # getメソッドは、第一引数の'NE'がdictにあれば値を返し、なければデフォルトでNone、指定されていれば第2引数の値を返す。
        # endswithメソッドは、文字列が指定した引数の検索する文字列で終わっていればtrueを返し、そうでない場合はfalseを返す。
        if token.get('NE', '').endswith('LOCATION'):
            return True
    return False

# おいしいがある時Trueを返す。
def contain_oishii(tokens):
    for token in tokens:
        if token['lemma'] == 'おいしい':
            return True
    return False

# 上記3つのルールを組み合わせて分析結果を簡単に返す
def meibutsu_rule(feature):
    # 有名と地名が両方ある時
    if feature['contain_yumei'] and feature['contain_LOC']:
        return 1
    # 美味しいがある時
    if feature['contain_oishii']:
        return 1
    return 0

# 個別ルールと最終的な分類結果を判定するルールを返す関数
def get_rule():
    return {
        'partial': {
            'contain_yumei': contain_yumei,
            'contain_LOC': contain_LOC,
            'contain_oishii': contain_oishii,
        },
        'compound': meibutsu_rule
    }

# 引数で渡されたルールを文に適応させる
def convert_into_features_using_rules(sentences, rule):
    features = []
    for doc_id, sent, tokens in sentences:
        feature = {}
        # items()でdictのkeyとvalue両方を取り出す
        for name, func in rule['partial'].items():
            feature[name] = func(tokens)
        features.append(feature)
    return features

# 引数で渡された分類ルールを適応し、分類結果を返す
def classify(features, rule):
    return [rule['compound'](feature) for feature in features]

### 上記ルールを利用し結果を表示してみる

In [2]:
import sys
sys.path.append('./src')

import solrindexer as indexer
import sqlitedatastore as datastore
from annoutil import find_xs_in_y

if __name__ == '__main__':
    datastore.connect()
    # 文を2000件取り出す。name_sにsentenceを設定することで条件を設けずに文を呼び出している
    results = indexer.search_annotation(fl_keyword_pairs=[('name_s', [['sentence']])], rows=2000)
    sentences = []
    for r in results['response']['docs']:
        # 単語の始まりと終わりを取り出す
        sent = datastore.get_annotation(r['doc_id_i'], 'sentence')[r['anno_id_i']]
        # tokenを取り出す
        tokens = find_xs_in_y(datastore.get_annotation(r['doc_id_i'], 'token'), sent)
        sentences.append((r['doc_id_i'], sent, tokens))
    print(sentences[:1])
    
    # ルール取得
    rule = get_rule()
    print(rule)
    # 分類
    # 個別ルールの判定結果をfeatures変数に格納
    features = convert_into_features_using_rules(sentences, rule)
    print(features[:1])
    # meibutsu_rule関数で数値化
    predicteds = classify(features, rule)
    print(predicteds[:1])
    for predicted, (doc_id, sent, tokens) in zip(predicteds, sentences):
        if predicted == 1:
            # doc_idから本文を取り出し
            text = datastore.get(doc_id, ['content'])['content']
            print(predicted, text[sent['begin']: sent['end']])
    datastore.close()

[(1, {'begin': 0, 'end': 4}, [{'begin': 0, 'end': 4, 'lemma': 'ボリビア', 'POS': '名詞', 'POS2': '固有名詞', 'NE': 'B-LOCATION'}])]
{'partial': {'contain_yumei': <function contain_yumei at 0x7f63f8382950>, 'contain_LOC': <function contain_LOC at 0x7f63f8382ae8>, 'contain_oishii': <function contain_oishii at 0x7f63f8382b70>}, 'compound': <function meibutsu_rule at 0x7f63f8382bf8>}
[{'contain_yumei': False, 'contain_LOC': True, 'contain_oishii': False}]


NameError: name 'ruleclassifier' is not defined