### プログラムからSolrを検索できるように関数定義を行う

In [14]:
import json
import urllib.parse
import urllib.request

# 使用するSolrのURL
solr_url = 'http://localhost:8983/solr'
# build_openerはログインが必要なサイトのときに使用する
opener = urllib.request.build_opener(urllib.request.ProxyHandler())

# Solrにデータを登録する関数、引数dataは登録するdataをdictで指定
def load(collection, data):
    
    # Solrのコアに対してデータを登録するリクエストを作成,collectionにはデータ登録先のコア名を指定している
    url='{0}/{1}/update'.format(solr_url, collection)
    # Requestインスタンスの作成,
    req = urllib.request.Request(
        url,
        # dataをdumps()でutf-8にエンコード
        data=json.dumps(data).encode('utf-8'),
        headers={'content-type': 'application/json'})

    # データの登録を実行
    print(url)
    # resでリクエストの返答を受け取る
    with opener.open(req) as res:
        # データ確認
        print(res.read().decode('utf-8'))

    # Solrのコアに対してコミット指示するリクエストを作成,collectionにはデータ登録先のコア名を指定している
    url = '{0}/{1}/update?softCommit=true'.format(solr_url, collection)
    # urlに対してリクエスト
    req = urllib.request.Request(url)
    # resuでリクエストの返答を受け取る、opnerはプロキシ環境変数に設定している場合も動くようにする為
    with opener.open(req) as res:
        # データを確認
        print(res.read().decode('utf-8'))
        
# solrプログラムから検索を行う関数
def search(keywords, rows=100):
    # keywordsは2重のリストとなる。ためkeywordsをgroup、groupをkeywordに
    query = ' AND '.join([
        # 内側のリストは「OR検索したい語」のリスト
        '(' + ' OR '.join([f'content_txt_ja:"{keyword}"' for keyword in group])
        # 外側のリストは「AND検索したいグループ」のリスト
        + ')' for group in keywords
    ])
    # 検索クエリの作成content_txt_jaフィールドを検索するクエリを作成する。
    data = {
        'q':     query,
        'wt':    'json',
        'rows':  rows,
        'hl':    'on',
        'hl.fl': 'content_txt_ja',
    }
    # 検索リクエストの作成（＊１）
    req = urllib.request.Request(
        # Solrでの検索APIは/select
        url=f'{solr_url}/doc/select',
        # JSON形式のデータをdataとして指定
        data=urllib.parse.urlencode(data).encode('utf-8'),)
    # 検索リクエストの実行（＊２）
    with opener.open(req) as res:
        # UTF-8のバイト列からUnicode文字列からなるstr型に変換し、JSON形式の文字列とみなしてdict型に変換したものを返す
        return json.loads(res.read().decode('utf-8'))

# アノテーションを見つける関数
def search_annotation(fl_keyword_pairs, rows=100):
    # fl_keyword_pairsは2重のリストとなる。ためfl_keyword_pairsをgroup、groupをkeywordに
    query = ' AND '.join([
        # 内側のリストは「OR検索したい語」のリスト
        '(' + ' OR '.join([f'{fl}:"{keyword}"' for keyword in group])
        # 外側のリストは「AND検索したいグループ」のリスト
        + ')' for fl, keywords in fl_keyword_pairs
            for group in keywords
    ])
    # 検索クエリの作成content_txt_jaフィールドを検索するクエリを作成する。
    data = {
        'q':     query,
        'wt':    'json',
        'rows':  rows,
    }
    # 検索リクエストの作成（＊１）
    req = urllib.request.Request(
        # Solrでの検索APIは/select
        url=f'{solr_url}/anno/select',
        # JSON形式のデータをdataとして指定
        data=urllib.parse.urlencode(data).encode('utf-8'),)
    # 検索リクエストの実行（＊２）
    with opener.open(req) as res:
        # UTF-8のバイト列からUnicode文字列からなるstr型に変換し、JSON形式の文字列とみなしてdict型に変換したものを返す
        return json.loads(res.read().decode('utf-8'))

### Solrへのアノテーションデータの登録

In [9]:
# solrにコアを作成
! ../solr-8.2.0/bin/solr create -c anno

         To turn off: bin/solr config -c anno -p 8983 -action set-user-property -property update.autoCreateFields -value false

Created new core 'anno'


In [23]:
# アノテーション関連のデータをannoに登録して、検索できるようにする。
# アノテーションのリストであるxsの中からアノテーションyを含むものを1つ返す関数
# 後にannoutil.pyに書き出し予定
def find_x_including_y(xs, y):
    for x in xs:
    # アノテーション間の包含関係を扱う。指定したアノテーションを含む一文を取得する
        if x['begin'] <= y['begin'] and y['end'] <= x['end']:
            return x
    return None

In [13]:
# https://www.sejuku.net/blog/66459
# システムに関する処理をまとめたライブラリのsysを読み込む
import sys
# 下記でライブラリを読み込めるパス一覧を表示できる。ここにパスを書き込むと異なる階層からライブラリを読み込む事が可能となる。
print(sys.path)
# sys.path.append("相対パス")でsys.pathに追加、ここではディレクトリまでを指定する
sys.path.append("src")

import sqlitedatastore as datastore

['/usr/lib/python36.zip', '/usr/lib/python3.6', '/usr/lib/python3.6/lib-dynload', '', '/home/vagrant/.local/lib/python3.6/site-packages', '/usr/local/lib/python3.6/dist-packages', '/usr/lib/python3/dist-packages', '/home/vagrant/.local/lib/python3.6/site-packages/IPython/extensions', '/home/vagrant/.ipython']


In [19]:
# 文単位でSolrに登録
def load_sentence():
    data = []
    # 全てのdoc_idを取得し回す
    for doc_id in datastore.get_all_ids(limit=-1):
        # 行の中からcontentとmeta_info部分を取り出す。dict型で帰ってくる
        row = datastore.get(doc_id, ['content', 'meta_info'])
        text = row['content']
        meta_info = json.loads(row['meta_info'])
        
        for i, sent in enumerate(datastore.get_annotation(doc_id, 'sentence')):
            # Solrへ登録するデータ構造へ変換する
            data.append({
                'id':               '{0:d}.{1:s}.{2:d}'.format(doc_id, 'sentence', i),
                'doc_id_i':         doc_id,
                # 以下2つはダイナミックフィールド
                'anno_id_i':        i,# アノテーションの通し番号
                'name_s':           'sentence',# アノテーション名
                'sentence_txt_ja':  text[sent['begin']:sent['end']],
                'title_txt_ja':     meta_info['title'],
                'url_s':            meta_info['url'],
            })
    
    # Solrへ登録
    load('anno', data)

    
# affiliationアノテーションで検索できるようにSolrに登録
def load_affiliation():
    anno_name = 'affiliation'
    data = []
    # 全てのdoc_idを取得し回す
    for doc_id in datastore.get_all_ids(limit=-1):
        # 行の中からcontentとmeta_info部分を取り出す。dict型で帰ってくる
        row = datastore.get(doc_id, ['content', 'meta_info'])
        text = row['content']
        meta_info = json.loads(row['meta_info'])
        sents = datastore.get_annotation(doc_id, 'sentence')
        
        # sentenceとaffiliationのアノテーションを取得し、affiliationの方でforを回す。
        for i, anno in enumerate(datastore.get_annotation(doc_id, anno_name)):
            # Solrへ登録するデータ構造へ変換する
            # アノテーションを含んでいるものを返し含まないものはNoneとする
            sent = find_x_including_y(sents, anno)
            data.append({
                'id':               f'{doc_id:d}.{anno_name:s}.{i:d}',
                'doc_id_i':         doc_id,
                # 以下2つはダイナミックフィールド
                'anno_id_i':        i,# アノテーションの通し番号
                'name_s':           'anno_name',# アノテーション名
                'sentence_txt_ja':  text[sent['begin']:sent['end']],
                anno_name + '_txt_ja': text[anno['begin']:anno['end']],# affiliationのアノテーションがついたテキストを格納
                'title_txt_ja':     meta_info['title'],
                'url_s':            meta_info['url'],
            })
    
    # Solrへ登録
    load('anno', data)

### 実行

In [24]:
datastore.connect()
load_sentence()
load_affiliation()
datastore.close()

http://localhost:8983/solr/anno/update
{
  "responseHeader":{
    "status":0,
    "QTime":4961}}

{
  "responseHeader":{
    "status":0,
    "QTime":839}}

http://localhost:8983/solr/anno/update
{
  "responseHeader":{
    "status":0,
    "QTime":78}}

{
  "responseHeader":{
    "status":0,
    "QTime":42}}

