## 関数定義

- ### スクレイピングとクレンジング処理

In [1]:
import re
import unicodedata

from bs4 import BeautifulSoup

# translateで指定する変換法則を指定
translation_table = str.maketrans(dict(zip('()!', '（）！')))

# クレンジング処理
def cleanse(text):
#   NFKC形式でtextを変換、さらに、translateにtranslation_tableを指定することでdict内に従って変換する
    text = unicodedata.normalize('NFKC', text).translate(translation_table)
#   正規表現を使用し\s+（ひとつ以上の空白文字の連続）を空白一つに変換
    text = re.sub(r'\s+', ' ', text)
    return text

# スクレイピング処理
def scrape(html):
    soup = BeautifulSoup(html, 'html.parser')
    # __EOS__ の挿入
    for block in soup.find_all(['br', 'p', 'h1', 'h2', 'h3', 'h4']):
        # strip()で改行を取り除いたブロック内テキストの文字数が0以上 かつ 後ろから一文字目が'。', '！'でない場合
        if len(block.text.strip()) > 0 and block.text.strip()[-1] not in ['。', '！']:
            block.append('<__EOS__>')
            
    # 本文の抽出
    text = '\n'.join([
        # クレンジング処理を行う
        cleanse(block.text.strip()) for block in soup.find_all(['p', 'h1', 'h2', 'h3', 'h4']) if len(block.text.strip()) > 0])
    
    # タイトルの抽出
    # ' - Wikipedia'を削除しcleanse
    title = cleanse(soup.title.text.replace(' - Wikipedia', ''))
    
    return text, title

- ### DB操作

In [6]:
import json
import sqlite3

conn = None

# データベース接続
def connect():
    # global変数でconnを呼び出し
    global conn
    # データベースの場所を指定
    conn = sqlite3.connect('../data/sqlite3/sqlite3')

# データベース接続終了
def close():
#   終了
    conn.close()

# テーブル作成
def create_table():
#   executeでSQL構文作成、docsがあれば削除
    conn.execute('DROP TABLE IF EXISTS docs')
#   docsテーブルを新規作成
    conn.execute('''CREATE TABLE docs (
            id          INTEGER PRIMARY KEY AUTOINCREMENT,
            content     TEXT,
            meta_info   BLOB,
            sentence    BLOB,
            chunk       BLOB,
            token       BLOB
        )''')

# データをインサートする
def load(values):
    
#   valuesに指定したパラメータ順序またはマッピングを?に入れて実行する
    conn.executemany(
        'INSERT INTO docs (content, meta_info) VALUES (?,?)',
        values)
#   確定
    conn.commit()

# 一部のデータを見る
def get(doc_id, fl):
#   .fetchone()でカーソルの次の行を取得
    row_ls = conn.execute(f"SELECT {','.join(fl)} FROM docs WHERE id = {doc_id}").fetchone()
    row_dict = {}
#   flとrow_lsで抜き出したデータをzipする
    for key, value in zip(fl, row_ls):
        row_dict[key] = value
    return row_dict

# id番号を抜き出す
def get_all_ids(limit, offset=0):
#   limitで取得上限、OFFSETで開始位置を指定してデータを抜き出す。そのデータの1番目id番号を抜き出す
    return [record[0] for record in conn.execute('SELECT id FROM docs LIMIT ? OFFSET ?', (limit, offset))]

# アノテーションを設定
def set_annotation(doc_id, name, value):
#   docsのid行をwhere idで指定し、その行にname = valueのアノテーションを追加　
    conn.execute('UPDATE docs SET {0} = ? where id = ?'.format(name), (json.dumps(value), doc_id))
#   確定
    conn.commit()

# アノテーションを確認
def get_annotation(doc_id, name):
#   docsのid行をwhere idで指定しnameから取り出す
    row = conn.execute('SELECT {0} FROM docs WHERE id = ?'.format(name), (doc_id,)).fetchone()
    if row[0] is not None:
        return json.loads(row[0])
    else:
        return []

- ### solrに登録

In [8]:
import json
import urllib.parse
import urllib.request

# 使用するSolrのURL
solr_url = 'http://localhost:8983/solr'
# build_openerはログインが必要なサイトのときに使用する
opener = urllib.request.build_opener(urllib.request)


def load(collection, data):
    # Solrへデータを登録するリクエストを作成（＊２）
    url='{0}/{1}/update'.format(solr_url, collection)
    Requestインスタンスの作成,
    req = urllib.request.Request(
        url,
#       dumps()でutf-8にエンコード
        data=json.dumps(data).encode('utf-8'),
        headers={'content-type': 'application/json'})

    # データの登録を実行（＊３）
    print(url)
    with opener.open(req) as res:
        # データ確認（＊４）
        print(res.read().decode('utf-8'))

    # コミット（＊５）
    url = '{0}/{1}/update?softCommit=true'.format(solr_url, collection)
    req = urllib.request.Request(url)
    with opener.open(req) as res:
        print(res.read().decode('utf-8'))


def search(keywords, rows=100):
    query = ' AND '.join([
        '(' + ' OR '.join(['content_txt_ja:"{}"'.format(keyword)
                           for keyword in group]) + ')'
        for group in keywords])
    data = {
        'q':     query,
        'wt':    'json',
        'rows':  rows,
        'hl':    'on',
        'hl.fl': 'content_txt_ja',
    }
    # 検索リクエストの作成（＊１）
    req = urllib.request.Request(
        url='{}/doc/select'.format(solr_url),
        data=urllib.parse.urlencode(data).encode('utf-8'),
    )
    # 検索リクエストの実行（＊２）
    with opener.open(req) as res:
        return json.loads(res.read().decode('utf-8'))


def search_annotation(fl_keyword_pairs, rows=100):
    query = ' AND '.join([
        '(' + ' OR '.join(['{0}:"{1}"'.format(fl, keyword)
                           for keyword in group]) + ')'
        for fl, keywords in fl_keyword_pairs
            for group in keywords])
    data = {
        'q':    query,
        'wt':   'json',
        'rows': rows,
    }
    # 検索リクエストの作成（＊１）
    req = urllib.request.Request(
        url='{}/anno/select'.format(solr_url),
        data=urllib.parse.urlencode(data).encode('utf-8'),
    )
    # 検索リクエストの実行（＊２）
    with opener.open(req) as res:
        return json.loads(res.read().decode('utf-8'))

TypeError: expected BaseHandler instance, got <class 'module'>