### アノテーション保存用のカラム追加

#### docsテーブル確認
 * ディレクトリ：../../NaturalLanguageProcessing/data/sqlite3/sqlite3
 * テーブル名：docs

| #  | 項目                                        | 型                                   | 項目説明                                       |
| -- | ------------------------------------------- | ------------------------------------ | -----------------------------------------------|
| 1  | id                                          | INTEGER                              | 既に作成済                                     |
| 2  | content                                     | TEXT                                 | 既に作成済                                     |
| 3  | meta_info                                   | BLOB                                 | 既に作成済                                     |
| 4  | sentence                                    | BLOB                                 | 既に作成済                                     |
| 5  | chunk                                       | BLOB                                 | 既に作成済                                     |
| 6  | token                                       | BLOB                                 | 既に作成済                                     |
| 7  | <font color="red"><b>affiliation</b></font> | <font color="red"><b>BLOB</b></font> | <font color="red"><b>今回カラム追加</b></font> |


### データベース接続の関数定義

In [6]:
import json
import sqlite3

conn = None

# データベース接続
def connect():
    # global変数でconnを呼び出し
    global conn
    # データベースの場所を指定
    conn = sqlite3.connect('../../NaturalLanguageProcessing/data/sqlite3/sqlite3')

# データベース接続終了
def close():
#   終了
    conn.close()

# テーブル作成
def create_table():
#   executeでSQL構文作成、docsがあれば削除
    conn.execute('DROP TABLE IF EXISTS docs')
#   docsテーブルを新規作成
    conn.execute('''CREATE TABLE docs (
            id          INTEGER PRIMARY KEY AUTOINCREMENT,
            content     TEXT,
            meta_info   BLOB,
            sentence    BLOB,
            chunk       BLOB,
            token       BLOB
        )''')

# データをインサートする
def db_load(values):
    
#   valuesに指定したパラメータ順序またはマッピングを?に入れて実行する
    conn.executemany(
        'INSERT INTO docs (content, meta_info) VALUES (?,?)',
        values)
#   確定
    conn.commit()

# 一部のデータを見る
def get(doc_id, fl):
#   .fetchone()でカーソルの次の行を取得
    row_ls = conn.execute(f"SELECT {','.join(fl)} FROM docs WHERE id = {doc_id}").fetchone()
    row_dict = {}
#   flとrow_lsで抜き出したデータをzipする
    for key, value in zip(fl, row_ls):
        row_dict[key] = value
    return row_dict

# id番号を抜き出す
def get_all_ids(limit, offset=0):
#   limitで取得上限、OFFSETで開始位置を指定してデータを抜き出す。そのデータの1番目id番号を抜き出す
    return [record[0] for record in conn.execute('SELECT id FROM docs LIMIT ? OFFSET ?', (limit, offset))]

#### カラム追加（affiliation）


In [None]:
connect()

name = "affiliation"
conn.execute("")
conn.execute("ALTER TABLE docs ADD COLUMN '{0}' 'BLOB'".format(name))

close()

### 正規表現のパターンによるテキストデータの解析

| 記法      | 意味                                                                |
|-----------| ------------------------------------------------------------------- |
| `.`       | 任意の1文字                                                         |
| `*`       | 直前の文字の0回以上の繰り返し                                       |
| `+`       | 直前の文字の1回以上の繰り返し                                       |
| `*?`      | 直前の文字の0回以上の繰り返し、ただし最小部分にマッチ（最小マッチ） |
| `+?`      | 直前の文字の1回以上の繰り返し、ただし最小部分にマッチ（最小マッチ） |
| `[^ABC]`  | A、B、C以外の1文字                                                  |


### アノテーション用関数定義

In [1]:

def create_annotation(doc_id, ptn):
    row = get(doc_id, fl=['content'])
    text = row['content']
    annos = []
    for chunk in get_annotation(doc_id, 'chunk'):
        chunk_str = text[chunk['begin']:chunk['end']]
        m = ptn.search(chunk_str)
        if not m:
            continue
        anno = {
            'begin':    chunk['begin'] + m.start(),
            'end':      chunk['begin'] + m.end(),
        }
        print(text[anno['begin']:anno['end']])
        annos.append(anno)
    return annos

# アノテーションを設定
def set_annotation(doc_id, name, value):
#   docsのid行をwhere idで指定し、その行にname = valueのアノテーションを追加　
    conn.execute('UPDATE docs SET {0} = ? where id = ?'.format(name), (json.dumps(value), doc_id))
#   確定
    conn.commit()

# アノテーションを確認
def get_annotation(doc_id, name):
#   docsのid行をwhere idで指定しnameから取り出す
    row = conn.execute('SELECT {0} FROM docs WHERE id = ?'.format(name), (doc_id,)).fetchone()
    if row[0] is not None:
        return json.loads(row[0])
    else:
        return []