# QAssist subprint to card

(last update: May 5, 2024)

QAssistのサブプリントを分割してデッキ化するソフトウェアです。
Ankiでの使用を想定し、デッキをロードするためのCSVファイル (表ファイル)も同時に生成します。
家庭内で依頼されて作成したものを、個人学習の効率化の目的の下一般公開しています。

## ライセンス・免責事項

**MIT License**で公開します。
つまり著作権および許諾表示により、自由な使用、改変、複製、再頒布が可能です。
本ソフトウェアの使用または第三者への提供によって生じるいかなる損害や結果に対して、開発者は一切責任を負いません。

また本ソフトウェアは個人利用の範疇での使用を想定しております。
**生成されたカードデッキの著作権は使用した資料の著作者に属する**点に留意し、その公開や共有は原則行わないでください。

加えて公開時点での資料を対象に最適化されており、将来の改訂により適切に動作しなくなる可能性があります。
その場合は、各自内部パラメータやコードの修正が必要になりますが予めご了承ください。

In [None]:
#@title MIT License
#
# Copyright (c) 2024 Katsuma Inoue
#
# Permission is hereby granted, free of charge, to any person obtaining a
# copy of this software and associated documentation files (the "Software"),
# to deal in the Software without restriction, including without limitation
# the rights to use, copy, modify, merge, publish, distribute, sublicense,
# and/or sell copies of the Software, and to permit persons to whom the
# Software is furnished to do so, subject to the following conditions:
#
# The above copyright notice and this permission notice shall be included in
# all copies or substantial portions of the Software.
#
# THE SOFTWARE IS PROVIDED "AS IS", WITHOUT WARRANTY OF ANY KIND, EXPRESS OR
# IMPLIED, INCLUDING BUT NOT LIMITED TO THE WARRANTIES OF MERCHANTABILITY,
# FITNESS FOR A PARTICULAR PURPOSE AND NONINFRINGEMENT. IN NO EVENT SHALL
# THE AUTHORS OR COPYRIGHT HOLDERS BE LIABLE FOR ANY CLAIM, DAMAGES OR OTHER
# LIABILITY, WHETHER IN AN ACTION OF CONTRACT, TORT OR OTHERWISE, ARISING
# FROM, OUT OF OR IN CONNECTION WITH THE SOFTWARE OR THE USE OR OTHER
# DEALINGS IN THE SOFTWARE.

## 使い方

Google DriveとGoogle Colaboratoryを使用したオンラインでの使用を想定しています。
また自前でPythonの環境を構築できる場合は、ローカル (手元の環境)でも動作できます。
ここでは前者のオンラインの方法を説明します (後者の方法でも認証プロセスがないだけで大差はないです)。

要約すると以下の4ステップにより完了します。
なお不明な点はGitHubのissue欄からお問い合わせください (多忙のため返信に時間を要する場合がありますが予めご了承ください)。  


1. ファイルのアップロード
2. `pdf_folder`、`blank_suffix`、`filled_suffix`を指定
3. `ctrl+f9`により実行
4. Zipのダウンロードとフォルダの展開 (collection.media以下)

### 1. ファイルの命名・アップロード
まず空欄と回答のpdfファイルの接頭辞(先頭のファイル名)と接尾辞 (後ろのファイル名) を**一貫性のある形**で揃えてください。
例えば単元`A`・`B`・`C`に関して空欄と回答ファイルを以下のように命名してください。

```
A_blank.pdf, A_filled.pdf  #単元Aに関する空欄 & 回答ファイル
B_blank.pdf, B_filled.pdf  #単元Bに関する空欄 & 回答ファイル
C_blank.pdf, C_filled.pdf  #単元Cに関する空欄 & 回答ファイル
```
予め揃っている場合は特に変更は必要ないです。
ファイル名の準備ができたら適当なフォルダをGoogle Drive上に作成してアップロードしてください。

<details><summary>※多少知識のある方向け</summary>

あるいは揃えなくても、セル内にある変数`file_name_tuples`に直接ファイル名を記述しても実行できます。
コメントアウトされた例に習い、空欄ファイル、回答ファイルの順で指定された`tuple`の`list`を指定して下さい。

</details>

### 2. フォルダ名・解像度の指定

次に「各種設定」以下のセル (四角で囲われた領域)で各種パラメータを指定してください。
以下各パラメータに関する説明を記載します。

- `pdf_folder`: 前ステップでpdfをアップロードしたフォルダ名。デフォルトではホームディレクトリ以下`./data`を指定。
- `output_folder`: 生成されたデッキが保存されるフォルダ名。デフォルトではホームディレクトリ以下`./output`を指定。
- `output_name`: 生成されるzipファイルの名前。デフォルトでは`qassist`を指定。
- `blank_suffix`: 前ステップで設定した空欄ファイルの接尾辞。デフォルトでは`_blank.pdf`を指定。
- `filled_suffix`: 前ステップで設定した回答ファイルの接尾辞。デフォルトでは`_filled.pdf`を指定。
- `dpi`: 生成されるカードの画面解像度 (dots per inch)。デフォルトでは`200`を指定 (※この数値のおおよそ2乗に最終的なファイルサイズが比例する点に注意)。
- `output_separated_csv`: 各単元に関してCSVファイルを別々に出力。デフォルトでは`True`。


### 3. 認証と実行

前ステップでパラメータを指定したら、`ctrl + F9`を押すか、上から順にセルを実行 (`ctrl + Enter`か左側のボタンをクリック)して実行してください。
途中Google Driveの認証画面が出ますが、すべてアクセスを許可してください。

1ファイルあたり10~30秒程度で処理が完了し、最終的に`{output_folder}`以下に`{output_name}.zip`が生成されます (デフォルトでは`./output/qassist.zip`という名前のファイルが生成されると思います)。

途中でエラーが発生した場合は、再度設定を見直し、最初から実行し直してください (同じく`ctrl + F9`が便利です)。

### 4. 展開と配置
生成されたzipファイル (以下`qassist.zip`) をAnkiが指定するフォルダに展開してください。

Windowsの場合は
```
C:\Users\{ユーザー名}\AppData\Roaming\Anki2\{Ankiのユーザー名}\collection.media
```
OS Xの場合は
```
~/Library/Application Support/Anki2/{Ankiのユーザー名}/Collection.media 
```
となると思います ([公式ドキュメント](https://docs.ankiweb.net/files.html)参照)。

その後「ファイルをインポート | Import File」から`info.csv`をロードしてください。
`info.csv`は5列からなる表データで、それぞれの列は以下のデータが保持されています。

- 1列目: 空欄カードのパス (とその[HTML](https://docs.ankiweb.net/importing/text-files.html#importing-media))
- 2列目: 回答カードのパス (とその[HTML](https://docs.ankiweb.net/importing/text-files.html#importing-media))
- 3列目: 章の名前
- 4列目: 章・節・項の名前 (空白区切り)
- 5列目: 単元 + ページ数 (例: `A_6p`は単元Aの6ページ目を表す)

表面と裏面はそれぞれ1列目と2列目を指定してください。
3列目以降のいずれかをタグとして指定できます。
デフォルトでは3列目ですが、より詳細に4列目の指定も可能です。
より学習単元を限定して学習したい場合にご利用してください。

## 1. 各種設定

はじめに前節の「使い方」をお読みになってください。

In [None]:
#@title フォルダ名・解像度の設定

pdf_folder = './data'  #@param {type:'string'}
output_folder = './output'  #@param {type:'string'}
output_name = 'qassist'  #@param {type:'string'}
blank_suffix = '_blank.pdf'  #@param {type:'string'}
filled_suffix = '_filled.pdf'  #@param {type:'string'}
dpi = 200  #@param {type:'number'}
output_separated_csv = True  #@param {type:"boolean"}

In [None]:
#@title Google Driveの認証・ライブラリのインストール・ファイルの読み込み
import sys
import glob
from collections import Counter

if 'google.colab' in sys.modules:
    from google.colab import drive
    drive.mount('/content/gdrive')
    %cd /content/gdrive/My Drive/
    %pip install PyMuPDF

prefixes = []
file_name_tuples = []
pdf_files = glob.glob(f'{pdf_folder}/*.pdf')
for file_name in pdf_files:
    if file_name.endswith(filled_suffix):
        prefixes.append(file_name.removesuffix(filled_suffix))
    elif file_name.endswith(blank_suffix):
        prefixes.append(file_name.removesuffix(blank_suffix))
for prefix, count in Counter(prefixes).items():
    if count == 2:
        file_name_tuples.append([
            f"{prefix}{blank_suffix}",
            f"{prefix}{filled_suffix}",
        ])
        print('{} & {}'.format(*file_name_tuples[-1]))


# ファイル名を指定する場合はここをコメントアウトして記述してください (カンマ区切りに注意)
# file_name_tuples = [
#     ['a_blank.pdf', 'a_filled.pdf'],
#     ['b_blank.pdf', 'b_filled.pdf'],
# ]


## 2. パラメータの指定・関数の実装
※ 具体的な処理を実装しています。修正に興味のある方は展開してみてください。

In [None]:
#@title 領域の境界 (値の変更は非推奨)

header_threshold = 40  #@param {type:"slider", min:0, max:780, step:1}
footer_threshold = 750  #@param {type:"slider", min:0, max:780, step:1} 
left_indent_threshold = 44  #@param {type:"slider", min:0, max:540, step:1} 
side_note_threshold = 395  #@param {type:"slider", min:0, max:540, step:1} 

layout_info = dict(
    header_threshold=header_threshold,
    footer_threshold=footer_threshold,
    left_indent_threshold=left_indent_threshold,
    side_note_threshold=side_note_threshold,
)

In [None]:
#@title 関数の定義

import os
import re
import sys
import fitz
import unicodedata
import pandas as pd

from collections import defaultdict
from tqdm.notebook import trange, tqdm


def concat_lines(lines):
    text = ''
    for line in lines:
        for span in line['spans']:
            text += span['text']
    return text


def extract_bbox(
        doc, page_number, last_problem=None,
        header_threshold=40, footer_threshold=750,
        left_indent_threshold=44, side_note_threshold=395, verbose=False):
    problems = []
    page = doc[page_number - 1]
    texts = page.get_text('dict')
    blocks = texts['blocks']
    page_w, page_h = texts['width'], texts['height']
    problem_id = 0
    if last_problem is None:
        lecture_id = ''
        chapter_id, chapter_name = 0, ''
        section_id, section_name = 0, ''
        subsec_name = ''
    else:
        lecture_id = last_problem['lecture_id']
        chapter_id, chapter_name = last_problem['chapter_id'], last_problem['chapter_name']
        section_id, section_name = last_problem['section_id'], last_problem['section_name']
        subsec_name = last_problem['subsec_name']
    for block in blocks:
        if 'lines' in block:
            block['text'] = concat_lines(block['lines']).strip()
        else:
            block['text'] = ''
    blocks = filter(lambda v: v['text'] != '', blocks)  # remove empty block
    images = []
    for image in page.get_image_info():
        bbox = image['bbox']
        if bbox[0] >= left_indent_threshold:
            image['text'] = ''
            images.append(image)
    drawings = []
    for info in page.get_drawings():
        bbox = tuple(info['rect'])
        if bbox[0] >= left_indent_threshold:
            drawings.append(dict(bbox=bbox, text=''))
    elements = list(blocks) + list(images) + list(drawings)
    elements = filter(lambda v: v['bbox'][0] <= side_note_threshold, elements)  # remove side notes (x0)
    elements = filter(lambda v: v['bbox'][1] <= footer_threshold, elements)  # remove footer (y0)
    elements = sorted(elements, key=lambda v: v['bbox'][1])  # sorted (y0)
    for idx, element in enumerate(elements):
        bbox = element['bbox']
        text = element['text']
        x0, y0, x1, y1 = bbox
        is_new_section, is_main_text = False, True
        if y0 <= header_threshold:
            # extract info from the header
            if match := re.match(r'^([A-Z|a-z|Ａ-Ｚ|ａ-ｚ]+)(\d+|[０-９]+)(.+)【.+】', text):
                # extract chapters (e.g., A01 ...【...】)
                lecture_id = unicodedata.normalize('NFKC', match[1])
                chapter_id = int(match[2])
                chapter_name = match[3]
            is_new_section = False
            is_main_text = False
        elif x0 < left_indent_threshold:
            # extract info from the main text
            if (match := re.match(r'^(\d+|[０-９]+)\.(.+)$', text)):
                # extract sections (e.g., 1. ...)
                section_id = int(match[1])
                section_name = match[2]
                subsec_name = ''
                problem_id = 0
                is_new_section = True
                is_main_text = False
            elif (match := re.match(r'^【(.+)】', text)):
                # extract subsections (e.g., 【...】)
                subsec_name = match[1]
                is_new_section = False
                is_main_text = False
            elif match := re.match(r'^□([①-⑳|㉑-㊿])(.+)$', text):
                # extract problems (e.g., □① ...)
                problem_id = int(unicodedata.normalize('NFKC', match[1]))
                is_new_section = True
                is_main_text = True
        if is_new_section:
            problems.append(dict(
                bboxes = [], page_number=page_number, lecture_id=lecture_id,
                chapter_id=chapter_id, chapter_name=chapter_name,
                section_id=section_id, section_name=section_name,
                subsec_name=subsec_name, problem_id=problem_id, text_length=0))
        if is_main_text and len(problems) > 0:
            problems[-1]['bboxes'].append(bbox)
            problems[-1]['text_length'] += len(text)
        if verbose:
            bbox_str = ','.join(map('{:3.0f}'.format, bbox))
            print('{} p.{:<3} {:>2} {:>2} ({:>3},{:>3},{:>3}): {}'.format(
                bbox_str, page_number, is_main_text, lecture_id,
                chapter_id, section_id, problem_id, text))
    problems = filter(lambda v: len(v['bboxes']) > 0, problems)
    problems = filter(lambda v: v['text_length'] > 0, problems)
    problems = list(problems)
    y0_acc = [problem['bboxes'][0][1] for problem in problems]
    y0_acc.append(footer_threshold)
    for problem_id, (y0, y1) in enumerate(zip(y0_acc[:-1], y0_acc[1:])):
        tables = page.find_tables(clip=(0, y0, int(page_w), y1))
        for idx, table in enumerate(tables.tables):
            if table.bbox[0] <= side_note_threshold and table.bbox[1] <= footer_threshold:
                problems[problem_id]['bboxes'].append(table.bbox)
    for problem in problems:
        bboxes = problem['bboxes']
        x0 = min(map(lambda t: t[0], bboxes))
        y0 = min(map(lambda t: t[1], bboxes))
        x1 = max(map(lambda t: t[2], bboxes))
        y1 = max(map(lambda t: t[3], bboxes))
        problem['bbox'] = (x0, y0, x1, y1)
        problem['within_main_view'] = (
            y0 >= header_threshold) and (
                y1 <= footer_threshold) and (
                    x1 <= side_note_threshold)
    return problems


def render_problems(
        problems, doc_dict, dpi=200,
        save_dir='./out', image_dir='qassist', 
        add_prefix=True, dry_run=False):
    pbar = tqdm(problems)
    for idx, problem in enumerate(pbar):
        lecture_id = problem['lecture_id']
        chapter_id = problem['chapter_id']
        section_id = problem['section_id']
        problem_id = problem['problem_id']
        for doc_type_name, doc in doc_dict.items():
            page = doc[problem['page_number'] - 1]
            tar_pix = page.get_pixmap(clip=problem['bbox'], dpi=dpi)
            if not problem['within_main_view']:
                tar_pix.clear_with(255)
                for bbox in problem['bboxes']:
                    src_pix = page.get_pixmap(clip=bbox, dpi=dpi)
                    tar_pix.copy(src_pix, src_pix.irect)
            file_name = '{:02d}_{:02d}_{:02d}_{}'.format(
                chapter_id, section_id, problem_id, doc_type_name)
            if add_prefix:
                file_name = '{:04d}_{}'.format(idx + 1, file_name)
            file_name = f'{image_dir}/{lecture_id}/{file_name}'
            problem[f'{doc_type_name}_file'] = file_name
            if dry_run:
                print(file_name)
            else:
                path = f'{save_dir}/{file_name}.png'
                os.makedirs(os.path.dirname(path), exist_ok=True)
                # if os.path.exists(path):
                #     print('Warning: {} is duplicate'.format(path))
                tar_pix.save(path)


def create_accumulated_csv(problems, delimiter=' '):
    lecture_id = ''
    rows = []
    for problem in problems:
        blank_name = '<img src="{}.png" />'.format(problem['blank_file'])
        filled_name = '<img src="{}.png" />'.format(problem['filled_file'])
        chapter_name = problem['chapter_name']
        section_name = problem['section_name']
        subsec_name = problem['subsec_name']
        page_info = '{}_p{}'.format(problem['lecture_id'], problem['page_number'])
        tags = delimiter.join([chapter_name, section_name, subsec_name])
        rows.append([blank_name, filled_name, chapter_name, tags, page_info])
        lecture_id = problem['lecture_id']
    df = pd.DataFrame(rows, columns=['blank', 'filled', 'chapter', 'tags', 'page'])
    return lecture_id, df


def run_all(
        file_name_tuples, save_dir='./output',
        image_dir='qassist', dpi=200,
        output_separated_csv=True,
        header_threshold=40, footer_threshold=750,
        left_indent_threshold=44, side_note_threshold=395):
    dfs = []
    for blank_file, filled_file in file_name_tuples:
        if not os.path.exists(blank_file):
            print(f'Warning: {blank_file}! does not exist!')
            continue
        if not os.path.exists(filled_file):
            print(f'Warning: {filled_file}! does not exist!')
            continue
        doc_fld = fitz.open(filled_file)
        doc_blk = fitz.open(blank_file)
        if len(doc_blk) != len(doc_blk):
            print('Warning: the numbers of pages do not match!')
            continue
        print(f'Successfully loaded from {blank_file} & {filled_file}')
        problems = []
        last_problem = None
        # for page_number in trange(3, 4):
        pbar = trange(1, len(doc_fld) + 1)
        for page_number in pbar:
            out = extract_bbox(
                doc_fld, page_number,
                last_problem=last_problem,
                header_threshold=header_threshold,
                footer_threshold=footer_threshold,
                left_indent_threshold=left_indent_threshold,
                side_note_threshold=side_note_threshold,
                verbose=False)
            problems += out
            if len(problems) > 0:
                last_problem = problems[-1]
        print('Now rendering ...')
        render_problems(
            problems, dict(filled=doc_fld, blank=doc_blk),
            dpi=dpi, save_dir=save_dir, image_dir=image_dir, dry_run=False)
        lecture_id, df = create_accumulated_csv(problems)
        if output_separated_csv:
            df.to_csv(f'{save_dir}/{image_dir}/info_{lecture_id}.csv', header=False, index=False)
        dfs.append([lecture_id, df])
    if len(dfs) == 0:
        print('Warning: no file is processed!')
        return
    dfs = pd.concat([df for _id, df in dfs])
    dfs.to_csv(f'{save_dir}/{image_dir}/info.csv', header=False, index=False)
    print(f'CSV saved in {save_dir}/{image_dir}/info.csv')



## 3. 実行

In [None]:
# !rm -rf {output_folder}
run_all(file_name_tuples, save_dir=output_folder, image_dir=output_name, 
        dpi=dpi, output_separated_csv=output_separated_csv, **layout_info)
!cd {output_folder}/{output_name} && zip -q -r ../{output_name}.zip *

print(f'Create zip file at {os.getcwd()}/{output_folder}/{output_name}.zip')
print(f'Please download the zip file and extract it at collection.media.' )