# くずし字アノテーションの可視化

このノートブックでは、以下の可視化を行います：
1. 元の画像と文字のバウンディングボックス
2. 検出された行の領域
3. 切り出された行画像と文字のバウンディングボックス

In [None]:
from pathlib import Path

import matplotlib.pyplot as plt
import pandas as pd
from PIL import Image, ImageDraw, ImageFont
from pathlib import Path

In [None]:
def draw_boxes_on_image(image_path: str, coord_file: str, show_unicode: bool = True):
    """画像に文字のバウンディングボックスを描画

    Args:
        image_path (str): 画像ファイルのパス
        coord_file (str): 座標ファイルのパス
        show_unicode (bool, optional): Unicode文字を表示するかどうか. Defaults to True.
    """
    # 画像の読み込み
    image = Image.open(image_path)
    draw = ImageDraw.Draw(image)

    # 座標データの読み込み
    df = pd.read_csv(coord_file)

    # フォントの設定（Unicodeを表示する場合）
    if show_unicode:
        try:
            font = ImageFont.truetype("assets/font/fonts-japanese-gothic.ttf", 20)
        except Exception:
            font = ImageFont.load_default()

    # バウンディングボックスの描画
    print(image_path)
    for _, row in df.iterrows():
        if image_path.split("/")[-1].split(".")[0] == row["Image"]:
            x1, y1 = row["X"], row["Y"]
            x2, y2 = x1 + row["Width"], y1 + row["Height"]

            # ボックスの描画
            draw.rectangle([x1, y1, x2, y2], outline="red", width=2)

            # Unicode文字の描画
            #if show_unicode:
            #    draw.text((x1, y1 - 20), chr(int(row["Unicode"], 16)), font=font, fill="blue")

    # 画像の表示
    plt.figure(figsize=(20, 20))
    plt.imshow(image)
    plt.axis("off")
    plt.show()

In [None]:
def save_images_with_boxes(coord_file, images_dir, output_dir, show_unicode=False):
    """
    座標CSVファイルに含まれる全画像について、バウンディングボックスを描画した画像を保存する

    Args:
        coord_file (str or Path): 座標CSVファイルのパス
        images_dir (str or Path): 画像ディレクトリのパス
        output_dir (str or Path): 保存先ディレクトリ
        show_unicode (bool): Unicode文字を描画するかどうか
    """
    images_dir = Path(images_dir)
    output_dir = Path(output_dir)
    output_dir.mkdir(parents=True, exist_ok=True)
    df = pd.read_csv(coord_file)

    # フォント設定
    if show_unicode:
        try:
            font = ImageFont.truetype("assets/font/fonts-japanese-gothic.ttf", 20)
        except Exception:
            font = ImageFont.load_default()
    else:
        font = None

    # 画像名ごとにグループ化
    print("num images:", len(df["Image"].unique()))
    for image_name, group in df.groupby("Image"):
        image_path = images_dir / f"{image_name}.jpg"
        if not image_path.exists():
            continue  # 画像が存在しない場合はスキップ

        image = Image.open(image_path).convert("RGB")
        draw = ImageDraw.Draw(image)

        for _, row in group.iterrows():
            x1, y1 = row["X"], row["Y"]
            x2, y2 = x1 + row["Width"], y1 + row["Height"]
            draw.rectangle([x1, y1, x2, y2], outline="red", width=2)
            if show_unicode and "Unicode" in row and pd.notnull(row["Unicode"]):
                try:
                    draw.text((x1, y1 - 20), chr(int(row["Unicode"], 16)), font=font, fill="blue")
                except Exception:
                    pass  # Unicode描画失敗時は無視

        save_path = output_dir / f"{image_name}.jpg"
        image.save(save_path)

In [None]:
def draw_detected_lines(image_path: str, line_info_file: str):
    """検出された行の領域を可視化

    Args:
        image_path (str): 画像ファイルのパス
        line_info_file (str): 行情報のCSVファイルのパス
    """
    # 画像の読み込み
    image = Image.open("../" + image_path)
    draw = ImageDraw.Draw(image)

    # 行情報の読み込み
    df = pd.read_csv(line_info_file)

    # この画像に関連する行情報のみを抽出
    image_lines = df[df["original_image"] == image_path]

    # 行の領域を描画
    colors = ["red", "blue", "green", "yellow", "purple"]  # 行ごとに異なる色を使用
    for i, row in image_lines.iterrows():
        box = eval(row["box_in_original"])
        color = colors[i % len(colors)]
        draw.rectangle(box, outline=color, width=3)

    # 画像の表示
    plt.figure(figsize=(20, 20))
    plt.imshow(image)
    plt.axis("off")
    plt.show()

In [None]:
def visualize_line_images(line_info_file: str, show_unicode: bool = False):
    """切り出された行画像と文字のバウンディングボックスを可視化

    Args:
        line_info_file (str): 行情報のCSVファイルのパス
        show_unicode (bool, optional): Unicode文字を表示するかどうか. Defaults to True.
    """
    # 行情報の読み込み
    df = pd.read_csv(line_info_file)

    # フォントの設定
    if show_unicode:
        try:
            font = ImageFont.truetype("assets/font/fonts-japanese-gothic.ttf", 20)
        except Exception:
            font = ImageFont.load_default()

    current_dir = Path(line_info_file).parent

    # 各行画像の処理
    for i, row in df.iterrows():
        # 行画像の読み込み
        line_image = Image.open(current_dir.parent / row["column_image"])
        draw = ImageDraw.Draw(line_image)

        # 文字のバウンディングボックスを描画
        char_boxes = eval(row["char_boxes_in_column"])
        unicode_ids = eval(row["unicode_ids"])

        for box, unicode_id in zip(char_boxes, unicode_ids, strict=False):
            x1, y1, x2, y2 = box
            draw.rectangle([x1, y1, x2, y2], outline="red", width=2)

            #if show_unicode:
            #    draw.text((x1, y1 - 20), chr(int(unicode_id, 16)), font=font, fill="blue")

        # 画像の表示
        plt.figure(figsize=(20, 5))
        plt.imshow(line_image)
        plt.title(f"Line {i + 1}")
        plt.axis("off")
        plt.show()

## 1. サンプル画像の可視化

In [None]:
# サンプル画像のパスを設定
data_dir = Path("../data/raw/dataset/")
# 各ページディレクトリを取得
sample_page_dirs = data_dir.glob("*")
sample_page_dirs = sorted(sample_page_dirs)

# ディレクトリを指定
#sample_page_dir = sample_page_dirs[0]

for sample_page_dir in sample_page_dirs:
    # 画像とアノテーションファイルのパスを取得
    images_dir = sample_page_dir / "images"
    sample_images = sorted(images_dir.glob("*.jpg"))

    # 保存ディレクトリの作成
    save_dir = Path("../data/visualize") / Path(str(sample_images[0].parent).split("/")[4])
    save_dir.mkdir(exist_ok=True, parents=True)

    coord_file = sample_page_dir / f"{sample_page_dir.name}_coordinate.csv"

    # 元の画像と文字のバウンディングボックスを保存
    # data以下にvisualizeディレクトリを作成して保存
    #save_images_with_boxes(coord_file, images_dir, save_dir)


## 2. 検出された行の可視化

In [None]:
# 行情報ファイルのパス
line_info_file = "../data/processed/column_info.csv"


# 検出された行の領域を表示
print("Detected text lines:")
draw_detected_lines("data/raw/dataset/100241706/images/100241706_00004_2.jpg", line_info_file)

## 3. 切り出された行画像の可視化

In [None]:
# 切り出された行画像と文字のバウンディングボックスを表示
print("Extracted line images with character bounding boxes:")
visualize_line_images(line_info_file)