# 初期化

In [37]:
import os
import subprocess
from pathlib import Path

import json
import datetime
from google.oauth2 import service_account
from googleapiclient.discovery import build
import re

LOCAL = False
try:
    from google.colab import drive # Google Driveにアクセスするため
    from google.colab import userdata # Secretsにアクセスするため
    from google.colab import auth # Google認証用
    auth.authenticate_user()
except ImportError:
    LOCAL = True
    from dotenv import load_dotenv

def list_calendars(service):
    calendar_list = service.calendarList().list().execute()
    calendars = calendar_list.get('items', [])
    return calendars


def credentials():
    """
    Google APIの認証情報を取得する。
    """
    SCOPES = [
        'https://www.googleapis.com/auth/calendar',
        'https://www.googleapis.com/auth/tasks',
        'https://www.googleapis.com/auth/keep',
        'https://www.googleapis.com/auth/drive'
    ]
    if LOCAL:
        load_dotenv()  # .envファイルを読み込む
        SERVICE_ACCOUNT_FILE = os.getenv('GOOGLE_APPLICATION_CREDENTIALS_JSON')
        credentials = service_account.Credentials.from_service_account_file(SERVICE_ACCOUNT_FILE, scopes=SCOPES)
    else:
        SERVICE_ACCOUNT_FILE = userdata.get('GOOGLE_APPLICATION_CREDENTIALS_JSON')
        SERVICE_ACCOUNT_FILE = json.loads(SERVICE_ACCOUNT_FILE[1:-3].replace("\n","\\n"))
        credentials = service_account.Credentials.from_service_account_info(SERVICE_ACCOUNT_FILE, scopes=SCOPES)

    service = build('calendar', 'v3', credentials=credentials)
    print(list_calendars(service))
    print(f"service from {SERVICE_ACCOUNT_FILE} {service}")


credentials()


[{'kind': 'calendar#calendarListEntry', 'etag': '"1742154698922415"', 'id': '625d907147b4b5346d33682131007c85b8abd062779cc092467a34fb621c01b3@group.calendar.google.com', 'summary': 'AI Schedule', 'timeZone': 'Asia/Tokyo', 'colorId': '16', 'backgroundColor': '#4986e7', 'foregroundColor': '#000000', 'selected': True, 'accessRole': 'owner', 'defaultReminders': []}, {'kind': 'calendar#calendarListEntry', 'etag': '"1742154759800559"', 'id': 'f8f707d5db45b7fe085d159fee4f334c85c7d456b1aafc740510fd885d15a5d3@group.calendar.google.com', 'summary': 'AI Schedule2', 'timeZone': 'Asia/Tokyo', 'colorId': '18', 'backgroundColor': '#b99aff', 'foregroundColor': '#000000', 'selected': True, 'accessRole': 'owner', 'defaultReminders': []}]
service from {'type': 'service_account', 'project_id': 'functions-452409', 'private_key_id': '87876858b870d7032443dabc27397c5a0433478b', 'private_key': '-----BEGIN PRIVATE KEY-----\nMIIEvQIBADANBgkqhkiG9w0BAQEFAASCBKcwggSjAgEAAoIBAQDlrunHTPT+W0Le\nf6i0l3ikklnaEaNIjFmXGc

In [39]:
LOCAL = False
if not LOCAL:
    from google.colab import drive
    drive.mount('/content/drive')
    from google.colab import userdata
import sys
import os
import json
import pprint
import re
import yaml
import subprocess
from pathlib import Path
from abc import ABC, abstractmethod
from typing import Dict, Any, List, Optional, Union,Tuple,Type # 型ヒントのため
import git # gitpythonライブラリ
import logging # ログ出力用
CURRENT_DIR = "test"
REPO_NAME   = "act"

if LOCAL:
    BASE_PATH = 'H:/マイドライブ/github'
else:
    BASE_PATH = '/content/drive/MyDrive/github'



TEST_REPO_PATH = Path(f'{BASE_PATH}/{REPO_NAME}')
# カレントディレクトリが変更されたか確認
print(f"Current working directory: {os.getcwd()}")

if TEST_REPO_PATH.exists():
    print(f"Path exists: {TEST_REPO_PATH}")
else:
    os.chdir('/content/drive/MyDrive/github')
    !git clone https://github.com/nektos/$REPO_NAME.git


os.chdir(TEST_REPO_PATH)
!git remote -v
!git status
!git shortlog -sn --all

sys.path.append(f'{BASE_PATH}/{CURRENT_DIR}')
os.chdir(f'{BASE_PATH}/{CURRENT_DIR}')


#!git checkout colab-aioserver
#!git branch

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
Current working directory: /content/drive/My Drive/github/test
Path exists: /content/drive/MyDrive/github/act
origin	https://github.com/nektos/act.git (fetch)
origin	https://github.com/nektos/act.git (push)
Refresh index: 100% (1890/1890), done.
On branch master
Your branch is up to date with 'origin/master'.

Changes not staged for commit:
  (use "git add <file>..." to update what will be committed)
  (use "git restore <file>..." to discard changes in working directory)
	[31mmodified:   .github/actions/choco/entrypoint.sh[m
	[31mmodified:   install.sh[m
	[31mmodified:   pkg/runner/testdata/actions-environment-and-context-tests/docker/entrypoint.sh[m
	[31mmodified:   pkg/runner/testdata/actions/docker-local-noargs/entrypoint.sh[m
	[31mmodified:   pkg/runner/testdata/actions/docker-local/entrypoint.sh[m
	[31mmodified:   pkg/runner/testdata/actions/n

# BaseRepoScanner


In [59]:


# ロガーの設定 (必要に応じて調整)
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class BaseRepoScanner(ABC):
    """
    リポジトリの特定情報をスキャン/抽出するための抽象ベースクラス。
    各具象スキャナは、このクラスを継承し、特定の情報を抽出するロジックを実装する。
    """

    def __init__(self, repo_path: str, config: Optional[Dict[str, Any]] = None):
        """
        コンストラクタ。

        Args:
            repo_path (str): 分析対象のローカルリポジトリへのパス。
            config (Optional[Dict[str, Any]]): スキャナ固有の設定（例: 深さ制限、閾値など）。
        """
        self.repo_path = Path(repo_path) # Pathオブジェクトとして扱う
        if not self.repo_path.is_dir() or not (self.repo_path / ".git").is_dir():
            # 実際のプロジェクトでは、より堅牢なGitリポジトリ判定を行う
            # logging.warning(f"Path {repo_path} does not appear to be a valid Git repository root.")
            pass # ここでは警告のみとし、scan()内で詳細なチェックを行うことも可能

        self.config = config if config is not None else {}
        self._results: Optional[Any] = None
        self._status: str = "pending" # "pending", "success", "failure"
        self._error_message: Optional[str] = None
        self.logger = logging.getLogger(self.__class__.__name__)


    @abstractmethod
    def _perform_scan(self) -> Any:
        """
        具象クラスが具体的なスキャン/抽出ロジックを実装するメソッド。
        このメソッドは抽出結果を返す。例外発生時はNoneやエラーを示す値を返すことを想定。
        """
        pass

    def scan(self) -> None:
        """
        スキャン/抽出ロジックを実行し、結果とステータスを設定する。
        """
        self.logger.info(f"Starting scan for {self.repo_path}...")
        try:
            self._results = self._perform_scan()
            if self._results is not None: # _perform_scanがNoneを返さない限り成功とする (空のdict/listも成功)
                self._status = "success"
                self.logger.info("Scan completed successfully.")
            else:
                # _perform_scan が None を返した場合、何らかの理由でデータが取得できなかったとみなす
                # より詳細なエラー処理は _perform_scan 内で行い、例外を発生させるか、
                # あるいはエラーを示す特定の値を返すことを推奨
                self._status = "failure"
                self._error_message = "Scan performed but no results were obtained or an internal error occurred."
                self.logger.warning(self._error_message)

        except Exception as e:
            self._status = "failure"
            self._error_message = f"Exception during scan: {str(e)}"
            self.logger.error(f"Exception in _perform_scan: {e}", exc_info=True)
            self._results = None # エラー時は結果をNoneに

    def get_results(self) -> Any:
        """
        スキャン/抽出結果を返す。
        scan() メソッドが正常に完了した後に呼び出されることを想定。
        """
        if self._status != "success":
            self.logger.warning(f"Scan status is '{self._status}'. Results might be incomplete or absent.")
            if self._error_message:
                self.logger.error(f"Error details: {self._error_message}")
        return self._results

    def get_status(self) -> Dict[str, Optional[str]]:
        """
        スキャンの実行ステータスとエラーメッセージ（あれば）を返す。
        """
        return {
            "status": self._status,
            "error_message": self._error_message
        }

    def report_results(self, indent: int = 2, ensure_ascii: bool = False) -> None:
        """
        スキャン結果を人間が読みやすい形式（デフォルトはJSON）で標準出力に表示する。
        Colab上での即時フィードバック用。
        """
        print(f"--- Scan Report for: {self.__class__.__name__} ---")
        status_info = self.get_status()
        print(f"Target Repository: {self.repo_path.resolve()}")
        print(f"Status: {status_info['status']}")
        if status_info['error_message']:
            print(f"Error Message: {status_info['error_message']}")

        results_data = self.get_results() # scan()が呼ばれていなくても結果は取得できる（Noneや初期値）

        if self._status == "success":
            if results_data is not None:
                print("Results:")
                try:
                    pprint.pp(json.dumps(results_data, ensure_ascii=ensure_ascii, indent=indent, default=str)) # default=strでdatetime等に対応
                except TypeError as e:
                    print(f"Could not serialize results to JSON: {e}")
                    print("Raw results:", results_data)
            else: # 正常終了だが結果がNoneの場合
                 print("Results: No specific data returned (None).")
        elif self._status == "pending":
            print("Scan has not been executed yet.")
        # else: # failure時はエラーメッセージが表示される

        print(f"--- End of Report for: {self.__class__.__name__} ---\n")

    def execute_and_report(self) -> Any:
        """
        scan() を実行し、その結果を report_results() で表示する便利なメソッド。
        最終的な抽出結果を返す。
        """
        self.scan() # エラーハンドリングはscan()内部で行われる
        self.report_results()
        return self.get_results()
    def execute(self) -> Any:
        """
        scan() を実行し、その結果を report_results() で表示する便利なメソッド。
        最終的な抽出結果を返す。
        """
        self.scan() # エラーハンドリングはscan()内部で行われる
        return self.get_results()

    def _run_git_command(self, command: List[str]) -> Optional[str]:
        """gitコマンドを実行し、標準出力を返すヘルパー関数"""
        try:
            process = subprocess.run(command, cwd=self.repo_path, capture_output=True, text=True, check=True, encoding='utf-8')
            return process.stdout.strip()
        except subprocess.CalledProcessError as e:
            self.logger.error(f"Git command failed: {' '.join(command)}. Error: {e.stderr}")
            return None
        except FileNotFoundError:
            self.logger.error(f"Git command not found. Ensure git is installed and in PATH.")
            return None

    def _get_current_commit_sha(self) -> Optional[str]:
        """現在のコミットSHAを取得するヘルパー関数"""
        return self._run_git_command(["git", "rev-parse", "HEAD"])

    def _get_remote_origin_url(self) -> Optional[str]:
        """リモート 'origin' のURLを取得するヘルパー関数"""
        return self._run_git_command(["git", "config", "--get", "remote.origin.url"])

    def _construct_github_permalink(self, file_path_relative_to_repo: str, commit_sha: Optional[str], raw_content: bool = True) -> Optional[str]:
        """
        GitHubのパーマリンクを構築する。
        raw_content=Trueの場合、raw.githubusercontent.com のURLを生成する。
        """
        if not commit_sha:
            self.logger.warning("Commit SHA not available, cannot construct permalink.")
            return None

        remote_url = self._get_remote_origin_url()
        if remote_url:
            # .git サフィックスを削除
            if remote_url.endswith(".git"):
                remote_url = remote_url[:-4]

            # SSH形式のURLをHTTPS形式に変換
            if remote_url.startswith("git@github.com:"):
                remote_url = remote_url.replace("git@github.com:", "https://github.com/")

            if remote_url.startswith("https://github.com/"):
                # remote_url から owner/repo を抽出
                # 例: https://github.com/owner/repo -> owner/repo
                path_parts = remote_url.split('/')
                if len(path_parts) >= 5:
                    owner = path_parts[3]
                    repo = path_parts[4]
                    if raw_content:
                        return f"https://raw.githubusercontent.com/{owner}/{repo}/{commit_sha}/{str(file_path_relative_to_repo)}"
                    else:
                        return f"https://github.com/{owner}/{repo}/blob/{commit_sha}/{str(file_path_relative_to_repo)}"
        self.logger.warning(f"Could not determine GitHub base URL from remote: {remote_url} for permalink construction.")
        return None



# 具象スキャナクラスの定義

In [60]:
# --- ここから具象スキャナクラスの定義例 ---

class RepositoryMetadataScanner(BaseRepoScanner):
    """
    リポジトリ全体の基本的なメタデータ（名前、URL、主要言語、統計情報など）を抽出するスキャナ。
    """
    def __init__(self, repo_path: str, config: Optional[Dict[str, Any]] = None):
        super().__init__(repo_path, config)
        # このスキャナ固有の設定があればここで初期化
        # 例: self.remote_name = self.config.get("remote_name", "origin")


    def _get_remote_url(self) -> Optional[str]:
        """リモートリポジトリのURLを取得する"""
        remote_name = self.config.get("remote_name", "origin")
        return self._run_git_command(["git", "config", "--get", f"remote.{remote_name}.url"])

    def _get_primary_language_guess(self) -> Optional[str]:
        """主要言語を推測する（簡易版：最も多い拡張子など）"""
        # これは非常に簡易的な実装です。より高度なライブラリ(例: linguist)の利用や
        # ファイルサイズを考慮した集計が望ましいです。
        # ここでは、`.git` ディレクトリを除外して拡張子を集計します。
        extension_counts: Dict[str, int] = {}
        for item in self.repo_path.rglob('*'):
            if item.is_file() and not any(part == ".git" for part in item.parts):
                ext = item.suffix.lower()
                if ext:
                    extension_counts[ext] = extension_counts.get(ext, 0) + 1

        if not extension_counts:
            return None

        # 最も多い拡張子を主要言語とする (単純な例)
        primary_ext = max(extension_counts, key=extension_counts.get)
        # 拡張子から言語名へのマッピング (簡易版)
        lang_map = {".py": "Python", ".js": "JavaScript", ".java": "Java", ".ts": "TypeScript", ".go": "Go", ".rb": "Ruby", ".php": "PHP", ".cs": "C#", ".cpp": "C++", ".c": "C", ".md": "Markdown"}
        return lang_map.get(primary_ext, primary_ext) # マップになければ拡張子そのものを返す

    def _get_last_commit_timestamp(self) -> Optional[str]:
        """リポジトリの最新コミット日時 (ISO 8601) を取得する"""
        # %cI は厳密なISO 8601 (例: 2025-05-23T10:30:00+09:00)
        # %aI は author date, %cI は committer date
        return self._run_git_command(["git", "log", "-1", "--format=%cI"])

    def _get_created_at_approx(self) -> Optional[str]:
        """リポジトリの最初のコミット日時 (ISO 8601) を取得する (近似)"""
        # --reverse をつけて最初のコミットを取得
        return self._run_git_command(["git", "log", "--reverse", "--format=%cI", "-n", "1"])


    def _perform_scan(self) -> Optional[Dict[str, Any]]:
        """
        リポジトリメタデータを抽出する具体的なロジック。
        返り値の構造:
        {
            "name": str,
            "url": Optional[str],
            "primary_language": Optional[str],
            "description": Optional[str], // READMEの冒頭などから取得を試みる
            "created_at_approx": Optional[str], // ISO 8601
            "last_push_timestamp": Optional[str], // ISO 8601
            "statistics": {
                "total_file_count": int,
                "total_directory_count": int,
                "total_size_mb_approx": float,
                "total_commits_approx": int,
                "main_contributors_approx": int
            }
        }
        """
        if not self.repo_path.is_dir() or not (self.repo_path / ".git").is_dir():
            self._error_message = f"Path {self.repo_path} is not a valid Git repository."
            self.logger.error(self._error_message)
            return None

        repo_name = self.repo_path.name
        remote_url = self._get_remote_url()
        primary_lang = self._get_primary_language_guess()
        last_commit_ts = self._get_last_commit_timestamp()
        created_at_ts = self._get_created_at_approx()

        # description (READMEから取得を試みる - 簡易版)
        description = None
        readme_patterns = ["README.md", "README.rst", "README.txt", "readme.md"]
        for pattern in readme_patterns:
            readme_file = self.repo_path / pattern
            if readme_file.is_file():
                try:
                    with open(readme_file, 'r', encoding='utf-8', errors='ignore') as f:
                        # 最初の数行または特定のマーカーまでを読むなど、より洗練させることが可能
                        # ここでは最初の250文字を取得
                        content = f.read(250)
                        # 最初の改行までを取得する試み（より短いサマリー）
                        first_newline = content.find('\n')
                        if first_newline != -1:
                            description = content[:first_newline].strip()
                            if description.startswith("#"): # Markdownの見出しの場合、見出しテキストのみ
                                description = description.lstrip("# ").strip()
                        else:
                            description = content.strip()
                        if description: # 何か取得できたらループを抜ける
                            break
                except Exception as e:
                    self.logger.warning(f"Could not read or parse {readme_file}: {e}")
            if description: # ループの外側でもチェック
                break

        # 統計情報
        total_files = 0
        total_dirs = 0
        total_size_bytes = 0
        for item in self.repo_path.rglob('*'):
            if any(part == ".git" for part in item.parts): # .git ディレクトリはスキップ
                continue
            if item.is_file():
                total_files += 1
                try:
                    total_size_bytes += item.stat().st_size
                except OSError:
                    pass # アクセスできないファイルなどはスキップ
            elif item.is_dir():
                total_dirs += 1

        total_size_mb = round(total_size_bytes / (1024 * 1024), 2)

        total_commits_str = self._run_git_command(["git", "rev-list", "--all", "--count"])
        total_commits = int(total_commits_str) if total_commits_str and total_commits_str.isdigit() else 0

        # 主要コントリビュータ数 (簡易版: 上位5名など)
        # `git shortlog -sn --all` の出力をパース
        shortlog_output = self._run_git_command(["git", "shortlog", "-sn", "--all"])
        main_contributors = 0
        if shortlog_output:
            main_contributors = len(shortlog_output.splitlines()) # 行数でカウント (非常に単純)
            # より正確には、上位N名などをカウントする

        return {
            "name": repo_name,
            "url": remote_url,
            "primary_language": primary_lang,
            "description": description,
            "created_at_approx": created_at_ts,
            "last_push_timestamp": last_commit_ts,
            "statistics": {
                "total_file_count": total_files,
                "total_directory_count": total_dirs,
                "total_size_mb_approx": total_size_mb,
                "total_commits_approx": total_commits,
                "main_contributors_approx": main_contributors # ここはより洗練させる余地あり
            }
        }

# --- 以降、他の具象スキャナクラス（DirectoryTreeScannerなど）のスタブを同様に定義していく ---
# class DirectoryTreeScanner(BaseRepoScanner):
#     def _perform_scan(self) -> Optional[Dict[str, Any]]:
#         # ディレクトリツリー構造を抽出するロジック
#         # self.config['depth_limit'], self.config['file_count_threshold'] などを利用
#         pass

# class DocumentationFileScanner(BaseRepoScanner):
#     def _perform_scan(self) -> Optional[List[Dict[str, Any]]]:
#         # README等のドキュメントファイル情報を抽出するロジック
#         # self.config['doc_file_patterns'], self.config['snippet_length'] などを利用
#         pass

# class ConfigurationFileScanner(BaseRepoScanner):
#     def _perform_scan(self) -> Optional[List[Dict[str, Any]]]:
#         # 構成ファイル情報を抽出するロジック
#         # self.config['target_config_descriptors'] などを利用
#         pass


# --- Colabでの実行例 ---
if __name__ == '__main__':
    # このスクリプトをColabに貼り付けて実行する場合、
    # repo_path はColab環境内の実際のGitリポジトリのパスを指定する必要があります。
    # 例: Google Driveをマウントしている場合
    # REPO_ROOT_PATH = "/content/drive/MyDrive/path/to/your/cloned_repo"

    # ローカルでテストする場合 (このスクリプトと同じ階層に .git があると仮定)
    # あるいは、テストしたいリポジトリのパスを絶対パスで指定
    CURRENT_SCRIPT_DIR = Path(os.getcwd())
    # TEST_REPO_PATH = CURRENT_SCRIPT_DIR # カレントディレクトリがGitリポジトリのルートであると仮定
    # より具体的にテストリポジトリを指定する方が良い
    # 例: TEST_REPO_PATH = Path('/content/drive/MyDrive/github/act')

    # ユーザーにテストリポジトリのパスを入力させるか、固定のパスを使用
    #test_repo_input_path = input(f"Enter the path to a local Git repository for testing (e.g., {CURRENT_SCRIPT_DIR}): ")

    if not TEST_REPO_PATH.is_dir() or not (TEST_REPO_PATH / ".git").is_dir():
        print(f"Error: The path '{TEST_REPO_PATH}' is not a valid Git repository. Please provide a valid path.")
    else:
        print(f"\n--- Testing RepositoryMetadataScanner for: {TEST_REPO_PATH} ---")
        metadata_config = {"remote_name": "origin"} # 例: リモート名指定
        metadata_scanner = RepositoryMetadataScanner(str(TEST_REPO_PATH), config=metadata_config)
        metadata_results = metadata_scanner.execute_and_report()


--- Testing RepositoryMetadataScanner for: /content/drive/MyDrive/github/act ---
--- Scan Report for: RepositoryMetadataScanner ---
Target Repository: /content/drive/MyDrive/github/act
Status: success
Results:
('{\n'
 '  "name": "act",\n'
 '  "url": "https://github.com/nektos/act.git",\n'
 '  "primary_language": "JavaScript",\n'
 '  "description": '
 '"![act-logo](https://raw.githubusercontent.com/wiki/nektos/act/img/logo-150.png)",\n'
 '  "created_at_approx": "2025-05-22T21:57:52+00:00",\n'
 '  "last_push_timestamp": "2025-05-22T21:57:52+00:00",\n'
 '  "statistics": {\n'
 '    "total_file_count": 1890,\n'
 '    "total_directory_count": 529,\n'
 '    "total_size_mb_approx": 43.06,\n'
 '    "total_commits_approx": 1396,\n'
 '    "main_contributors_approx": 213\n'
 '  }\n'
 '}')
--- End of Report for: RepositoryMetadataScanner ---



In [61]:
class DirectoryTreeScanner(BaseRepoScanner):
    """
    リポジトリのディレクトリツリー構造を抽出するスキャナ。
    設定で深さ制限やファイル数閾値を指定可能。
    """
    def __init__(self, repo_path: str, config: Optional[Dict[str, Any]] = None):
        super().__init__(repo_path, config)
        self.depth_limit = self.config.get("depth_limit", None) # Noneの場合は制限なし
        self.file_count_threshold = self.config.get("file_count_threshold", None) # Noneの場合は制限なし

    def _scan_directory_recursive(self, current_path: Path, current_depth: int) -> Dict[str, Any]:
        """
        再帰的にディレクトリをスキャンし、ツリー構造のノードを構築する。
        """
        node_name = current_path.name
        relative_path_str = str(current_path.relative_to(self.repo_path))

        node_info: Dict[str, Any] = {
            "name": node_name,
            "type": "directory",
            "path": relative_path_str if relative_path_str != "." else ".", # ルートは"."
            "children": []
        }

        # ファイル数閾値のチェック
        if self.file_count_threshold is not None:
            try:
                num_files_in_dir = sum(1 for item in current_path.iterdir() if item.is_file() and not any(part == ".git" for part in item.parts))
                if num_files_in_dir > self.file_count_threshold:
                    node_info["status"] = "exceeds_threshold"
                    node_info["file_count"] = num_files_in_dir
                    # 閾値を超えたら、このディレクトリの子供の展開は行わない (または限定的にする)
                    # ここでは子供の展開をスキップする
                    return node_info
            except OSError as e:
                self.logger.warning(f"Could not count files in {current_path}: {e}")
                # アクセスできないディレクトリはエラーとして扱うか、空のchildrenとする
                node_info["status"] = "access_error"
                return node_info


        # 深さ制限のチェック
        if self.depth_limit is not None and current_depth >= self.depth_limit:
            # 深さ制限に達したら、これ以上子供を展開しない
            # (オプション) 制限に達したことを示すフラグを立てることも可能
            # node_info["status"] = "depth_limit_reached"
            return node_info

        try:
            for item in sorted(current_path.iterdir()): # 名前順でソート
                if any(part == ".git" for part in item.parts): # .git ディレクトリはスキップ
                    continue

                item_relative_path_str = str(item.relative_to(self.repo_path))
                if item.is_dir():
                    child_node = self._scan_directory_recursive(item, current_depth + 1)
                    node_info["children"].append(child_node)
                elif item.is_file():
                    try:
                        file_size = item.stat().st_size
                    except OSError:
                        file_size = -1 # アクセスできない場合は-1など

                    node_info["children"].append({
                        "name": item.name,
                        "type": "file",
                        "path": item_relative_path_str,
                        "size_bytes": file_size
                    })
        except OSError as e:
            self.logger.warning(f"Could not iterate directory {current_path}: {e}")
            node_info["status"] = "iteration_error"
            # この場合もchildrenは空のまま

        return node_info

    def _perform_scan(self) -> Optional[Dict[str, Any]]:
        """
        ディレクトリツリー構造を抽出する具体的なロジック。
        返り値の構造 (ネストされたDict):
        {
          "name": ".", "type": "directory", "path": ".", "children": [
            {"name": "src", "type": "directory", "path": "src", "children": [...]},
            {"name": "docs", "type": "directory", "path": "docs", "status": "exceeds_threshold", "file_count": 120},
            {"name": "README.md", "type": "file", "path": "README.md", "size_bytes": 1024}
          ]
        }
        """
        if not self.repo_path.is_dir(): # .gitのチェックはBaseで行うか、ここでも行うか
            self._error_message = f"Path {self.repo_path} is not a valid directory."
            self.logger.error(self._error_message)
            return None

        try:
            # ルートディレクトリからスキャン開始
            root_node = self._scan_directory_recursive(self.repo_path, current_depth=0)
            return root_node
        except Exception as e:
            self._error_message = f"Error during directory tree scan: {str(e)}"
            self.logger.error(self._error_message, exc_info=True)
            return None



# --- Colabでの実行例 ---
if __name__ == '__main__':

    if not TEST_REPO_PATH.is_dir() or not (TEST_REPO_PATH / ".git").is_dir():
        print(f"Error: The path '{TEST_REPO_PATH}' is not a valid Git repository. Please provide a valid path.")
    else:
        print(f"\n--- Testing RepositoryMetadataScanner for: {TEST_REPO_PATH} ---")

        print(f"\n--- Testing DirectoryTreeScanner for: {TEST_REPO_PATH} ---")
        # depth_limit: Noneで無制限、file_count_threshold: Noneで無制限
        tree_scanner_config = {"depth_limit": 2, "file_count_threshold": 100}
        tree_scanner = DirectoryTreeScanner(str(TEST_REPO_PATH), config=tree_scanner_config)
        tree_results = tree_scanner.execute_and_report()

        # print(f"\n--- Example of how to use other scanners (stubs for now) ---")
        # doc_scanner_config = {"snippet_length": 300}
        # doc_scanner = DocumentationFileScanner(str(TEST_REPO_PATH), config=doc_scanner_config)
        # doc_results = doc_scanner.execute_and_report()

        # config_scanner_config = {
        #     "target_config_descriptors": [
        #         {"filename_pattern": "package.json", "file_type_label": "NPM_PackageConfig", "key_info_extractors": ["dependencies", "scripts"]},
        #         {"filename_pattern": "Dockerfile", "file_type_label": "Docker_Config", "key_info_extractors": ["FROM", "EXPOSE"]}
        #     ]
        # }
        # config_scanner = ConfigurationFileScanner(str(TEST_REPO_PATH), config=config_scanner_config)
        # config_results = config_scanner.execute_and_report()

        # --- 最終的にこれらの結果を統合して initialRepositoryScanData を構築する ---
        # initial_scan_data = {
        #     "repositoryInfo": metadata_results,
        #     "directoryStructure": tree_results,
        #     "documentationFiles": doc_results,
        #     "configurationFiles": config_results,
        # }
        # print("\n--- Example of combined initial_scan_data (conceptual) ---")
        # if metadata_results and tree_results: # 少なくとも主要な2つが成功した場合
        #     initial_scan_data = {
        #         "repositoryInfo": metadata_results,
        #         "directoryStructure": tree_results
        #         # 他のスキャナの結果もここに追加
        #     }
        #     print(json.dumps(initial_scan_data, indent=2, default=str, ensure_ascii=False))



--- Testing RepositoryMetadataScanner for: /content/drive/MyDrive/github/act ---

--- Testing DirectoryTreeScanner for: /content/drive/MyDrive/github/act ---
--- Scan Report for: DirectoryTreeScanner ---
Target Repository: /content/drive/MyDrive/github/act
Status: success
Results:
('{\n'
 '  "name": "act",\n'
 '  "type": "directory",\n'
 '  "path": ".",\n'
 '  "children": [\n'
 '    {\n'
 '      "name": ".actrc",\n'
 '      "type": "file",\n'
 '      "path": ".actrc",\n'
 '      "size_bytes": 0\n'
 '    },\n'
 '    {\n'
 '      "name": ".codespellrc",\n'
 '      "type": "file",\n'
 '      "path": ".codespellrc",\n'
 '      "size_bytes": 257\n'
 '    },\n'
 '    {\n'
 '      "name": ".editorconfig",\n'
 '      "type": "file",\n'
 '      "path": ".editorconfig",\n'
 '      "size_bytes": 331\n'
 '    },\n'
 '    {\n'
 '      "name": ".github",\n'
 '      "type": "directory",\n'
 '      "path": ".github",\n'
 '      "children": [\n'
 '        {\n'
 '          "name": "FUNDING.yml",\n'
 ' 

In [62]:
class DocumentationFileScanner(BaseRepoScanner):
    """
    リポジトリ内の主要なドキュメントファイル（README*, CONTRIBUTING*, LICENSEなど）を検索し、
    各ファイルのパス、パーマリンク、サイズ、内容の冒頭抜粋を抽出するスキャナ。
    """
    def __init__(self, repo_path: str, config: Optional[Dict[str, Any]] = None):
        super().__init__(repo_path, config)
        # 設定可能なデフォルト値
        self.doc_file_patterns = self.config.get(
            "doc_file_patterns",
            [
                r"README(?:\.md|\.rst|\.txt)?$", # README.md, README.rst, README.txt, README
                r"CONTRIBUTING(?:\.md|\.rst|\.txt)?$",
                r"CODE_OF_CONDUCT(?:\.md|\.rst|\.txt)?$",
                r"CHANGELOG(?:\.md|\.rst|\.txt)?$",
                r"LICENSE(?:\.md|\.rst|\.txt|)$", # LICENSE, LICENSE.md など
                r"SECURITY\.md$"
            ]
        )
        self.snippet_length = self.config.get("snippet_length", 500) # 文字数
        self.current_commit_sha = None # _perform_scanの最初で取得

    def _find_matching_files(self) -> List[Path]:
        """
        設定されたパターンに一致するファイルをリポジトリ内から検索する。
        大文字・小文字を区別しない検索を行う。
        """
        matching_files: List[Path] = []
        compiled_patterns = [re.compile(pattern, re.IGNORECASE) for pattern in self.doc_file_patterns]

        for item in self.repo_path.rglob('*'):
            if any(part == ".git" for part in item.parts): # .git ディレクトリはスキップ
                continue
            if item.is_file():
                for pattern_re in compiled_patterns:
                    if pattern_re.search(item.name):
                        matching_files.append(item)
                        break # 一致したら次のファイルへ
        return matching_files

    def _extract_content_snippet(self, file_path: Path) -> Optional[str]:
        """
        ファイルから指定文字数の内容抜粋を取得する。
        """
        try:
            with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
                snippet = f.read(self.snippet_length)
                # TODO: READMEの場合、最初の数セクションの見出しと要約、といったより高度な抜粋も検討
                return snippet.strip()
        except Exception as e:
            self.logger.warning(f"Could not read or extract snippet from {file_path}: {e}")
            return None

    def _get_license_type_from_content(self, content: Optional[str]) -> Optional[str]:
        """
        (非常に簡易的な)ライセンス内容からのSPDX識別子推測。
        実際にはより堅牢なライブラリ (例: scancode-toolkitの一部など) の利用を検討。
        """
        if not content:
            return None
        content_lower = content.lower()
        if "mit license" in content_lower:
            return "MIT"
        if "apache license" in content_lower and "version 2.0" in content_lower:
            return "Apache-2.0"
        if "gnu general public license" in content_lower:
            if "version 3" in content_lower:
                return "GPL-3.0-only" # or or-later
            if "version 2" in content_lower:
                return "GPL-2.0-only" # or or-later
            return "GPL" # Version不明
        if "bsd 3-clause license" in content_lower:
            return "BSD-3-Clause"
        # 他の主要ライセンスも追加可能
        return None


    def _perform_scan(self) -> Optional[List[Dict[str, Any]]]:
        """
        ドキュメントファイル情報を抽出する具体的なロジック。
        返り値の構造 (List[Dict[str, Any]]):
        [
            {
                "path": str, # ルートからの相対パス
                "filename": str,
                "permalink": Optional[str], # GitHub等のWeb UIへのパーマリンク (raw content URL)
                "size_bytes": int,
                "content_snippet": Optional[str], # ファイル冒頭の抜粋
                "detected_license_type": Optional[str] # LICENSEファイルの場合のみ
            }, ...
        ]
        """
        if not self.repo_path.is_dir():
            self._error_message = f"Path {self.repo_path} is not a valid directory."
            self.logger.error(self._error_message)
            return None

        self.current_commit_sha = self._get_current_commit_sha()
        if not self.current_commit_sha:
            self.logger.warning("Could not determine current commit SHA. Permalinks will not be generated.")

        found_documents: List[Dict[str, Any]] = []
        discovered_files = self._find_matching_files()

        for file_path_obj in discovered_files:
            relative_path_str = str(file_path_obj.relative_to(self.repo_path))
            # raw_content=True を指定して raw URL を取得
            permalink = self._construct_github_permalink(relative_path_str, self.current_commit_sha, raw_content=True)

            try:
                size_bytes = file_path_obj.stat().st_size
            except OSError as e:
                self.logger.warning(f"Could not get size for {file_path_obj}: {e}")
                size_bytes = -1 # エラーを示す値

            content_snippet = self._extract_content_snippet(file_path_obj)

            doc_info: Dict[str, Any] = {
                "path": relative_path_str,
                "filename": file_path_obj.name,
                "permalink": permalink,
                "size_bytes": size_bytes,
                "content_snippet": content_snippet,
            }

            # LICENSEファイルの場合、簡易的なライセンスタイプ検出を試みる
            if "LICENSE" in file_path_obj.name.upper(): # LICENSE, License.md などにマッチ
                doc_info["detected_license_type"] = self._get_license_type_from_content(content_snippet)

            found_documents.append(doc_info)

        return found_documents

# class ConfigurationFileScanner(BaseRepoScanner):
#     def _perform_scan(self) -> Optional[List[Dict[str, Any]]]:
#         # 構成ファイル情報を抽出するロジック
#         # self.config['target_config_descriptors'] などを利用
#         pass


# --- Colabでの実行例 ---
if __name__ == '__main__':

    if not TEST_REPO_PATH.is_dir() or not (TEST_REPO_PATH / ".git").is_dir():
        print(f"Error: The path '{TEST_REPO_PATH}' is not a valid Git repository. Please provide a valid path.")
    else:
        # --- Testing DocumentationFileScanner ---
        print(f"\n--- Testing DocumentationFileScanner for: {TEST_REPO_PATH} ---")
        doc_scanner_config = {
            "snippet_length": 200,
        }
        doc_scanner = DocumentationFileScanner(str(TEST_REPO_PATH), config=doc_scanner_config)
        doc_results = doc_scanner.execute_and_report()

        if doc_results:
            print(f"\nFound {len(doc_results)} documentation file(s).")



--- Testing DocumentationFileScanner for: /content/drive/MyDrive/github/act ---
--- Scan Report for: DocumentationFileScanner ---
Target Repository: /content/drive/MyDrive/github/act
Status: success
Results:
('[\n'
 '  {\n'
 '    "path": "CONTRIBUTING.md",\n'
 '    "filename": "CONTRIBUTING.md",\n'
 '    "permalink": '
 '"https://raw.githubusercontent.com/nektos/act/bd4bc99ec4ddf633e73e69baf0d7f7b9bbef880b/CONTRIBUTING.md",\n'
 '    "size_bytes": 5581,\n'
 '    "content_snippet": "# Contributing to Act\\n\\nHelp wanted! We\'d love '
 'your contributions to Act. Please review the following guidelines before '
 'contributing. Also, feel free to propose changes to these guidelines by '
 'updating"\n'
 '  },\n'
 '  {\n'
 '    "path": "LICENSE",\n'
 '    "filename": "LICENSE",\n'
 '    "permalink": '
 '"https://raw.githubusercontent.com/nektos/act/bd4bc99ec4ddf633e73e69baf0d7f7b9bbef880b/LICENSE",\n'
 '    "size_bytes": 1056,\n'
 '    "content_snippet": "MIT License\\n\\nCopyright (c) 2019

In [70]:

class ConfigurationFileScanner(BaseRepoScanner):
    """
    リポジトリ内の主要な構成ファイルを検索し、各ファイルのパス、パーマリンク、
    ファイルタイプ、そしてファイル内容から抽出されたキー情報を取得するスキャナ。
    """
    def __init__(self, repo_path: str, config: Optional[Dict[str, Any]] = None):
        super().__init__(repo_path, config)
        # 設定可能なデフォルト値
        # target_config_descriptors: 検索・解析対象の構成ファイル記述子のリスト。
        # 各記述子は以下のような情報を持つ:
        # {"filename_pattern": "package.json", "file_type_label": "NPM_PackageConfig",
        #  "key_info_extractors": {"dependencies": "object", "scripts": "object", "version": "string"}, "parser_type": "json"}
        # {"filename_pattern": "Dockerfile", "file_type_label": "Docker_Config",
        #  "key_info_extractors": {"FROM": "line", "EXPOSE": "line_multi", "CMD": "line"}, "parser_type": "dockerfile"}
        # {"filename_pattern": r"\.yml$|\.yaml$", "directory_pattern": r"\.github[/\\]workflows", "file_type_label": "GitHub_Workflow",
        #  "key_info_extractors": {"name": "string", "on": "object", "jobs": "object_keys"}, "parser_type": "yaml"}
        self.target_config_descriptors = self.config.get("target_config_descriptors", [])
        self.current_commit_sha = None # _perform_scanの最初で取得

    def _find_matching_files(self) -> List[Tuple[Path, Dict[str, Any]]]:
        """
        設定された記述子に一致するファイルをリポジトリ内から検索する。
        各ファイルに対応する記述子も一緒に返す。
        """
        matching_files_with_descriptors: List[Tuple[Path, Dict[str, Any]]] = []

        for descriptor in self.target_config_descriptors:
            filename_pattern_str = descriptor.get("filename_pattern")
            directory_pattern_str = descriptor.get("directory_pattern") # オプション

            if not filename_pattern_str:
                self.logger.warning(f"Skipping descriptor due to missing 'filename_pattern': {descriptor}")
                continue

            try:
                filename_re = re.compile(filename_pattern_str, re.IGNORECASE)
                dir_re = re.compile(directory_pattern_str, re.IGNORECASE) if directory_pattern_str else None
            except re.error as e:
                self.logger.error(f"Invalid regex in descriptor '{descriptor.get('file_type_label', 'Unknown')}': {e}")
                continue

            for item in self.repo_path.rglob('*'): # rglobは再帰的に検索
                if any(part == ".git" for part in item.parts):
                    continue
                if item.is_file():
                    if filename_re.search(item.name):
                        if dir_re: # ディレクトリパターンも指定されている場合
                            # Pathオブジェクトを文字列に変換してから正規表現検索
                            if dir_re.search(str(item.parent.relative_to(self.repo_path))):
                                matching_files_with_descriptors.append((item, descriptor))
                        else: # ファイル名パターンのみ
                            matching_files_with_descriptors.append((item, descriptor))
        return matching_files_with_descriptors

    def _parse_file_content(self, file_path: Path, parser_type: str) -> Any:
        """
        ファイル内容を指定されたパーサータイプでパースする。
        """
        try:
            with open(file_path, 'r', encoding='utf-8', errors='ignore') as f:
                content = f.read()
                if parser_type == "json":
                    return json.loads(content)
                elif parser_type == "yaml":
                    return yaml.safe_load(content)
                elif parser_type == "dockerfile": # Dockerfileは行ベースで特定の指示を抽出
                    lines = content.splitlines()
                    docker_info = {}
                    for line in lines:
                        line_strip = line.strip()
                        if line_strip.startswith("FROM"):
                            docker_info.setdefault("FROM", []).append(line_strip.split(maxsplit=1)[1] if len(line_strip.split(maxsplit=1)) > 1 else "")
                        elif line_strip.startswith("EXPOSE"):
                             docker_info.setdefault("EXPOSE", []).append(line_strip.split(maxsplit=1)[1] if len(line_strip.split(maxsplit=1)) > 1 else "")
                        elif line_strip.startswith("CMD"):
                             docker_info.setdefault("CMD", []).append(line_strip.split(maxsplit=1)[1] if len(line_strip.split(maxsplit=1)) > 1 else "")
                        # 他のDocker命令も必要に応じて追加
                    return docker_info
                elif parser_type == "text":
                  return content
                # 他のパーサータイプも追加可能 (例: ini, xml, properties)
                else: # 不明なパーサータイプの場合は生の内容を返すか、エラーとする
                    self.logger.warning(f"Unknown parser_type '{parser_type}' for {file_path}. Returning raw content for key info extraction.")
                    return content # または None
        except json.JSONDecodeError as e:
            self.logger.error(f"JSON parsing error for {file_path}: {e}")
            return None
        except yaml.YAMLError as e:
            self.logger.error(f"YAML parsing error for {file_path}: {e}")
            return None
        except Exception as e:
            self.logger.error(f"Error reading or parsing file {file_path}: {e}")
            return None

    def _extract_key_info(self, parsed_content: Any, extractors: Dict[str, str], parser_type: str) -> Dict[str, Any]:
        """
        パースされた内容から、指定されたキー情報を抽出する。
        extractors: {"key_to_extract": "expected_type_or_method", ...}
        expected_type_or_method: "string", "object", "list", "object_keys", "line", "line_multi"
        """
        key_info: Dict[str, Any] = {}
        if parsed_content is None:
            return key_info

        for key, method in extractors.items():
            try:
                if parser_type == "dockerfile" and isinstance(parsed_content, dict): # Dockerfileパーサーの結果
                    if method == "line": # 最初の行
                        key_info[key] = parsed_content.get(key, [])[0] if parsed_content.get(key) else None
                    elif method == "line_multi": # 全ての行 (リスト)
                        key_info[key] = parsed_content.get(key)
                    else:
                        key_info[key] = parsed_content.get(key)

                elif isinstance(parsed_content, dict): # JSON, YAML (dict)
                    if method == "object_keys": # jobs: object_keys -> job名のリスト
                        value = parsed_content.get(key)
                        key_info[key] = list(value.keys()) if isinstance(value, dict) else None
                    else: # string, object, list
                        key_info[key] = parsed_content.get(key)

                elif isinstance(parsed_content, list) and parser_type == "yaml": # YAMLでルートがリストの場合
                     # このケースは現状のextractorsでは扱いにくい。より複雑なパス指定が必要。
                     # 例えば、特定要素のキーを抽出するなど。今回は単純化のためスキップ。
                    self.logger.debug(f"Key info extraction for root list YAML not fully supported for key '{key}'.")
                    pass

                # ここで型チェックや変換を行うことも可能
                # if method == "string" and not isinstance(key_info.get(key), str):
                #     key_info[key] = str(key_info.get(key)) if key_info.get(key) is not None else None

            except Exception as e:
                self.logger.warning(f"Could not extract key '{key}' using method '{method}' from content: {e}")
                key_info[key] = None
        return key_info

    def _perform_scan(self) -> Optional[List[Dict[str, Any]]]:
        """
        構成ファイル情報を抽出する具体的なロジック。
        返り値の構造 (List[Dict[str, Any]]):
        [
            {
                "path": str, # ルートからの相対パス
                "filename": str,
                "fileType": str, # 記述子で指定されたラベル
                "permalink": Optional[str], # GitHub等のWeb UIへのパーマリンク (raw content URL)
                "keyInfoExtracted": Dict[str, Any] # 抽出されたキー情報
            }, ...
        ]
        """
        if not self.repo_path.is_dir():
            self._error_message = f"Path {self.repo_path} is not a valid directory."
            self.logger.error(self._error_message)
            return None

        self.current_commit_sha = self._get_current_commit_sha()
        if not self.current_commit_sha:
            self.logger.warning("Could not determine current commit SHA. Permalinks will not be generated.")

        found_configs: List[Dict[str, Any]] = []
        discovered_files_with_descriptors = self._find_matching_files()

        for file_path_obj, descriptor in discovered_files_with_descriptors:
            relative_path_str = str(file_path_obj.relative_to(self.repo_path))
            permalink = self._construct_github_permalink(relative_path_str, self.current_commit_sha, raw_content=True)

            file_type_label = descriptor.get("file_type_label", "UnknownConfig")
            parser_type = descriptor.get("parser_type", "text") # デフォルトはテキストとして扱う
            key_info_extractors = descriptor.get("key_info_extractors", {})

            parsed_content = self._parse_file_content(file_path_obj, parser_type)
            key_info = self._extract_key_info(parsed_content, key_info_extractors, parser_type)

            config_info: Dict[str, Any] = {
                "path": relative_path_str,
                "filename": file_path_obj.name,
                "fileType": file_type_label,
                "permalink": permalink,
                "keyInfoExtracted": key_info,
            }
            found_configs.append(config_info)

        return found_configs


# --- Colabでの実行例 ---
if __name__ == '__main__':

    if not TEST_REPO_PATH.is_dir() or not (TEST_REPO_PATH / ".git").is_dir():
        print(f"Error: The path '{TEST_REPO_PATH}' is not a valid Git repository. Please provide a valid path.")
    else:
        # --- Testing ConfigurationFileScanner ---
        print(f"\n--- Testing ConfigurationFileScanner for: {TEST_REPO_PATH} ---")
        config_scanner_config = {
            "target_config_descriptors": [
                {
                    "filename_pattern": r"package\.json$",
                    "file_type_label": "NPM_PackageConfig",
                    "key_info_extractors": {
                        "name": "string",
                        "version": "string",
                        "description": "string",
                        "dependencies": "object",
                        "devDependencies": "object",
                        "scripts": "object_keys" # scriptsオブジェクトのキー（スクリプト名）をリストで取得
                    },
                    "parser_type": "json"
                },
                {
                    "filename_pattern": r"Dockerfile$",
                    "file_type_label": "Docker_Config",
                    "key_info_extractors": {
                        "FROM": "line", # 最初のFROM命令
                        "EXPOSE": "line_multi", # 全てのEXPOSE命令（リスト）
                        "CMD": "line"  # 最後のCMD命令 (もし複数あれば最後のものが有効になることが多い)
                    },
                    "parser_type": "dockerfile"
                },
                {
                    "filename_pattern": r"\.yml$|\.yaml$",
                    "directory_pattern": r"\.github[/\\]workflows", # .github/workflows 内のYAMLファイル
                    "file_type_label": "GitHub_Workflow",
                    "key_info_extractors": {
                        "name": "string", # workflow名
                        "on": "object", # トリガー条件
                        "jobs": "object_keys" # job名のリスト
                    },
                    "parser_type": "yaml"
                },
                { # actリポジトリ用の設定
                    "filename_pattern": r"\.golangci\.yml$",
                    "file_type_label": "GolangCI_Config",
                    "key_info_extractors": {"run": "object", "linters-settings": "object", "issues": "object"},
                    "parser_type": "yaml"
                },
                {
                    "filename_pattern": r"\.goreleaser\.yml$",
                    "file_type_label": "GoReleaser_Config",
                    "key_info_extractors": {"builds": "list", "archives": "list", "checksum": "object"},
                    "parser_type": "yaml"
                }
            ]
        }
        config_scanner = ConfigurationFileScanner(str(TEST_REPO_PATH), config=config_scanner_config)
        config_results = config_scanner.execute_and_report()

        if config_results:
            print(f"\nFound {len(config_results)} configuration file(s) matching descriptors.")



--- Testing ConfigurationFileScanner for: /content/drive/MyDrive/github/act ---
--- Scan Report for: ConfigurationFileScanner ---
Target Repository: /content/drive/MyDrive/github/act
Status: success
Results:
('[\n'
 '  {\n'
 '    "path": "pkg/runner/testdata/actions/node12/package.json",\n'
 '    "filename": "package.json",\n'
 '    "fileType": "NPM_PackageConfig",\n'
 '    "permalink": '
 '"https://raw.githubusercontent.com/nektos/act/bd4bc99ec4ddf633e73e69baf0d7f7b9bbef880b/pkg/runner/testdata/actions/node12/package.json",\n'
 '    "keyInfoExtracted": {\n'
 '      "name": "node12",\n'
 '      "version": "1.0.0",\n'
 '      "description": "",\n'
 '      "dependencies": {\n'
 '        "@actions/core": "^1.2.6",\n'
 '        "@actions/github": "^4.0.0"\n'
 '      },\n'
 '      "devDependencies": {\n'
 '        "@vercel/ncc": "^0.24.1"\n'
 '      },\n'
 '      "scripts": [\n'
 '        "test",\n'
 '        "build"\n'
 '      ]\n'
 '    }\n'
 '  },\n'
 '  {\n'
 '    "path": '
 '"pkg/runn

# AIPrompt

In [None]:
class InitialScanCompiler:
    """
    複数のスキャナを実行し、その結果を統合して
    AnalysisPayload.jsonのinitialRepositoryScanDataセクションのデータを構築するクラス。
    """
    def __init__(self, repo_path: str,
                 scanner_classes_with_configs: List[Tuple[Type[BaseRepoScanner], Optional[Dict[str, Any]]]],
                 web_research_document_content: Optional[str] = None):
        self.repo_path = repo_path
        self.scanner_classes_with_configs = scanner_classes_with_configs
        self.web_research_document_content = web_research_document_content if web_research_document_content is not None else ""
        self.logger = logging.getLogger(self.__class__.__name__)
        self.compiled_data: Dict[str, Any] = {}

    def compile_scan_data(self) -> Dict[str, Any]:
        self.logger.info(f"Starting compilation of initial scan data for {self.repo_path}")
        initial_scan_results: Dict[str, Any] = {
            "repositoryInfo": None, "directoryStructure": None,
            "documentationFiles": None, "configurationFiles": None,
        }
        for scanner_class, config in self.scanner_classes_with_configs:
            if not issubclass(scanner_class, BaseRepoScanner):
                self.logger.error(f"Provided class {scanner_class.__name__} is not a subclass of BaseRepoScanner. Skipping.")
                continue
            scanner_instance = scanner_class(self.repo_path, config=config)
            self.logger.info(f"Executing scanner: {scanner_class.__name__}")
            results =scanner_instance.execute() #scanner_instance.execute_and_report()
            status_info = scanner_instance.get_status()
            key_name_map = {
                "RepositoryMetadataScanner": "repositoryInfo", "DirectoryTreeScanner": "directoryStructure",
                "DocumentationFileScanner": "documentationFiles", "ConfigurationFileScanner": "configurationFiles"
            }
            target_key = key_name_map.get(scanner_class.__name__, scanner_class.__name__) # フォールバックキー
            if status_info["status"] == "success":
                initial_scan_results[target_key] = results
            else:
                self.logger.error(f"Scanner {scanner_class.__name__} failed: {status_info['error_message']}")
                initial_scan_results[target_key] = {"error": status_info['error_message'], "status": "failure"}

        web_research_context_for_payload = {
            "rawDocumentContent": self.web_research_document_content,
            "sourceDescription": "Gemini Advanced Deep Research Document"
        }
        self.compiled_data = {
            "initialRepositoryScanData": initial_scan_results,
            "webResearchContext": web_research_context_for_payload
        }
        self.logger.info("Compilation of initial scan data finished.")
        return self.compiled_data

    def report_compiled_data(self, indent: int = 2, ensure_ascii: bool = False) -> None:
        print(f"--- Compiled Initial Scan Data Report for: {self.repo_path} ---")
        if self.compiled_data:
            print("Compiled Data:")
            try:
                data_to_report = self.compiled_data.copy()
                if "webResearchContext" in data_to_report and "rawDocumentContent" in data_to_report["webResearchContext"]:
                    content_preview = data_to_report["webResearchContext"]["rawDocumentContent"][:300]
                    if len(data_to_report["webResearchContext"]["rawDocumentContent"]) > 300:
                        content_preview += "..."
                    data_to_report["webResearchContext"] = {
                        "rawDocumentContent_preview": content_preview,
                        "sourceDescription": data_to_report["webResearchContext"].get("sourceDescription")
                    }
                print(json.dumps(data_to_report, ensure_ascii=ensure_ascii, indent=indent, default=str))
            except TypeError as e:
                print(f"Could not serialize compiled data to JSON: {e}")
                print("Raw compiled data (error during custom reporting):", self.compiled_data)
        else:
            print("No compiled data available. Run compile_scan_data() first.")
        print(f"--- End of Compiled Initial Scan Data Report ---\n")

# --- Colabでの実行例 ---
if __name__ == '__main__':


    if not TEST_REPO_PATH.is_dir() or not (TEST_REPO_PATH / ".git").is_dir():
        print(f"Error: The path '{TEST_REPO_PATH}' is not a valid Git repository. Please provide a valid path.")
    else:
        # --- Testing InitialScanCompiler ---
        print(f"\n--- Testing InitialScanCompiler for: {TEST_REPO_PATH} ---")

        # 各スキャナのコンフィグを設定

        # モックデータ例 (実際には各スキャナの実行結果)
        mock_repo_metadata = {"name": "act_repo_mock", "url": "https://github.com/nektos/act.git", "statistics": {"total_files": 100}}
        mock_dir_tree = {"name": ".", "type": "directory", "children": [{"name": "src", "type": "directory"}]}
        mock_docs = [{"path": "README.md", "snippet": "This is a mock README."}]
        mock_configs = [{"path": "package.json", "fileType": "NPM_PackageConfig", "keyInfoExtracted": {"name": "mock-package"}}]

        scanners_to_run = [
            (RepositoryMetadataScanner, {"name": "RepositoryMetadataScanner", "mock_result": mock_repo_metadata}),
            (DirectoryTreeScanner, {"name": "DirectoryTreeScanner", "depth_limit": 2, "mock_result": mock_dir_tree}),
            (DocumentationFileScanner, {"name": "DocumentationFileScanner", "snippet_length": 100, "mock_result": mock_docs}),
            (ConfigurationFileScanner, {"name": "ConfigurationFileScanner",
                           "target_config_descriptors": [{"filename_pattern": r"package\.json$"}],
                           "mock_result": mock_configs
            })
        ]



        mock_web_research_content = "プロジェクト「MockAct」はローカル実行ツールです。主要ドキュメントはインストールガイドです。"

        compiler = InitialScanCompiler(
            str(TEST_REPO_PATH),
            scanners_to_run,
            web_research_document_content=mock_web_research_content
        )
        compiled_results = compiler.compile_scan_data()
        compiler.report_compiled_data()

        if compiled_results:
            print("\nSuccessfully compiled initial scan data.")
            # この compiled_results が AnalysisPayload.json の
            # initialRepositoryScanData と webResearchContext を含むデータとなり、
            # 次のタスク1.2 (AI初期多角分析) の入力となります。

            # 例: compiled_results["initialRepositoryScanData"]["repositoryInfo"] でメタデータにアクセス
            # 例: compiled_results["webResearchContext"]["projectOfficialWebsite"] でWeb調査結果にアクセス

            # 後続のタスク1.2の関数呼び出しイメージ (スタブ)
            # ai_analysis_results = generate_initial_ai_analysis(
            #     initial_scan_data=compiled_results["initialRepositoryScanData"],
            #     web_research_data=compiled_results["webResearchContext"],
            #     concept_doc_id="YOUR_CONCEPT_DOC_ID", # Google Doc ID
            #     brush_catalog_doc_id="YOUR_BRUSH_CATALOG_DOC_ID", # Google Doc ID
            #     ai_client=None, # 実際のGemini APIクライアント
            #     target_repo_context=compiled_results["initialRepositoryScanData"]["repositoryInfo"] # 例
            # )
            # print("\n(Conceptual) AI Analysis Results would be processed next:")
            # print(json.dumps(ai_analysis_results, indent=2, ensure_ascii=False, default=str)) # ai_analysis_resultsはまだ未定義


# 新しいセクション

In [71]:
import os
import json
import logging
import requests
import pickle # For token storage
from google.auth.transport.requests import Request
from pathlib import Path
# from google.oauth2 import service_account # OAuthでは直接使わない場合もある
from googleapiclient.discovery import build
from google_auth_oauthlib.flow import InstalledAppFlow # OAuth用
import base64
import os
from google import genai
from google.genai import types

# ロガーの設定 (必要に応じて調整)
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')


class GeminiAIClient: # ユーザー提供のクライアントのスタブ
  def __init__(self):
    if LOCAL:
        load_dotenv()  # .envファイルを読み込む
        GEMINI_API_KEY = os.getenv('GOOGLE_API_KEY')

    else:
        GEMINI_API_KEY = userdata.get('GOOGLE_API_KEY')
    self.client = genai.Client(api_key=GEMINI_API_KEY)

  def generate(self,prompt:str):
      model = "gemini-2.5-pro-preview-05-06"
      contents = [
          types.Content(
              role="user",
              parts=[
                  types.Part.from_text(text=prompt),
              ],
          )
      ]
      generate_content_config = types.GenerateContentConfig(
          safety_settings=[
              types.SafetySetting(
                  category="HARM_CATEGORY_SEXUALLY_EXPLICIT",
                  threshold="BLOCK_NONE",  # Block none
              ),
              types.SafetySetting(
                  category="HARM_CATEGORY_DANGEROUS_CONTENT",
                  threshold="BLOCK_NONE",  # Block none
              ),
          ],
          response_mime_type="application/json",
      )
      response  =""
      for chunk in self.client.models.generate_content_stream(
          model=model,
          contents=contents,
          config=generate_content_config,
      ):
          print(chunk.text, end="")
          response += chunk.text
      return response





def get_google_api_services():
    """
    Google APIの認証情報を取得し、DocsとDriveのサービスオブジェクトを返す。
    Colab環境とローカル環境で認証方法を切り替える。
    """
    SCOPES = [
        'https://www.googleapis.com/auth/documents',
        'https://www.googleapis.com/auth/drive'
    ]

    if LOCAL:
        logging.info("ローカル環境として認証処理を開始します (OAuth 2.0)。")
        load_dotenv()
        client_secret_file_path = os.getenv('GOOGLE_CLIENT_SECRET_JSON_PATH')
        if not client_secret_file_path:
            logging.error("ローカル実行用に GOOGLE_CLIENT_SECRET_JSON_PATH 環境変数を設定してください。")
            return None, None
        if not Path(client_secret_file_path).exists():
            logging.error(f"クライアントシークレットファイルが見つかりません: {client_secret_file_path}")
            return None, None
        return get_google_api_services_with_oauth(client_secret_file_path, SCOPES, token_path='local_token.pickle')
    else:
        logging.info("Colab環境として認証処理を開始します (auth.authenticate_user)。")
        try:
            auth.authenticate_user()
            docs_service = build('docs', 'v1')
            drive_service = build('drive', 'v3')
            logging.info("Google Docs API および Drive API のサービスオブジェクトを正常に作成しました (Colab auth)。")
            return docs_service, drive_service
        except Exception as e:
            logging.error(f"Colabユーザー認証またはAPIサービスオブジェクトの作成に失敗: {e}")
            return None, None


# --- Googleドキュメント読み込みヘルパー関数 (タスク1.2の一部) ---
def load_text_from_google_doc(doc_id: str, gdoc_service_client: Any) -> Optional[str]:
    """
    指定されたGoogleドキュメントIDからテキスト内容全体を読み込む。
    Args:
        doc_id (str): GoogleドキュメントのID。
        gdoc_service_client (Any): 初期化済みのGoogle Docs APIサービスクライアント。
    Returns:
        Optional[str]: ドキュメントのテキスト内容。エラー時はNone。
    """
    if not gdoc_service_client:
        logging.error("Google Docs service client is not available.")
        return None
    try:
        logging.info(f"Attempting to load content from Google Doc ID: {doc_id}")
        doc = gdoc_service_client.documents().get(documentId=doc_id).execute()
        doc_content = doc.get('body').get('content')

        text_elements = []
        if doc_content:
            for value in doc_content:
                if 'paragraph' in value:
                    elements = value.get('paragraph').get('elements')
                    for elem in elements:
                        if 'textRun' in elem:
                            text_elements.append(elem.get('textRun').get('content'))

        full_text = "".join(text_elements) if text_elements else None
        if full_text:
            logging.info(f"Successfully loaded content from Google Doc ID: {doc_id} (length: {len(full_text)})")
        else:
            logging.warning(f"No text content found or extracted from Google Doc ID: {doc_id}")
        return full_text
    except Exception as e:
        logging.error(f"Failed to load content from Google Doc ID {doc_id}: {e}", exc_info=True)
        return None

def extract_definitions_from_doc_content(doc_content: Optional[str], expected_keys_map: Dict[str, str]) -> Dict[str, str]:
    """
    ドキュメント内容（文字列）から、期待されるキーに対応する定義文を抽出する。
    Args:
        doc_content (Optional[str]): Googleドキュメントから読み込んだテキスト内容。
        expected_keys_map (Dict[str, str]): 抽出したいキーと、ドキュメント内での目印となる文字列の正規表現パターンのマッピング。
                                          例: {"QF_THESIS": r"Q-F \(赤の様相\) テーゼ:\s*(.+)", ...}
    Returns:
        Dict[str, str]: 抽出された定義の辞書。見つからない場合は指定文字列。
    """
    definitions: Dict[str, str] = {}
    default_not_found_msg = "Definition not found in document content."
    if not doc_content:
        return {key: f"Error: Document content for definitions is not available." for key in expected_keys_map}

    for key, regex_pattern in expected_keys_map.items():
        try:
            match = re.search(regex_pattern, doc_content, re.MULTILINE)
            if match and match.group(1):
                definitions[key] = match.group(1).strip()
            else:
                definitions[key] = f"{default_not_found_msg} (Key: {key})"
        except re.error as e:
            logging.error(f"Regex error for key '{key}' with pattern '{regex_pattern}': {e}")
            definitions[key] = f"Error: Invalid regex pattern for key '{key}'."
    return definitions

def extract_brush_summaries_from_doc_content(doc_content: Optional[str]) -> List[Dict[str, str]]:
    """
    ドキュメント内容（文字列）から、各ブラシのID、核心思想、主要な問いを抽出する。
    Args:
        doc_content (Optional[str]): Googleドキュメントから読み込んだブラシカタログの内容。
    Returns:
        List[Dict[str, str]]: 各ブラシのサマリー情報のリスト。
    """
    summaries: List[Dict[str, str]] = []
    default_not_found_msg = "Brush summary not found or format error."
    if not doc_content:
        return [{"brushId": "ERROR_NO_CONTENT", "core_idea_summary": default_not_found_msg, "main_question_summary": ""}]

    # 想定するフォーマット例 (Markdownのリスト形式):
    # - BRUSH_ID_V1: これが核心思想です。(主要な問い: これが主要な問いですか？)
    # - BRUSH_ANOTHER_V1: 別の思想。(主要な問い: 別の問い。)
    # 正規表現で各行をパース
    # パターン: 先頭が"- "、次にブラシID(英数字とアンダースコア)、":"、核心思想、任意で"(主要な問い: ...)"
    pattern = re.compile(r"^\s*-\s*(BRUSH_[A-Z0-9_]+V\d+)\s*:\s*(.*?)(?:\s*\(\s*主要な問い\s*:\s*(.*?)\s*\))?\s*$", re.MULTILINE)

    matches = pattern.findall(doc_content)

    for match in matches:
        brush_id, core_idea, main_question = match
        summaries.append({
            "brushId": brush_id.strip(),
            "core_idea_summary": core_idea.strip().rstrip('.'),
            "main_question_summary": main_question.strip() if main_question else "N/A"
        })

    if not summaries: # もし上記のパーサーで何も見つからなければ、エラーを示すか、空リストを返す
        logging.warning("No brush summaries extracted. Check document format or content.")
        return [{"brushId": "ERROR_NO_MATCH", "core_idea_summary": default_not_found_msg, "main_question_summary": ""}]
    return summaries


# --- タスク1.2: AI初期多角分析（マスタープロンプト）機能の「型」定義 ---
# (Googleドキュメント読み込みヘルパー関数は前回Canvasで定義済み・実装済みと仮定)

# Gemini APIクライアントインターフェースの想定（コメント）
# class GeminiAIClient:
#     def __init__(self, api_key: Optional[str] = None): pass
#     def generate_content(self, prompt: str) -> str: return "{\"overallRepositoryImpression_ja\": \"Mock AI response\"}" # モック応答

def build_master_prompt_from_template(
    template_str: str,
    scan_data: Dict[str, Any],
    web_research_content: str,
    concept_defs_text: str,
    brush_summaries_text: str,
    repo_context: Dict[str, Any]
) -> str:
    """
    マスタープロンプトテンプレートに、各種入力データを適切にフォーマットして埋め込む。
    """
    prompt = template_str
    prompt = prompt.replace("{{CONCEPT_DEFINITIONS_TEXT_PLACEHOLDER}}", concept_defs_text)
    prompt = prompt.replace("{{BRUSH_CATALOG_SUMMARY_TEXT_PLACEHOLDER}}", brush_summaries_text)
    scan_data_str = json.dumps(scan_data, indent=2, ensure_ascii=False, default=str)
    prompt = prompt.replace("{{initial_repository_scan_data_json}}", f"\n```json\n{scan_data_str}\n```")
    prompt = prompt.replace("{{external_web_research_data_raw_text}}", f"\n<web_research_document>\n{web_research_content}\n</web_research_document>")
    # repo_contextの埋め込み (テンプレート側で {{repo_context.name}} のようにアクセスする想定)
    # この関数では、テンプレートエンジンがrepo_contextを直接扱えると仮定するか、
    # 個別のキーを置換するロジックを追加する。ここでは前者と仮定。
    # (簡易的な置換例)

    for key, value in repo_context.items():
        prompt = prompt.replace(f"{{{{repo_context.{key}}}}}", str(value))

    logging.info(f"Master prompt constructed (first 500 chars):\n{prompt[:500]}...")
    return prompt

def parse_and_validate_ai_initial_analysis_response(ai_response_json_str: str) -> Optional[Dict[str, Any]]:
    """
    AIからのJSON文字列応答を検証し、期待されるinitialMultiBrushAIAnalysisの構造に変換・整形する。
    """
    try:
        parsed_response = json.loads(ai_response_json_str)
        # ここでスキーマ検証を行う (必須キー、型など)
        required_top_keys = ["overallRepositoryImpression_ja", "analysisByBrush", "hypotheses"]
        if not all(key in parsed_response for key in required_top_keys):
            raise ValueError(f"AI response is missing one or more required top-level keys: {required_top_keys}")

        if not isinstance(parsed_response["analysisByBrush"], list) or \
           not isinstance(parsed_response["hypotheses"], list):
            raise ValueError("'analysisByBrush' and 'hypotheses' must be lists.")

        # hypotheses内の各オブジェクトの必須フィールドチェック (簡易版)
        for hyp in parsed_response.get("hypotheses", []):
            required_hyp_keys = ["hypothesisId", "derivingBrushIds", "hypothesisStatement", "confidenceLevel",
                                 "supportingEvidenceFromScan_description_ja", "areasToValidate",
                                 "suggestedValidationActions", "expectedOutcomeIfConfirmed", "status"]
            if not all(key in hyp for key in required_hyp_keys):
                raise ValueError(f"Hypothesis object is missing required fields: {hyp.get('hypothesisId', 'Unknown ID')}")

        logging.info("AI response parsed and validated successfully.")
        return parsed_response
    except json.JSONDecodeError as e:
        logging.error(f"Failed to parse AI response as JSON: {e}\nResponse (first 500 chars): {ai_response_json_str[:500]}")
        return None
    except ValueError as e: # スキーマ検証エラー
        logging.error(f"AI response failed schema validation: {e}")
        return None
    except Exception as e: # その他の予期せぬエラー
        logging.error(f"Unexpected error parsing AI response: {e}", exc_info=True)
        return None

def generate_initial_ai_analysis(
    initial_scan_data: Dict[str, Any],
    web_research_doc_id: str,
    concept_doc_id: str,
    brush_catalog_doc_id: str,
    gdoc_service_client: Any, # Google Docs API client (ユーザー提供)
    ai_client: Any, # Gemini API client (ユーザー提供)
    target_repo_context: Dict[str, Any],
    master_prompt_template_string: str
) -> Optional[Dict[str, Any]]:
    """
    初期スキャンデータ、Web調査結果、動的に読み込んだ定義を基にマスタープロンプトを生成し、
    AIにリポジトリの初期多角分析と検証可能な仮説リストを生成させる。
    """
    logger = logging.getLogger("generate_initial_ai_analysis")
    logger.info("Starting generation of initial AI analysis...")
    web_research_document_content = load_text_from_google_doc(web_research_doc_id, gdoc_service_client)
    concept_doc_raw_content = load_text_from_google_doc(concept_doc_id, gdoc_service_client)
    brush_catalog_raw_content = load_text_from_google_doc(brush_catalog_doc_id, gdoc_service_client)

    if not concept_doc_raw_content or not brush_catalog_raw_content:
        logger.error("Failed to load concept or brush catalog documents. Aborting AI analysis.")
        return None


    final_prompt = build_master_prompt_from_template(
        template_str=master_prompt_template_string,
        scan_data=initial_scan_data,
        web_research_content=web_research_document_content,
        concept_defs_text=concept_doc_raw_content,
        brush_summaries_text=brush_catalog_raw_content,
        repo_context=target_repo_context
    )

    ai_response_str = ai_client.generate(final_prompt) # 実際のAI呼び出し
    ai_response_str = ai_response_str

    if not ai_response_str:
        logger.error("AI API call failed or returned empty response.")
        return None

    parsed_analysis = parse_and_validate_ai_initial_analysis_response(ai_response_str)

    if not parsed_analysis:
        logger.error("Failed to parse or validate AI response for initial analysis.")
        return None

    logger.info("Initial AI analysis and hypothesis generation completed successfully.")
    return parsed_analysis


# --- Colabでの実行例 (タスク1.2の呼び出しイメージ) ---
if __name__ == '__main__':

    if not TEST_REPO_PATH.is_dir() or not (TEST_REPO_PATH / ".git").is_dir():
        print(f"Error: The path '{TEST_REPO_PATH}' is not a valid Git repository. Please provide a valid path.")
    else:
        # --- 1. InitialScanCompilerの実行 ---
        print(f"\n--- Running InitialScanCompiler for: {TEST_REPO_PATH} ---")
        scanners_to_run_actual = [
            (RepositoryMetadataScanner, {"remote_name": "origin"}),
            (DirectoryTreeScanner, {"depth_limit": 1}), # 深さ1に制限して出力を簡潔に
            (DocumentationFileScanner, {"snippet_length": 100}),
            (ConfigurationFileScanner, {"target_config_descriptors": [{"filename_pattern": r"package\.json$"}]})
        ]
        mock_web_research_content = "プロジェクト「Act」はGitHub Actionsのローカル実行ツールであり、Go言語で開発されています。Dockerに強く依存し、開発者に迅速なフィードバックループを提供することを目的としています。公式サイトやGitHubリポジトリには豊富なドキュメントが存在します。"

        compiler = InitialScanCompiler(
            str(TEST_REPO_PATH),
            scanners_to_run_actual,
            web_research_document_content=mock_web_research_content
        )
        compiled_scan_results_payload = compiler.compile_scan_data()

        if compiled_scan_results_payload and compiled_scan_results_payload.get("initialRepositoryScanData"):
            print("\nSuccessfully compiled initial scan data.")
            # compiler.report_compiled_data() # 必要なら詳細表示

            # --- 2. generate_initial_ai_analysis の呼び出し (モック) ---
            print(f"\n--- Calling generate_initial_ai_analysis (mocked AI & GDoc clients) ---")

            mock_concept_doc_id = "1AAWHFPxajtj-NKMgu7q-icYx9C4W1fyIZ0rd_OOCXUM" # Google Doc ID
            mock_brush_catalog_doc_id = "1VuNXyK7IAyVh5RHPhqtmUmzEoVJNoHwij41Q23SKtCQ" # Google Doc ID
            mock_web_research_doc_id = "1YQbqBCzAHXPTz5gdY5wq9JxkrDQJXolNR0JGSi17Kfo" # Google Doc ID



            # マスタープロンプトテンプレート文字列 (turn_57のものをベースに、プレースホルダーを調整)
            master_prompt_template = """
            ## システムインストラクション (共通部分) ##
            あなたは、提供される以下の『概念定義』と『デザイン思想ブラシカタログ』を深く理解し、それらを分析の基盤として活用する、経験豊富なソフトウェアリポジトリアナリストです。
            あなたの主要なタスクは、提供される『リポジトリ初期スキャンデータ』と『外部Web調査結果』を、これらの概念とブラシのレンズを通して多角的に分析し、リポジトリ全体に関する網羅的な初期評価と、さらなる詳細検証に適した具体的な『検証可能な仮説』を複数提示することです。
            応答は、指示された厳密なJSON形式に従ってください。

            ## 参照される概念定義とブラシカタログの概要 ##
            ### 「3+1構造」と各様相のテーゼ ###
            {{CONCEPT_DEFINITIONS_TEXT_PLACEHOLDER}}

            ### 「デザイン思想ブラシカタログ」の概要 ###
            {{BRUSH_CATALOG_SUMMARY_TEXT_PLACEHOLDER}}

            ## 出力形式に関する厳密な指示 ##
            あなたの応答は、以下のキーを持つ単一のJSONオブジェクトでなければなりません:
            - "overallRepositoryImpression_ja": (リポジトリ全体の第一印象と、複数のブラシの観点を踏まえた自由記述形式の日本語サマリー。500字以内目安)
            - "analysisByBrush": (各デザイン思想ブラシを適用した結果のサマリーと、そのブラシから特に強く示唆される仮説IDのリストを含むオブジェクトの配列。各要素は `{ "brushId": string, "summaryForRepo_ja": string, "relatedHypothesisIds": string[] }` の形式)
            - "hypotheses": (「検証可能な仮説」オブジェクトの構造。各オブジェクトは後述の指定されたフィールドを全て含むこと)


            ### 「検証可能な仮説」オブジェクトの構造 ###
            各仮説オブジェクトは、以下のフィールドを厳密に含んでください:
            - "hypothesisId": (文字列、例: "BRUSH_MINIMALISM_hyp_001")
            - "derivingBrushIds": (文字列の配列、この仮説生成に最も寄与したブラシIDを1つ以上リストアップ)
            - "hypothesisStatement": { "ja": "日本語の仮説文", "en": "English hypothesis statement" }
            - "confidenceLevel": ("High" | "Medium" | "Low")
            - "supportingEvidenceFromScan_description_ja": (文字列、初期スキャンデータのどの部分を根拠と判断したかの人間が理解できる言葉での記述。具体的なデータ値やファイル名・ディレクトリ名にも言及すること。)
            - "areasToValidate": [ { "path": "初期スキャンデータに存在するリポジトリ内パス", "validationGoal_ja": "日本語での検証目標" } ] (配列、複数指定可)
            - "suggestedValidationActions": [ { "actionId": "AIが生成するアクションID (例: val_act_001)", "actionType": (提供される定義済み検証アクションタイプから選択), "targetPath": "areasToValidateで指定したパス、またはそれに関連するパス", "parameters": { /* アクションに応じたパラメータオブジェクト */ }, "description_ja": "日本語での検証アクションの具体的説明" } ] (配列、複数指定可)
            - "expectedOutcomeIfConfirmed": { "ja": "日本語での期待される結果（Q-F, Q-TP, Q-AIへの影響など）", "en": "English expected outcome" }
            - "status": "PENDING_VALIDATION" (固定値))

            ## 分析対象データ ##
            ### リポジトリ初期スキャンデータ ###
            {{initial_repository_scan_data_json}}

            ### 外部Web調査結果 ###
            {{external_web_research_data_raw_text}}

            ## 指示 ##
            1.  まず、上記全ての入力情報を踏まえ、リポジトリ全体の印象と主要な特徴について、複数のデザイン思想ブラシの観点を横断的に考慮した上で、`overallRepositoryImpression_ja`として要約してください。
            2.  次に、`analysisByBrush`配列を生成してください。この配列の各要素は、個々の「デザイン思想ブラシ」（システムインストラクションで提示されたカタログ内のもの全て）を適用した際の、リポジトリ全体に対する評価サマリー（`summaryForRepo_ja`）と、そのブラシの観点から特に強く示唆され、後続の`hypotheses`リストに含めるべき仮説のID（`hypothesisId`）のリスト（`relatedHypothesisIds`）を含みます。
            3.  最後に、最も重要なタスクとして、`hypotheses`配列を生成してください。各「デザイン思想ブラシ」および「3+1構造」の各様相の観点から、リポジトリの特性について具体的で検証可能な仮説を**最低5つ以上、最大15個まで**提示してください。各仮説は、前述の厳密なJSONオブジェクト構造に従ってください。
                - 仮説は、初期スキャンデータやWeb調査結果の具体的な情報を根拠（`supportingEvidenceFromScan_description_ja`）として示すこと。
                - 検証すべき箇所（`areasToValidate`）は、提供された初期スリーンデータ内に存在する実際のパスを指定すること。
                - 推奨される検証アクション（`suggestedValidationActions`）は、具体的で実行可能な内容とし、`actionType`は提供されたリスト（例: `["FETCH_AND_ANALYZE_FILE_CONTENT_FOR_KEYWORDS", "CALCULATE_DIRECTORY_METRICS", "AI_EVALUATE_TARGET_WITH_BRUSHES", "VERIFY_STRUCTURAL_PATTERN"]`）から選択すること。
            """

            #追加した関数を使用して、サービスを取得
            docs_service, drive_service = get_google_api_services()

            mock_ai_client = GeminiAIClient()

            initial_ai_analysis_result = generate_initial_ai_analysis(
                initial_scan_data=compiled_scan_results_payload["initialRepositoryScanData"],
                web_research_doc_id=mock_web_research_doc_id,
                concept_doc_id=mock_concept_doc_id,
                brush_catalog_doc_id=mock_brush_catalog_doc_id,
                gdoc_service_client=docs_service,
                ai_client=mock_ai_client,
                target_repo_context=compiled_scan_results_payload["initialRepositoryScanData"].get("repositoryInfo", {}),
                master_prompt_template_string=master_prompt_template
            )

            if initial_ai_analysis_result:
                print("\n--- Initial AI Analysis and Hypotheses (Mocked AI & GDoc Response) ---")
                pprint.pp(json.dumps(initial_ai_analysis_result, indent=2, ensure_ascii=False, default=str))
            else:
                print("\nFailed to generate initial AI analysis.")
        else:
            print("\nInitial scan compilation failed. Cannot proceed to AI analysis.")



--- Running InitialScanCompiler for: /content/drive/MyDrive/github/act ---

Successfully compiled initial scan data.

--- Calling generate_initial_ai_analysis (mocked AI & GDoc clients) ---
{
  "overallRepositoryImpression_ja": "nektos/actは、GitHub Actionsワークフローをローカル環境で実行するためのGo言語製（初期スキャンデータの主要言語JavaScriptは、テストデータ内のNode.jsコードによるものと推察）CLIツールである。Dockerへの強い依存(Q-AI的効率性、BRUSH_BRUTALISM)を基盤に、開発者へ迅速なフィードバック(Q-F的DevEx向上)を提供することを主目的とする。多数の設定ファイル群(.golangci.yml, Makefile等)はQ-F的な自動化と規律への強い志向を示し、200名超の貢献者数はQ-TP的な活発なコミュニティと有機的成長(BRUSH_ORGANICDESIGN)を示唆する。`cmd`と`pkg`の分離(BRUSH_MODERNISM)といった構造的明快さ、`README.md`のロゴ(BRUSH_HEROIMAGE)による第一印象への配慮も見られる。一方で、Windowsサポートの課題(BRUSH_ASYMMETRICALDESIGN)など、特定領域への選択と集中も伺える。全体として、実用性と開発効率を追求した、GitHub Actionsエコシステムに深く根差したツールという印象を受ける。",
  "analysisByBrush": [
    {
      "brushId": "BRUSH_MINIMALISM_V1",
      "summaryForRepo_ja": "actのコア機能はDockerとGo標準ライブラリに依存し、外部ライブラリを最小限に抑えている可能性があり、これはミニマリズムの「本質的要素への集中」に合致する。特に、ローカル実行という単一目的に特化している点は、Q-AI的な効率性を追求する姿勢を示す。ただし、`pkg/run

In [None]:


# Googleドキュメント読み込みヘルパー関数の「型」定義（スタブ）
def load_text_from_google_doc(doc_id: str, gdoc_service_client: Any) -> Optional[str]:
    """
    指定されたGoogleドキュメントIDからテキスト内容全体を読み込む（スタブ）。
    実際の処理では、gdoc_service_clientを使ってGoogle Docs APIを呼び出す。
    Args:
        doc_id (str): GoogleドキュメントのID。
        gdoc_service_client (Any): 初期化済みのGoogle Docs APIサービスクライアント。
    Returns:
        Optional[str]: ドキュメントのテキスト内容。エラー時はNone。
    """
    # モック実装: 実際にはAPI呼び出し
    if doc_id == "MOCK_CONCEPT_DOC_ID":
        return """
        ## 「3+1構造」と各様相のテーゼ (モック) ##
        - Q-F (赤の様相) テーゼ: アジャイルな計画とイテレーションからのDevSecOps...
        - Q-TP (緑の様相) テーゼ: コンテキストアウェアネスを伴ったナレッジグラフ...
        - Q-AI (青の様相) テーゼ: コードの質は、反射的有効性を示すミニマルな設計...
        """
    elif doc_id == "MOCK_BRUSH_CATALOG_DOC_ID":
        return """
        ## 「デザイン思想ブラシカタログ」の概要 (モック) ##
        - BRUSH_MINIMALISM_V1: 本質への集中、簡潔性。主要な問い: 最小限の要素で...
        - BRUSH_MODERNISM_V1: 形態は機能に従う、合理的設計。主要な問い: 構造は機能と一致しているか...
        """
    logging.warning(f"Mocked load_text_from_google_doc called for unknown doc_id: {doc_id}")
    return None

def extract_definitions_from_doc_content(doc_content: Optional[str], expected_keys_map: Dict[str, str]) -> Dict[str, str]:
    """
    ドキュメント内容（文字列）から、期待されるキーに対応する定義文を抽出する（スタブ）。
    Args:
        doc_content (Optional[str]): Googleドキュメントから読み込んだテキスト内容。
        expected_keys_map (Dict[str, str]): 抽出したいキーと、ドキュメント内での目印となる文字列のマッピング。
                                          例: {"QF_THESIS": "Q-F (赤の様相) テーゼ:", ...}
    Returns:
        Dict[str, str]: 抽出された定義の辞書。見つからない場合は空文字など。
    """
    definitions: Dict[str, str] = {}
    if not doc_content:
        return {key: "Error: Document content not available." for key in expected_keys_map}

    # モック実装: 実際には正規表現やセクションパーサーで抽出
    for key, marker in expected_keys_map.items():
        start_index = doc_content.find(marker)
        if start_index != -1:
            end_index = doc_content.find("\n", start_index + len(marker)) # 次の改行まで
            if end_index != -1:
                definitions[key] = doc_content[start_index + len(marker):end_index].strip()
            else:
                definitions[key] = doc_content[start_index + len(marker):].strip() # 最後まで
        else:
            definitions[key] = f"Definition for '{key}' not found in mock content."
    return definitions

def extract_brush_summaries_from_doc_content(doc_content: Optional[str]) -> List[Dict[str, str]]:
    """
    ドキュメント内容（文字列）から、各ブラシのID、核心思想、主要な問いを抽出する（スタブ）。
    Args:
        doc_content (Optional[str]): Googleドキュメントから読み込んだブラシカタログの内容。
    Returns:
        List[Dict[str, str]]: 各ブラシのサマリー情報のリスト。
    """
    summaries: List[Dict[str, str]] = []
    if not doc_content:
        return [{"brushId": "ERROR", "core_idea_summary": "Brush catalog content not available.", "main_question_summary": ""}]

    # モック実装: 実際にはMarkdownパーサーや正規表現で構造的に抽出
    # ここでは、doc_contentが特定のフォーマットであることを期待する
    # 例: "- BRUSH_ID: core idea. (main question: ...)" のような行が複数ある
    for line in doc_content.splitlines():
        if line.startswith("- BRUSH_"):
            parts = line.split(":", 2)
            if len(parts) >= 2:
                brush_id_part = parts[0].replace("- ", "").strip()
                rest = parts[1].strip()
                main_question_summary = ""
                core_idea_summary = rest
                if "(主要な問い:" in rest:
                    idea_parts = rest.split("(主要な問い:", 1)
                    core_idea_summary = idea_parts[0].strip().rstrip('.')
                    if len(idea_parts) > 1 and idea_parts[1].endswith(")"):
                        main_question_summary = idea_parts[1][:-1].strip()

                summaries.append({
                    "brushId": brush_id_part,
                    "core_idea_summary": core_idea_summary,
                    "main_question_summary": main_question_summary
                })
    if not summaries: # もし上記の簡易パーサーで何も見つからなければダミーを返す
        summaries.append({"brushId": "BRUSH_MINIMALISM_V1_mock", "core_idea_summary": "本質への集中 (モック)", "main_question_summary": "最小限の要素か？ (モック)"})
        summaries.append({"brushId": "BRUSH_MODERNISM_V1_mock", "core_idea_summary": "形態は機能に従う (モック)", "main_question_summary": "構造は合理的か？ (モック)"})
    return summaries


# Gemini APIクライアントインターフェースの想定（コメント）
# class GeminiAIClient:
#     def __init__(self, api_key: Optional[str] = None):
#         # 実際のクライアント初期化ロジック (ユーザー提供)
#         pass
#
#     def generate_content(self, prompt: str) -> str:
#         # AIにプロンプトを送信し、応答（JSON文字列を期待）を返す (ユーザー提供)
#         # モック実装:
#         logging.info(f"Mock GeminiAIClient.generate_content called with prompt (first 200 chars):\n{prompt[:200]}...")
#         # ここで、マスタープロンプトの期待する出力形式に合わせたモックJSON文字列を返す
#         mock_response_json_str = """
#         {
#           "overallRepositoryImpression_ja": "このリポジトリは、初期スキャンデータとWeb調査結果から判断するに、ミニマリズムとモダニズムの思想を基盤とし、明確な構造と効率性を志向している印象を受けます。特に、依存関係の少なさやトップレベルの整理されたディレクトリ構造がその傾向を示唆しています。",
#           "analysisByBrush": [
#             {
#               "brushId": "BRUSH_MINIMALISM_V1",
#               "summaryForRepo_ja": "リポジトリ全体として、ファイル数や依存関係の少なさからミニマリズムの思想が感じられます。特に設定ファイル群の簡潔さが顕著です。",
#               "relatedHypothesisIds": ["BRUSH_MINIMALISM_V1_hyp_001"]
#             },
#             {
#               "brushId": "BRUSH_MODERNISM_V1",
#               "summaryForRepo_ja": "ディレクトリ構造の論理性や、README.mdでの目的の明確な記述から、モダニズム的な合理的設計の意図が伺えます。",
#               "relatedHypothesisIds": ["BRUSH_MODERNISM_V1_hyp_001"]
#             }
#           ],
#           "hypotheses": [
#             {
#               "hypothesisId": "BRUSH_MINIMALISM_V1_hyp_001",
#               "derivingBrushIds": ["BRUSH_MINIMALISM_V1"],
#               "hypothesisStatement": { "ja": "コア機能を提供するモジュールは、非常に少ない公開APIで構成されている可能性がある。", "en": "Core functional modules might be composed with a very small set of public APIs." },
#               "confidenceLevel": "Medium",
#               "supportingEvidenceFromScan_description_ja": "初期スキャンでの src/core ディレクトリ内のファイル数が比較的少ない。",
#               "areasToValidate": [ { "path": "src/core/", "validationGoal_ja": "src/core/ 内の主要モジュールの公開APIの数と複雑度を調査する。" } ],
#               "suggestedValidationActions": [ { "actionId": "val_core_api_count", "actionType": "EXTRACT_CODE_STRUCTURE", "targetPath": "src/core/index.js", "parameters": {"structureTypes": ["function_signatures", "class_public_methods"]}, "description_ja": "src/core/index.js (または主要エントリポイント) の公開関数/メソッドシグネチャを抽出し、その数をカウントする。" } ],
#               "expectedOutcomeIfConfirmed": { "ja": "Q-AI(ミニマルな設計)の評価が高まる。", "en": "Q-AI (minimalist design) score will be higher." },
#               "status": "PENDING_VALIDATION"
#             },
#             {
#               "hypothesisId": "BRUSH_MODERNISM_V1_hyp_001",
#               "derivingBrushIds": ["BRUSH_MODERNISM_V1"],
#               "hypothesisStatement": { "ja": "リポジトリのディレクトリ構造は、機能的な責務分離を明確に反映している可能性が高い。", "en": "The repository's directory structure likely reflects a clear separation of functional responsibilities." },
#               "confidenceLevel": "High",
#               "supportingEvidenceFromScan_description_ja": "初期スキャンでのトップレベルディレクトリ名 (例: src, docs, tests) が一般的な責務分離パターンと一致する。",
#               "areasToValidate": [ { "path": "src/", "validationGoal_ja": "src/ ディレクトリ以下のサブディレクトリの命名規則と役割の一貫性を確認する。" }, { "path": "tests/", "validationGoal_ja": "tests/ ディレクトリ構造がsrc/の構造と対応しているか確認する。" } ],
#               "suggestedValidationActions": [ { "actionId": "val_src_subdir_consistency", "actionType": "ANALYZE_DIRECTORY_STRUCTURE_NAMING", "targetPath": "src/", "parameters": {}, "description_ja": "src/ 配下のサブディレクトリ名とその中のファイルから役割の一貫性を評価する。" } ],
#               "expectedOutcomeIfConfirmed": { "ja": "Q-F(構造と規律)の評価が高まる。", "en": "Q-F (structure and discipline) score will be higher." },
#               "status": "PENDING_VALIDATION"
#             }
#           ]
#         }
#         """
#         return mock_response_json_str


def build_master_prompt_from_template(
    template_str: str,
    scan_data: Dict[str, Any],
    web_research_content: str,
    concept_defs_text: str, # Google Docから読み込んだ整形済みテキスト
    brush_summaries_text: str, # Google Docから読み込んだ整形済みテキスト
    repo_context: Dict[str, Any]
) -> str:
    """
    マスタープロンプトテンプレートに、各種入力データを適切にフォーマットして埋め込む（スタブ）。
    """
    # モック実装: 実際にはテンプレートエンジン(例: Jinja2)を使うか、str.format()やf-stringで慎重に置換
    prompt = template_str # このテンプレートは turn_57 で定義したものを想定

    # プレースホルダーを実際のデータで置換
    # {{CONCEPT_DEFINITIONS_TEXT}}, {{BRUSH_CATALOG_SUMMARY_TEXT}} はColabがGoogle Docから読み込んだ内容
    # {{INITIAL_REPOSITORY_SCAN_DATA_JSON}}, {{EXTERNAL_WEB_RESEARCH_DATA_RAW_TEXT}} も同様

    # 実際の埋め込み処理 (簡易版)
    # より堅牢な実装では、JSONを文字列化する際のインデントやエスケープに注意
    prompt = prompt.replace("{{CONCEPT_DEFINITIONS_TEXT_PLACEHOLDER}}", concept_defs_text)
    prompt = prompt.replace("{{BRUSH_CATALOG_SUMMARY_TEXT_PLACEHOLDER}}", brush_summaries_text)

    # スキャンデータとWeb調査結果は、AIが解釈しやすいようにプロンプト内で構造化して提示
    # ここでは、JSON文字列として埋め込むことを想定
    scan_data_str = json.dumps(scan_data, indent=2, ensure_ascii=False, default=str)
    prompt = prompt.replace("{{initial_repository_scan_data_json}}", f"\n```json\n{scan_data_str}\n```")

    # Web調査結果は長文の可能性があるため、プロンプト内で適切に区切るか、AIに要約を促す形が良い
    # ここでは、XML風タグで囲んでそのまま渡すことを想定
    prompt = prompt.replace("{{external_web_research_data_raw_text}}", f"\n<web_research_document>\n{web_research_content}\n</web_research_document>")

    # リポジトリコンテキスト (例: プロンプトの最初の方で使う)
    # prompt = f"分析対象リポジトリ: {repo_context.get('name', 'N/A')} ({repo_context.get('url', 'N/A')})\n" + prompt
    # (テンプレート内で直接 {{repo_context.name}} のようにアクセスする方が良いかもしれない)

    logging.info(f"Master prompt constructed (first 500 chars):\n{prompt[:500]}...")
    return prompt

def parse_and_validate_ai_initial_analysis_response(ai_response_json_str: str) -> Optional[Dict[str, Any]]:
    """
    AIからのJSON文字列応答を検証し、期待されるinitialMultiBrushAIAnalysisの構造に変換・整形する（スタブ）。
    """
    try:
        parsed_response = json.loads(ai_response_json_str)
        # ここで、parsed_responseが期待されるスキーマに合致するかを検証するロジックを追加
        # (例: 必須キーの存在チェック、データ型のチェックなど)
        # if "overallRepositoryImpression_ja" not in parsed_response or \
        #    "analysisByBrush" not in parsed_response or \
        #    "hypotheses" not in parsed_response:
        #     raise ValueError("AI response is missing one or more required top-level keys.")
        # for hyp in parsed_response.get("hypotheses", []):
        #     if "hypothesisId" not in hyp or "hypothesisStatement" not in hyp: # 他の必須フィールドもチェック
        #         raise ValueError(f"Hypothesis object is missing required fields: {hyp}")
        logging.info("AI response parsed and validated successfully (mock validation).")
        return parsed_response
    except json.JSONDecodeError as e:
        logging.error(f"Failed to parse AI response as JSON: {e}\nResponse (first 500 chars): {ai_response_json_str[:500]}")
        return None
    except ValueError as e:
        logging.error(f"AI response failed schema validation: {e}")
        return None


def generate_initial_ai_analysis(
    initial_scan_data: Dict[str, Any],
    web_research_document_content: str,
    concept_doc_id: str, # Google Doc ID for "3+1構造" definitions
    brush_catalog_doc_id: str, # Google Doc ID for "デザイン思想ブラシカタログ"
    gdoc_service_client: Any, # Google Docs API client (ユーザー提供) - load_...関数に渡す
    ai_client: Any, # Gemini API client (ユーザー提供)
    target_repo_context: Dict[str, Any],
    master_prompt_template_string: str
) -> Optional[Dict[str, Any]]:
    """
    初期スキャンデータ、Web調査結果、動的に読み込んだ定義を基にマスタープロンプトを生成し、
    AIにリポジトリの初期多角分析と検証可能な仮説リストを生成させる。

    Args:
        initial_scan_data (Dict[str, Any]): InitialScanCompilerの出力のinitialRepositoryScanData部分。
        web_research_document_content (str): Gemini Advancedによる調査報告書の生のテキスト内容。
        concept_doc_id (str): 「3+1構造」概念定義のGoogleドキュメントID。
        brush_catalog_doc_id (str): 「デザイン思想ブラシカタログ」のGoogleドキュメントID。
        ai_client (Any): 初期化済みのGemini APIクライアントオブジェクト。
        target_repo_context (Dict[str, Any]): リポジトリ名、URLなど、プロンプトに含めるコンテキスト。
        master_prompt_template_string (str): マスタープロンプトのテンプレート文字列。

    Returns:
        Optional[Dict[str, Any]]: AnalysisPayload.jsonのinitialMultiBrushAIAnalysisセクションのデータ。
                                   エラー時はNone。
    """
    logger = logging.getLogger("generate_initial_ai_analysis")
    logger.info("Starting generation of initial AI analysis...")

    # --- モック: Googleドキュメントから定義を読み込む処理 (実際にはAPI呼び出し) ---
    # gdoc_service_client は、この関数が呼び出される前に初期化されている想定
    # ここでは、モック関数を直接呼び出す

    concept_doc_raw_content = load_text_from_google_doc(concept_doc_id, gdoc_service_client)
    brush_catalog_raw_content = load_text_from_google_doc(brush_catalog_doc_id, gdoc_service_client)

    if not concept_doc_raw_content or not brush_catalog_raw_content:
        logger.error("Failed to load concept or brush catalog documents. Aborting AI analysis.")
        return None

    # ドキュメント内容から必要な情報を抽出・整形
    # (このキーマップは、Googleドキュメント内の見出しやマーカーと一致させる必要がある)
    concept_keys_map = {
        "QF_THESIS_TEXT": "Q-F (赤の様相) テーゼ:",
        "QTP_THESIS_TEXT": "Q-TP (緑の様相) テーゼ:",
        "QAI_THESIS_TEXT": "Q-AI (青の様相) テーゼ:",
        # 必要なら詳細定義も同様に
    }
    concept_definitions_text = json.dumps(extract_definitions_from_doc_content(concept_doc_raw_content, concept_keys_map), ensure_ascii=False, indent=2)

    brush_summaries_list = extract_brush_summaries_from_doc_content(brush_catalog_raw_content)
    brush_summaries_text = "\n".join([f"- **{s['brushId']}**: {s['core_idea_summary']} (主要な問い: {s['main_question_summary']})" for s in brush_summaries_list])
    # --------------------------------------------------------------------

    # マスタープロンプトの構築
    # テンプレート文字列内のプレースホルダーを実際の情報で置き換える
    # {{design_brush_catalog_summary}} -> brush_summaries_text
    # {{QF_THESIS_TEXT}} など -> concept_definitions_text から取得した個別の定義
    # {{initial_repository_scan_data_json}} -> initial_scan_data
    # {{external_web_research_data_raw_text}} -> web_research_document_content

    # プレースホルダー名をテンプレートと一致させる必要がある
    # ここでは、テンプレートが {{CONCEPT_DEFINITIONS_TEXT_PLACEHOLDER}} と {{BRUSH_CATALOG_SUMMARY_TEXT_PLACEHOLDER}} を
    # 持つと仮定して、それらを置き換える。
    # また、initial_scan_data と web_research_document_content はテンプレート内で直接参照される想定。

    # テンプレートのプレースホルダーを準備
    # これは build_master_prompt_from_template 関数に渡す
    template_vars = {
        "CONCEPT_DEFINITIONS_TEXT_PLACEHOLDER": concept_definitions_text, # 実際には個別の定義を展開
        "BRUSH_CATALOG_SUMMARY_TEXT_PLACEHOLDER": brush_summaries_text,
        "initial_repository_scan_data_json": initial_scan_data, # これらはbuild_master_prompt_from_template内で処理
        "external_web_research_data_raw_text": web_research_document_content,
        # target_repo_context もテンプレート内で利用される想定
    }

    # マスタープロンプトのテンプレート文字列 (turn_57で定義したものを想定)
    # このテンプレート文字列は外部ファイルから読み込むか、定数として定義する
    # master_prompt_template_string = """... (turn_57のテンプレート) ..."""

    # 実際のプロンプト構築 (build_master_prompt_from_template を使う)
    # この関数は、テンプレート内のプレースホルダーをtemplate_varsの値で置き換える
    # ここでは、template_varsのキーとテンプレート内のプレースホルダー名が一致している必要がある
    # 例えば、テンプレート内で {{CONCEPT_DEFINITIONS_TEXT_PLACEHOLDER}} となっていれば、
    # template_vars["CONCEPT_DEFINITIONS_TEXT_PLACEHOLDER"] の値で置き換えられる。

    # テンプレート内のプレースホルダーを修正して、個別の定義を埋め込めるようにする
    # 例: {{QF_THESIS_TEXT}}, {{BRUSH_MINIMALISM_V1_CORE_IDEA}} など
    # そのためには、concept_definitions や brush_summaries_list を直接テンプレートエンジンに渡す方が良い

    # build_master_prompt_from_template の呼び出し方を修正
    final_prompt = build_master_prompt_from_template(
        template_str=master_prompt_template_string,
        scan_data=initial_scan_data,
        web_research_content=web_research_document_content,
        concept_defs_text=concept_definitions_text, # これは概念定義全体のテキスト
        brush_summaries_text=brush_summaries_text, # これはブラシサマリー全体のテキスト
        repo_context=target_repo_context
    )

    # AIクライアントを使ってプロンプトを送信 (ユーザー提供のai_clientを想定)
    # ai_response_str = ai_client.generate_content(final_prompt) # ユーザー提供のクライアントメソッド

    # --- モックAI応答 ---
    # 実際のAI呼び出しの代わりにモック応答を使用
    # このモック応答は、turn_56で定義した「検証可能な仮説」の構造に従う
    mock_ai_response_str = """
    {
      "overallRepositoryImpression_ja": "このリポジトリは、初期スキャンデータとWeb調査結果から判断するに、ミニマリズムとモダニズムの思想を基盤とし、明確な構造と効率性を志向している印象を受けます。特に、依存関係の少なさやトップレベルの整理されたディレクトリ構造がその傾向を示唆しています。",
      "analysisByBrush": [
        {"brushId": "BRUSH_MINIMALISM_V1", "summaryForRepo_ja": "リポジトリ全体として、ファイル数や依存関係の少なさからミニマリズムの思想が感じられます。", "relatedHypothesisIds": ["BRUSH_MINIMALISM_V1_hyp_001"]},
        {"brushId": "BRUSH_MODERNISM_V1", "summaryForRepo_ja": "ディレクトリ構造の論理性や、README.mdでの目的の明確な記述から、モダニズム的な合理的設計の意図が伺えます。", "relatedHypothesisIds": ["BRUSH_MODERNISM_V1_hyp_001"]}
      ],
      "hypotheses": [
        {
          "hypothesisId": "BRUSH_MINIMALISM_V1_hyp_001",
          "derivingBrushIds": ["BRUSH_MINIMALISM_V1"],
          "hypothesisStatement": { "ja": "コア機能を提供するモジュールは、非常に少ない公開APIで構成されている可能性がある。", "en": "Core functional modules might be composed with a very small set of public APIs." },
          "confidenceLevel": "Medium",
          "supportingEvidenceFromScan_description_ja": "初期スキャンでの src/core ディレクトリ内のファイル数が比較的少ない。",
          "areasToValidate": [ { "path": "src/core/", "validationGoal_ja": "src/core/ 内の主要モジュールの公開APIの数と複雑度を調査する。" } ],
          "suggestedValidationActions": [ { "actionId": "val_core_api_count", "actionType": "EXTRACT_CODE_STRUCTURE", "targetPath": "src/core/index.js", "parameters": {"structureTypes": ["function_signatures", "class_public_methods"]}, "description_ja": "src/core/index.js (または主要エントリポイント) の公開関数/メソッドシグネチャを抽出し、その数をカウントする。" } ],
          "expectedOutcomeIfConfirmed": { "ja": "Q-AI(ミニマルな設計)の評価が高まる。", "en": "Q-AI (minimalist design) score will be higher." },
          "status": "PENDING_VALIDATION"
        }
      ]
    }
    """
    ai_response_str = mock_ai_response_str # モックを使用
    # --------------------

    if not ai_response_str:
        logger.error("AI API call failed or returned empty response.")
        return None

    # AI応答をパースして検証
    parsed_analysis = parse_and_validate_ai_initial_analysis_response(ai_response_str)

    if not parsed_analysis:
        logger.error("Failed to parse or validate AI response for initial analysis.")
        return None

    logger.info("Initial AI analysis and hypothesis generation completed successfully.")
    return parsed_analysis


# --- Colabでの実行例 (タスク1.2の呼び出しイメージ) ---
if __name__ == '__main__':

    if not TEST_REPO_PATH.is_dir() or not (TEST_REPO_PATH / ".git").is_dir():
        print(f"Error: The path '{TEST_REPO_PATH}' is not a valid Git repository. Please provide a valid path.")
    else:
        # --- 1. InitialScanCompilerの実行 ---
        print(f"\n--- Running InitialScanCompiler for: {TEST_REPO_PATH} ---")
        scanners_to_run_actual = [
            (RepositoryMetadataScanner, {"remote_name": "origin"}),
            (DirectoryTreeScanner, {"depth_limit": 2, "file_count_threshold": 100}),
            (DocumentationFileScanner, {"snippet_length": 200}),
            (ConfigurationFileScanner, {"target_config_descriptors": [{"filename_pattern": r"package\.json$"}]})
        ]
        mock_web_research_content = "プロジェクト「MockAct」はローカル実行ツールです。主要ドキュメントはインストールガイドです。"

        compiler = InitialScanCompiler(
            str(TEST_REPO_PATH),
            scanners_to_run_actual,
            web_research_document_content=mock_web_research_content
        )
        compiled_scan_results_payload = compiler.compile_scan_data() # initialScanData と webResearchContext を含む
        # compiler.report_compiled_data() # 必要なら表示

        if compiled_scan_results_payload and compiled_scan_results_payload.get("initialRepositoryScanData"):
            print("\nSuccessfully compiled initial scan data.")

            # --- 2. generate_initial_ai_analysis の呼び出し (モック) ---
            print(f"\n--- Calling generate_initial_ai_analysis (mocked AI client) ---")

            # モックのGoogle Docs/AIクライアントとテンプレート
            mock_concept_doc_id = "MOCK_CONCEPT_DOC_ID"
            mock_brush_catalog_doc_id = "MOCK_BRUSH_CATALOG_DOC_ID"

            # ユーザー提供のGemini APIクライアントのスタブ
            class MockGeminiAIClient:
                def generate_content(self, prompt: str) -> str:
                    logging.info(f"Mock GeminiAIClient.generate_content called (prompt length: {len(prompt)})")
                    # turn_57 で定義したマスタープロンプトの期待する出力形式に合わせたモックJSON文字列
                    return """
                    {
                      "overallRepositoryImpression_ja": "モックAIによるリポジトリ全体印象のサマリーです。",
                      "analysisByBrush": [
                        {"brushId": "BRUSH_MINIMALISM_V1", "summaryForRepo_ja": "ミニマリズム観点のモックサマリー。", "relatedHypothesisIds": ["BRUSH_MINIMALISM_V1_hyp_mock_001"]},
                        {"brushId": "BRUSH_MODERNISM_V1", "summaryForRepo_ja": "モダニズム観点のモックサマリー。", "relatedHypothesisIds": ["BRUSH_MODERNISM_V1_hyp_mock_001"]}
                      ],
                      "hypotheses": [
                        {
                          "hypothesisId": "BRUSH_MINIMALISM_V1_hyp_mock_001",
                          "derivingBrushIds": ["BRUSH_MINIMALISM_V1"],
                          "hypothesisStatement": { "ja": "モック仮説：コア機能は少ないAPIで構成されている。", "en": "Mock hypothesis: Core modules have few public APIs." },
                          "confidenceLevel": "Medium",
                          "supportingEvidenceFromScan_description_ja": "初期スキャンのsrc/coreのファイル数が少ない。",
                          "areasToValidate": [ { "path": "src/core/", "validationGoal_ja": "公開APIの数と複雑度を調査。" } ],
                          "suggestedValidationActions": [ { "actionId": "val_mock_core_api", "actionType": "EXTRACT_CODE_STRUCTURE", "targetPath": "src/core/index.js", "parameters": {"structureTypes": ["function_signatures"]}, "description_ja": "src/core/index.jsの公開関数シグネチャを抽出。" } ],
                          "expectedOutcomeIfConfirmed": { "ja": "Q-AI(ミニマル設計)評価向上。", "en": "Q-AI (minimal design) score up." },
                          "status": "PENDING_VALIDATION"
                        }
                      ]
                    }
                    """
            mock_ai_client = MockGeminiAIClient()

            # マスタープロンプトテンプレート文字列 (turn_57のものを簡略化して使用)
            # 実際には、turn_57でFIXした完全なテンプレートを使用する
            master_prompt_template = """
            ## システムインストラクション (共通部分) ##
            ... (あなたの役割定義、概念定義参照指示、出力形式指示) ...
            {{CONCEPT_DEFINITIONS_TEXT_PLACEHOLDER}}
            {{BRUSH_CATALOG_SUMMARY_TEXT_PLACEHOLDER}}

            ## 分析対象データ ##
            ### リポジトリ初期スキャンデータ ###
            {{initial_repository_scan_data_json}}
            ### 外部Web調査結果 ###
            {{external_web_research_data_raw_text}}
            ## 指示 ##
            ... (具体的な分析指示と仮説生成指示) ...
            """


            initial_ai_analysis_result = generate_initial_ai_analysis(
                initial_scan_data=compiled_scan_results_payload["initialRepositoryScanData"],
                web_research_document_content=compiled_scan_results_payload["webResearchContext"]["rawDocumentContent"],
                concept_doc_id=mock_concept_doc_id,
                brush_catalog_doc_id=mock_brush_catalog_doc_id,
                ai_client=mock_ai_client, # モックAIクライアントを使用
                target_repo_context=compiled_scan_results_payload["initialRepositoryScanData"].get("repositoryInfo", {}),
                master_prompt_template_string=master_prompt_template # 上で定義したテンプレート
            )

            if initial_ai_analysis_result:
                print("\n--- Initial AI Analysis and Hypotheses (Mocked AI Response) ---")
                pprint.pp(json.dumps(initial_ai_analysis_result, indent=2, ensure_ascii=False, default=str))

                # この initial_ai_analysis_result を AnalysisPayload.json の
                # initialMultiBrushAIAnalysis セクションに格納する
                # analysis_payload = {
                #    **compiled_scan_results_payload, # initialRepositoryScanData と webResearchContext を展開
                #    "initialMultiBrushAIAnalysis": initial_ai_analysis_result,
                #    "hypotheses": initial_ai_analysis_result.get("hypotheses", []), # トップレベルにも仮説リストを保持する場合
                #    "conceptualMappings": [] # 初期状態は空
                # }
                # print("\n--- Conceptual Full AnalysisPayload.json (Initial) ---")
                # print(json.dumps(analysis_payload, indent=2, ensure_ascii=False, default=str))
            else:
                print("\nFailed to generate initial AI analysis.")
        else:
            print("\nInitial scan compilation failed. Cannot proceed to AI analysis.")



# 新しいセクション

In [49]:
import os
import json
import logging
import requests
import pickle # For token storage
from google.auth.transport.requests import Request
from pathlib import Path
# from google.oauth2 import service_account # OAuthでは直接使わない場合もある
from googleapiclient.discovery import build
from google_auth_oauthlib.flow import InstalledAppFlow # OAuth用

# ロガーの設定
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# --- ユーザー提供の認証関数 (改訂版) ---
LOCAL = False # Colab環境なのでFalseに設定
try:
    from google.colab import drive # Google Driveにアクセスするため
    from google.colab import userdata # Secretsにアクセスするため
    from google.colab import auth # Colabのユーザー認証用
except ImportError:
    LOCAL = True
    from dotenv import load_dotenv # ローカル実行時用

def get_google_api_services_with_oauth(client_secrets_path, scopes, token_path='token.pickle'):
    """
    OAuth 2.0フローを使用して認証し、APIサービスオブジェクトを返す。
    ローカルサーバーを起動して認証コードを取得する。
    """
    creds = None
    if os.path.exists(token_path):
        with open(token_path, 'rb') as token_file:
            creds = pickle.load(token_file)

    if not creds or not creds.valid:
        if creds and creds.expired and creds.refresh_token:
            try:
                creds.refresh(Request())
                logging.info("トークンを正常にリフレッシュしました。")
            except Exception as e:
                logging.warning(f"トークンのリフレッシュに失敗: {e}. 再認証が必要です。")
                creds = None # リフレッシュ失敗時は再認証へ

        if not creds: # credsがNone（初回またはリフレッシュ失敗）の場合
            try:
                flow = InstalledAppFlow.from_client_secrets_file(client_secrets_path, scopes)
                creds = flow.run_local_server(port=0)
                logging.info("OAuth 2.0フローによる認証が完了しました。")
            except Exception as e:
                logging.error(f"OAuth 2.0認証フローの実行に失敗: {e}")
                return None, None

        with open(token_path, 'wb') as token_file:
            pickle.dump(creds, token_file)
            logging.info(f"認証トークンを {token_path} に保存しました。")

    if not creds:
        logging.error("最終的な認証情報の取得に失敗しました。")
        return None, None

    try:
        docs_service = build('docs', 'v1', credentials=creds)
        drive_service = build('drive', 'v3', credentials=creds)
        logging.info("Google Docs API および Drive API のサービスオブジェクトを正常に作成しました (OAuth)。")
        return docs_service, drive_service
    except Exception as e:
        logging.error(f"APIサービスオブジェクトの作成に失敗 (OAuth): {e}")
        return None, None

def get_google_api_services():
    """
    Google APIの認証情報を取得し、DocsとDriveのサービスオブジェクトを返す。
    Colab環境とローカル環境で認証方法を切り替える。
    """
    SCOPES = [
        'https://www.googleapis.com/auth/documents',
        'https://www.googleapis.com/auth/drive'
    ]

    if LOCAL:
        logging.info("ローカル環境として認証処理を開始します (OAuth 2.0)。")
        load_dotenv()
        client_secret_file_path = os.getenv('GOOGLE_CLIENT_SECRET_JSON_PATH')
        if not client_secret_file_path:
            logging.error("ローカル実行用に GOOGLE_CLIENT_SECRET_JSON_PATH 環境変数を設定してください。")
            return None, None
        if not Path(client_secret_file_path).exists():
            logging.error(f"クライアントシークレットファイルが見つかりません: {client_secret_file_path}")
            return None, None
        return get_google_api_services_with_oauth(client_secret_file_path, SCOPES, token_path='local_token.pickle')
    else:
        logging.info("Colab環境として認証処理を開始します (auth.authenticate_user)。")
        try:
            auth.authenticate_user()
            docs_service = build('docs', 'v1')
            drive_service = build('drive', 'v3')
            logging.info("Google Docs API および Drive API のサービスオブジェクトを正常に作成しました (Colab auth)。")
            return docs_service, drive_service
        except Exception as e:
            logging.error(f"Colabユーザー認証またはAPIサービスオブジェクトの作成に失敗: {e}")
            return None, None

class GoogleDocGenerator:
    def __init__(self, docs_service, drive_service, drive_folder_id="1n4YaEJzp_mCYW9QIJGqRyXJNe8_yopNF"):
        self.docs_service = docs_service
        self.drive_service = drive_service
        self.drive_folder_id = drive_folder_id

    def create_document(self, title: str) -> str | None:
        if not self.docs_service or not self.drive_service:
            logging.error("APIサービスが初期化されていません。ドキュメントを作成できません。")
            return None
        try:
            body = {'title': title}
            doc = self.docs_service.documents().create(body=body).execute()
            doc_id = doc.get('documentId')
            logging.info(f"Google Document '{title}' (ID: {doc_id}) を作成しました。")

            if self.drive_folder_id and doc_id:
                file_metadata = self.drive_service.files().get(fileId=doc_id, fields='parents').execute()
                previous_parents = ",".join(file_metadata.get('parents'))

                self.drive_service.files().update(
                    fileId=doc_id,
                    addParents=self.drive_folder_id,
                    removeParents=previous_parents,
                    fields='id, parents'
                ).execute()
                logging.info(f"ドキュメント {doc_id} をDriveフォルダ {self.drive_folder_id} に移動しました。")
            return doc_id
        except Exception as e:
            logging.error(f"Google Documentの作成または移動に失敗: {e}")
            return None
    def create_document_with_tabs(self, title: str, tab_titles: list) -> str | None:
        """
        Googleドキュメントに複数のタブを作成する（REST API直接呼び出し）。
        """
        # 認証トークンを取得
        creds = self.docs_service._http.credentials
        url = "https://docs.googleapis.com/v1/documents"
        headers = {
            "Authorization": f"Bearer {creds.token}",
            "Content-Type": "application/json"
        }
        tabs = []
        for tab_title in tab_titles:
            tabs.append({
                "tabTitle": tab_title,
                "body": {
                    "content": [
                        {
                            "paragraph": {
                                "elements": [
                                    {
                                        "textRun": {
                                            "content": f"{tab_title}の本文\n"
                                        }
                                    }
                                ]
                            }
                        }
                    ]
                }
            })
        data = {
            "title": title,
            "tabs": tabs
        }
        response = requests.post(url, headers=headers, json=data)
        if response.status_code == 200:
            doc_id = response.json()["documentId"]
            logging.info(f"複数タブ付きドキュメント '{title}' (ID: {doc_id}) を作成しました。")
            return doc_id
        else:
            logging.error(f"タブ付きドキュメント作成失敗: {response.text}")
            return None
    def _build_requests_for_test_doc_headings(self, title: str, content_structure: list) -> list:
        requests = []
        current_offset = 1
        for item in content_structure:
            text_to_insert = item['text'] + "\n"
            heading_level = item['level']
            requests.append({
                'insertText': {
                    'location': {
                        'index': current_offset,
                        },
                    'text': text_to_insert,

                }
            })
            if 1 <= heading_level <= 6:
                requests.append({
                    'updateParagraphStyle': {
                        'range': {
                            'startIndex': current_offset,
                            'endIndex': current_offset + len(item['text'])
                        },
                        'paragraphStyle': {
                            'namedStyleType': f'HEADING_{heading_level}',
                        },
                        'fields': 'namedStyleType'
                    }
                })
            current_offset += len(text_to_insert)

        return requests

    def _build_requests_for_test_doc_lists(self, content_structure: list) -> list:
        requests = []
        current_offset = 1
        for item in content_structure:
            text_to_insert = item['text'] + "\n"
            indent_level = item.get('indent', 0)
            requests.append({
                'insertText': {
                    'location': {'index': current_offset},
                    'text': text_to_insert
                }
            })
            requests.append({
                'createParagraphBullets': {
                    'range': {
                        'startIndex': current_offset,
                        'endIndex': current_offset + len(item['text'])
                    },
                    'bulletPreset': 'BULLET_DISC_CIRCLE_SQUARE'
                }
            })
            if indent_level > 0:
                indent_value = indent_level * 18.0
                requests.append({
                    'updateParagraphStyle': {
                        'range': {
                            'startIndex': current_offset,
                            'endIndex': current_offset + len(item['text'])
                        },
                        'paragraphStyle': {
                            'indentStart': {'magnitude': indent_value, 'unit': 'PT'},
                        },
                        'fields': 'indentStart'
                    }
                })
            current_offset += len(text_to_insert)
        return requests

    def _build_requests_for_test_doc_tabs(self, content_structure: list) -> list:
        """
        テスト用のタブインデント構造ドキュメントのためのAPIリクエストリストを作成する。
        content_structure: [{'text': 'アイテム文言', 'indent_level': 0}, ...]
        インデントレベルに応じて先頭にタブ文字を挿入する、または indentStart を使用する。
        ここでは indentStart を使用してみる。
        """
        requests = []
        current_offset = 1
        for item in content_structure:
            text_to_insert = item['text'] + "\n"
            indent_level = item.get('indent_level', 0)

            requests.append({
                'insertText': {
                    'location': {'index': current_offset},
                    'text': text_to_insert
                }
            })

            if indent_level > 0:
                indent_value = indent_level * 36.0 # 1タブ = 0.5インチ = 36ポイントと仮定
                requests.append({
                    'updateParagraphStyle': {
                        'range': {
                            'startIndex': current_offset,
                            'endIndex': current_offset + len(item['text'])
                        },
                        'paragraphStyle': {
                            'indentStart': {'magnitude': indent_value, 'unit': 'PT'},
                        },
                        'fields': 'indentStart'
                    }
                })
            current_offset += len(text_to_insert)
        return requests

    def populate_document_with_requests(self, document_id: str, requests: list):
        if not document_id:
            logging.error("ドキュメントIDが無効です。内容を書き込めません。")
            return False
        if not requests:
            logging.info("書き込むリクエストがありません。")
            return True
        try:
            self.docs_service.documents().batchUpdate(
                documentId=document_id, body={'requests': requests}
            ).execute()
            logging.info(f"ドキュメント {document_id} に内容を正常に書き込みました。")
            return True
        except Exception as e:
            logging.error(f"Google Document {document_id} への書き込みに失敗: {e}")
            return False

    def add_tabs_to_document(self, title,tab_titles):
        """
        既存のGoogleドキュメントに複数のタブを追加する関数。
        :param document_id: ドキュメントID
        :param tab_titles: 追加するタブタイトルのリスト
        :return: 追加したタブIDのリスト
        """
        document_id = self.create_document(title)
        if not document_id: return
        requests = []
        for title in tab_titles:
            requests.append({
                "createTab": {
                    "tab": {
                        "tabTitle": title
                    }
                }
            })
        response = self.docs_service.documents().batchUpdate(
            documentId=document_id,
            body={"requests": requests}
        ).execute()
        # 追加されたタブIDを取得
        tab_ids = []
        for reply in response.get("replies", []):
            if "createTab" in reply:
                tab_ids.append(reply["createTab"]["tabId"])
        logging.info(f"ドキュメント URL: https://docs.google.com/document/d/{document_id}/edit に内容を正常に書き込みました。")
        return tab_ids

    def create_document_with_tabs_and_content(self,title, body):
        """
        Google Docs APIのcreateメソッドで複数タブ・各タブの内容を指定して新規ドキュメントを作成する関数。
        :param docs_service: Google Docs API サービスオブジェクト
        :param title: ドキュメントのタイトル
        :param tabs: タブ情報のリスト（各要素はTab構造体に準拠したdict）
        :return: 作成されたドキュメントのID
        """

        doc = self.docs_service.documents().create(body=body).execute()
        doc_id = doc.get("documentId")
        print(f"テストドキュメント '{title}' (ID: {doc_id}) 生成完了。URL: https://docs.google.com/document/d/{doc_id}/edit")
        return doc_id

def create_test_document_with_headings(doc_generator: GoogleDocGenerator, title: str):
    doc_id = doc_generator.create_document(title)
    if not doc_id: return
    content = [
        {'text': "トップレベル見出し 1 (H1)", 'level': 1},
        {'text': "サブ見出し 1.1 (H2)", 'level': 2},
        {'text': "サブサブ見出し 1.1.1 (H3)", 'level': 3},
        {'text': "サブ見出し 1.2 (H2)", 'level': 2},
        {'text': "トップレベル見出し 2 (H1)", 'level': 1},
        {'text': "サブ見出し 2.1 (H2)", 'level': 2},
    ]
    requests = doc_generator._build_requests_for_test_doc_headings(title, content)
    success = doc_generator.populate_document_with_requests(doc_id, requests)
    if success: logging.info(f"テストドキュメント '{title}' (ID: {doc_id}) 生成完了。URL: https://docs.google.com/document/d/{doc_id}/edit")
    else: logging.error(f"テストドキュメント '{title}' の生成失敗。")

def create_test_document_with_tabs(doc_generator: GoogleDocGenerator, title: str):
    doc_id = doc_generator.create_document(title,tabs=["タブ1", "タブ2", "タブ3"])
    if not doc_id: return
    content = [
        {'text': "トップレベル見出し 1 (H1)", 'level': 1},
        {'text': "サブ見出し 1.1 (H2)", 'level': 2},
        {'text': "サブサブ見出し 1.1.1 (H3)", 'level': 3},
        {'text': "サブ見出し 1.2 (H2)", 'level': 2},
        {'text': "トップレベル見出し 2 (H1)", 'level': 1},
        {'text': "サブ見出し 2.1 (H2)", 'level': 2},
    ]
    requests = doc_generator._build_requests_for_test_doc_headings(title, content)
    success = doc_generator.populate_document_with_requests(doc_id, requests)
    if success: logging.info(f"テストドキュメント '{title}' (ID: {doc_id}) 生成完了。URL: https://docs.google.com/document/d/{doc_id}/edit")
    else: logging.error(f"テストドキュメント '{title}' の生成失敗。")
def create_test_document_with_nested_lists(doc_generator: GoogleDocGenerator, title: str):
    doc_id = doc_generator.create_document(title)
    if not doc_id: return
    list_content = [
        {'text': "リストアイテム 1 (レベル 0)", 'indent': 0},
        {'text': "リストアイテム 1.1 (レベル 1)", 'indent': 1},
        {'text': "リストアイテム 1.1.1 (レベル 2)", 'indent': 2},
        {'text': "リストアイテム 1.2 (レベル 1)", 'indent': 1},
        {'text': "リストアイテム 2 (レベル 0)", 'indent': 0},
        {'text': "リストアイテム 2.1 (レベル 1)", 'indent': 1},
    ]
    requests = doc_generator._build_requests_for_test_doc_lists(list_content)
    success = doc_generator.populate_document_with_requests(doc_id, requests)
    if success: logging.info(f"テストドキュメント '{title}' (ID: {doc_id}) 生成完了。URL: https://docs.google.com/document/d/{doc_id}/edit")
    else: logging.error(f"テストドキュメント '{title}' の生成失敗。")


def get_document_text_all_tabs(docs_service, document_id):
    """
    Googleドキュメントの全タブの本文テキストを取得し、タブごとに綺麗に表示する。
    """
    doc = docs_service.documents().get(documentId=document_id, includeTabsContent=True).execute()
    tabs = doc.get('tabs', [])
    all_text = ""
    for i, tab in enumerate(tabs):
        tab_title = tab.get('tabTitle', f"Tab {i+1}")
        body = tab.get('body', {})
        content = body.get('content', [])
        text = ""
        for element in content:
            if 'paragraph' in element:
                for elem in element['paragraph'].get('elements', []):
                    if 'textRun' in elem and 'content' in elem['textRun']:
                        text += elem['textRun']['content']


        all_text += f"=== {tab_title} ===\n{text}\n"
        print(f"=== {all_text} ===")
    return all_text
def copy_document_structure(docs_service, drive_service, source_doc_id, new_title, folder_id=None):
    """
    Googleドキュメントのbody.content構造をそのまま新しいドキュメントにコピーする
    """
    # 1. 元ドキュメントの構造取得
    doc = docs_service.documents().get(documentId=source_doc_id).execute()
    content = doc.get('body', {}).get('content', [])

    # 2. 新規ドキュメント作成
    body = {'title': new_title}
    new_doc = docs_service.documents().create(body=body).execute()
    new_doc_id = new_doc.get('documentId')

    # 3. フォルダ移動（必要なら）
    if folder_id:
        file_metadata = drive_service.files().get(fileId=new_doc_id, fields='parents').execute()
        previous_parents = ",".join(file_metadata.get('parents'))
        drive_service.files().update(
            fileId=new_doc_id,
            addParents=folder_id,
            removeParents=previous_parents,
            fields='id, parents'
        ).execute()

    # 4. 構造を新ドキュメントに反映
    requests = []
    current_index = 1
    for element in content:
        if 'paragraph' in element:
            text = ""
            for elem in element['paragraph'].get('elements', []):
                if 'textRun' in elem and 'content' in elem['textRun']:
                    text += elem['textRun']['content']
            if text:
                requests.append({
                    'insertText': {
                        'location': {'index': current_index},
                        'text': text
                    }
                })
                current_index += len(text)
            # 段落スタイルやリストなども必要に応じてここで再現可能

    if requests:
        docs_service.documents().batchUpdate(documentId=new_doc_id, body={'requests': content}).execute()

    print(f"新しいドキュメントを作成しました: https://docs.google.com/document/d/{new_doc_id}/edit")
    return new_doc_id
def print_document_structure(docs_service, document_id):
    """
    Googleドキュメントのbody.content構造をインデント付きで表示する（タブ未対応の従来ドキュメントも含む）。
    """
    import json
    doc = docs_service.documents().get(documentId=document_id,includeTabsContent=True).execute()
    print("=== ドキュメント本体の構造 ===")
    print(json.dumps(doc.get('body', {}).get('content', []), ensure_ascii=False, indent=2))
def print_document_structure_all_tabs(docs_service, document_id):
    """
    Googleドキュメントの全タブの構造(body.content)をそのままインデント付きで表示する。
    """
    import json
    doc = docs_service.documents().get(documentId=document_id, includeTabsContent=True).execute()
    tabs = doc.get('tabs')
    if tabs:
        for i, tab in enumerate(tabs):
            print(json.dumps(tab.get('body', {}).get('content', []), ensure_ascii=False, indent=2))
            tab_title = tab.get('tabTitle', f"Tab {i+1}")
            body = tab.get('body', {})
            print(f"=== {tab_title} の構造 ===")
            print(json.dumps(body.get('content', []), ensure_ascii=False, indent=2))
    else:
        # 単一タブ（従来ドキュメント）
        print("=== ドキュメント本体の構造 ===")
        print(json.dumps(doc.get('body', {}).get('content', []), ensure_ascii=False, indent=2))
def copy_template_and_update_tabs(docs_service, drive_service, template_doc_id, new_title, tab_updates,folder_id=None):
    """
    テンプレートドキュメントをDrive APIでコピーし、各タブのタイトル・内容を編集する。
    :param docs_service: Google Docs API サービス
    :param drive_service: Google Drive API サービス
    :param template_doc_id: テンプレートドキュメントのID
    :param new_title: コピー先ドキュメントのタイトル
    :param tab_updates: {idx: {"title": 新タイトル, "content": [StructuralElement, ...]}} のdict
    :return: 新ドキュメントID, {tabId: 新タイトル} のdict
    """
    # 1. テンプレートをコピー
    copied = drive_service.files().copy(
        fileId=template_doc_id,
        body={"name": new_title}
    ).execute()
    new_doc_id = copied["id"]

    # 2. コピー先のタブID一覧を取得
    new_doc_full = docs_service.documents().get(documentId=new_doc_id, includeTabsContent=True).execute()
    new_tab_ids = []
    for tab in new_doc_full.get("tabs", []):
        tab_id = tab.get("tabProperties", {}).get("tabId")
        new_tab_ids.append(tab_id)

    if folder_id:
        file_metadata = drive_service.files().get(fileId=new_doc_id, fields='parents').execute()
        previous_parents = ",".join(file_metadata.get('parents'))
        drive_service.files().update(
            fileId=new_doc_id,
            addParents=folder_id,
            removeParents=previous_parents,
            fields='id, parents'
        ).execute()
    # 3. 各タブに対してタイトル変更＋内容追加
    requests = []

    for i, (idx, update) in enumerate(zip(tab_updates.keys(), tab_updates.values())):
        if i < len(new_tab_ids):
            tab_id = new_tab_ids[i]
            content = update.get("content", [])
            if content:
                requests.append({
                    "insertText": {
                        "location": {
                            "tabId": tab_id,
                            "index": 1
                        },
                        "text": "TAB\n"
                    }
                })
    # ...existing code...

    if requests:
        docs_service.documents().batchUpdate(
            documentId=new_doc_id,
            body={"requests": requests}
        ).execute()
    return new_doc_id, dict(zip(new_tab_ids, [v["title"] for v in tab_updates.values()]))
# --- サンプルで使う内容例 ---
def build_sample_content():
    """
    段落・リスト・テーブルを含むサンプルStructuralElementリストを返す
    """
    return [
        {"paragraph": {
            "elements": [
                {"textRun": {"content": "これはサンプルの段落です。\n"}}
            ],
            "paragraphStyle": {"namedStyleType": "NORMAL_TEXT"}
        }},
        {"paragraph": {
            "elements": [
                {"textRun": {"content": "・リスト1\n"}}
            ],
            "bullet": {"listId": "sample-list", "nestingLevel": 0}
        }},
        {"paragraph": {
            "elements": [
                {"textRun": {"content": "・リスト2\n"}}
            ],
            "bullet": {"listId": "sample-list", "nestingLevel": 0}
        }},
        {"table": {
            "rows": 2,
            "columns": 2,
            "tableRows": [
                {"tableCells": [
                    {"content": [{"paragraph": {"elements": [{"textRun": {"content": "セル1-1"}}]}}]},
                    {"content": [{"paragraph": {"elements": [{"textRun": {"content": "セル1-2"}}]}}]}
                ]},
                {"tableCells": [
                    {"content": [{"paragraph": {"elements": [{"textRun": {"content": "セル2-1"}}]}}]},
                    {"content": [{"paragraph": {"elements": [{"textRun": {"content": "セル2-2"}}]}}]}
                ]}
            ]
        }}
    ]

# 使い方例
# creds = ... # google-auth-oauthlib等で取得した認証情報
# create_document_with_tabs(creds, "タブ付きドキュメント", ["タブ1", "タブ2", "タブ3"])
if __name__ == '__main__':
    logging.info("テストドキュメント生成スクリプトを開始します。")

    docs_service, drive_service = get_google_api_services()

    if docs_service and drive_service:
        generator = GoogleDocGenerator(docs_service, drive_service)
        source_doc_id = "1lb2M5_HENpTLO3oh1Mk9D3R6iiFihaQ9cT60d_Ck6TM"
        # 新しいドキュメントタイトル
        new_title = "コピーしたドキュメント"
        print_document_structure_all_tabs(docs_service, "1h9KqkvgvkmJoLSiAaftPBelattuY5VLkf2ktHLzQM0E")
        # サービス初期化済みと仮定
        #text = get_document_text_all_tabs(docs_service, source_doc_id)
        #copy_document_structure(docs_service, drive_service, source_doc_id, new_title, folder_id="1n4YaEJzp_mCYW9QIJGqRyXJNe8_yopNF")
        # 1. 見出しパターンのテスト
        test_doc_title_headings = "NotebookLM階層テスト - 見出しのみ (OAuth)"

        tab_updates = {
            "dummy1": {"title": "新タブ1", "content":  build_sample_content()},
            "dummy2": {"title": "新タブ2", "content":  build_sample_content()},
        }
        new_doc_id, tab_id_map =copy_template_and_update_tabs(docs_service, drive_service, "14UhpfIDwH55VV2HIgyqNsXSvoKCA0IbSfJyVRVcoBQI", "新しいタイトル", tab_updates,folder_id="1n4YaEJzp_mCYW9QIJGqRyXJNe8_yopNF")
        #create_test_document_with_tabs(generator, test_doc_title_headings)
        #print_document_structure(docs_service, "1h9KqkvgvkmJoLSiAaftPBelattuY5VLkf2ktHLzQM0E")
        #
        # 2. ネストしたリストパターンのテスト
        # test_doc_title_lists = "NotebookLM階層テスト - ネストリスト (OAuth)"
        # create_test_document_with_nested_lists(generator, test_doc_title_lists)

        # 3. タブインデントパターンのテスト
        #test_doc_title_tabs = "NotebookLM階層テスト - タブインデント (OAuth)"
        #create_test_document_with_tabs(generator, test_doc_title_tabs)
        #generator.add_tabs_to_document(test_doc_title_tabs,["タブ1", "タブ2", "タブ3"])
        #doc_id = generator.create_document_with_tabs("タブ付きドキュメント", ["タブ1", "タブ2", "タブ3"])
        # TODO: 今後、表のテストパターンの生成関数もここに追加する
        # create_test_document_with_table(generator, "NotebookLM階層テスト - 表")
    else:
        logging.error("APIサービスの取得に失敗したため、処理を中止します。")

    logging.info("テストドキュメント生成スクリプトを終了します。")


[]
=== Tab 1 の構造 ===
[]
[]
=== Tab 2 の構造 ===
[]
[]
=== Tab 3 の構造 ===
[]
[]
=== Tab 4 の構造 ===
[]
