In [None]:
!pip install semantic-kernel openai python-docx pypdf2 markdown

Collecting python-docx
  Downloading python_docx-1.2.0-py3-none-any.whl.metadata (2.0 kB)
Collecting pypdf2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Downloading python_docx-1.2.0-py3-none-any.whl (252 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m253.0/253.0 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m10.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: python-docx, pypdf2
Successfully installed pypdf2-3.0.1 python-docx-1.2.0


In [None]:
import os
import asyncio
from typing import List, Dict, Tuple
from datetime import datetime
import json

from openai import OpenAI
from semantic_kernel import Kernel
from semantic_kernel.connectors.ai.open_ai import OpenAIChatCompletion, OpenAIChatPromptExecutionSettings
from semantic_kernel.agents import ChatCompletionAgent, GroupChatOrchestration, GroupChatManager, RoundRobinGroupChatManager
from semantic_kernel.agents.runtime import InProcessRuntime
from semantic_kernel.contents import ChatMessageContent, ChatHistory

# ファイル処理用
import docx
import PyPDF2
import markdown
from io import StringIO


os.environ["OPENAI_API_KEY"] = "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"
client = OpenAI(api_key=os.environ["OPENAI_API_KEY"])
print("🔑 OpenAI APIキー設定完了")

# Kernelはすべての機能を統合する中心的なオブジェクト
kernel = Kernel()

# ChatGPTサービスをKernelに追加
# これによりKernelがLLMを使用できるようになる
chat_service = OpenAIChatCompletion(
    service_id="openai-chat",           # サービスの識別名
    ai_model_id="gpt-4.1-mini",        # 使用するモデル
    api_key=os.environ["OPENAI_API_KEY"]
)

kernel.add_service(chat_service)

settings = OpenAIChatPromptExecutionSettings(
   temperature=0.7,
   max_tokens=2000
)

print("🧠 Semantic Kernel初期化完了")

🔑 OpenAI APIキー設定完了
🧠 Semantic Kernel初期化完了


In [None]:
## 4. 文書読み込み機能

class DocumentProcessor:
    """様々な形式の文書を読み込んで処理するクラス"""

    @staticmethod
    def read_pdf(file_path: str) -> str:
        """PDFファイルを読み込んでテキストを抽出"""
        try:
            with open(file_path, 'rb') as file:
                reader = PyPDF2.PdfReader(file)
                text = ""
                for page in reader.pages:
                    text += page.extract_text() + "\n"
                return text
        except Exception as e:
            return f"PDFの読み込みエラー: {e}"

    @staticmethod
    def read_docx(file_path: str) -> str:
        """Word文書を読み込んでテキストを抽出"""
        try:
            doc = docx.Document(file_path)
            text = ""
            for paragraph in doc.paragraphs:
                text += paragraph.text + "\n"
            return text
        except Exception as e:
            return f"Word文書の読み込みエラー: {e}"

    @staticmethod
    def read_txt(file_path: str) -> str:
        """テキストファイルを読み込み"""
        try:
            with open(file_path, 'r', encoding='utf-8') as file:
                return file.read()
        except Exception as e:
            return f"テキストファイルの読み込みエラー: {e}"

    @staticmethod
    def read_markdown(file_path: str) -> str:
        """Markdownファイルを読み込み"""
        try:
            with open(file_path, 'r', encoding='utf-8') as file:
                md_content = file.read()
                # HTMLに変換してからテキストを抽出（簡易版）
                return md_content
        except Exception as e:
            return f"Markdownファイルの読み込みエラー: {e}"

    @classmethod
    def read_document(cls, file_path: str) -> str:
        """ファイル拡張子に基づいて適切な読み込み方法を選択"""
        file_extension = file_path.lower().split('.')[-1]

        if file_extension == 'pdf':
            return cls.read_pdf(file_path)
        elif file_extension in ['docx', 'doc']:
            return cls.read_docx(file_path)
        elif file_extension in ['txt', 'text']:
            return cls.read_txt(file_path)
        elif file_extension in ['md', 'markdown']:
            return cls.read_markdown(file_path)
        else:
            return "サポートされていないファイル形式です。"

In [None]:
class QATracker:
    """QAペアの追跡と管理を行うクラス（柔軟な名前対応）"""

    def __init__(self, max_qa_pairs=10):
        self.max_qa_pairs = max_qa_pairs
        self.qa_pairs = []
        self.current_question = None
        self.debug = True
        self.questioner_names = ["questioner", "student", "質問者"]  # 複数の名前に対応
        self.answerer_names = ["answerer", "teacher", "回答者"]

    def process_message(self, message):
        """メッセージを処理してQAペアを管理"""
        if self.debug:
            print(f"[DEBUG] 処理中: {message.name} - 内容の最初の50文字: {message.content[:50]}...")

        # 現在のメッセージから質問と回答を抽出する方式に変更
        content = message.content

        # メッセージ内に「質問：」と「回答：」が両方含まれている場合
        if '質問：' in content or '質問:' in content:
            lines = content.split('\n')
            question_text = None
            answer_text = None

            # 質問部分を抽出
            for line in lines:
                if line.startswith('質問：') or line.startswith('質問:'):
                    question_text = line.replace('質問：', '').replace('質問:', '').strip()
                    break

            # 回答部分を抽出
            if '回答：' in content or '回答:' in content:
                answer_start = content.find('回答：')
                if answer_start == -1:
                    answer_start = content.find('回答:')
                if answer_start != -1:
                    answer_text = content[answer_start:].replace('回答：', '').replace('回答:', '').strip()

            # 質問と回答が両方見つかった場合、QAペアとして記録
            if question_text and answer_text:
                self.qa_pairs.append({
                    "question": question_text,
                    "answer": answer_text,
                    "pair_number": len(self.qa_pairs) + 1
                })
                if self.debug:
                    print(f"[DEBUG] QAペア{len(self.qa_pairs)}を記録:")
                    print(f"  質問: {question_text[:50]}...")
                    print(f"  回答: {answer_text[:50]}...")

    def is_complete(self):
        """指定されたQAペア数に達したかチェック"""
        complete = len(self.qa_pairs) >= self.max_qa_pairs
        if self.debug:
            print(f"[DEBUG] 完了チェック: {len(self.qa_pairs)}/{self.max_qa_pairs} - {'完了' if complete else '継続'}")
        return complete

    def format_results_markdown(self):
        """QAペアをMarkdown形式で整形"""
        if not self.qa_pairs:
            return "QAペアが生成されませんでした。"

        result = []
        result.append("# 📝 専門文書 Q&A リスト")
        result.append("")
        result.append(f"**生成日時:** {datetime.now().strftime('%Y年%m月%d日 %H:%M:%S')}")
        result.append(f"**総質問数:** {len(self.qa_pairs)}問")
        result.append("")
        result.append("---")
        result.append("")

        for qa in self.qa_pairs:
            result.append(f"## Q{qa['pair_number']}. {qa['question']}")
            result.append("")
            result.append(f"**A{qa['pair_number']}.** {qa['answer']}")
            result.append("")
            result.append("---")
            result.append("")

        return "\n".join(result)

    def format_results_console(self):
        """コンソール表示用の整形"""
        if not self.qa_pairs:
            return "QAペアが生成されませんでした。"

        result = []
        result.append("=" * 80)
        result.append("📝 専門文書 Q&A リスト")
        result.append("=" * 80)
        result.append(f"生成日時: {datetime.now().strftime('%Y年%m月%d日 %H:%M:%S')}")
        result.append(f"総質問数: {len(self.qa_pairs)}問")
        result.append("")

        for qa in self.qa_pairs:
            result.append(f"Q{qa['pair_number']}. {qa['question']}")
            result.append("")
            result.append(f"A{qa['pair_number']}. {qa['answer']}")
            result.append("")
            result.append("-" * 60)
            result.append("")

        return "\n".join(result)

    def get_json_data(self):
        """QAペアをJSON形式で取得"""
        return json.dumps(self.qa_pairs, ensure_ascii=False, indent=2)

print("📊 QA追跡クラス準備完了（柔軟な名前対応版）")

📊 QA追跡クラス準備完了（柔軟な名前対応版）


In [None]:
def create_qa_agents(document_content):
    """質問エージェントと回答エージェントを作成"""

    # 質問生成エージェント
    student = ChatCompletionAgent(
        name="student",
        description="どの分野にも詳しくない一般的な学生です",
        instructions=f"""
あなたの分野にも詳しくない一般的な学生です。
とても好奇心が旺盛で、どのようなことに対しても多くの質問をして人に説明ができるようになるまで理解しようとします。

<文書内容>
{document_content}
</文書内容>

【あなたの役割】
1. 文書の内容を基に、様々な角度から質問を生成する
2. 基本的な理解から応用・批判的思考まで幅広いレベルの質問を作成
3. 文書の重要なポイントを網羅する質問を考える
4. 前回の質問と回答を参考に、より深い質問を続ける

【質問の種類】
- 事実確認型：「〜とは何ですか？」
- 分析型：「〜の要因は何ですか？」
- 比較型：「〜と〜の違いは？」
- 評価型：「〜の利点と欠点は？」
- 応用型：「〜を実際に適用するとしたら？」
- 批判型：「〜の限界や問題点は？」

1つの質問のみを簡潔に生成してください。
""",
        kernel=kernel,
    )

    # 回答生成エージェント
    teacher = ChatCompletionAgent(
        name="teacher",
        description="あらゆる専門領域に精通しており文書の内容に基づいて詳細な回答を提供する先生",
        instructions=f"""
あなたはあらゆる専門領域に精通しており文書の内容に基づいて詳細な回答を提供する先生です。
専門的な知識がない人に対してユーモアのある例えを交えたりしながら優しく質問に答えます。

<文書内容>
{document_content}
</文書内容>

【あなたの役割】
1. 質問に対して文書の内容に基づいた明確で正確な回答を提供
2. 該当する箇所を引用しながら説明
3. 必要に応じて補足説明や関連情報も提供
4. 文書に明記されていない内容については、その旨を明確に示す

【回答の形式】
- 質問に対する直接的な回答
- 文書からの関連箇所の引用
- 必要に応じた補足説明
- 不明な点があれば正直にその旨を記載

正確性と詳細さを重視し、文書に基づいた回答を提供してください。
""",
        kernel=kernel,
    )

    return [student, teacher]

print("🤖 エージェント作成関数準備完了")

🤖 エージェント作成関数準備完了


In [None]:
async def generate_qa_from_text(document_content, num_questions=5):
    """テキストからQAリストを生成（Markdown形式で出力）"""

    print(f"🚀 QA生成開始（目標: {num_questions}問）")
    print("=" * 80)

    # QAトラッカーを初期化
    qa_tracker = QATracker(num_questions)

    # エージェントを作成
    agents = create_qa_agents(document_content)

    # コールバック関数（QA追跡付き）
    def agent_response_callback(message: ChatMessageContent) -> None:
        display_name = "質問者" if message.name == "questioner" else "回答者"
        icon = "❓" if message.name == "questioner" else "💡"

        print(f"\n{icon} **{display_name}**")
        print("-" * 60)
        print(f"{message.content}")
        print("-" * 60)

        # QA追跡
        qa_tracker.process_message(message)
        if qa_tracker.is_complete():
            print(f"\n🎯 目標QA数({num_questions})に到達しました！")

    # グループチャットオーケストレーション
    group_chat_orchestration = GroupChatOrchestration(
        members=agents,
        manager=RoundRobinGroupChatManager(max_rounds=num_questions * 2),
        agent_response_callback=agent_response_callback,
    )

    # ランタイム実行
    runtime = InProcessRuntime()
    runtime.start()

    try:
        orchestration_result = await group_chat_orchestration.invoke(
            task="文書の内容について包括的で意味のある質問を1つずつ生成し、それに対する詳細な回答を提供してください。",
            runtime=runtime,
        )

        value = await orchestration_result.get()

        print("\n" + "=" * 80)
        print("🎯 **QA生成完了**")
        print("=" * 80)

        # 結果を返す（Markdown形式とコンソール形式の両方）
        markdown_result = qa_tracker.format_results_markdown()
        console_result = qa_tracker.format_results_console()
        json_data = qa_tracker.get_json_data()

        # コンソールには従来通りの形式で表示
        print("\n" + console_result)

        return markdown_result, json_data, qa_tracker.qa_pairs

    finally:
        await runtime.stop_when_idle()

print("🛠️ QA生成関数準備完了（Markdown対応）")

🛠️ QA生成関数準備完了（Markdown対応）


In [None]:
# サンプル文書
sample_document = """
人工知能の発展と社会への影響

1. はじめに
人工知能（AI）は21世紀の最も重要な技術革新の一つとして位置づけられている。
機械学習、深層学習の発展により、AIは画像認識、自然言語処理、意思決定支援など
様々な分野で人間を上回る性能を示している。

2. AIの主要技術
- 機械学習：データからパターンを学習する技術
- 深層学習：ニューラルネットワークを多層化した手法
- 強化学習：環境との相互作用を通じて最適な行動を学習

3. 社会への影響
AIの普及は労働市場、教育、医療、交通など幅広い分野で変革をもたらしている。
一方で、雇用の置き換え、プライバシー、倫理的課題も提起されている。

4. 今後の展望
AIの発展は続くが、人間とAIの協働、責任あるAI開発が重要である。
"""

# デモ実行
async def demo_qa_generation():
    print("🎯 サンプル文書でQA生成デモを実行します")
    markdown_qa, json_data, qa_pairs = await generate_qa_from_text(sample_document, num_questions=3)

    print("\n" + "=" * 80)
    print("📄 **Markdown形式の結果:**")
    print("=" * 80)
    print(markdown_qa)

    print("\n" + "=" * 80)
    print("🔍 **デバッグ情報:**")
    print("=" * 80)
    print(f"QAペア数: {len(qa_pairs)}")
    for i, qa in enumerate(qa_pairs, 1):
        print(f"QA{i}: {qa['question'][:50]}...")

    return markdown_qa, json_data, qa_pairs

# 実行
markdown_qa, json_data, qa_pairs = await demo_qa_generation()

🎯 サンプル文書でQA生成デモを実行します
🚀 QA生成開始（目標: 3問）

💡 **回答者**
------------------------------------------------------------
質問：人工知能（AI）が社会に与える影響にはどのようなものがあり、それらの利点と課題は何ですか？

回答：
人工知能（AI）は社会のさまざまな分野に大きな影響をもたらしています。主な影響としては次のようなものがあります。

1. 労働市場の変革：
AIの普及により、単純作業やルーチンワークが自動化され、人間の労働の質や内容が変わっています。これにより生産性は向上しますが、一方で一部の職業が減少し雇用の不安定化やスキルミスマッチが問題になることもあります。

2. 教育の変化：
AIは個別最適化された教育プログラムの提供や、学習状況の細かな分析を可能にします。これにより学習効率が上がる利点がありますが、教育現場での導入には費用や教員のスキル習得などの課題があります。

3. 医療の進展：
画像診断や治療計画、患者モニタリングなどにAIが活用され、診断の精度向上や医療効率の改善が期待されます。ただし、AIの誤判断リスクやプライバシー保護の問題も考慮しなければなりません。

4. 交通の最適化：
自動運転技術や交通流の管理にAIが活用され、交通事故の減少や渋滞の緩和が見込まれます。しかし技術の安全性や法整備の遅れが課題となっています。

これらの利点にも関わらず、AIの活用には倫理面、 privacy（プライバシー）保護、人間との役割分担の明確化など、さまざまな問題点や課題も存在します。AIの持つ可能性を最大限に活かすためには、技術開発だけでなく社会制度や法律、倫理の整備も重要です。
------------------------------------------------------------
[DEBUG] 処理中: student - 内容の最初の50文字: 質問：人工知能（AI）が社会に与える影響にはどのようなものがあり、それらの利点と課題は何ですか？

...
[DEBUG] QAペア1を記録:
  質問: 人工知能（AI）が社会に与える影響にはどのようなものがあり、それらの利点と課題は何ですか？...
  回答: 人工知能（AI）は社

In [None]:
def upload_and_process_colab():
    """Google Colabでファイルをアップロードして処理（Markdown出力）"""
    try:
        from google.colab import files

        print("📁 ファイルをアップロードしてください")
        uploaded = files.upload()

        if uploaded:
            file_path = list(uploaded.keys())[0]
            print(f"✅ ファイルアップロード完了: {file_path}")

            # QA数を入力
            num_q = input("生成するQA数を入力してください (デフォルト: 5): ")
            num_questions = int(num_q) if num_q.isdigit() else 5

            # 非同期でQA生成を実行
            async def run_qa():
                return await process_file(file_path, num_questions)

            markdown_qa, json_data, qa_pairs = await run_qa()

            if markdown_qa:
                # 結果をMarkdownファイルに保存
                timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')

                # Markdownファイル
                md_file = f"qa_result_{timestamp}.md"
                with open(md_file, 'w', encoding='utf-8') as f:
                    f.write(markdown_qa)

                # JSONファイル
                json_file = f"qa_data_{timestamp}.json"
                with open(json_file, 'w', encoding='utf-8') as f:
                    f.write(json_data)

                # テキストファイル（従来形式）
                txt_file = f"qa_result_{timestamp}.txt"
                qa_tracker_temp = QATracker()
                qa_tracker_temp.qa_pairs = qa_pairs
                with open(txt_file, 'w', encoding='utf-8') as f:
                    f.write(qa_tracker_temp.format_results_console())

                print(f"\n💾 結果を保存しました:")
                print(f"   - Markdownファイル: {md_file}")
                print(f"   - JSONデータ: {json_file}")
                print(f"   - テキストファイル: {txt_file}")

                # ダウンロード
                files.download(md_file)
                files.download(json_file)
                files.download(txt_file)

                return markdown_qa, json_data, qa_pairs

        else:
            print("❌ ファイルがアップロードされませんでした")

    except ImportError:
        print("❌ Google Colab環境ではありません")
        print("ローカル環境では以下を使用してください:")
        print("result = await process_file('your_file.txt', 5)")

# Google Colab用実行:
# await upload_and_process_colab()

In [None]:
def save_markdown_qa(markdown_content, filename=None):
    """MarkdownのQAリストをファイルに保存"""
    if filename is None:
        filename = f"qa_result_{datetime.now().strftime('%Y%m%d_%H%M%S')}.md"

    with open(filename, 'w', encoding='utf-8') as f:
        f.write(markdown_content)

    print(f"💾 Markdownファイルを保存しました: {filename}")
    return filename

def display_markdown_preview(markdown_content):
    """Markdownコンテンツのプレビューを表示"""
    print("\n" + "=" * 80)
    print("📄 **Markdownプレビュー:**")
    print("=" * 80)
    print(markdown_content)
    print("=" * 80)

# 使用例:
save_markdown_qa(markdown_qa)
display_markdown_preview(markdown_qa)

💾 Markdownファイルを保存しました: qa_result_20250808_005243.md

📄 **Markdownプレビュー:**
# 📝 専門文書 Q&A リスト

**生成日時:** 2025年08月08日 00:43:46
**総質問数:** 6問

---

## Q1. 人工知能（AI）が社会に与える影響にはどのようなものがあり、それらの利点と課題は何ですか？

**A1.** 人工知能（AI）は社会のさまざまな分野に大きな影響をもたらしています。主な影響としては次のようなものがあります。

1. 労働市場の変革：
AIの普及により、単純作業やルーチンワークが自動化され、人間の労働の質や内容が変わっています。これにより生産性は向上しますが、一方で一部の職業が減少し雇用の不安定化やスキルミスマッチが問題になることもあります。

2. 教育の変化：
AIは個別最適化された教育プログラムの提供や、学習状況の細かな分析を可能にします。これにより学習効率が上がる利点がありますが、教育現場での導入には費用や教員のスキル習得などの課題があります。

3. 医療の進展：
画像診断や治療計画、患者モニタリングなどにAIが活用され、診断の精度向上や医療効率の改善が期待されます。ただし、AIの誤判断リスクやプライバシー保護の問題も考慮しなければなりません。

4. 交通の最適化：
自動運転技術や交通流の管理にAIが活用され、交通事故の減少や渋滞の緩和が見込まれます。しかし技術の安全性や法整備の遅れが課題となっています。

これらの利点にも関わらず、AIの活用には倫理面、 privacy（プライバシー）保護、人間との役割分担の明確化など、さまざまな問題点や課題も存在します。AIの持つ可能性を最大限に活かすためには、技術開発だけでなく社会制度や法律、倫理の整備も重要です。

---

## Q2. 人工知能（AI）の主要技術にはどのようなものがあり、それぞれがどのように機能しているのですか？

**A2.** 人工知能の発展を支えている主要技術には、以下の3つがあります。

1. **機械学習**  
これは「データからパターンを学習する技術」です。例えば、大量の写真を見せることで「犬」と「猫」を区別する方法をコンピュータに覚えさせることができます。まるで犬と猫を見