In [2]:
import os
import sys
from typing import List

# 참고: 이 스크립트는 가상 환경 'pytorch_env'를 터미널에서 수동으로 활성화했다고 가정합니다.
# 예: source pytorch_env/bin/activate (Unix) 또는 pytorch_env\Scripts\activate (Windows).
# 필요한 패키지 설치: pip install crewai langchain-google-genai google-generativeai pymupdf (PDF 처리를 위한 백업으로)

# API 키 설정 - 나중에 실제 키로 교체하세요
os.environ["GOOGLE_API_KEY"] = "AIzaSyBGO8FCYPDBaXZz5ghK1P3g91_yHJJz-oQ"  # Gemini API 키를 여기에 삽입하세요

# 필요한 라이브러리 임포트
try:
    from crewai import Agent, Task, Crew, Process
    import google.generativeai as genai
    from langchain_google_genai import ChatGoogleGenerativeAI
    from langchain_core.tools import tool
except ImportError as e:
    print(f"모듈 임포트 오류: {e}")
    print("필요한 패키지를 설치하세요: pip install crewai langchain-google-genai google-generativeai")
    sys.exit(1)

# LLM 모델 선택 가능 - 여기서 변경하세요
LLM_MODEL = "gemini-2.5-flash"  # 또는 "gemini-1.5-flash" 등, 사용 가능한 Gemini 모델로 조정

# Gemini 설정
genai.configure(api_key=os.environ["GOOGLE_API_KEY"])

# LLM 초기화
llm = ChatGoogleGenerativeAI(
    model=LLM_MODEL,
    google_api_key=os.environ["GOOGLE_API_KEY"],
    temperature=0.7,  # 창의성 vs 정확성 조정
)

# 커스텀 도구 정의: Gemini가 PDF 파일을 직접 처리할 수 있도록 설계
# Gemini의 generativeai를 사용해 PDF를 업로드하고 내용을 생성/분석
@tool
def analyze_pdf_with_gemini(file_path: str, prompt: str) -> str:
    """Gemini API를 사용해 PDF 파일을 직접 업로드하고 주어진 프롬프트에 따라 분석합니다."""
    try:
        # PDF 파일 업로드
        uploaded_file = genai.upload_file(path=file_path, display_name="Uploaded PDF")
        
        # 모델 생성 및 프롬프트로 내용 생성
        model = genai.GenerativeModel(LLM_MODEL)
        response = model.generate_content([uploaded_file, {"text": prompt}])
        
        # 업로드된 파일 삭제 (클린업)
        genai.delete_file(uploaded_file.name)
        
        return response.text
    except Exception as e:
        return f"PDF 분석 오류: {str(e)}"

# PDF 프로세서 클래스 - 개선: Gemini에 직접 PDF 전달, 에이전트들이 이 도구 사용
# 자율적 개선: PDF 유형(책/PPT)에 따라 프롬프트 조정, 섹션 지정 지원, 피드백 루프 강화
# 병렬 처리 시뮬레이션: Crew의 hierarchical 프로세스 사용, delegator가 서브태스크 관리
class PDFProcessor:
    def __init__(self, pdf_path: str, output_path: str = "lecture_notes.md", pdf_type: str = "book", specific_sections: List[str] = None):
        self.pdf_path = pdf_path
        self.output_path = output_path
        self.pdf_type = pdf_type  # "book" 또는 "ppt"
        self.specific_sections = specific_sections or []  # 빈 경우 전체 처리
        # 전체 PDF 텍스트 추출은 더 이상 필요 없음; Gemini가 직접 처리

    def run(self):
        # Coordinator 에이전트
        coordinator = Agent(
            role="프로젝트 코디네이터 및 QA 리더",
            goal="PDF로부터 강의 노트 생성을 감독하고, 피드백 루프를 통해 품질을 보장합니다.",
            backstory="최종 Markdown 출력이 정확하고 사용자 요구사항을 충족하도록 최상위 관리자입니다.",
            llm=llm,
            verbose=True,  # 중간 단계 디버깅용
            tools=[analyze_pdf_with_gemini],
        )

        # Delegator 에이전트
        delegator = Agent(
            role="워크플로우 및 병렬 처리 매니저",
            goal="PDF를 단위로 분해하고, 병렬로 워커에게 위임하며 결과를 조합합니다.",
            backstory="태스크 분배를 효율적으로 관리하고 병렬 콘텐츠 생성을 처리합니다.",
            llm=llm,
            verbose=True,
            tools=[analyze_pdf_with_gemini],
        )

        # PDF Structure Analyzer 에이전트 - Gemini 직접 사용
        structure_analyzer = Agent(
            role="PDF 구조 설계자",
            goal="PDF 구조를 분석해 논리적 단위(챕터, 섹션)를 추출합니다.",
            backstory="PDF를 파싱해 작업 가능한 태스크 플랜을 만듭니다.",
            llm=llm,
            verbose=True,
            tools=[analyze_pdf_with_gemini],
        )

        # Content Generator 에이전트
        content_generator = Agent(
            role="AI 콘텐츠 작가",
            goal="할당된 섹션에 대해 상세한 강의 노트를 생성합니다. 책: 2-3문장 요약 + 예시; PPT: 키워드 확장.",
            backstory="블로그 스타일 설명을 만듭니다: 개념당 2-3문장 + 예시.",
            llm=llm,
            verbose=True,
            tools=[analyze_pdf_with_gemini],
        )

        # Markdown Formatter 에이전트
        formatter = Agent(
            role="기술 편집자",
            goal="조합된 콘텐츠를 깔끔한 Markdown으로 포맷팅합니다.",
            backstory="최종 문서의 가독성과 일관성을 보장합니다.",
            llm=llm,
            verbose=True,
        )

        # Feedback and Fact-Checker 에이전트 - Gemini로 원본 검증
        feedback_agent = Agent(
            role="품질 검증 및 환각 방지 전문가",
            goal="드래프트를 원본 PDF와 비교해 부정확성을 보고합니다.",
            backstory="환각을 감지하고 소스 충실도를 보장합니다.",
            llm=llm,
            verbose=True,
            tools=[analyze_pdf_with_gemini],
        )

        # 태스크 정의
        # 태스크 1: 구조 분석 - Gemini에 PDF 직접 전달
        analyze_structure_task = Task(
            description=f"PDF 파일 {self.pdf_path}을 분석해 논리적 단위 목록을 추출하세요. {self.specific_sections}로 필터링. PDF 유형: {self.pdf_type}.",
            expected_output="섹션/챕터 목록, 예: ['1. 서론', '2. 개념']",
            agent=structure_analyzer,
        )

        # 태스크 2: 위임 및 콘텐츠 생성 - 병렬 시뮬레이션
        delegate_generate_task = Task(
            description=f"구조 목록 기반으로 병렬 서브태스크 생성. 각 섹션에 대해 콘텐츠 생성. PDF 파일 {self.pdf_path} 직접 사용. 유형: {self.pdf_type}. 결과를 수집.",
            expected_output="섹션: generated_text 딕셔너리",
            agent=delegator,
            context=[analyze_structure_task],
        )

        # 태스크 3: Markdown 포맷팅
        format_task = Task(
            description="생성된 텍스트를 coherent Markdown으로 조합하세요.",
            expected_output="전체 Markdown 문자열",
            agent=formatter,
            context=[delegate_generate_task],
        )

        # 태스크 4: 피드백 체크 - Gemini로 원본 비교
        feedback_task = Task(
            description=f"드래프트 Markdown을 PDF 파일 {self.pdf_path}과 비교해 검증. 부정확성 보고.",
            expected_output="피드백 보고서: {'approved': bool, 'issues': list of dicts with section, issue, suggestion}",
            agent=feedback_agent,
            context=[format_task],
        )

        # Crew 설정 - Hierarchical 프로세스로 워크플로우 시뮬레이션
        crew = Crew(
            agents=[coordinator, delegator, structure_analyzer, content_generator, formatter, feedback_agent],
            tasks=[analyze_structure_task, delegate_generate_task, format_task, feedback_task],
            process=Process.hierarchical,  # 코디네이터가 감독
            manager_agent=coordinator,
            verbose=2,  # 디버깅용 상세 출력
        )

        # 피드백 루프 실행 - 최대 2회 반복
        max_iterations = 2
        iteration = 0
        result = None
        while iteration < max_iterations:
            print(f"{iteration + 1}번째 반복 시작")
            result = crew.kickoff()
            feedback = result  # feedback_task 출력 가정
            if isinstance(feedback, dict) and feedback.get('approved', False):
                break
            else:
                print("개정이 필요합니다. 피드백 적용 후 재실행.")
                # 개정 지시: delegate 태스크에 피드백 추가
                issues = feedback.get('issues', [])
                revision_instructions = "\n".join([f"{issue['section']} 수정: {issue['issue']} - 제안: {issue['suggestion']}" for issue in issues])
                delegate_generate_task.description += f"\n개정 적용: {revision_instructions}"
            iteration += 1

        if result:
            # 파일 저장
            with open(self.output_path, 'w', encoding='utf-8') as f:
                f.write(result if isinstance(result, str) else result.get('markdown', '출력 없음'))
            print(f"출력이 {self.output_path}에 저장되었습니다.")
        else:
            print("최대 반복 후 실패.")

# 예시 사용 - PDF 경로로 교체
if __name__ == "__main__":
    processor = PDFProcessor(
        pdf_path="/Users/jhkim/Desktop/Team_Agent/36강 피터린치 투자법.pdf",  # 사용자 제공
        pdf_type="book",  # 또는 "ppt"
        specific_sections=[]  # 예: ['Section 2.1', 'Section 3']
    )
    processor.run()

KeyError: 'Version'