# 📊 AI 기업 분석 리포트 생성기 (Consumer)

## 🎯 시스템 개요
이 노트북은 로컬 벡터 DB에서 기업 정보를 검색하여 전문적인 투자 분석 리포트를 생성합니다.

### 📋 주요 특징
- **오프라인 분석**: 로컬 RAG DB 활용으로 빠른 응답
- **파인튜닝 친화**: 일관된 형식의 고품질 리포트 생성
- **확장 가능**: 새로운 기업/데이터 소스 쉽게 추가
- **전문성**: 증권사 애널리스트 수준의 분석 구조

In [None]:
# 📦 필수 라이브러리 설치 및 임포트
# !pip install langchain langchain-google-genai chromadb google-generativeai

import os
import json
from datetime import datetime
from typing import List, Dict, Any

# LangChain 관련
from langchain_google_genai import GoogleGenerativeAIEmbeddings, ChatGoogleGenerativeAI
from langchain_community.vectorstores import Chroma
from langchain.prompts import PromptTemplate
from langchain.schema.runnable import RunnablePassthrough
from langchain.schema.output_parser import StrOutputParser

# Google Generative AI
import google.generativeai as genai

# 노트북 출력용
from IPython.display import display, Markdown

print("✅ 라이브러리 임포트 완료")

In [None]:
# 🔧 API 키 및 설정

# Google AI API 키 설정
GOOGLE_API_KEY = "AIzaSyBwcmK-DKRCI2r8xhHygSfu2GQ-oqK6t_4"  # 실제 키로 교체 필요
DB_DIR = "rag_db"  # 벡터 DB 디렉토리

# API 키 설정
genai.configure(api_key=GOOGLE_API_KEY)

print("✅ API 키 및 설정 완료")
print(f"📁 벡터 DB 디렉토리: {DB_DIR}")

# DB 존재 여부 확인
if os.path.exists(DB_DIR):
    print("✅ 벡터 DB 폴더 발견")
else:
    print("❌ 벡터 DB 폴더가 없습니다. pipeline_update.py를 먼저 실행해주세요.")

In [None]:
# 🤖 RAG 시스템 초기화

class InvestmentReportGenerator:
    """투자 리포트 생성을 위한 RAG 시스템 클래스"""
    
    def __init__(self, google_api_key: str, db_dir: str):
        """초기화"""
        self.google_api_key = google_api_key
        self.db_dir = db_dir
        
        # 임베딩 모델 초기화
        self.embeddings = GoogleGenerativeAIEmbeddings(
            model="models/embedding-001",
            google_api_key=google_api_key
        )
        
        # 벡터 DB 로드
        self.vectorstore = Chroma(
            persist_directory=db_dir,
            embedding_function=self.embeddings
        )
        
        # LLM 모델 초기화 (파인튜닝용 일관된 출력을 위해 temperature 낮게 설정)
        self.llm = ChatGoogleGenerativeAI(
            model="gemini-2.5-flash",
            google_api_key=google_api_key,
            temperature=0.1  # 일관된 출력을 위해 낮은 temperature
        )
        
        print("✅ RAG 시스템 초기화 완료")
        
    def create_company_retriever(self, company_name: str, k: int = 10):
        """특정 기업에 대한 검색기 생성"""
        # 회사별 필터 검색기 생성
        retriever = self.vectorstore.as_retriever(
            search_type="similarity",
            search_kwargs={
                "k": k,
                "filter": {"company": company_name}  # 특정 회사 필터링
            }
        )
        return retriever
    
    def get_available_companies(self) -> List[str]:
        """DB에서 사용 가능한 기업 목록 조회"""
        try:
            # 메타데이터에서 회사 목록 추출
            results = self.vectorstore.get()
            companies = set()
            
            for metadata in results['metadatas']:
                if 'company' in metadata:
                    companies.add(metadata['company'])
            
            return sorted(list(companies))
        except Exception as e:
            print(f"❌ 기업 목록 조회 실패: {e}")
            return []
    
    def format_docs(self, docs) -> str:
        """검색된 문서들을 포맷팅"""
        if not docs:
            return "관련 정보를 찾을 수 없습니다."
        
        formatted = []
        for i, doc in enumerate(docs, 1):
            source = doc.metadata.get('source', '알 수 없음')
            data_type = doc.metadata.get('data_type', '일반')
            
            formatted.append(f"""[정보 {i}] (출처: {source}, 유형: {data_type})
{doc.page_content}
---""")
        
        return "\n\n".join(formatted)

# RAG 시스템 초기화
try:
    rag_system = InvestmentReportGenerator(
        google_api_key=GOOGLE_API_KEY,
        db_dir=DB_DIR
    )
    
    # 사용 가능한 기업 목록 조회
    available_companies = rag_system.get_available_companies()
    print(f"\n📋 분석 가능한 기업 목록 ({len(available_companies)}개):")
    for company in available_companies:
        print(f"  - {company}")
        
except Exception as e:
    print(f"❌ RAG 시스템 초기화 실패: {e}")
    rag_system = None

In [None]:
# 📝 파인튜닝 친화적 리포트 프롬프트 템플릿

# 일관된 형식의 리포트 생성을 위한 구조화된 프롬프트
INVESTMENT_REPORT_TEMPLATE = """
당신은 대한민국 최고 수준의 증권사 리서치 애널리스트입니다. 
아래 제공된 [기업 정보]를 바탕으로 '{company_name}'에 대한 전문적인 투자 분석 리포트를 작성해주세요.

⚠️ 중요 지침:
- 제공된 정보만을 사용하여 분석하세요
- 추측이나 가정은 최소화하고, 사실 기반으로 작성하세요
- 아래 구조를 정확히 따라 작성하세요

[기업 정보]
{context}

위 정보를 바탕으로 다음 형식에 맞춰 리포트를 작성해주세요:

# 📊 {company_name} 투자 분석 리포트

## 🔍 핵심 요약 (Executive Summary)
- 최신 동향을 3-4개 핵심 포인트로 요약
- 각 포인트는 구체적인 사실 기반으로 작성

## 📈 긍정적 요인 분석 (Positive Factors)
### 1. [구체적 요인명]
- 상세 분석 내용

### 2. [구체적 요인명] 
- 상세 분석 내용

## ⚠️ 위험 요인 분석 (Risk Factors)
### 1. [구체적 위험명]
- 상세 분석 내용

### 2. [구체적 위험명]
- 상세 분석 내용

## 🎯 투자 의견 (Investment Opinion)
### 종합 평가
- 위 분석을 종합한 투자 관점의 의견
- 투자자가 주목해야 할 핵심 포인트

### 주요 모니터링 포인트
- 향후 주목해야 할 지표나 이벤트

## 📋 분석 근거 데이터
- 분석에 사용된 주요 정보 소스 요약
- 정보 수집 시점 및 신뢰도

---
*본 리포트는 공개된 정보를 바탕으로 작성되었으며, 투자 권유가 아닌 정보 제공 목적입니다.*
"""

# 프롬프트 템플릿 생성
report_prompt = PromptTemplate(
    template=INVESTMENT_REPORT_TEMPLATE,
    input_variables=["company_name", "context"]
)

print("✅ 리포트 프롬프트 템플릿 준비 완료")
print("📋 구조화된 형식으로 일관된 리포트 생성 가능")

In [None]:
# 🎯 리포트 생성 함수

def generate_investment_report(company_name: str, save_to_file: bool = True) -> Dict[str, Any]:
    """
    특정 기업에 대한 투자 리포트 생성
    
    Args:
        company_name (str): 분석할 기업명
        save_to_file (bool): 파일로 저장 여부
    
    Returns:
        Dict[str, Any]: 생성된 리포트 데이터
    """
    if not rag_system:
        return {"error": "RAG 시스템이 초기화되지 않았습니다."}
    
    print(f"🚀 {company_name} 투자 리포트 생성 시작...")
    
    try:
        # 1. 해당 기업 데이터 검색기 생성
        retriever = rag_system.create_company_retriever(company_name, k=15)
        
        # 2. RAG 체인 구성
        rag_chain = (
            {
                "company_name": lambda x: company_name,
                "context": retriever | rag_system.format_docs
            }
            | report_prompt
            | rag_system.llm
            | StrOutputParser()
        )
        
        # 3. 리포트 생성
        print("⏳ AI 분석 진행 중... (30-60초 소요)")
        report_content = rag_chain.invoke({"query": f"{company_name} 투자 분석"})
        
        # 4. 결과 데이터 구성
        report_data = {
            "company_name": company_name,
            "generation_timestamp": datetime.now().isoformat(),
            "report_content": report_content,
            "metadata": {
                "model": "gemini-2.5-flash",
                "data_source": "local_rag_db",
                "template_version": "v1.0",
                "suitable_for_finetuning": True
            }
        }
        
        # 5. 파일 저장 (파인튜닝 데이터셋용)
        if save_to_file:
            save_report_for_finetuning(report_data)
        
        print(f"✅ {company_name} 리포트 생성 완료!")
        return report_data
        
    except Exception as e:
        error_msg = f"❌ 리포트 생성 실패: {e}"
        print(error_msg)
        return {"error": str(e)}

def save_report_for_finetuning(report_data: Dict[str, Any]) -> None:
    """
    파인튜닝 데이터셋으로 활용하기 위해 리포트 저장
    
    Args:
        report_data (Dict[str, Any]): 저장할 리포트 데이터
    """
    # 파인튜닝 데이터셋 디렉토리 생성
    dataset_dir = "finetuning_dataset"
    os.makedirs(dataset_dir, exist_ok=True)
    
    # 1. 개별 리포트 마크다운 저장
    company_name = report_data["company_name"]
    timestamp = datetime.now().strftime("%Y%m%d_%H%M%S")
    
    md_filename = f"{dataset_dir}/{company_name}_{timestamp}.md"
    with open(md_filename, 'w', encoding='utf-8') as f:
        f.write(report_data["report_content"])
    
    # 2. 파인튜닝용 JSON 형식 저장
    json_filename = f"{dataset_dir}/{company_name}_{timestamp}.json"
    with open(json_filename, 'w', encoding='utf-8') as f:
        json.dump(report_data, f, ensure_ascii=False, indent=2)
    
    # 3. 누적 데이터셋 업데이트
    cumulative_file = f"{dataset_dir}/all_reports.jsonl"
    
    # JSONL 형식으로 파인튜닝 데이터 추가
    finetuning_sample = {
        "instruction": f"{company_name}에 대한 전문적인 투자 분석 리포트를 작성해주세요.",
        "input": f"기업명: {company_name}",
        "output": report_data["report_content"],
        "metadata": report_data["metadata"]
    }
    
    with open(cumulative_file, 'a', encoding='utf-8') as f:
        f.write(json.dumps(finetuning_sample, ensure_ascii=False) + '\n')
    
    print(f"💾 파인튜닝 데이터셋 저장 완료:")
    print(f"  📄 마크다운: {md_filename}")
    print(f"  📋 JSON: {json_filename}")
    print(f"  🗃️ 누적 데이터셋: {cumulative_file}")

print("✅ 리포트 생성 함수 준비 완료")

In [None]:
# 🎯 리포트 생성 실행

# 분석하고 싶은 기업명 입력 (사용 가능한 기업 목록에서 선택)
company_name = "SK하이닉스"  # ◀ 분석하고 싶은 회사 이름으로 변경

print(f"🎯 선택된 기업: {company_name}")

# 기업이 DB에 있는지 확인
if company_name not in available_companies:
    print(f"❌ '{company_name}'는 분석 가능한 기업 목록에 없습니다.")
    print(f"📋 사용 가능한 기업: {', '.join(available_companies)}")
else:
    # 투자 리포트 생성
    report_result = generate_investment_report(
        company_name=company_name,
        save_to_file=True  # 파인튜닝 데이터셋으로 저장
    )
    
    if "error" not in report_result:
        # 리포트 표시
        print("\n" + "="*80)
        print("🎉 투자 리포트 생성 완료!")
        print("="*80)
        
        # 마크다운으로 아름답게 출력
        display(Markdown(report_result["report_content"]))
        
        # 생성 정보 출력
        print("\n" + "-"*60)
        print("📊 리포트 생성 정보")
        print("-"*60)
        print(f"🏢 기업명: {report_result['company_name']}")
        print(f"📅 생성 시간: {report_result['generation_timestamp']}")
        print(f"🤖 AI 모델: {report_result['metadata']['model']}")
        print(f"📊 데이터 소스: {report_result['metadata']['data_source']}")
        print(f"🎯 파인튜닝 적합성: {report_result['metadata']['suitable_for_finetuning']}")
        
    else:
        print(f"❌ 리포트 생성 실패: {report_result['error']}")

In [1]:
# 📊 배치 리포트 생성 (여러 기업 동시 처리)

def generate_batch_reports(companies: List[str]) -> Dict[str, Any]:
    """
    여러 기업에 대한 리포트를 배치로 생성
    
    Args:
        companies (List[str]): 분석할 기업 목록
    
    Returns:
        Dict[str, Any]: 배치 처리 결과
    """
    batch_results = {
        "start_time": datetime.now().isoformat(),
        "companies_requested": companies,
        "successful_reports": [],
        "failed_reports": [],
        "total_reports_generated": 0
    }
    
    print(f"🚀 배치 리포트 생성 시작 - {len(companies)}개 기업")
    print("="*60)
    
    for i, company in enumerate(companies, 1):
        print(f"\n[{i}/{len(companies)}] {company} 처리 중...")
        
        if company not in available_companies:
            error_msg = f"'{company}'는 DB에 없는 기업입니다."
            print(f"  ❌ {error_msg}")
            batch_results["failed_reports"].append({
                "company": company,
                "error": error_msg
            })
            continue
        
        try:
            report_result = generate_investment_report(
                company_name=company,
                save_to_file=True
            )
            
            if "error" not in report_result:
                batch_results["successful_reports"].append(company)
                batch_results["total_reports_generated"] += 1
                print(f"  ✅ {company} 리포트 생성 완료")
            else:
                batch_results["failed_reports"].append({
                    "company": company,
                    "error": report_result["error"]
                })
                print(f"  ❌ {company} 리포트 생성 실패")
                
        except Exception as e:
            batch_results["failed_reports"].append({
                "company": company,
                "error": str(e)
            })
            print(f"  ❌ {company} 처리 중 오류: {e}")
    
    batch_results["end_time"] = datetime.now().isoformat()
    
    # 결과 요약
    print("\n" + "="*60)
    print("📊 배치 처리 결과")
    print("="*60)
    print(f"✅ 성공: {len(batch_results['successful_reports'])}개")
    print(f"❌ 실패: {len(batch_results['failed_reports'])}개")
    print(f"📊 총 생성된 리포트: {batch_results['total_reports_generated']}개")
    
    return batch_results

# 배치 처리 실행 예시 (필요시 주석 해제)
# batch_companies = ["삼성전자", "SK하이닉스", "NAVER"]
# batch_results = generate_batch_reports(batch_companies)

print("✅ 배치 처리 함수 준비 완료")
print("💡 여러 기업을 동시에 처리하려면 위 코드의 주석을 해제하세요")

NameError: name 'List' is not defined

# 🎯 파인튜닝 데이터셋 활용 가이드

## 📁 생성된 파일 구조
```
finetuning_dataset/
├── SK하이닉스_20250131_143022.md      # 개별 리포트 (마크다운)
├── SK하이닉스_20250131_143022.json    # 메타데이터 포함 JSON
└── all_reports.jsonl                  # 파인튜닝용 누적 데이터
```

## 🤖 파인튜닝 활용 방법

### 1. **데이터셋 형식**
- `all_reports.jsonl`: instruction-input-output 형식
- 각 줄은 하나의 학습 샘플
- 일관된 리포트 구조로 고품질 데이터 보장

### 2. **추천 활용 시나리오**
- **OpenAI GPT 파인튜닝**: all_reports.jsonl 직접 사용
- **Google Gemini 튜닝**: JSON 형식을 Google AI Studio 형식으로 변환
- **오픈소스 모델**: Hugging Face 형식으로 변환

### 3. **데이터 품질 관리**
- 모든 리포트는 동일한 구조화된 템플릿 사용
- 메타데이터로 데이터 추적 가능
- 사실 기반 분석으로 환각(hallucination) 최소화

## 🔄 지속적 개선 프로세스

1. **pipeline_update.py** 정기 실행 → 최신 데이터 수집
2. **rag_report_generator.ipynb** 배치 실행 → 다량 리포트 생성  
3. **생성된 데이터셋** → 파인튜닝 모델 학습
4. **튜닝된 모델** → 더 정확한 리포트 생성
5. **반복** → 점진적 성능 향상

## 🎉 완성된 시스템의 장점

- ✅ **확장성**: 새로운 기업/데이터 소스 쉽게 추가
- ✅ **일관성**: 구조화된 템플릿으로 품질 보장
- ✅ **효율성**: 로컬 RAG로 빠른 응답
- ✅ **자동화**: 파이프라인 → 리포트 → 파인튜닝 데이터 자동 생성
- ✅ **전문성**: 증권사 애널리스트 수준의 분석 구조

이제 **전문 AI 리포트 생성 시스템**과 **파인튜닝 데이터셋**이 완성되었습니다! 🚀