# Ollama API를 이용한 문서 질의응답 시스템

이 노트북은 doc 폴더의 마크다운 파일들을 읽어서 Ollama API를 통해 질의응답을 수행합니다.

In [None]:
import os
import glob
import ollama
import json
from pathlib import Path
import pandas as pd
from IPython.display import display, Markdown

print("라이브러리 로딩 완료")

## 1. 마크다운 파일 로딩 함수

In [None]:
def load_markdown_files(doc_folder='doc'):
    """
    doc 폴더의 모든 마크다운 파일을 읽어서 딕셔너리로 반환
    """
    documents = {}
    doc_path = Path(doc_folder)
    
    if not doc_path.exists():
        print(f"'{doc_folder}' 폴더가 존재하지 않습니다.")
        return documents
    
    md_files = list(doc_path.glob('*.md'))
    
    if not md_files:
        print(f"'{doc_folder}' 폴더에 마크다운 파일이 없습니다.")
        return documents
    
    for md_file in md_files:
        try:
            with open(md_file, 'r', encoding='utf-8') as f:
                content = f.read()
                documents[md_file.name] = {
                    'path': str(md_file),
                    'content': content,
                    'size': len(content)
                }
                print(f"✅ {md_file.name} 로딩 완료 ({len(content):,} 문자)")
        except Exception as e:
            print(f"❌ {md_file.name} 로딩 실패: {e}")
    
    return documents

# 문서 로딩
documents = load_markdown_files()
print(f"\n총 {len(documents)}개의 문서가 로딩되었습니다.")

## 2. 로딩된 문서 정보 확인

In [None]:
if documents:
    doc_info = []
    for filename, doc_data in documents.items():
        doc_info.append({
            '파일명': filename,
            '경로': doc_data['path'],
            '크기(문자)': f"{doc_data['size']:,}",
            '내용 미리보기': doc_data['content'][:100] + '...' if len(doc_data['content']) > 100 else doc_data['content']
        })
    
    df_docs = pd.DataFrame(doc_info)
    display(df_docs)
else:
    print("로딩된 문서가 없습니다.")

## 3. Ollama API 연결 및 모델 확인

In [None]:
def check_ollama_connection():
    """
    Ollama 서비스 연결 및 사용 가능한 모델 확인
    """
    try:
        # 사용 가능한 모델 목록 가져오기
        models = ollama.list()
        print("🔗 Ollama 연결 성공!")
        print(f"사용 가능한 모델 수: {len(models['models'])}")
        
        model_list = []
        for model in models['models']:
            model_list.append({
                '모델명': model['name'],
                '크기': f"{model.get('size', 0) / (1024**3):.1f}GB" if 'size' in model else 'N/A',
                '수정일': model.get('modified_at', 'N/A')[:10] if 'modified_at' in model else 'N/A'
            })
        
        if model_list:
            df_models = pd.DataFrame(model_list)
            display(df_models)
            return models['models'][0]['name']  # 첫 번째 모델을 기본으로 사용
        else:
            print("사용 가능한 모델이 없습니다. 먼저 모델을 다운로드해주세요.")
            print("예: ollama pull llama2")
            return None
            
    except Exception as e:
        print(f"❌ Ollama 연결 실패: {e}")
        print("Ollama가 실행 중인지 확인해주세요: ollama serve")
        return None

# Ollama 연결 확인
default_model = check_ollama_connection()

## 4. 문서 기반 질의응답 함수

In [None]:
def query_documents(question, model_name=None, include_context=True):
    """
    로딩된 문서를 컨텍스트로 사용하여 질문에 답변
    """
    if not documents:
        return "로딩된 문서가 없습니다. 먼저 문서를 로딩해주세요."
    
    if not model_name:
        model_name = default_model
        
    if not model_name:
        return "사용 가능한 Ollama 모델이 없습니다."
    
    # 모든 문서 내용을 컨텍스트로 결합
    context = ""
    for filename, doc_data in documents.items():
        context += f"\n\n=== {filename} ===\n{doc_data['content']}"
    
    # 프롬프트 구성
    if include_context:
        prompt = f"""다음 문서들을 기반으로 질문에 답변해주세요:

문서 내용:
{context}

질문: {question}

답변은 문서의 내용을 기반으로 정확하고 자세하게 해주세요. 문서에 없는 내용은 추측하지 마세요."""
    else:
        prompt = question
    
    try:
        print(f"🤖 {model_name} 모델로 질의 중...")
        
        # Ollama API 호출
        response = ollama.chat(model=model_name, messages=[
            {
                'role': 'user',
                'content': prompt
            }
        ])
        
        return response['message']['content']
        
    except Exception as e:
        return f"❌ 질의 실패: {e}"

print("질의응답 함수 정의 완료")

## 5. 대화형 질의응답 인터페이스

In [None]:
def interactive_qa():
    """
    대화형 질의응답 인터페이스
    """
    print("=" * 60)
    print("📚 문서 기반 질의응답 시스템")
    print("=" * 60)
    print("사용법:")
    print("- 질문을 입력하면 로딩된 문서를 기반으로 답변합니다")
    print("- 'quit' 또는 'exit'를 입력하면 종료됩니다")
    print("- '!docs'를 입력하면 로딩된 문서 목록을 확인할 수 있습니다")
    print("-" * 60)
    
    while True:
        question = input("\n❓ 질문을 입력하세요: ").strip()
        
        if question.lower() in ['quit', 'exit', '종료']:
            print("👋 질의응답을 종료합니다.")
            break
        
        if question == '!docs':
            print("\n📁 로딩된 문서 목록:")
            for i, (filename, doc_data) in enumerate(documents.items(), 1):
                print(f"{i}. {filename} ({doc_data['size']:,} 문자)")
            continue
        
        if not question:
            print("질문을 입력해주세요.")
            continue
        
        print("\n" + "="*50)
        answer = query_documents(question)
        print("\n💬 답변:")
        print(answer)
        print("="*50)

# 대화형 인터페이스 시작 (필요시 실행)
# interactive_qa()

## 6. 예시 질의응답

In [None]:
# 예시 질문들
sample_questions = [
    "문서에 어떤 내용이 포함되어 있나요?",
    "주요 키워드를 요약해주세요",
    "문서의 구조를 설명해주세요"
]

print("📝 예시 질의응답:")
print("=" * 60)

for i, question in enumerate(sample_questions, 1):
    print(f"\n{i}. 질문: {question}")
    print("-" * 40)
    
    answer = query_documents(question)
    print(f"답변: {answer}")
    print("=" * 60)

## 7. 커스텀 질의

In [None]:
# 여기에 직접 질문을 입력하여 테스트할 수 있습니다
custom_question = "문서의 주요 내용을 3줄로 요약해주세요"

if custom_question.strip():
    print(f"❓ 질문: {custom_question}")
    print("="*50)
    
    answer = query_documents(custom_question)
    print(f"\n💬 답변:")
    display(Markdown(answer))
else:
    print("위의 custom_question 변수에 질문을 입력하고 셀을 실행하세요.")

## 8. 고급 기능 - 문서별 개별 질의

In [None]:
def query_specific_document(filename, question, model_name=None):
    """
    특정 문서에 대해서만 질의
    """
    if filename not in documents:
        return f"'{filename}' 문서를 찾을 수 없습니다."
    
    if not model_name:
        model_name = default_model
    
    if not model_name:
        return "사용 가능한 Ollama 모델이 없습니다."
    
    context = documents[filename]['content']
    
    prompt = f"""다음 문서를 기반으로 질문에 답변해주세요:

문서: {filename}
내용:
{context}

질문: {question}

답변은 이 문서의 내용만을 기반으로 해주세요."""
    
    try:
        print(f"🤖 {model_name} 모델로 '{filename}' 문서 질의 중...")
        
        response = ollama.chat(model=model_name, messages=[
            {
                'role': 'user',
                'content': prompt
            }
        ])
        
        return response['message']['content']
        
    except Exception as e:
        return f"❌ 질의 실패: {e}"

# 특정 문서 질의 예시
if documents:
    first_doc = list(documents.keys())[0]
    print(f"📄 '{first_doc}' 문서에 대한 질의 예시:")
    
    specific_answer = query_specific_document(first_doc, "이 문서의 핵심 내용이 무엇인가요?")
    print(f"\n답변: {specific_answer}")
else:
    print("질의할 문서가 없습니다.")

## 9. 유틸리티 함수들

In [None]:
def reload_documents():
    """
    문서 다시 로딩
    """
    global documents
    documents = load_markdown_files()
    print(f"문서 다시 로딩 완료: {len(documents)}개")

def show_document_stats():
    """
    문서 통계 표시
    """
    if not documents:
        print("로딩된 문서가 없습니다.")
        return
    
    total_chars = sum(doc_data['size'] for doc_data in documents.values())
    
    print("📊 문서 통계:")
    print(f"- 총 문서 수: {len(documents)}개")
    print(f"- 총 문자 수: {total_chars:,}개")
    print(f"- 평균 문서 크기: {total_chars//len(documents):,}문자")
    
    print("\n📁 개별 문서 크기:")
    for filename, doc_data in sorted(documents.items(), key=lambda x: x[1]['size'], reverse=True):
        print(f"  {filename}: {doc_data['size']:,}문자")

def export_qa_session(questions_answers, filename="qa_session.json"):
    """
    질의응답 세션을 JSON 파일로 저장
    """
    try:
        with open(filename, 'w', encoding='utf-8') as f:
            json.dump(questions_answers, f, ensure_ascii=False, indent=2)
        print(f"✅ 질의응답 세션이 '{filename}'에 저장되었습니다.")
    except Exception as e:
        print(f"❌ 저장 실패: {e}")

# 통계 표시
show_document_stats()

## 10. 사용 가이드

### 기본 사용법:
1. **문서 로딩**: `documents = load_markdown_files()` - doc 폴더의 모든 .md 파일을 로딩
2. **질의**: `answer = query_documents("질문")` - 로딩된 모든 문서를 기반으로 답변
3. **특정 문서 질의**: `answer = query_specific_document("파일명.md", "질문")` - 특정 문서만 사용

### 고급 기능:
- **대화형 인터페이스**: `interactive_qa()` 실행
- **문서 통계**: `show_document_stats()` 실행
- **문서 재로딩**: `reload_documents()` 실행

### 주의사항:
- Ollama가 실행 중이어야 합니다 (`ollama serve`)
- 최소 하나의 모델이 설치되어 있어야 합니다 (`ollama pull llama2`)
- 큰 문서의 경우 응답 시간이 오래 걸릴 수 있습니다
