# 1. 모듈 임포트

In [28]:
!pwd   # Linux/Mac

/home/spai0301/AI-RAG-Team3/notebooks


In [29]:
!pip install -r ../requirements.txt

Defaulting to user installation because normal site-packages is not writeable


In [None]:
from pathlib import Path
from dotenv import load_dotenv
import os
import sys

import importlib


# 프로젝트 루트 기준 (config와 src 폴더가 있는 위치)
BASE_DIR = Path("../").resolve()  

SRC_DIR = BASE_DIR / "src"
CONFIG_DIR = BASE_DIR / "config"  

load_dotenv(CONFIG_DIR / ".env", override=True)  # override=True -> 기존 환경 변수 덮어쓰기

for path in [SRC_DIR, BASE_DIR]:  # BASE_DIR 포함
    if str(path) not in sys.path:
        sys.path.append(str(path))

# 확인
print(sys.path)

# 이제 import 가능
import config.settings

importlib.reload(config.settings)


print(config.settings.OPENAI_API_KEY)
print(config.settings.LLM_MODEL)

print(os.getenv("LLM_MODEL"))

['/usr/lib/python310.zip', '/usr/lib/python3.10', '/usr/lib/python3.10/lib-dynload', '', '/home/spai0301/.local/lib/python3.10/site-packages', '/usr/local/lib/python3.10/dist-packages', '/usr/lib/python3/dist-packages', '/home/spai0301/AI-RAG-Team3/src', '/home/spai0301/AI-RAG-Team3']
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
gpt-5
gpt-5


In [60]:
# Notebook에서 모듈 재로드

import pipelines.query_pipeline as qp
import generation.llm_openai as llm
import generation.response_postprocess as rp
import generation.prompt_selector as ps
import config.settings as setting

# 수정한 코드 반영
importlib.reload(ps)
importlib.reload(qp)
importlib.reload(llm)
importlib.reload(rp)
importlib.reload(setting)


<module 'config.settings' from '/home/spai0301/AI-RAG-Team3/config/settings.py'>

In [61]:
import importlib

from generation.llm_openai import OpenAIRAGClient
from pipelines.query_pipeline import QueryPipeline
from generation.prompt_templates import QA_PROMPT, SUMMARY_PROMPT
from generation.response_postprocess import clean_response


from types import SimpleNamespace


In [62]:
from typing import List
from types import SimpleNamespace
import numpy as np

# 2. 더미 retriever
# 각 RFP 파일 예시 (dummy)
rfp_files = [
    {
        "file_name": "rfp_001.pdf",
        "chunks": [
            {"title": "프로젝트 개요", "content": "프로젝트 목적 및 기간: 2025-10 ~ 2026-12"},
            {"title": "사업 범위", "content": "용수 공급 사업 타당성 조사 및 계획 수립"},
            {"title": "제출 서류", "content": "제안서, 계획서, 환경 영향 평가서 등 PDF 제출"},
            {"title": "평가 기준", "content": "기술력 40%, 가격 30%, 일정 준수 20%, 참고 사례 10%"},
            {"title": "문의 연락처", "content": "담당자: 홍길동, 이메일: contact@example.com"}
        ]
    },
    {
        "file_name": "rfp_002.pdf",
        "chunks": [
            {"title": "프로젝트 개요", "content": "프로젝트 목적 및 기간: 2026-01 ~ 2026-12"},
            {"title": "사업 범위", "content": "산업단지 전력 공급 사업 조사 및 계획"},
            {"title": "제출 서류", "content": "제안서, 사업 계획서, 안전 평가서 제출"},
            {"title": "평가 기준", "content": "기술력 50%, 가격 25%, 일정 준수 15%, 참고 사례 10%"},
            {"title": "문의 연락처", "content": "담당자: 김철수, 이메일: contact2@example.com"}
        ]
    }
]

# 간단한 임베딩 함수 (실제는 모델 임베딩 사용)
def fake_embed(text: str) -> np.ndarray:
    # 단순히 ord 합으로 길이 2짜리 벡터 예시
    return np.array([sum(ord(c) for c in text) % 1000, len(text) % 100])

def cosine_sim(vec1: np.ndarray, vec2: np.ndarray) -> float:
    return np.dot(vec1, vec2) / (np.linalg.norm(vec1) * np.linalg.norm(vec2) + 1e-8)



In [63]:
class AllFilesRetrieverWithSim:
    def __init__(self, rfp_files: List[dict]):
        self.chunks = []
        for f in rfp_files:
            for c in f["chunks"]:
                self.chunks.append(
                    SimpleNamespace(
                        file_name=f["file_name"],
                        title=c["title"],
                        page_content=c["content"],
                        embedding=fake_embed(c["content"])
                    )
                )

    def get_relevant_documents(self, query: str, top_k: int = 5) -> List[SimpleNamespace]:
        query_emb = fake_embed(query)
        scored = []
        for doc in self.chunks:
            sim = cosine_sim(query_emb, doc.embedding)
            # similarity 속성 추가
            scored.append(SimpleNamespace(
                file_name=doc.file_name,
                title=doc.title,
                page_content=doc.page_content,
                embedding=doc.embedding,
                similarity=sim
            ))
        # 유사도 순으로 정렬 후 top_k
        scored.sort(key=lambda x: x.similarity, reverse=True)
        return scored[:top_k]


In [64]:
# 3. LLM + Pipeline 초기화
llm = OpenAIRAGClient(temperature=0.7)

retriever = AllFilesRetrieverWithSim(rfp_files)
pipeline = QueryPipeline(llm=llm, retriever=retriever)

In [65]:
# 4. 쿼리 테스트
queries = ["경기 2분기 2억 이하 사업 있나요?", "필요한 제출서류가 뭐야?"]
for q in queries:
    results = retriever.get_relevant_documents(q)

    for r in results:
        print(f"{r.file_name} - {r.title}: {r.page_content} | similarity: {r.similarity:.4f}")
    answer = pipeline.run(q)
    print(f"Q: {q}\nA: {answer}\n")

rfp_002.pdf - 사업 범위: 산업단지 전력 공급 사업 조사 및 계획 | similarity: 1.0000
rfp_002.pdf - 프로젝트 개요: 프로젝트 목적 및 기간: 2026-01 ~ 2026-12 | similarity: 0.9999
rfp_001.pdf - 프로젝트 개요: 프로젝트 목적 및 기간: 2025-10 ~ 2026-12 | similarity: 0.9999
rfp_001.pdf - 제출 서류: 제안서, 계획서, 환경 영향 평가서 등 PDF 제출 | similarity: 0.9999
rfp_001.pdf - 사업 범위: 용수 공급 사업 타당성 조사 및 계획 수립 | similarity: 0.9998


분류기: [검색/필터링]
finish_reason: stop
Q: 경기 2분기 2억 이하 사업 있나요?
A: 제공된 자료에는 지역·분기·예산별 사업 목록이 없어 ‘경기 2분기 2억 이하’ 해당 사업 여부를 확인할 수 없습니다. 아래 항목을 지정해 주시면 바로 조회해 드리겠습니다. - 연도: 2025 또는 2026 - 사업 분야: 전력 공급 조사/계획, 용수 공급 타당성/계획 - 예산: 1억 이하, 1~2억 (둘 중 선택 또는 둘 다) - 지역: 경기(유지) 또는 변경: 서울/기타 - 분기: 2분기(유지) 예시 질문 - “경기 2026년 2분기 전력 공급 조사 사업 1~2억 구간 있나요?” - “경기 2025년 2분기 용수 타당성 조사 1억 이하 있나요?”

rfp_002.pdf - 사업 범위: 산업단지 전력 공급 사업 조사 및 계획 | similarity: 1.0000
rfp_002.pdf - 프로젝트 개요: 프로젝트 목적 및 기간: 2026-01 ~ 2026-12 | similarity: 0.9999
rfp_001.pdf - 프로젝트 개요: 프로젝트 목적 및 기간: 2025-10 ~ 2026-12 | similarity: 0.9999
rfp_001.pdf - 제출 서류: 제안서, 계획서, 환경 영향 평가서 등 PDF 제출 | similarity: 0.9999
rfp_001.pdf - 사업 범위: 용수 공급 사업 타당성 조사 및 계획 수립 | similarity: 0.9997
분류기: 안내
finish_reason: stop
Q: 필요한 제출서류가 뭐야?
A: - 제안서(PDF) - 계획서(PDF) - 환경영향평가서(PDF) 모두 PDF 형식으로 제출합니다. 추가 필요한 서류가 있으면 알려드릴까요?



In [66]:
# 5. 히스토리 확인
pipeline.chat_history
# print(pipeline.chat_history)

[{'role': 'user', 'content': '경기 2분기 2억 이하 사업 있나요?'},
 {'role': 'assistant',
  'content': '제공된 자료에는 지역·분기·예산별 사업 목록이 없어 ‘경기 2분기 2억 이하’ 해당 사업 여부를 확인할 수 없습니다. 아래 항목을 지정해 주시면 바로 조회해 드리겠습니다.\n\n- 연도: 2025 또는 2026\n- 사업 분야: 전력 공급 조사/계획, 용수 공급 타당성/계획\n- 예산: 1억 이하, 1~2억 (둘 중 선택 또는 둘 다)\n- 지역: 경기(유지) 또는 변경: 서울/기타\n- 분기: 2분기(유지)\n\n예시 질문\n- “경기 2026년 2분기 전력 공급 조사 사업 1~2억 구간 있나요?”\n- “경기 2025년 2분기 용수 타당성 조사 1억 이하 있나요?”'},
 {'role': 'user', 'content': '필요한 제출서류가 뭐야?'},
 {'role': 'assistant',
  'content': '- 제안서(PDF)\n- 계획서(PDF)\n- 환경영향평가서(PDF)\n\n모두 PDF 형식으로 제출합니다. 추가 필요한 서류가 있으면 알려드릴까요?'}]

In [67]:
q = "그 시작일이 언제랬지?"
answer = pipeline.run(q)
print(f"Q: {q}\nA: {answer}\n")

분류기: [검색/필터링]
finish_reason: stop
Q: 그 시작일이 언제랬지?
A: 문서에 시작일이 두 가지로 기재되어 있습니다. - 2025-10 ~ 2026-12 → 시작일: 2025-10 - 2026-01 ~ 2026-12 → 시작일: 2026-01 어느 일정을 말씀하시나요? 선택: [2025-10 시작] / [2026-01 시작]



In [68]:
pipeline.chat_history

[{'role': 'user', 'content': '경기 2분기 2억 이하 사업 있나요?'},
 {'role': 'assistant',
  'content': '제공된 자료에는 지역·분기·예산별 사업 목록이 없어 ‘경기 2분기 2억 이하’ 해당 사업 여부를 확인할 수 없습니다. 아래 항목을 지정해 주시면 바로 조회해 드리겠습니다.\n\n- 연도: 2025 또는 2026\n- 사업 분야: 전력 공급 조사/계획, 용수 공급 타당성/계획\n- 예산: 1억 이하, 1~2억 (둘 중 선택 또는 둘 다)\n- 지역: 경기(유지) 또는 변경: 서울/기타\n- 분기: 2분기(유지)\n\n예시 질문\n- “경기 2026년 2분기 전력 공급 조사 사업 1~2억 구간 있나요?”\n- “경기 2025년 2분기 용수 타당성 조사 1억 이하 있나요?”'},
 {'role': 'user', 'content': '필요한 제출서류가 뭐야?'},
 {'role': 'assistant',
  'content': '- 제안서(PDF)\n- 계획서(PDF)\n- 환경영향평가서(PDF)\n\n모두 PDF 형식으로 제출합니다. 추가 필요한 서류가 있으면 알려드릴까요?'},
 {'role': 'user', 'content': '그 시작일이 언제랬지?'},
 {'role': 'assistant',
  'content': '문서에 시작일이 두 가지로 기재되어 있습니다.\n- 2025-10 ~ 2026-12 → 시작일: 2025-10\n- 2026-01 ~ 2026-12 → 시작일: 2026-01\n\n어느 일정을 말씀하시나요? 선택: [2025-10 시작] / [2026-01 시작]'}]