In [1]:
from langchain_ollama import ChatOllama
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_community.embeddings import OllamaEmbeddings
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
import time

# 모델 일관성을 위한 상수 정의
MODEL_NAME = "qwen2.5:1.5b"
BASE_URL = "http://localhost:11434"
#EMBEDDING_MODEL_NAME = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
EMBEDDING_MODEL_NAME = "bge-m3:latest"

In [3]:
print("=" * 60)
print(" 로컬 RAG 시스템 초기화")
print("=" * 60)

# 1. 문서 로딩
print("==> 1. 문서 로딩 → PDF 읽기...")
try:
    loader = PyPDFLoader('../data/tutorial-korean.pdf')
    documents = loader.load()
    print(f"총 {len(documents)}페이지 로드 완료")
except Exception as e:
    print(f"PDF 로딩 실패: {e}")
    print("'../data/tutorial-korean.pdf' 파일이 존재하는지 확인해주세요.")
    exit(1)

 로컬 RAG 시스템 초기화
==> 1. 문서 로딩 → PDF 읽기...
총 39페이지 로드 완료


In [5]:

# 2. 문서 분할
print("==> 2. 문서 분할 → 작은 청크로 나누기")
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=800,
    chunk_overlap=150,
    separators=["\n\n", "\n", ".", " ", ""]
)

chunks = text_splitter.split_documents(documents)
print(f"{len(chunks)}개 청크 생성 완료")
print(f"평균 청크 길이: {sum(len(chunk.page_content) for chunk in chunks) / len(chunks):.0f}자")

# 3. 임베딩 설정
print("==> 3. 임베딩 설정...")
print("임베딩 모델 다운로드 중... (최초 실행 시 시간이 소요됩니다)")
try:
    # embeddings = HuggingFaceEmbeddings(
    #     model_name=EMBEDDING_MODEL_NAME,
    #     model_kwargs={'device': 'cpu'},
    #     encode_kwargs={'normalize_embeddings': True}
    # )
    # print("HuggingFace 임베딩 모델 설정 완료")
    embeddings = OllamaEmbeddings(
        model="bge-m3:latest",  # 사용할 임베딩 모델 이름
        base_url="http://localhost:11434",  # Ollama 서버 URL
    )
    print("OllamaEmbeddings 임베딩 모델 설정 완료")
except Exception as e:
    print(f"임베딩 모델 설정 실패: {e}")
    print("인터넷 연결을 확인하거나 다음 패키지를 설치해주세요:")
    #print("pip install sentence-transformers")
    exit(1)

==> 2. 문서 분할 → 작은 청크로 나누기
76개 청크 생성 완료
평균 청크 길이: 605자
==> 3. 임베딩 설정...
임베딩 모델 다운로드 중... (최초 실행 시 시간이 소요됩니다)
OllamaEmbeddings 임베딩 모델 설정 완료


In [9]:

# 4. 벡터스토어 생성
print("==> 4. 벡터스토어 생성...")
print("임베딩 생성 중... (시간이 소요됩니다)")

start_time = time.time()
try:
    vectorstore = FAISS.from_documents(chunks, embeddings)
    embedding_time = time.time() - start_time
    print(f"FAISS 벡터스토어 생성 완료 ({len(chunks)}개 벡터)")
    print(f"임베딩 소요 시간: {embedding_time:.1f}초")
except Exception as e:
    print(f"벡터스토어 생성 실패: {e}")
    print("모델이 설치되어 있는지 확인해주세요: ollama pull bge-m3:latest")
    exit(1)

==> 4. 벡터스토어 생성...
임베딩 생성 중... (시간이 소요됩니다)
FAISS 벡터스토어 생성 완료 (76개 벡터)
임베딩 소요 시간: 243.6초


In [10]:

# 5. 검색기 설정
print("==> 5. 검색기 설정...")
retriever = vectorstore.as_retriever(
    search_type="similarity",
    search_kwargs={"k": 3}
)
print("검색기 설정 완료")

# 6. LLM 설정
print("==> 6. LLM 설정...")
try:
    llm = ChatOllama(
        model=MODEL_NAME,
        temperature=0.1,
        num_predict=800
    )
    print("LLM 설정 완료")
except Exception as e:
    print(f"LLM 설정 실패: {e}")
    exit(1)


==> 5. 검색기 설정...
검색기 설정 완료
==> 6. LLM 설정...
LLM 설정 완료


In [11]:

# 7. 프롬프트 설정
print("==> 7. 프롬프트 설정...")
prompt_template = """당신은 BlueJ 프로그래밍 환경 전문가입니다.
아래 문서 내용을 바탕으로 정확하고 친절한 답변을 제공해주세요.

문서 내용:
{context}

질문: {question}

답변 규칙:
1. 문서 내용만을 근거로 답변하세요
2. 단계별로 설명하세요  
3. 구체적인 메뉴명, 버튼명을 포함하세요
4. 문서에 없는 정보는 "문서에서 찾을 수 없습니다"라고 하세요

답변:"""

prompt = PromptTemplate(
    template=prompt_template,
    input_variables=["context", "question"]
)
print("프롬프트 설정 완료")


==> 7. 프롬프트 설정...
프롬프트 설정 완료


In [12]:

# 8. QA 체인 생성
print("==> 8. QA 체인 생성...")
try:
    qa_chain = RetrievalQA.from_chain_type(
        llm=llm,
        chain_type="stuff",
        retriever=retriever,
        chain_type_kwargs={"prompt": prompt},
        return_source_documents=True
    )
    print("RAG 파이프라인 구축 완료")
except Exception as e:
    print(f"QA 체인 생성 실패: {e}")
    exit(1)


==> 8. QA 체인 생성...
RAG 파이프라인 구축 완료


In [13]:

# 9. 테스트 실행
print("\n" + "=" * 60)
print(" 로컬 RAG 시스템 테스트")
print("=" * 60)

test_questions = [
    "BlueJ에서 객체를 생성하는 방법은 무엇인가요?",
    "컴파일 오류가 발생했을 때 어떻게 확인할 수 있나요?"
]

total_start_time = time.time()

for i, question in enumerate(test_questions, 1):
    print(f"\n【테스트 {i}/{len(test_questions)}】")
    print(f"질문: {question}")
    print("답변 생성 중...")
    
    question_start_time = time.time()
    
    try:
        result = qa_chain.invoke({"query": question})
        answer = result["result"]
        source_docs = result["source_documents"]
        
        question_time = time.time() - question_start_time
        
        print(f"\n답변: (응답시간: {question_time:.1f}초)")
        print("-" * 50)
        print(answer)
        
        print(f"\n참조 문서:")
        for j, doc in enumerate(source_docs[:2], 1):
            page = doc.metadata.get('page', 'N/A')
            preview = doc.page_content[:50].replace('\n', ' ')
            print(f"   {j}. 페이지 {page}: {preview}...")
            
    except Exception as e:
        print(f"답변 생성 실패: {e}")
    
    print("\n" + "-" * 40)

total_time = time.time() - total_start_time
print(f"\n테스트 완료! (총 소요시간: {total_time:.1f}초)")

# 10. 대화형 모드
print("\n" + "=" * 60)
print(" 대화형 모드 (종료: 'quit' 입력)")
print("=" * 60)

while True:
    try:
        user_question = input("\n질문을 입력하세요: ").strip()
        
        if user_question.lower() in ['quit', 'exit', '종료', 'q']:
            print("RAG 시스템을 종료합니다.")
            break
            
        if not user_question:
            continue
            
        print("답변 생성 중...")
        start_time = time.time()
        
        result = qa_chain.invoke({"query": user_question})
        answer = result["result"]
        response_time = time.time() - start_time
        
        print(f"\n답변: (응답시간: {response_time:.1f}초)")
        print("-" * 50)
        print(answer)
        
    except KeyboardInterrupt:
        print("\nRAG 시스템을 종료합니다.")
        break
    except Exception as e:
        print(f"오류 발생: {e}")

print("\n로컬 RAG 시스템 세션 종료!")


 로컬 RAG 시스템 테스트

【테스트 1/2】
질문: BlueJ에서 객체를 생성하는 방법은 무엇인가요?
답변 생성 중...

답변: (응답시간: 45.3초)
--------------------------------------------------
BlueJ에서 객체를 생성하는 방법은 다음과 같습니다:

1. **Tools - Use Libraries Class 메뉴 선택**:
   - 이 메뉴를 선택하면 대화상자가 나타납니다.
   - 팝업된 대화상자에는 클래스명을 입력해야 합니다. 예: `java.lang.String` 또는 `java.util.ArrayList`.
   - 입력한 클래스명과 함께 엔터를 누르면 객체가 생성됩니다.

2. **클래스명 입력 및 OK 클릭**:
   - 입력한 클래스명이 오브젝트 벤치에 표시됩니다.
   - 이 과정에서 생성된 객체는 오브젝트 벤치에 보여집니다.

3. **객체 메소드 팝업 메뉴 확인**:
   - 마우스 오른쪽 버튼을 클릭하면 객체 메소드들이 포함된 팝업 메뉴가 표시됩니다.
   - 이 메뉴에는 사용할 수 있는 메소드와 BlueJ 환경에서 제공하는 Inspect 및 Remove 기능이 있습니다.

4. **메소드 호출**:
   - 선택한 메소드를 실행하려면 해당 메소드에 마우스 오른쪽 버튼을 클릭하여 메뉴가 표시됩니다.
   - 이 과정은 생성된 객체와 관련된 메소드의 실행을 가능하게 합니다.

5. **프로젝트 열기 및 객체 생성**:
   - 프로젝트를 열어 프로젝트 디렉토리를 선택합니다.
   - 예제 프로젝트인 `people`를 선택하여 프로젝트를 오픈합니다.

6. **메인 윈도우 확인**:
   - 메인 윈도우의 사각형들은 (Database, Person, Staff, Student)으로 명명된 사각형들입니다.
   - 이 사각형들은 프로그램에서 사용되는 클래스와 관련이 있습니다.

이러한 과정을 통해 BlueJ에서는 다양한 라이브러리 클래스로부터 객체를 생성하고, 이를 활용하여 프로그래밍 실