## 종속성 설치

In [None]:
!pip install --upgrade --quiet  langchain langchain-core langchain-community langchain-text-splitters langchain-milvus langchain-openai bs4

In [None]:
!pip install --upgrade--quiet tokenizers


Usage:   
  pip3 install [options] <requirement specifier> [package-index-options] ...
  pip3 install [options] -r <requirements file> [package-index-options] ...
  pip3 install [options] [-e] <vcs project url> ...
  pip3 install [options] [-e] <local project path> ...
  pip3 install [options] <archive url/path> ...

no such option: --upgrade--quiet


In [None]:
!pip install bitsandbytes

Collecting bitsandbytes
  Downloading bitsandbytes-0.45.0-py3-none-manylinux_2_24_x86_64.whl.metadata (2.9 kB)
Downloading bitsandbytes-0.45.0-py3-none-manylinux_2_24_x86_64.whl (69.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m69.1/69.1 MB[0m [31m21.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: bitsandbytes
Successfully installed bitsandbytes-0.45.0


## LLM 모델 준비

In [None]:
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig

# 1. 모델 ID 설정
base_model_id = 'Bllossom/llama-3.2-Korean-Bllossom-3B'

# 2. BitsAndBytesConfig 설정
bnb_config = BitsAndBytesConfig(
    load_in_8bit=True, # 4bit quantization으로 모델을 불러와 메모리 소모를 줄임
)

# 3. 모델 로드
model = AutoModelForCausalLM.from_pretrained(base_model_id, quantization_config=bnb_config)

`low_cpu_mem_usage` was None, now default to True since model is quantized.


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [None]:
# 4. 토크나이저 로드
tokenizer = AutoTokenizer.from_pretrained(
    base_model_id,
    model_max_length=512,  # 최대 토큰 길이
    padding_side="left",   # 입력 패딩 방향
    add_eos_token=True     # EOS 토큰 추가
)

tokenizer.pad_token = tokenizer.eos_token

tokenizer_config.json:   0%|          | 0.00/54.7k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.2M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/296 [00:00<?, ?B/s]

In [None]:
from transformers import pipeline
from langchain.llms import HuggingFacePipeline
# LLM 파이프라인 설정 (LangChain과 통합)
llm_pipeline = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=500
)
llm = HuggingFacePipeline(pipeline=llm_pipeline)

Device set to use cuda:0


## 데이터 준비

<br>
Langchain csvLoader를 사용해 문서를 로드.

In [None]:
from google.colab import drive

# 구글 드라이브 마운트
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
file_path = '/content/drive/My Drive/Colab Notebooks/RAG_MilVus/서지.csv'

In [None]:
file_path = '/content/drive/My Drive/Colab Notebooks/RAG_MilVus/실라버스.csv'

In [None]:
import pandas as pd
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.docstore.document import Document

# CSV 파일 로드
file_path = '/content/drive/My Drive/Colab Notebooks/RAG_MilVus/서지.csv'
data = pd.read_csv(file_path)

# Replace NaN values in '책 소개' with an empty string
data['책 소개'] = data['책 소개'].fillna('')

# CSV 데이터를 LangChain Document로 변환
# Change metadata keys to start with an underscore and use English or abbreviations
bibliography_docs = [
    Document(
        page_content=row['책 소개'],  # 책 소개를 주요 내용으로 설정
        metadata={
            "title": row['제목'],       # Changed to 'title'
            "author": row['저자'],       # Changed to 'author'
            "publisher": row['출판사'],   # Changed to 'publisher'
            "isbn": row['ISBN']       # Changed to 'isbn'
        }
    )
    for _, row in data.iterrows()
]

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=200)
docs1 = text_splitter.split_documents(bibliography_docs)

# 첫 번째 분할된 문서 출력
print(docs1[1])

page_content='<전염병의 세계사>와 <전쟁의 세계사>로 국내 독자들에게 알려진 바 있으며, 현존하는 가장 탁월한 역사가 중 한명으로 꼽히는 윌리엄 맥닐 시카고대 역사학과 교수의 책. 해외에서입니다.' metadata={'title': '세계의 역사', 'author': '윌리엄 맥닐', 'publisher': '이산', 'isbn': 271590}


In [None]:
import pandas as pd
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.docstore.document import Document

# CSV 파일 로드
file_path = '/content/drive/My Drive/Colab Notebooks/RAG_MilVus/실라버스.csv'
data = pd.read_csv(file_path)

# Replace NaN values in '책 소개' with an empty string
data['요약 설명'] = data['요약 설명'].fillna('')

# CSV 데이터를 LangChain Document로 변환
# Change metadata keys to start with an underscore and use English or abbreviations
syllabus_docs = [
    Document( # Create Document objects instead of dictionaries
        page_content=row['요약 설명'],  # 요약 설명을 주요 내용으로 설정
        metadata={
            "title": row['강의 명'],        # Changed to '_title'
            "course_id": row['강의 번호'],  # Changed to '_course_id'
            "department": row['주관 학과'], # Changed to '_department'
            "reference": row['참고문헌']   # Changed to '_reference'
        }
    )
    for _, row in data.iterrows()
]

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size=2000, chunk_overlap=200)
docs2 = text_splitter.split_documents(syllabus_docs)

# 첫 번째 분할된 문서 출력
print(docs2[22])

page_content='인적자원 관리와 조직의 동기부여 및 성과 평가 기법을 탐구합니다.' metadata={'title': '인적자원관리', 'course_id': 1022, 'department': '경영학', 'reference': 'Human Resource Management'}


## 임베딩 모델 활용 데이터 임베딩 이후, Milvus 벡터 DB에 저장

<br>

문서로 Milvus 벡터 스토어를 초기화하여 Milvus 벡터 스토어에 문서를 로드하고 내부적으로 인덱스를 구축.

In [None]:
!pip install pymilvus



In [None]:
from langchain_milvus import Milvus
from langchain.embeddings import HuggingFaceEmbeddings

#  Milvus 컬렉션 생성
embedding_model = HuggingFaceEmbeddings(model_name="jhgan/ko-sroberta-multitask", model_kwargs={'device': 'cuda:0'})

# 서지 컬렉션
bibliography_store = Milvus.from_documents(
    documents=docs1,
    embedding=embedding_model,
    connection_args={
        "uri": "./milvus_demo.db",
    },
    collection_name="bibliography_collection",
    drop_old=True,
    # Specify index_params for FLAT index
    index_params={"index_type": "FLAT"}
)

# 실라버스 컬렉션
syllabus_store = Milvus.from_documents(
    documents=docs2,
    embedding=embedding_model,
    connection_args={
        "uri": "./milvus_demo.db",
    },
    collection_name="syllabus_collection",
    drop_old=True,
    # Specify index_params for FLAT index
    index_params={"index_type": "FLAT"}
)

### 서지 컬렉션 검색
테스트 쿼리 문제를 사용하여 Milvus 벡터 스토어에서 문서를 검색합니다. 상위 2개 문서를 살펴보기.

In [None]:
query = "거시경제학"
bibliography_store.similarity_search(query, k=2)

[Document(metadata={'author': '정운찬, 김영식', 'isbn': 599922, 'pk': 455439929979700909, 'publisher': '율곡출판사', 'title': '거시경제론'}, page_content='이 책은 거시경제론을 다룬 개론서입니다. 거시경제론의 기초적이고 전반적인 내용을 학습할 수 있도록 구성했습니다.'),
 Document(metadata={'author': 'Andrew B. Abel, Ben S. Bernanke, Dean Croushore', 'isbn': 514313, 'pk': 455439929979700907, 'publisher': '지필미디어', 'title': '거시경제학'}, page_content='『거시경제학』은 경제학을 공부하는 학생들을 위해 고전학파와 케인즈파의 여러 가정을 명료하게 설명하는 단일 경제모형을 바탕으로 하나로 통일된 접근방법을 제시한 책이다. 특히 세계입니다.')]

### 실라버스 컬렉션 검색
테스트 쿼리 문제를 사용하여 Milvus 벡터 스토어에서 문서를 검색합니다. 상위 2개 문서를 살펴보기.

In [None]:
query = "거시경제학"
syllabus_store.similarity_search(query, k=2)

[Document(metadata={'course_id': 1041, 'department': '경제학', 'pk': 455439930173163815, 'reference': 'Macroeconomics', 'title': '거시경제학'}, page_content='국가 경제와 정책의 영향을 다루는 거시경제학 원리를 탐구합니다.'),
 Document(metadata={'course_id': 1045, 'department': '경제학', 'pk': 455439930173163819, 'reference': 'Financial Economics', 'title': '금융 경제학'}, page_content='금융 시장의 구조와 경제학적 원리를 탐구합니다.')]

## RAG 체인 구축하기
LCEL(LangChain 표현 언어)을 사용하여 RAG 체인을 구축합니다.

### 결과 생성

In [None]:
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough

# LangChain Prompt 설정
PROMPT_TEMPLATE = """
당신은 서지 및 강의 정보를 분석하여 추천하는 AI 비서입니다.
아래 제공된 정보(context)와 <question> 태그 안에 있는 사용자 질문을 기반으로 정확하고 간결한 답변을 제시하세요.
질문에 대해 알맞은 도서와 강의를 추천하고, 각 추천 항목에 간단한 이유를 포함하세요.
검색 결과만 바탕으로 추천을 진행하세요.
만약 질문에 대한 답을 알 수 없다면, "모르겠습니다."라고만 답하세요. 추측하지 마세요.

<정보>
{context}
</정보>

<질문>
{question}
</질문>

응답 형식:
1. 추천 도서 목록:
- [도서명] (저자)
이유: [추천 이유]

2. 추천 강의 목록:
- [강의명]
이유: [추천 이유]

Assistant:"""

prompt = PromptTemplate(
    template=PROMPT_TEMPLATE,
    input_variables=["context", "question"]
)

# 두 개의 컬렉션에서 데이터를 검색하는 함수
def search_collections(query, syllabus_store, bibliography_store, top_k=2):
    query_embedding = embedding_model.embed_query(query)

    # 실라버스 컬렉션에서 검색
    syllabus_results = syllabus_store.similarity_search_by_vector(query_embedding, k=top_k)
    # Updated to use correct metadata keys
    syllabus_context = "\n".join(
        f"강의명: {res.metadata['title']}, 강의 번호: {res.metadata['course_id']}, 주관 학과: {res.metadata['department']}\n{res.page_content}"
        for res in syllabus_results
    )

    # 서지 컬렉션에서 검색
    bibliography_results = bibliography_store.similarity_search_by_vector(query_embedding, k=top_k)
    bibliography_context = "\n".join(
        f"도서명: {res.metadata['title']}, 저자: {res.metadata['author']}, 출판사: {res.metadata['publisher']}, ISBN: {res.metadata['isbn']}\n{res.page_content}"
        for res in bibliography_results
    )

    # 두 결과를 합침
    combined_context = f"실라버스 정보:\n{syllabus_context}\n\n서지 정보:\n{bibliography_context}"
    return combined_context

# 사용자 질의 처리 함수
def handle_query(query, syllabus_store, bibliography_store):
    # 검색 결과 가져오기
    context = search_collections(query, syllabus_store, bibliography_store)

    # Prompt에 맞게 데이터를 전달
    formatted_prompt = prompt.format(context=context, question=query)

    # LangChain API 또는 OpenAI API를 통해 결과 생성
    response = llm(formatted_prompt)

    return response

# 사용자 질의 테스트
query = "거시경제와 미시경제의 차이를 알 수 있는 강의 및 도서를 추천해줘."
response = handle_query(query, syllabus_store, bibliography_store)

print("추천 결과:")
print(response)


추천 결과:

당신은 서지 및 강의 정보를 분석하여 추천하는 AI 비서입니다.
아래 제공된 정보(context)와 <question> 태그 안에 있는 사용자 질문을 기반으로 정확하고 간결한 답변을 제시하세요.
질문에 대해 알맞은 도서와 강의를 추천하고, 각 추천 항목에 간단한 이유를 포함하세요.
검색 결과만 바탕으로 추천을 진행하세요.
만약 질문에 대한 답을 알 수 없다면, "모르겠습니다."라고만 답하세요. 추측하지 마세요.

<정보>
실라버스 정보:
강의명: 거시경제학, 강의 번호: 1041, 주관 학과: 경제학
국가 경제와 정책의 영향을 다루는 거시경제학 원리를 탐구합니다.
강의명: 미시경제학, 강의 번호: 1040, 주관 학과: 경제학
소비자의 선택과 기업의 생산 결정을 분석하는 미시경제학 이론을 학습합니다.

서지 정보:
도서명: 거시경제론, 저자: 정운찬, 김영식, 출판사: 율곡출판사, ISBN: 599922
이 책은 거시경제론을 다룬 개론서입니다. 거시경제론의 기초적이고 전반적인 내용을 학습할 수 있도록 구성했습니다.
도서명: Economic Policy, 저자: Ava, 출판사: Publisher23, ISBN: 411480
Economic Policy은 실라버스에 포함된 참고문헌으로 학습 자료로 사용됩니다.
</정보>

<질문>
거시경제와 미시경제의 차이를 알 수 있는 강의 및 도서를 추천해줘.
</질문>

응답 형식:
1. 추천 도서 목록:
- [도서명] (저자)
이유: [추천 이유]

2. 추천 강의 목록:
- [강의명]
이유: [추천 이유]

Assistant: 
1. 추천 도서 목록:
- 거시경제론 (정운찬, 김영식)
이유: 거시경제론은 거시경제학 원리를 다루는 개론서로, 거시경제와 미시경제의 차이를 이해할 수 있는 중요한 자료입니다.

2. 추천 강의 목록:
- 거시경제학 (실라버스 강의 1041)
이유: 거시경제학 강의는 거시경제학 원리를 탐구하는 강의로, 거시경제와 미시경제의 차이를 학습할 수 있는 중요한 기회를 제공합니다.
- 미시