<a href="https://colab.research.google.com/github/4rldur0/whyfi/blob/xeoyeon/RAG.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1. 초기 설정

In [33]:
import os
from google.colab import drive
drive.mount('/content/drive/')

Drive already mounted at /content/drive/; to attempt to forcibly remount, call drive.mount("/content/drive/", force_remount=True).


In [34]:
cd /content/drive/MyDrive/Colab Notebooks/RAG

/content/drive/MyDrive/Colab Notebooks/RAG


In [7]:
!pip install transformers chromadb langchain langchain_community langchain-chroma

Collecting langchain-chroma
  Downloading langchain_chroma-0.2.1-py3-none-any.whl.metadata (1.7 kB)
Downloading langchain_chroma-0.2.1-py3-none-any.whl (11 kB)
Installing collected packages: langchain-chroma
Successfully installed langchain-chroma-0.2.1


# 2. data 불러오기

In [13]:
import pandas as pd
file_path = '/content/drive/MyDrive/Colab Notebooks/RAG/dataset/cleaned_word_dict.csv'
data = pd.read_csv(file_path)

## pdf 가져와서 chunk하기

In [None]:
from langchain_community.document_loaders import PyPDFLoader

file_name = # 읽어오려는 파일 경로

loader = PyPDFLoader(file_name)
pages = loader.load()
text = ""
for page in pages:
    sub = page.page_content
    text += sub

In [None]:
from transformers import AutoTokenizer
from langchain_text_splitters import CharacterTextSplitter
from langchain_core.documents import Document

# token size 기준으로 contents split
tokenizer = AutoTokenizer.from_pretrained(ENCODER)
text_splitter = CharacterTextSplitter.from_huggingface_tokenizer(
            tokenizer,
            chunk_size=CHUNK_SIZE,
            chunk_overlap=CHUNK_OVERLAP,
            separator="\n" # default: "\n\n"
        )


documents=[] # split 한 문서들을 담기 위한 array

split_conts = text_splitter.split_text(text)
for chunk_idx, split_cont in enumerate(split_conts):
    documents.append(Document(
        page_content=split_cont,
        metadata={
            "file_name": file_name,
        },
        id=chunk_idx,
    ))
    idx+=1

vectorstore.add_documents(documents)

## website 문서 로딩하기

In [None]:
# Load documents from web
from langchain.document_loaders import WebBaseLoader

web_loader = WebBaseLoader([
    "링크 삽입"
    ]
)

data = web_loader.load()

In [None]:
##Split documents into chunks
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size = 500,
    chunk_overlap = 0
)

all_splits = text_splitter.split_documents(data)

all_splits[0]
출처: https://rfriend.tistory.com/832 [R, Python 분석과 프로그래밍의 친구 (by R Friend):티스토리]

# 3. chromaDB에 데이터 저장하기

In [10]:
!pip install langchain-huggingface

Collecting langchain-huggingface
  Downloading langchain_huggingface-0.1.2-py3-none-any.whl.metadata (1.3 kB)
Downloading langchain_huggingface-0.1.2-py3-none-any.whl (21 kB)
Installing collected packages: langchain-huggingface
Successfully installed langchain-huggingface-0.1.2


In [19]:
import os
from langchain_chroma import Chroma
from langchain_huggingface import HuggingFaceEmbeddings

embedding ="dragonkue/BGE-m3-ko"
collection_name = "Chroma_Collection"
chroma_path = "/content/drive/MyDrive/Colab Notebooks/RAG" #데이터 저장 경로

# Init chromadb
embedding_func = HuggingFaceEmbeddings(model_name=embedding, encode_kwargs={'normalize_embeddings':True},)
vectorstore = Chroma(
    collection_name,
    embedding_function=embedding_func,
    persist_directory=chroma_path,
    collection_metadata={"max_size": 1000}  # 용량 설정 (1000개로 확장)
)


In [62]:
# 기존 컬렉션 삭제
vectorstore._client.delete_collection("Chroma_Collection")

# 새로운 컬렉션 생성
vectorstore = Chroma(
    collection_name="Chroma_Collection",
    embedding_function=embedding_func,
    persist_directory="/content/drive/MyDrive/Colab Notebooks/RAG",
    collection_metadata={"max_size": 1000}
)


In [63]:
from langchain.docstore.document import Document # 데이터의 각 row를 document 객체로 변환하여 저장하기 위함

# vectorDB에 data 추가하는 함수
def add_data_to_vectorstore(data, vectorstore):
  for index, row in data.iterrows(): # row라는 변수에 각 행을 반복적으로 가져옴.
    text = row.get("Content","")
    metadata = row.to_dict() #행 전체를 딕셔너리 형태로 변환
    metadata["source"] = metadata.get("source", f"row_{index}")   # source 필드 추가 (기본값으로 행 번호를 사용하거나 특정 열에서 가져오기)
    document = Document(page_content=text, metadata=metadata) #cocument 객체를 생성
    vectorstore.add_texts([document.page_content],[document.metadata]) # db에 데이터 추가

add_data_to_vectorstore(data, vectorstore)

# 4. Retriever 및 프롬프트 설정

In [68]:
# Define a retriever to search in the vectorstore
retriever = vectorstore.as_retriever(search_kwargs={"k": 3}) #검색 시 가장 관련성 높은 3개의 문서를 반환하라는 뜻

In [69]:
from langchain.prompts import ChatPromptTemplate, SystemMessagePromptTemplate, HumanMessagePromptTemplate

system_template="""
You are an assistant for question-answering tasks. Use the following pieces of retrieved context to answer the question. If you don't know the answer, just say that you don't know. Use three sentences maximum and keep the answer concise.

You MUST answer in Korean.

Question: {question}
Context: {context}
Answer:
"""
messages = [
    SystemMessagePromptTemplate.from_template(system_template),
    HumanMessagePromptTemplate.from_template("{question}")
]

prompt = ChatPromptTemplate.from_messages(messages)

# 5. gemini api 설정 및 chain 구현하기

In [40]:
!pip install langchain-google-vertexai

Collecting langchain-google-vertexai
  Downloading langchain_google_vertexai-2.0.12-py3-none-any.whl.metadata (3.8 kB)
Collecting google-cloud-aiplatform<2.0.0,>=1.76.0 (from langchain-google-vertexai)
  Downloading google_cloud_aiplatform-1.78.0-py2.py3-none-any.whl.metadata (31 kB)
Downloading langchain_google_vertexai-2.0.12-py3-none-any.whl (93 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m93.2/93.2 kB[0m [31m5.2 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading google_cloud_aiplatform-1.78.0-py2.py3-none-any.whl (7.1 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m7.1/7.1 MB[0m [31m68.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: google-cloud-aiplatform, langchain-google-vertexai
  Attempting uninstall: google-cloud-aiplatform
    Found existing installation: google-cloud-aiplatform 1.74.0
    Uninstalling google-cloud-aiplatform-1.74.0:
      Successfully uninstalled google-cloud-aiplatform-1.74.0
Successfully install

In [25]:
api_key = "AIzaSyActFFroSjWBgAz0Badcb_h_yszOHK_4Jw"
os.environ["GOOGLE_API_KEY"] = api_key

In [70]:
PROJECT_ID = "gen-lang-client-0343826437"
REGION = "us-central1"

from google.colab import auth
auth.authenticate_user()

In [72]:
import vertexai
from langchain.chains import RetrievalQAWithSourcesChain
from langchain_google_vertexai import VertexAI
from langchain.prompts import PromptTemplate

vertexai.init(project = "gen-lang-client-0343826437" , location = "us-central1")

chain_type_kwargs = {
    "prompt": prompt,
    "document_variable_name": "context",  # 'context'가 documents를 받을 변수임을 명시
}
llm = VertexAI(
    temperature=0,
    model_name="gemini-pro",
    max_output_tokens=1024
)

chain = RetrievalQAWithSourcesChain.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever = retriever,
    return_source_documents=True,
    chain_type_kwargs=chain_type_kwargs
)

In [74]:
# Chain 사용 예시
question = "가동률이란?"
result = chain({"question": question})

print("Answer:", result["answer"])
print("Sources:", result["source_documents"])

Answer: 가동률은 생산능력 대비 실제 생산실적의 비율을 말합니다. 즉, 사업체가 설비, 인력, 조업시간 등의 정상적인 조업환경에서 생산했을 경우 가능한 최대생산량을 의미합니다. 

가동률은 경기상황을 파악하는데 중요한 지표로, 경기가 좋지 않으면 가동률이 하락하고, 경기가 호전되면 가동률이 상승합니다. 

Sources: [Document(id='6dbbccaf-d26a-4200-9afa-84207b2822ca', metadata={'Content': '가동률은 사업체의 생산설비 이용도를 나타내는 지표이다. 통상 가동률은 경기상황이 좋지 않아 제품의 판매량이 감소할 경우 사업체가 생산량을 축소조정하고 불필요한 장비의 가동도 줄여나가면서 하락하게 된다. 반대로 경제상황이 호전되면 가동률은 상승한다. 구체적으로 가동률은 생산능력 대비 실제 생산실적의 비율을 말한다. 여기서 생산능력이란 사업체가 설비, 인력, 조업시간 등의 정상적인 조업환경에서 생산했을 경우 가능한 최대생산량을 의미한다. 따라서 제조업평균가동률은 제조업부문의 생산설 비 이용도를 보여주는 좋은 지표가 될 수 있다. 그런데 제조업평균가동률만으로는 경제 내에 유휴생산능력이 있는지 여부와 그 크기를 판단하는데 한계가 있게 된다. 이러한 점을 고려하여 한 시점에서의 제조업평균가동률이 동 가동률의 잠재수준에서 얼마만큼 의 편차를 보이는가를 계산하여 그 판단의 참고로 활용하는데 이 편차를 제조업평균가동 률갭이라 한다. 일반적으로 잠재수준은 해당연도의 장기평균(예를 들면 10년 이전 기간 제조업가동률의 평균)을 계산하여 사용한다. 제조업평균가동률갭이 마이너스이고 절대 값이 클수록 유휴생산능력이 확대되고 있는 것으로 보아 투자위축과 실업 등을 예상하게 되고, 플러스이면서 클수록 공급측면에서의 문제가 발생할 가능성을 예상하게 된다. 연관검색어 : 실업률갭', 'Unnamed: 0': 515, 'Word': '제조업평균가동률갭', 'source': 'row_515'}, page_content='가동률은 사업체의 