In [2]:
# pip install pymupdf4llm sentence-transformers chromadb ollama langchain
import pymupdf4llm
from langchain.text_splitter import RecursiveCharacterTextSplitter

# PDF 파일 경로
file_path = "./data/SPRI_AI_Brief_2023년12월호_F.pdf"
# 로컬 인공지능 언어 모델 
model = "exaone3.5:latest"

def load_pdf(file_path):
    pdf_data = pymupdf4llm.to_markdown(file_path)
    text = "".join(pdf_data)  # 페이지별 텍스트를 하나의 문자열로 결합
    print("PDF파일 로드..")
    return text

def split_text(text):
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1500, chunk_overlap=150)
    return text_splitter.split_text(text)

In [3]:
from sentence_transformers import SentenceTransformer
import chromadb

embedder = SentenceTransformer("intfloat/multilingual-e5-small")
client = chromadb.PersistentClient(path="./chroma_db")
collection = client.get_or_create_collection(name="rag_collection",  metadata={"hnsw:space": "cosine"} )

print("문서 로드 및 임베딩 시작...")

raw_text = load_pdf(file_path)
chunks = split_text(raw_text)
embeddings = embedder.encode(chunks, convert_to_tensor=False)

for i, (chunk, embedding) in enumerate(zip(chunks, embeddings)):
    collection.add(
        ids=[f"chunk_{i + 1}"],
        embeddings=[embedding.tolist()],
        metadatas=[{"text": chunk}],
    )

  from tqdm.autonotebook import tqdm, trange


문서 로드 및 임베딩 시작...
PDF파일 로드..


Add of existing embedding ID: chunk_1
Add of existing embedding ID: chunk_2
Add of existing embedding ID: chunk_3
Add of existing embedding ID: chunk_4
Add of existing embedding ID: chunk_5
Add of existing embedding ID: chunk_6
Add of existing embedding ID: chunk_7
Add of existing embedding ID: chunk_8
Add of existing embedding ID: chunk_9
Add of existing embedding ID: chunk_10
Add of existing embedding ID: chunk_11
Add of existing embedding ID: chunk_12
Add of existing embedding ID: chunk_13
Add of existing embedding ID: chunk_14
Add of existing embedding ID: chunk_15
Add of existing embedding ID: chunk_16
Add of existing embedding ID: chunk_17
Add of existing embedding ID: chunk_18
Add of existing embedding ID: chunk_19
Add of existing embedding ID: chunk_20
Add of existing embedding ID: chunk_21
Add of existing embedding ID: chunk_22
Add of existing embedding ID: chunk_1
Add of existing embedding ID: chunk_2
Add of existing embedding ID: chunk_3
Add of existing embedding ID: chunk_4

In [4]:
from collections import deque

class Message_manager:
    def __init__(self):
        self._system_msg = {"role": "system", "content": ""}
        self.queue = deque(maxlen=10)  # 최대 10개 대화 저장

    def create_msg(self, role, content):
        return {"role": role, "content": content}

    def system_msg(self, content):
        self._system_msg = self.create_msg("system", content)

    def append_msg(self, content):
        msg = self.create_msg("user", content)
        self.queue.append(msg)

    def get_chat(self):
        return [self._system_msg] + list(self.queue)

    def set_retrived_docs(self, docs):
        self.retrieved_docs = docs

    def append_msg_by_assistant(self, content):
        msg = self.create_msg("assistant", content)
        self.queue.append(msg)

    def generate_prompt(self, retrieved_docs):

        docs = "\n".join(retrieved_docs)

        prompt = [msgManager._system_msg,{
            "role": "system",
            "content": f"문서 내용: {docs}\n질문에 대한 답변은 문서 내용을 기반으로 정확히 제공하시오.",
        }] + list(msgManager.queue)

        return prompt


msgManager = Message_manager() # 객체 생성

msgManager.system_msg(
    "가장 마지막 'user'의 'content'에 대해 답변한다."
    "질문에 답할 때는 'system' 메시지 중 '문서 내용'에 명시된 부분을 우선 참고하여 정확히 답한다."
    "개행은 문장이 끝날때와 서로 다른 주제나 항목을 구분할 때 사용하며, 불필요한 개행은 넣지 않는다."
)

In [5]:
from langchain_community.chat_models import ChatOllama

# ollama 인스턴스 생성
ollama = ChatOllama(model=model)

def retrieve_docs(query, collection, embedder, top_k=2):
    query_embedding = embedder.encode(query, convert_to_tensor=False).tolist()
    results = collection.query(query_embeddings=[query_embedding], n_results=top_k)
    
    if not results["metadatas"]:  # 검색 결과가 없는 경우
        return ["관련 문서를 찾을 수 없습니다."]
    
    docs = [doc["text"] for doc in results["metadatas"][0]]
    return docs

def generate_answer(query, retrieved_docs, conversation_history):
    # 이전 대화 기록 추가 (최대 10개)
    msgManager.append_msg(query)
    
    # 스트리밍으로 답변 생성
    print("답변: ", end="", flush=True)
    full_answer = ""
    
    msg = msgManager.generate_prompt(retrieved_docs)

    for response in ollama.stream(msg):
        chunk = getattr(response, "content", "")  # 안전하게 추출
        print(chunk, end="", flush=True)
        full_answer += chunk

    return full_answer

In [6]:
query = "대상 문서를 요약해주세요"

retrieved_docs = retrieve_docs(query, collection, embedder, top_k=2)

answer = generate_answer(query, retrieved_docs, msgManager.get_chat())
msgManager.append_msg_by_assistant(answer)

답변: **2023년 12월호 요약:**

**정책/법제:**
- 글로벌 차원에서 안전하고 신뢰할 수 있는 AI 개발과 사용을 위한 다양한 정책과 협정들이 발표되었다. 예를 들어, 미국은 AI 관련 행정명령을 발표했고, G7은 국제 행동강령에 합의했다. 유럽 연합(EU)의 경우, AI 법의 협상 과정에서 기반 모델 규제에 대한 의견 차이로 어려움을 겪고 있다.

**기업/산업 동향:**
- 여러 기업들이 AI 기술 발전에 힘쓰고 있다. 미국 프런티어 모델 포럼은 AI 안전 기금을 조성했으며, 알리바바 클라우드는 새로운 LLM 모델을 공개했다. 삼성전자는 자체 생성 AI 모델을 선보였고, 구글은 앤스로픽에 대규모 투자를 통해 협력을 강화했다. 시장 조사 기관 IDC는 2027년까지 AI 소프트웨어 매출이 2,500억 달러를 넘어설 것으로 전망했다. 또한, 유튜브는 2024년부터 AI 생성 콘텐츠에 대한 표시 의무화를 발표했다.

**기술/연구:**
- 구글 딥마인드는 범용 인공지능(AGI)의 성능과 범용성, 자율성을 기준으로 0~5단계까지 분류하는 프레임워크를 공개했다. 현재 AGI는 특정 분야에서는 고도의 성과를 보이지만, 폭넓은 범용성 측면에서는 초기 단계에 머물러 있다. 딥마인드는 AGI 발전의 공통 기준을 마련하기 위해 AI의 기능과 잠재력에 중점을 둔 6가지 원칙을 제시했다.

이러한 동향들은 AI 산업의 정책적, 기업적, 기술적 발전을 보여주며, 특히 AGI의 진전과 관련된 연구가 주목받고 있다.

In [None]:
# from collections import deque

# def chat_loop():
#     print("RAG 챗봇 시작! 질문 입력 (종료하려면 'exit' 입력):")
    
#     while True:
#         query = input("> ")
#         if query.lower() == "exit":
#             print("챗봇 종료!")
#             break

#         retrieved_docs = retrieve_docs(query, collection, embedder, top_k=2)
        
#         answer = generate_answer(query, retrieved_docs, msgManager.get_chat())
#         msgManager.append_msg_by_assistant(answer)
        
# # 실행
# # if __name__ == "__main__":
# #     chat_loop()

# chat_loop()  # 챗봇 시작

RAG 챗봇 시작! 질문 입력 (종료하려면 'exit' 입력):


ValueError: Expected each embedding in the embeddings to be a list, got [array([ 7.52922818e-02, -3.29757780e-02, -9.79989097e-02, -1.26158595e-01,
        9.37714726e-02, -1.58334076e-02,  1.87153406e-02,  7.70311877e-02,
        5.97499423e-02,  1.84853803e-02,  3.72900292e-02,  3.72451060e-02,
        8.33959579e-02,  9.85871442e-03, -4.85196225e-02,  2.63275839e-02,
        5.59704788e-02, -3.71749513e-02, -3.25423814e-02, -2.97307037e-02,
       -3.27006564e-03,  7.95851927e-03, -4.67882119e-02,  6.90558106e-02,
        4.23402265e-02,  3.45860496e-02, -3.82249914e-02,  2.45692693e-02,
        4.13424000e-02, -5.78125417e-02, -5.00612855e-02, -4.46649529e-02,
        1.70833841e-02, -6.84955642e-02,  6.36692569e-02,  6.80206567e-02,
       -1.39026213e-02, -3.83295044e-02,  6.24954253e-02, -3.74409296e-02,
        5.07086422e-03,  8.71465076e-03,  6.38774410e-02,  6.97102919e-02,
        1.66848488e-02,  6.27657920e-02, -7.15160593e-02,  1.66916382e-02,
       -4.38218713e-02, -3.81423160e-02, -3.30256820e-02,  7.33578280e-02,
        5.73352613e-02,  4.87897620e-02,  5.37565276e-02, -5.30050360e-02,
        5.59041463e-03, -9.20014456e-02, -5.56932613e-02,  2.53192484e-02,
        9.20867473e-02, -2.34872513e-02, -8.33331724e-04,  3.70707549e-02,
        5.19350581e-02,  4.71729860e-02,  4.41223085e-02,  4.96793240e-02,
       -5.02245268e-03, -1.06614456e-02, -3.62232886e-03,  1.15917055e-02,
        5.98399760e-03, -2.36841571e-02,  1.49571877e-02,  1.26293041e-02,
        1.90309044e-02, -8.53766650e-02,  5.12250215e-02, -5.43496832e-02,
       -6.70431852e-02, -7.10451677e-02, -6.09355383e-02,  2.97413208e-02,
       -3.04976534e-02,  9.19942856e-02,  3.93403061e-02, -2.62277704e-02,
        4.87521887e-02, -1.55695807e-02,  4.15721759e-02,  8.09718296e-02,
       -7.58833960e-02, -3.26212011e-02, -4.79758978e-02, -3.91704775e-02,
       -3.54992822e-02,  4.22586128e-02,  8.57776180e-02, -1.99195482e-02,
        5.66749088e-02, -2.96425000e-02,  7.59556144e-02, -1.99211463e-02,
       -6.16562031e-02,  7.16772825e-02,  2.52438174e-03, -5.33714034e-02,
        2.82720458e-02, -4.67377305e-02, -3.12001705e-02,  5.27688712e-02,
        5.71868978e-02,  3.52259800e-02, -5.06135002e-02, -3.92852686e-02,
       -3.52305919e-02, -8.01101103e-02,  4.56975810e-02, -6.99352622e-02,
        6.29112124e-02, -4.14171480e-02, -6.37649298e-02, -5.46131805e-02,
       -4.92056794e-02, -2.85440329e-02, -2.78303423e-03,  5.32785244e-02,
       -1.96533604e-03,  2.68532373e-02,  8.68715718e-02,  6.22095615e-02,
        1.16006350e-02,  4.28776853e-02,  5.78363650e-02,  8.25488344e-02,
       -2.15151571e-02,  5.91657907e-02, -3.43768531e-03, -3.72263938e-02,
       -5.66979125e-02,  8.80900472e-02, -3.77383381e-02,  7.05630407e-02,
        4.54524718e-02,  6.48221597e-02,  7.49505833e-02, -6.14235178e-02,
        9.71813276e-02, -4.75426838e-02,  4.24213745e-02, -1.32148407e-05,
        6.31505921e-02,  4.62230779e-02,  4.53336053e-02, -2.49746125e-02,
       -2.97798961e-02, -3.36171277e-02,  4.79670353e-02,  9.58540067e-02,
       -5.59820868e-02, -6.44245297e-02, -5.82643375e-02, -4.55290563e-02,
       -3.19482274e-02, -8.49400014e-02,  2.75264438e-02,  7.10806921e-02,
       -1.50267277e-02, -7.24633858e-02, -6.59689531e-02,  6.23002052e-02,
       -9.46641788e-02,  1.08707167e-01,  3.64645422e-02,  7.61323199e-02,
       -5.11632077e-02, -5.78109920e-03,  9.99799594e-02,  3.62765566e-02,
       -3.82747017e-02, -3.83507982e-02, -5.40834665e-02, -5.93587495e-02,
       -1.01382688e-01, -5.14700860e-02, -1.01678975e-01,  9.92738176e-03,
        4.30364385e-02, -3.62762138e-02,  1.43644055e-02,  2.95777880e-02,
       -5.37157319e-02, -1.15942113e-01, -4.47073616e-02, -1.45547278e-02,
       -5.81623949e-02,  4.22193334e-02,  5.23823872e-02,  2.07011644e-02,
       -1.72141585e-02, -4.71549556e-02,  4.94222529e-02,  3.84698883e-02,
        3.16439308e-02,  3.05929109e-02, -4.56928015e-02,  5.04006296e-02,
       -8.54122788e-02,  3.32415514e-02,  3.21036614e-02, -3.68736088e-02,
       -1.00074999e-01,  4.06259336e-02, -4.72528413e-02, -3.46359387e-02,
        6.83463505e-03,  5.67803346e-02, -7.38647506e-02,  4.77992781e-02,
        6.01842441e-02, -2.45337952e-02, -9.52306855e-03, -8.65429789e-02,
       -6.53565675e-02,  2.31671575e-02,  1.94109660e-02, -6.88757300e-02,
       -2.55295467e-02,  2.51193307e-02, -6.04445599e-02, -4.76238653e-02,
       -1.72934458e-02, -4.36149500e-02, -7.70826340e-02, -4.88010049e-02,
        1.95862986e-02,  5.41270413e-02,  2.54231263e-02, -7.45661855e-02,
       -2.93533914e-02, -2.98655462e-02,  8.59388560e-02, -7.19412193e-02,
        1.91305839e-02, -4.31085415e-02, -4.93300892e-02,  6.42045885e-02,
       -2.02979166e-02,  5.49104810e-02,  3.95788029e-02, -7.39341900e-02,
       -6.70795366e-02, -3.87861133e-02, -4.53458317e-02,  4.85737771e-02,
        6.41746745e-02,  6.35453910e-02, -7.76264966e-02,  3.97393256e-02,
        1.28123420e-03,  4.37913649e-03,  9.31563452e-02,  7.28307366e-02,
        5.01511134e-02,  2.50457451e-02, -4.28010374e-02,  6.11792202e-04,
       -4.86947633e-02, -3.68740223e-02, -5.63917421e-02,  1.62954703e-02,
        4.28740382e-02, -5.40116653e-02, -7.96172470e-02, -6.32334724e-02,
        4.47857380e-02,  9.70273316e-02, -4.04093079e-02, -4.20174263e-02,
        4.07890752e-02, -1.74422823e-02,  6.48180693e-02,  6.29663095e-02,
        4.05490026e-02, -7.05278618e-03, -2.43888982e-02,  9.17553082e-02,
       -8.47838167e-03, -4.93545793e-02, -1.81409512e-02, -6.38549775e-02,
        1.81311760e-02, -5.13683148e-02,  8.08252394e-02,  2.84025352e-02,
       -1.79953990e-03,  6.58997968e-02, -3.10867857e-02,  3.66100445e-02,
       -1.99372582e-02, -4.23899889e-02,  1.32023850e-02,  1.97924711e-02,
       -5.45164160e-02,  2.73789223e-02, -1.26699694e-02,  8.81224871e-03,
        3.61341517e-03,  4.50378023e-02,  6.43788725e-02,  3.22484821e-02,
       -4.90237772e-02, -5.40175289e-02,  6.46045506e-02,  4.09417711e-02,
       -1.01342089e-02,  1.99160464e-02, -7.18708783e-02, -2.35639606e-02,
       -6.96777329e-02, -6.27922360e-03, -1.17570872e-03, -9.88581255e-02,
        3.19762677e-02,  2.36100610e-02, -2.81920172e-02, -1.32198166e-02,
        4.45195921e-02,  5.40666468e-03,  1.87738780e-02, -7.79502615e-02,
       -1.08239008e-02,  2.24000216e-02, -4.74201404e-02, -6.96022213e-02,
       -3.11327595e-02,  2.51063928e-02, -5.27560003e-02, -3.41762155e-02,
        4.43274602e-02,  1.97001677e-02, -5.12422845e-02,  2.82442849e-02,
       -2.33018789e-02, -2.77827140e-02, -1.10337976e-02,  8.54336377e-03,
       -6.40485585e-02,  3.93677354e-02,  5.11704683e-02, -9.66022983e-02,
        4.10838425e-02,  7.13732615e-02, -2.59948894e-02, -4.42480668e-03,
       -6.35120124e-02, -1.91459469e-02,  6.82843011e-03,  2.12454218e-02,
       -8.04305822e-02, -2.89774518e-02,  6.11246862e-02,  4.27127518e-02,
        3.23717744e-04,  1.34752393e-02, -5.77670243e-03, -1.00381412e-02,
        4.56362627e-02, -3.95009965e-02,  5.37998714e-02,  5.85432127e-02,
       -4.92605343e-02, -4.82513979e-02, -5.40921316e-02, -7.96223357e-02,
       -5.53922541e-02,  3.80234234e-02, -5.81714474e-02,  2.77043823e-02,
        6.99377805e-02,  2.91609298e-02,  7.68188760e-02,  4.90661003e-02],
      dtype=float32)]