## RAG를 구성하고 Chroma벡터 DB를 활용하여 질의하고 응답을 비교해보자!
- Chroma DB 공식 페이지 : https://www.trychroma.com/

In [4]:
from openai import OpenAI
from getpass import getpass
import re
import numpy as np
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter

In [7]:
MY_API_KEY = getpass.getpass("OpenAI API Key:")

OpenAI API Key: ········


In [9]:
client = OpenAI(api_key = MY_API_KEY)

In [11]:
completion = client.chat.completions.create(model="gpt-3.5-turbo",
                                            messages = [{'role':'user', 'content':'기술평가가 뭐야?'}],
                                            temperature = 0
                                           )
print(completion.choices[0].message.content)

기술평가는 특정 기술이나 제품의 성능, 품질, 안전성, 신뢰성 등을 평가하는 과정을 말합니다. 이를 통해 해당 기술이나 제품의 우수성과 개선이 필요한 부분을 파악할 수 있습니다. 주로 실험, 시험, 분석 등의 방법을 사용하여 기술적인 측면을 평가하게 됩니다.


### RAG구조를 활용한 질의

#### 1) 참조 데이터 로드 및 청킹

In [13]:
loaders = [PyPDFLoader("data/기술보증기금과 한국경제.pdf"),
           PyPDFLoader("data/기술보증기금 주요업무.pdf")
          ]

In [15]:
# Recursive splitter 객체 생성
pdf_splitter = RecursiveCharacterTextSplitter(chunk_size = 1000,
                                              chunk_overlap = 50
                                             )

In [17]:
my_chunks = [] # 청크를 보관할 리스트

for loader in loaders:
    # 2개의 PDF파일에서 추출된 document 객체들을 하나의 리스트에 합쳐줌
    my_chunks.extend(loader.load_and_split(pdf_splitter))

print("청크 개수 :", len(my_chunks))
my_chunks
# 두 PDF파일의 총 PAGE수는 9였지만 chunk_size를 1000으로 청킹을 진행한 결과 총 13개의 청크가 생성됨

청크 개수 : 13


[Document(metadata={'source': 'data/기술보증기금과 한국경제.pdf', 'page': 0}, page_content='페이지 1 / 5 \n \n기술보증기금과 한국경제 \n \nI. 기술보증기금 개요  \n1. 설립근거 : 기술보증기금법 \n \n- 설립목적(존재이유) \n✓ 기술보증기금을 설립하여 기술보증제도를 정착·발전시킴으로써 신 기술사업에 대한 자금의 \n공급을 원활하게 하고 나아가 국민 경제의 발전에 이바지함을 목적으로 함(기술보증기금법1\n조) \n✓ 설립 : 담보능력이 미약한 기업의 채무를 보증하게 하여 기업에 대한 자금 융통을 원활하게 하기 \n위하여 기술보증기금을 설립(법 12조) \n✓ 기금의 재원 : 정부 출연금의 예산은 중소벤처기업부 소관으로 함 \n \n☞ 기술보증기금은  \n✓ 기술력은 우수하지만 담보 부족한 중소기업의 \n✓ 기술성과 사업성 평가를 통해 기술보증을 지원하며, \n✓ 기술평가, 벤처이노비즈기업  인증, 중소기업 창업지원 등의 업무 수행 \n \n2. 주요개념1 \n \n업  무 내  용 \n기술보증 신기술사업자가 부담하는 금전 채무 보증.( 신용부족-담보부족 해결) \n \n금융회사 등으로부터 자금 대출을 받음으로써 금융회사 등에 대하여 부담하는 금전 채무를 \n기술보증기금이 기술보증서로 보증 \n 신기술사업자 - 기술을 개발하거나 이를 응용하여 사업화하는 중소기업(「중소기업기본법」에 \n따른 중소기업) 및 대통령령으로 정하는 기업 \n- "기업"이란 사업을 하는 개인 및 법인 \n신용보증 상시 사용하는 종업원이 1천명 이하이고 총자산액이 1천억원 이하인 기업이 부담하는 금전\n채무 보증. \n기술평가 해당 기술과 관련된 기술성·시장성·사업타당성 등을 종합적으로 평가하여 \n금액·등급·의견 또는 점수 등으로 표시하는 것을 말한다 \n* 기금은 기술평가의 객관성 및 공정성 등을 확보하기 위하여 기술평가의 \n기준·절차·방법·종류 등에 관한 사항을 미리 정하여야 한다 \n기술금융*** \n  기업

### 2) 임베딩 설정

In [32]:
!pip install langchain-chroma

Collecting langchain-chroma
  Downloading langchain_chroma-0.1.4-py3-none-any.whl.metadata (1.6 kB)
Collecting chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0 (from langchain-chroma)
  Downloading chromadb-0.5.23-py3-none-any.whl.metadata (6.8 kB)
Collecting fastapi<1,>=0.95.2 (from langchain-chroma)
  Downloading fastapi-0.115.8-py3-none-any.whl.metadata (27 kB)
Collecting build>=1.0.3 (from chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0->langchain-chroma)
  Downloading build-1.2.2.post1-py3-none-any.whl.metadata (6.5 kB)
Collecting chroma-hnswlib==0.7.6 (from chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0->langchain-chroma)
  Downloading chroma_hnswlib-0.7.6-cp38-cp38-win_amd64.whl.metadata (262 bytes)
Collecting uvicorn>=0.18.3 (from uvicorn[standard]>=0.18.3->chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0->langchain-chroma)
  Downloading uvicorn-0.33.0-py3-none-any.whl.metadata (6.6 kB)
Collecting posthog>=2.4.0 (from chromadb!=0.5.4,!=0.5.5,<0.6.0,>=0.4.0->langchain-chroma)
  Downloading posthog-3.11.0-py2.py3-no

ERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
google-ai-generativelanguage 0.1.0 requires protobuf!=3.20.0,!=3.20.1,!=4.21.0,!=4.21.1,!=4.21.2,!=4.21.3,!=4.21.4,!=4.21.5,<5.0.0dev,>=3.19.5, but you have protobuf 5.29.3 which is incompatible.


In [21]:
from langchain_chroma import Chroma # langchain에서 지원하는 chroma
from langchain_openai import OpenAIEmbeddings # Lanhchain과 연동된 openai에서 지원하는 pre-trained Embedding모델

In [23]:
my_embedding = OpenAIEmbeddings(model="text-embedding-3-small",
                                api_key=MY_API_KEY
                               )

In [25]:
# 임베딩 예시
my_list = ["오늘 눈이 너무 많이 와서 빨리 집에 가면 안 될 것 같아요.","늦게까지 남아서 공부합시다^^"]

# embed_documents : 임베딩 진행(문자열이 들어있는 리스트로 입력, 임베딩 차원은 디폴트 1536차원)
# 1536가지의 다른 의미로 만들었다
temp_embedding = my_embedding.embed_documents(my_list)

print(f"문장 1 : {len(temp_embedding[0])}")
print(f"문장 2 : {len(temp_embedding[1])}")
print(f"차원 수 : {np.array(temp_embedding).shape}")
print(f"임베딩 값 : {temp_embedding[0][:10]}")

문장 1 : 1536
문장 2 : 1536
차원 수 : (2, 1536)
임베딩 값 : [0.00466674892231822, 0.00473009841516614, -0.07189749926328659, 0.018548743799328804, 0.017991267144680023, -0.032891079783439636, 0.03344855457544327, -0.022957870736718178, -0.07541128993034363, -0.03645554557442665]


### 3) Chroma DB 생성

In [27]:
# DB생성 경로 설정
my_directory = 'VectorStores/'

# from_documents : 청킹된 문서(document객체)의 정보 및 임베딩, 경로정보로 Chroma DB 생성
vectordb = Chroma.from_documents(documents = my_chunks,
                                 embedding = my_embedding,
                                 persist_directory = my_directory
                                )

### <span style = color:red;>한 번 생성된 DB를 불러와서 사용하기(프로그램 종료 후 다시 켰을 때)</span>
- 프로그램 종료 후 다시 켰을때 코드를 재실행하게 되면 중첩되어져서 DB에 저장될 것이기 때문에
- 한 번DB를 생성했다면 생성하는 코드를 다시 실행시키지 말고 생성된 DB를 불러와서 사용할 것

In [134]:
my_embedding = OpenAIEmbeddings(model='text-embedding-3-small',
                                openai_api_key=MY_API_KEY)
my_directory = 'VectorStores/'

# 기존 생성된 db를 불러올 때는 embedding_function에 임베딩 객체 넣기
vectordb = Chroma(persist_directory = my_directory,
                  embedding_function=my_embedding
                 )

#### Chroma 클래스로 자주 사용하는 메소드
- _collection.count : 수집된 벡터의 개수 확인
- _collection.get : 수집된 벡터의 정보 확인
- delete : 특정 id를 가진 벡터 삭제
- add_documents : 여러 문서를 벡터 저장소에 추가
- add_texts : 여러 텍스트를 벡터 저장소에 추가
- add_images : 여러 이미지를 벡터 저장소에 추가
- similarity_search : 유사도 계산을 통해 입력 질의에 대해 가장 유사한 문서 검색

(1) DB 정보 확인

In [30]:
# 수집된 청크 개수 확인 (여러번 벡터DB 생성시 값이 걔속 누적되어 저장됨)
vectordb._collection.count()

13

In [32]:
# 수집된 청크들의 id, documents 등 정보들이 표시됨
vectordb._collection.get()

{'ids': ['e092e2dd-dc57-4457-82be-7f0dfba495d5',
  '330f5b20-9615-4cd1-9e9e-91288a2d82bb',
  '92fc4302-a559-4b6d-8781-90f6244fbda5',
  '241dcd2d-59d7-410f-9964-25dd6e650c91',
  'c56303f1-d6f5-4519-8f83-4f8b3a6669fd',
  '8a0a6fbc-2f85-4cf1-9c7c-c7c7f0a6e41c',
  'a4306ea0-7c54-4ea6-9179-7d01c5f0fa50',
  '0761f438-594c-47c5-b12f-024ae737ae26',
  '80d7263f-0eba-4243-9efa-06fbe2abc0c2',
  '2f069604-27dc-4c49-a42b-501cb7f0fbeb',
  'e9004e59-12b5-4a56-82b3-3b258313c530',
  'f61f5214-c279-4864-a814-31c35c3021c8',
  '5186305c-2854-459d-b793-97d6a63544c2'],
 'embeddings': None,
 'documents': ['페이지 1 / 5 \n \n기술보증기금과 한국경제 \n \nI. 기술보증기금 개요  \n1. 설립근거 : 기술보증기금법 \n \n- 설립목적(존재이유) \n✓ 기술보증기금을 설립하여 기술보증제도를 정착·발전시킴으로써 신 기술사업에 대한 자금의 \n공급을 원활하게 하고 나아가 국민 경제의 발전에 이바지함을 목적으로 함(기술보증기금법1\n조) \n✓ 설립 : 담보능력이 미약한 기업의 채무를 보증하게 하여 기업에 대한 자금 융통을 원활하게 하기 \n위하여 기술보증기금을 설립(법 12조) \n✓ 기금의 재원 : 정부 출연금의 예산은 중소벤처기업부 소관으로 함 \n \n☞ 기술보증기금은  \n✓ 기술력은 우수하지만 담보 부족한 중소기업의 \n✓ 기술성과 사업성 평가를 통해 기술보증을 지원하며, \n✓ 기술평가, 벤처이노비즈기업  인

(2) DB에 값 추가
- 텍스트 추가

In [99]:
vectordb.add_texts(texts=["sample_text1", "sample_text2"])
# 추가된 텍스트에 id가 부여되며 표시됨

['a7ede229-433f-418e-939b-de0c8412552a',
 '99dca6c0-2a4c-4706-9f8a-fded9cb7991d']

In [101]:
vectordb._collection.get()['ids']

['e18f1224-3659-4855-80f7-5905c69645aa',
 '51b02a65-eeed-4a65-99b9-9ebb989e2c82',
 '2a3aa5e8-c326-4db0-b2b8-5acaba714ca3',
 '00c7d347-4565-4bbd-8bd7-aa387a33fca4',
 'de15af2b-0455-42f7-94c1-5fbac6b6cb61',
 'eb675a08-c877-4646-9df0-dee803521c5c',
 'cf4ca13b-c0b5-4a6c-9265-e133a9626e91',
 'a080c3ef-a05a-4102-a779-4fc15ecc57e3',
 '703826c1-73a1-4d3b-b8e4-13e18d95acf3',
 '20936915-8509-44f4-bd7e-b038d1979fd5',
 '9493600f-6daf-41cd-a3a7-b344404b3bf9',
 '1535d3f8-565b-4a35-9ff9-2383ce8fdddc',
 'acb25778-05d1-4319-a407-6f0074738df2',
 'a7ede229-433f-418e-939b-de0c8412552a',
 '99dca6c0-2a4c-4706-9f8a-fded9cb7991d']

- DB에 문서 추가하기

In [34]:
# 새롭게 추가할 문서 2개를 로드 후 청킹
add_loaders = [PyPDFLoader("data/기술보증기금 주요업무_기술보증.pdf"),
               PyPDFLoader("data/기술보증기금 주요업무_기술평가.pdf")
              ]
add_chunks = []
for loader in add_loaders:
    add_chunks.extend(loader.load_and_split(pdf_splitter))
print(len(add_chunks))

15


In [36]:
# 벡터 DB에 문서 추가 명령 실행
vectordb.add_documents(documents=add_chunks)

['cecbe79a-a6ce-4740-8ff0-49535351cac9',
 '59fc4d80-3d5d-4e67-b03a-5e6be3afc171',
 '72489bdb-27cb-428c-817d-42f232063ea6',
 'ac01af58-c07d-4f49-8b82-243c1b49f143',
 '8065f569-7026-456d-be03-679bd1bbb094',
 '5be84043-11c1-4aa5-a169-226c285b7f4a',
 'c5103ca0-e9ec-4a4f-be18-eba7a56022d1',
 '7c838738-a3da-49e5-98bb-7912a2949d07',
 '6def7c1d-34a7-4a2c-b1d0-5f6d04e25f01',
 'e8ebbfb9-a4b9-461c-8fc4-446b588fe5b0',
 'ebebc98c-563e-409b-ac9d-197b36a32f1e',
 '053c9806-4ca2-433f-9fde-8a54f9896a25',
 '2c54ef88-8663-4ca5-a243-93e660bc8674',
 'eb6da131-4eed-411f-9f3a-63f2b9d0133d',
 '0d3e1d2b-aa47-433f-bff4-0299515f8328']

In [38]:
# 기존 문서 13개 + text 2개 + 문서 15개 = 30개
vectordb._collection.count()

28

(3) DB값 삭제

In [122]:
# text 2개 삭제
vectordb.delete(ids=['a7ede229-433f-418e-939b-de0c8412552a',
                     '99dca6c0-2a4c-4706-9f8a-fded9cb7991d'])

vectordb._collection.count()

28

In [40]:
# # 모든 데이터 삭제
# vectordb.delete_collection()

# 값이 없으면 레어가 뜸
vectordb._collection.count()

28

##### 4) 유사도 검색
- 간단한 질문에 대해 유사한 문서 검색

In [52]:
question = "기술평가가 뭐야?"

# similarity_search : 유사도 검색 실행 함수
 # k : 반환 받고자 하는 document 객체 수 지정(청크 수)
 # (k값이 너무 크면 연관성이 떨어지는 문서까지 광범위하게 검색되어 정확성이 낮아질 수 있음)
similar_docs = vectordb.similarity_search(question, k=3)

print("객체 수:", len(similar_docs))
print(similar_docs)

객체 수: 3
[Document(metadata={'page': 1, 'source': 'data/기술보증기금 주요업무_기술평가.pdf'}, page_content='페이지 2 / 6 \n \n (2) 기술평가3 \n기술평가란?- 대상기술의 기술성, 시장성, 사업타당성 등을 분석하고 결과를 금액, 등급, 의견 등으로 \n표현하는 것이다.  \n✓ 기술평가는 기술수준 등 기술자체에 대한 평가를 표현한 용어지만, 기술과 기업(사업)간의 밀접한 관련\n성으로 인해서 최근에는 위의 의미로 사용됨 \n✓ 기술가치평가는 기술평가+가치평가가 결합된 용어로서, 기술적인 요소를 기반으로 시장에서의 가치를 \n평가 하는 것을 의미 \n \n (3) 기술평가 유형 \n 정 의 세부평가종류 \n기술가치평\n가 \n대상 기술에 의하여 현재 시현되고 있거나 \n장래에 시현될 기술의 가치를 평가하여 평\n가결과를 금액으로 표시 \n- 벤처기업 현물출자 특례대상 산업재산권  등의 평가 \n- 기술의 담보가치를 산정하기 위한 평가 \n- 기술이전ㆍ거래4 기준가격 산정을 위한   평가 \n- 기술사업의 이전ㆍ양수도를 위한 평가 등  \n기술사업 \n타당성평가 \n기업이 특정기술(OR 아이디어)을 사업화, \n추진중인 기술사업의 투자 확대 시 사업의 \n기술성 및 사업타당성 평가 \n- 벤처기업 확인, INNO-BIZ 선정평가 \n- 정책자금 지원 대상자 선정 위한 평가 \n- 금융기관 등의 여신심사용 기술평가 \n- 보증지원을 위한 평가 등  \n종합기술평\n가 \n기업 보유 기술을 경영환경, 사업전망 등\n을 종합 평가 \n- 금융기관, 벤처캐피탈 또는 엔젤투자자 등 투자용 평가 \n- 벤처기업의 코스닥시장 상장 위한 평가 \n- 주식가치평가 등  \n(4)기술평가의 범위 : 기술성, 시장성, 사업성을 종합적으로 검토 \n① 기술성 기술의 수준, 기술의 활용성, 기술의 파급성 \n② 시장성 시장규모 및 특성, 동업계 현황, 시장수요전망 \n③ 사업성 경쟁력, 사업추진능력, 재무구조 등 \n

##### 5) 또 다른 검색 방법(MMR검색(Max Marginal Relevance))
- 사용자 쿼리에 가장 관련성이 높은 문서나 내용을 선택하지만 중복된 정보를 줄이고, 그 중에서 다양한 정보를 제공하는 것을 목표로 하는 검색 방식

In [57]:
question = "기술평가가 뭐야?"

# fetch_k : 벡터 DB에서 가져올 유사도가 높은 문서 수
# k : 응답의 다양성을 고려하여 fetch_k 중에서 반환할 문서(fetch_k개 중에서 중복을 줄여줌)
# lambda_mult : 0~1사이 실수 값으로 관련성과 다양성을 제어하는 파라미터 (0에 가까우면 다양성 우선, 1에 가까우면 관련성 우선)
search_mmr = vectordb.max_marginal_relevance_search(question, 
                                                    fetch_k = 6,
                                                    k=3,
                                                   lambda_mult=0.5)
# 즉, 질의와 유사도가 높은 6개의 문서를 검색 후 그 중에서 다양한 3개의 문서를 추출하는 식

In [59]:
search_mmr

[Document(metadata={'page': 1, 'source': 'data/기술보증기금 주요업무_기술평가.pdf'}, page_content='페이지 2 / 6 \n \n (2) 기술평가3 \n기술평가란?- 대상기술의 기술성, 시장성, 사업타당성 등을 분석하고 결과를 금액, 등급, 의견 등으로 \n표현하는 것이다.  \n✓ 기술평가는 기술수준 등 기술자체에 대한 평가를 표현한 용어지만, 기술과 기업(사업)간의 밀접한 관련\n성으로 인해서 최근에는 위의 의미로 사용됨 \n✓ 기술가치평가는 기술평가+가치평가가 결합된 용어로서, 기술적인 요소를 기반으로 시장에서의 가치를 \n평가 하는 것을 의미 \n \n (3) 기술평가 유형 \n 정 의 세부평가종류 \n기술가치평\n가 \n대상 기술에 의하여 현재 시현되고 있거나 \n장래에 시현될 기술의 가치를 평가하여 평\n가결과를 금액으로 표시 \n- 벤처기업 현물출자 특례대상 산업재산권  등의 평가 \n- 기술의 담보가치를 산정하기 위한 평가 \n- 기술이전ㆍ거래4 기준가격 산정을 위한   평가 \n- 기술사업의 이전ㆍ양수도를 위한 평가 등  \n기술사업 \n타당성평가 \n기업이 특정기술(OR 아이디어)을 사업화, \n추진중인 기술사업의 투자 확대 시 사업의 \n기술성 및 사업타당성 평가 \n- 벤처기업 확인, INNO-BIZ 선정평가 \n- 정책자금 지원 대상자 선정 위한 평가 \n- 금융기관 등의 여신심사용 기술평가 \n- 보증지원을 위한 평가 등  \n종합기술평\n가 \n기업 보유 기술을 경영환경, 사업전망 등\n을 종합 평가 \n- 금융기관, 벤처캐피탈 또는 엔젤투자자 등 투자용 평가 \n- 벤처기업의 코스닥시장 상장 위한 평가 \n- 주식가치평가 등  \n(4)기술평가의 범위 : 기술성, 시장성, 사업성을 종합적으로 검토 \n① 기술성 기술의 수준, 기술의 활용성, 기술의 파급성 \n② 시장성 시장규모 및 특성, 동업계 현황, 시장수요전망 \n③ 사업성 경쟁력, 사업추진능력, 재무구조 등 \n \n     

### Advanced RAG 활용
- 현 시점에서의 RAG는 Advanced RAG까지 기본적으로 lanhchain에서 지원하고 있음
- 여기서 더 나아간다면 Modular RAG를 사용하면 좀 더 상황에 맞게 RAG를 적용할 수 있음

#### 1) asretriever 클래스 사용
- 벡터DB 객체를 '쿼리 최적화'를 위한 효율적인 검색기로 사용할 수 있게 변환해주는 역할
- 기존 similarity_searh에 비해 as_retriever를 사용하면 langchain생태계와 연동성이 좋아지고 쿼리를 더 정교하게 전처리하며, 유사도 검색 전후에 필터나 제약조건들이 추가로 적용될 수 있기 때문에 성이 더 좋아짐

In [None]:
# search_kwargs : 검색할 유사도 높은 청크의 최대 개수 지정(k값 디폴트는 4개)
my_retriever = vectordb.as_retriever(search_kwargs={"k":3})