# **ChromaDB 실습**

## **1. 기본 사용 실습**

- ChromaDB 설치하기

In [1]:
!pip install chromadb

Collecting chromadb
  Downloading chromadb-0.5.0-py3-none-any.whl (526 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m526.8/526.8 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
Collecting chroma-hnswlib==0.7.3 (from chromadb)
  Downloading chroma_hnswlib-0.7.3-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.4 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.4/2.4 MB[0m [31m13.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting fastapi>=0.95.2 (from chromadb)
  Downloading fastapi-0.111.0-py3-none-any.whl (91 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m92.0/92.0 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting uvicorn[standard]>=0.18.3 (from chromadb)
  Downloading uvicorn-0.29.0-py3-none-any.whl (60 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m60.8/60.8 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
Collecting posthog>=2.4.0 (from chromadb)
  Downloading posthog-3.5.0-py2.p

- ChromaDB 임포트

In [2]:
import chromadb

- ChromaDB 클라이언트의 생성
    - ChromaDB를 사용하기 위해 클라이언트를 생성함
        - EphmeralClient 메모리에 저장하는 클라이언트
        - HttpClient 네트워크를 통해 접속하는 클라이언트

In [3]:
chroma_client = chromadb.Client()

- 컬렉션 생성
    - 컬렉션: 임베딩, 문서 및 추가 메타데이터를 저장하는 곳

In [4]:
collection = chroma_client.create_collection(name="my_collection")

- 데이터 추가
    - Chroma는 텍스트를 저장하고 임베딩 및 인덱싱을 자동으로 처리함(벡터 데이터가 생성됨)
    - 임베딩 모델을 사용자 지정할 수도 있음
    - 생성한 벡터와 메타데이터를 ChromaDB에 추가
    - collection.add()에서 사용할 수 있는 요소
        - ids
        - embeddings
        - metadatas
        - documents
        - images
        - urls

In [5]:
collection.add(
    documents = [
        "This is a document about pineapple",
        "This is a document about oranges"
    ],
    ids = ["id1", "id2"]
)

/root/.cache/chroma/onnx_models/all-MiniLM-L6-v2/onnx.tar.gz: 100%|██████████| 79.3M/79.3M [00:06<00:00, 13.6MiB/s]


- 검색
    - 원하는 쿼리 벡터를 생성하여 ChromaDB에서 유사한 벡터를 검색
    - 쿼리 텍스트 목록을 사용하여 컬렉션을 쿼리할 수 있음
    - Chroma는 가장 유사한 결과를 반환함

In [6]:
results = collection.query(
    query_texts=["This is a query document about hawaii"],    # Chroma가 임베드 수행
    n_results=2     # 반환할 결과 수
)
print(results)

{'ids': [['id1', 'id2']], 'distances': [[1.0404009819030762, 1.2430799007415771]], 'metadatas': [[None, None]], 'embeddings': None, 'documents': [['This is a document about pineapple', 'This is a document about oranges']], 'uris': None, 'data': None}


- 다른 데이터를 사용해 보자

In [7]:
resume_collection = chroma_client.create_collection(name="resume")
chroma_collection = chroma_client.create_collection(name="chroma_collection")

In [8]:
chroma_collection.add(
    documents = ["This is a document", "This is another"],
    metadatas = [{"source": "chroma_collection"}, {"source": "chroma_collection"}],
    ids = ["id1", "id2"]
)

In [9]:
resume_collection.add(
    documents=["Developed a Flask-based QnA bot, implementing API endpoints for file management and answer generation",
              "Developed a text summarization project using Facebook’s BART model for efficient content abstraction and information extraction.",
              "Engineered Flask-based API for report analysis, integrating AWS Textract for PDF data extraction",
              "Developed a robust document classifier usingDenseNet121, achieving exceptional 99.55% accuracy by fine-tuning and customizing model architecture"],
    metadatas=[{"source":"project1"},{"source":"project2"},{"source":"project3"},{"source":"project4"}],
    ids=["id1","id2", "id3","id4"]
)

In [12]:
results = chroma_collection.query(
    query_texts=["This is a query document"],
    n_results=2
)

In [13]:
results

{'ids': [['id1', 'id2']],
 'distances': [[0.7111214399337769, 1.7439494132995605]],
 'metadatas': [[{'source': 'chroma_collection'},
   {'source': 'chroma_collection'}]],
 'embeddings': None,
 'documents': [['This is a document', 'This is another']],
 'uris': None,
 'data': None}

In [14]:
resume_collection.query(
    query_texts="Document GPT",
    n_results=2
)

{'ids': [['id3', 'id4']],
 'distances': [[1.4777963161468506, 1.6031928062438965]],
 'metadatas': [[{'source': 'project3'}, {'source': 'project4'}]],
 'embeddings': None,
 'documents': [['Engineered Flask-based API for report analysis, integrating AWS Textract for PDF data extraction',
   'Developed a robust document classifier usingDenseNet121, achieving exceptional 99.55% accuracy by fine-tuning and customizing model architecture']],
 'uris': None,
 'data': None}

In [15]:
resume_collection.query(
    query_texts="Flask-based QnA bot",
    n_results=3
)

{'ids': [['id1', 'id3', 'id2']],
 'distances': [[0.4418661594390869, 1.4539408683776855, 1.7471106052398682]],
 'metadatas': [[{'source': 'project1'},
   {'source': 'project3'},
   {'source': 'project2'}]],
 'embeddings': None,
 'documents': [['Developed a Flask-based QnA bot, implementing API endpoints for file management and answer generation',
   'Engineered Flask-based API for report analysis, integrating AWS Textract for PDF data extraction',
   'Developed a text summarization project using Facebook’s BART model for efficient content abstraction and information extraction.']],
 'uris': None,
 'data': None}

- 한글 데이터

In [16]:
resume_collection2 = chroma_client.create_collection(name="resume2")
chroma_collection2 = chroma_client.create_collection(name="chroma_collection2")

In [17]:
chroma_collection2.add(
    documents = ["이것은 문서입니다.", "이것은 또 다른 것입니다."],
    metadatas = [{"source": "chroma_collection2"}, {"source": "chroma_collection2"}],
    ids = ["id1", "id2"]
)

In [24]:
resume_collection2.add(
    documents=["파일 관리 및 답변 생성을 위한 API 엔드포인트를 구현하는 Flask 기반 QnA 봇을 개발했습니다.",
              "효율적인 콘텐츠 추상화 및 정보 추출을 위해 Facebook의 BART 모델을 사용하여 텍스트 요약 프로젝트를 개발했습니다.",
              "보고서 분석을 위한 엔지니어링된 Flask 기반 API와 PDF 데이터 추출을 위한 AWS Textract를 통합하는 프로젝트를 수행했습니다.",
              "DenseNet121을 사용하여 강력한 문서 분류기를 개발하여 모델 아키텍처를 미세 조정하고 사용자 정의하여 탁월한 99.55% 정확도를 달성했습니다."],
    metadatas=[{"source":"project1"},{"source":"project2"},{"source":"project3"},{"source":"project4"}],
    ids=["id1","id2", "id3","id4"]
)

In [21]:
results = chroma_collection2.query(
    query_texts=["이것은 Query 문서 입니다."],
    n_results=2
)

In [22]:
results

{'ids': [['id1', 'id2']],
 'distances': [[0.2809135317802429, 0.8091169595718384]],
 'metadatas': [[{'source': 'chroma_collection2'},
   {'source': 'chroma_collection2'}]],
 'embeddings': None,
 'documents': [['이것은 문서입니다.', '이것은 또 다른 것입니다.']],
 'uris': None,
 'data': None}

In [25]:
resume_collection2.query(
    query_texts="GPT 문서",
    n_results=2
)

{'ids': [['id3', 'id2']],
 'distances': [[1.5970513820648193, 1.65446937084198]],
 'metadatas': [[{'source': 'project3'}, {'source': 'project2'}]],
 'embeddings': None,
 'documents': [['보고서 분석을 위한 엔지니어링된 Flask 기반 API와 PDF 데이터 추출을 위한 AWS Textract를 통합하는 프로젝트를 수행했습니다.',
   '효율적인 콘텐츠 추상화 및 정보 추출을 위해 Facebook의 BART 모델을 사용하여 텍스트 요약 프로젝트를 개발했습니다.']],
 'uris': None,
 'data': None}

In [26]:
resume_collection2.query(
    query_texts="Flask 기반의 QnA 봇",
    n_results=3
)

{'ids': [['id1', 'id3', 'id4']],
 'distances': [[0.3462245762348175, 0.8857303857803345, 1.7187012434005737]],
 'metadatas': [[{'source': 'project1'},
   {'source': 'project3'},
   {'source': 'project4'}]],
 'embeddings': None,
 'documents': [['파일 관리 및 답변 생성을 위한 API 엔드포인트를 구현하는 Flask 기반 QnA 봇을 개발했습니다.',
   '보고서 분석을 위한 엔지니어링된 Flask 기반 API와 PDF 데이터 추출을 위한 AWS Textract를 통합하는 프로젝트를 수행했습니다.',
   'DenseNet121을 사용하여 강력한 문서 분류기를 개발하여 모델 아키텍처를 미세 조정하고 사용자 정의하여 탁월한 99.55% 정확도를 달성했습니다.']],
 'uris': None,
 'data': None}

## **2. PDF 파일을 이용한 ChromaDB 실습**

- 코드 출처: https://drfirst.tistory.com/entry/langchain%EA%B3%B5%EB%B6%80-Vectorstores-%EB%B2%A1%ED%84%B0-%EC%A0%80%EC%9E%A5%EC%88%98

- 텍스트 토큰 기반 처리

In [27]:
!pip install tiktoken

Collecting tiktoken
  Downloading tiktoken-0.7.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.1 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.1 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.2/1.1 MB[0m [31m6.0 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━[0m [32m0.5/1.1 MB[0m [31m8.1 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━[0m [32m1.0/1.1 MB[0m [31m9.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.1/1.1 MB[0m [31m8.5 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tiktoken
Successfully installed tiktoken-0.7.0


In [28]:
import tiktoken

In [32]:
tokenizer = tiktoken.get_encoding("cl100k_base")

In [35]:
def tiktoken_len(text):
    tokens = tokenizer.encode(text)
    return len(tokens)

- LangChain 설치

In [33]:
!pip install langchain

Collecting langchain
  Downloading langchain-0.1.20-py3-none-any.whl (1.0 MB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/1.0 MB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.2/1.0 MB[0m [31m5.7 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━[0m [32m0.6/1.0 MB[0m [31m8.1 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m1.0/1.0 MB[0m [31m9.8 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.0/1.0 MB[0m [31m8.2 MB/s[0m eta [36m0:00:00[0m
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain)
  Downloading dataclasses_json-0.6.6-py3-none-any.whl (28 kB)
Collecting langchain-community<0.1,>=0.0.38 (from langchain)
  Downloading langchain_community-0.0.38-py3-none-any.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━

In [34]:
from langchain.embeddings.sentence_transformer import SentenceTransformerEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.document_loaders import TextLoader
from langchain.document_loaders import PyPDFLoader
from langchain.embeddings import HuggingFaceEmbeddings

- pdf 파일 로드
    - 삼성전자 기업분석 pdf 사용

In [37]:
!pip install pypdf

Collecting pypdf
  Downloading pypdf-4.2.0-py3-none-any.whl (290 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/290.4 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m[90m━━━━━━━━━━━━━[0m [32m194.6/290.4 kB[0m [31m5.8 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m290.4/290.4 kB[0m [31m5.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pypdf
Successfully installed pypdf-4.2.0


In [38]:
## pdf 파일로드 하고 쪼개기
loader = PyPDFLoader('https://wdr.ubion.co.kr/wowpass/img/event/gsat_170823/gsat_170823.pdf')
pages = loader.load_and_split()



In [39]:
## chunk로 쪼개기
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0,length_function=tiktoken_len)
docs = text_splitter.split_documents(pages)

- 벡터화할 모델 로드
    - huggingface 모델 활용

In [40]:
from langchain.embeddings import HuggingFaceEmbeddings

In [44]:
!pip install transformers sentence_transformers

Collecting sentence_transformers
  Downloading sentence_transformers-2.7.0-py3-none-any.whl (171 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m171.5/171.5 kB[0m [31m3.8 MB/s[0m eta [36m0:00:00[0m
Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch>=1.11.0->sentence_transformers)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (23.7 MB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch>=1.11.0->sentence_transformers)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (823 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch>=1.11.0->sentence_transformers)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl (14.1 MB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch>=1.11.0->sentence_transformers)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl (731.7 MB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch>=1.11.0->sentence_transform

In [45]:
model_huggingface = HuggingFaceEmbeddings(model_name = 'jhgan/ko-sroberta-multitask'
                                          , model_kwargs = {'device':'cpu'}
                                         , encode_kwargs = {'normalize_embeddings' : True})

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/123 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/4.86k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/744 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/443M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/585 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/248k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/495k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/156 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

- ChromaDB 기반 대상 문서 벡터와 & 질의

In [46]:
db = Chroma.from_documents(docs, model_huggingface  )

In [47]:
question = '삼성전자의 주요 사업영역은?'
docs = db.similarity_search(question)
docs

[Document(page_content='11\nⅡ 기업 상세 분석\n1 사업분야 (내용)\nQ1삼성전자의 대표적 사업분야에 대해 설명할 수 있습니까 ?\nA\n삼성전자는 크게 CE(Consumer Electronics) 사업부문 , IM(Information technology & Mobile communica-\ntion) 사업부문 , DS(Device Solutions) 사업부문 등 3개 사업부문으로 나누어 독립 경영을 합니다 .\n⑴ Consumer Electronics (CE) 부문 \n① 영상디스플레이 : 진화하는 스마트 TV, 초대형 프리미엄 TV 전략으로 8년 연속 세계 1위에 \n도전\n② 생활가전 : 새로운 기술과 가치 창출로 생활과 문화를 바꾸는 혁신을 준비\n③ 의료기기 : 정확하고 빠른 진단을 도와주는 새롭고 혁신적인 의료기기를 개발\n⑵ Information technology & Mobile communication (IM) 부문\n① 무선 : 인간 중심의 혁신으로 소비자들이 열망하는 새로운 가치와 편의를 지속적으로 제공\n② 네트워크 : 뛰어난 기술력과 성공적인 경험을 바탕으로 차세대 네트워크 인프라와 솔루션을 \n공급\n⑶ Device Solutions (DS) 부문\n① 메모리 : 세계 최고 성능의 최첨단 그린메모리로 더욱 편리한 세상을 향해 나아감', metadata={'page': 9, 'source': 'https://wdr.ubion.co.kr/wowpass/img/event/gsat_170823/gsat_170823.pdf'}),
 Document(page_content='2\n01삼성전자 기업분석\n(Samsung Electronics Co., Ltd)\nⅠ 기업 일반 \n1 기업개요\n1) 기업소개 \n본사주소 경기도 수원시 영통구 삼성로 129(매탄동 416)\n사업분야 삼성그룹의 대표 기업으로 휴대폰 , 정보통신기기 , 반도체 , TV 등을 생산 판매하는 제조업체\n홈페이지 www.samsung.com/sec 

- 벡터화된 텍스트를 ChromaDB 파일로 저장

In [48]:
db_toFiles = Chroma.from_documents(docs, model_huggingface, persist_directory = './samsumg.db')

- ChromaDB 파일 읽어와서 적용하기

In [49]:
db_fromfile = Chroma(persist_directory = './samsumg.db',embedding_function=model_huggingface)

question = '삼성전자의 주요 사업영역은?'
docs3 = db_fromfile.similarity_search_with_relevance_scores(question,k=3)

print(f"가장 유사한문서 : {docs3[0][0].page_content}")
print('*'*20)
print(f"문서유사도 : {docs3[0][1]}")

가장 유사한문서 : 11
Ⅱ 기업 상세 분석
1 사업분야 (내용)
Q1삼성전자의 대표적 사업분야에 대해 설명할 수 있습니까 ?
A
삼성전자는 크게 CE(Consumer Electronics) 사업부문 , IM(Information technology & Mobile communica-
tion) 사업부문 , DS(Device Solutions) 사업부문 등 3개 사업부문으로 나누어 독립 경영을 합니다 .
⑴ Consumer Electronics (CE) 부문 
① 영상디스플레이 : 진화하는 스마트 TV, 초대형 프리미엄 TV 전략으로 8년 연속 세계 1위에 
도전
② 생활가전 : 새로운 기술과 가치 창출로 생활과 문화를 바꾸는 혁신을 준비
③ 의료기기 : 정확하고 빠른 진단을 도와주는 새롭고 혁신적인 의료기기를 개발
⑵ Information technology & Mobile communication (IM) 부문
① 무선 : 인간 중심의 혁신으로 소비자들이 열망하는 새로운 가치와 편의를 지속적으로 제공
② 네트워크 : 뛰어난 기술력과 성공적인 경험을 바탕으로 차세대 네트워크 인프라와 솔루션을 
공급
⑶ Device Solutions (DS) 부문
① 메모리 : 세계 최고 성능의 최첨단 그린메모리로 더욱 편리한 세상을 향해 나아감
********************
문서유사도 : 0.7330143713378439
