### Vector DB - Chroma

In [1]:
from dotenv import load_dotenv
load_dotenv()

True

In [2]:
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings

loader = TextLoader("./data/langchain.txt")
docs = loader.load()
print(len(docs))

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=30
)

# 텍스트 분할 적용
split_docs = text_splitter.split_documents(docs)

# 결과 확인
print(f"총 {len(split_docs)}개의 청크로 분할됨")
print(split_docs[0].page_content)  # 첫 번째 청크 출력

# embedding
embedding_model_name = "jhgan/ko-sbert-nli"
embedding_model = HuggingFaceEmbeddings(model_name=embedding_model_name)

# ChromaDB 벡터 스토어 생성 및 문서 저장
vectorstore = Chroma.from_documents(
    split_docs,
    embedding_model,
    persist_directory="./db/chroma_db",
    collection_name='my_db',  # 테이블명
)

# 벡터 저장 완료 메시지
print("ChromaDB에 텍스트 데이터 저장 완료!")

1
총 29개의 청크로 분할됨
이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을


  embedding_model = HuggingFaceEmbeddings(model_name=embedding_model_name)



ChromaDB에 텍스트 데이터 저장 완료!


In [None]:
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma

loader = TextLoader("./data/langchain.txt")
splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)

docs = loader.load()
chunks = splitter.split_documents(docs)

# chunks = loader.load_and_split(splitter)

chunks

[Document(metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표'),
 Document(metadata={'source': './data/langchain.txt'}, page_content='오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 코드를 단순히 복사하여 붙여넣는 방식은 원하는 기능을 추가하기 어려움.\n코딩에 익숙하지 않은 사람들을 위해 차근차근 과정을 설명할 것임.\n\n2. 기본 파일 구조'),
 Document(metadata={'source': './data/langchain.txt'}, page_content="'점 스트림'이라는 폴더를 만들고, 그 안에 'Secrets.toml' 파일을 생성함.\n이 파일에는 오픈 AI 키를 넣어두고, 나중에 이를 가져와서 설정할 것임.\n'메인.py' 파일 하나만 있으면 충분함.\n\n3. 단계적 개발 방법\n\n처음부터 완성형 서비스를 만들려고 하지 말고, 기본적인 수준부터 기능을 하나씩 추가하는 것이 좋음.\n가장 쉬운 기능부터 시작하여 난이도를 높여가는 방식으로 진행함.\n\n4. 웹사이트 띄우기"),
 Document(metadata={'source': './data/langchain.txt'}, page_content="웹사이트를 띄우기 위해 기본적

In [None]:
db = Chroma.from_documents(
    documents=chunks,
    embedding=OpenAIEmbeddings(),
    collection_name='my_db'  # 테이블명
)


In [None]:
db = Chroma.from_documents(
    documents=chunks,
    embedding=OpenAIEmbeddings(),
    persist_directory='./db/chroma_db',  # 저장 위치
    collection_name='my_db',  # 테이블명
)

In [None]:
# 불러오기
db = Chroma(
    persist_directory='./db/chroma_db',
    embedding_function=OpenAIEmbeddings(),
    collection_name='my_db'
)

In [18]:
db.get()

{'ids': ['eec4e347-fbb4-4e3e-a953-4f03380171d3',
  'abeadd57-6544-4783-8721-4b67248527c4',
  '208d6ec5-2b36-45bc-b566-d011ee9a0491',
  'c08c722a-afd6-49a6-8b1a-92419c89e473',
  'd27de79a-f331-4a2b-854f-de45ae164272',
  '2cba05e5-7ab0-4dac-b9ca-cf5e40c7d62b',
  'e9b93452-e3e5-4851-aff8-4eaa20d78125'],
 'embeddings': None,
 'documents': ['이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표',
  '오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 코드를 단순히 복사하여 붙여넣는 방식은 원하는 기능을 추가하기 어려움.\n코딩에 익숙하지 않은 사람들을 위해 차근차근 과정을 설명할 것임.\n\n2. 기본 파일 구조',
  "'점 스트림'이라는 폴더를 만들고, 그 안에 'Secrets.toml' 파일을 생성함.\n이 파일에는 오픈 AI 키를 넣어두고, 나중에 이를 가져와서 설정할 것임.\n'메인.py' 파일 하나만 있으면 충분함.\n\n3. 단계적 개발 방법\n\n처음부터 완성형 서비스를 만들려고 하지 말고, 기본적인 수준부터 기능을 하나씩 추가하는 것이 좋음.\n가장 

In [None]:
# 불러오기
db2 = Chroma(
    persist_directory='./db/chroma_db',
    embedding_function=HuggingFaceEmbeddings(model_name=embedding_model_name),
    collection_name='my_db2'
)

  db2 = Chroma(


In [21]:
db.get()

{'ids': ['eec4e347-fbb4-4e3e-a953-4f03380171d3',
  'abeadd57-6544-4783-8721-4b67248527c4',
  '208d6ec5-2b36-45bc-b566-d011ee9a0491',
  'c08c722a-afd6-49a6-8b1a-92419c89e473',
  'd27de79a-f331-4a2b-854f-de45ae164272',
  '2cba05e5-7ab0-4dac-b9ca-cf5e40c7d62b',
  'e9b93452-e3e5-4851-aff8-4eaa20d78125'],
 'embeddings': None,
 'documents': ['이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표',
  '오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 코드를 단순히 복사하여 붙여넣는 방식은 원하는 기능을 추가하기 어려움.\n코딩에 익숙하지 않은 사람들을 위해 차근차근 과정을 설명할 것임.\n\n2. 기본 파일 구조',
  "'점 스트림'이라는 폴더를 만들고, 그 안에 'Secrets.toml' 파일을 생성함.\n이 파일에는 오픈 AI 키를 넣어두고, 나중에 이를 가져와서 설정할 것임.\n'메인.py' 파일 하나만 있으면 충분함.\n\n3. 단계적 개발 방법\n\n처음부터 완성형 서비스를 만들려고 하지 말고, 기본적인 수준부터 기능을 하나씩 추가하는 것이 좋음.\n가장 

In [30]:
db.similarity_search(
    query='LLM을 적용하기 위한 코드',
    k=2,
    filter={'source': './data/langchain.txt'}
)

[Document(id='2cba05e5-7ab0-4dac-b9ca-cf5e40c7d62b', metadata={'source': './data/langchain.txt'}, page_content='출력하는 코드를 함수로 패키징하여 코드의 가독성을 높임.\n챗 메시지를 튜플로 넣는 대신 객체화하여 가독성을 높이는 방법을 설명함.\n\n9. LLM 적용\n\nLLM을 적용하기 위해 필요한 코드와 설정을 설명함.\n사용자가 입력한 내용을 기반으로 AI의 답변을 생성하는 과정을 구현함.\n메모리 기능을 추가하여 대화 기록을 저장하고 활용할 수 있도록 함.\n\n10. 기능 추가 및 개선'),
 Document(id='abeadd57-6544-4783-8721-4b67248527c4', metadata={'source': './data/langchain.txt'}, page_content='오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 코드를 단순히 복사하여 붙여넣는 방식은 원하는 기능을 추가하기 어려움.\n코딩에 익숙하지 않은 사람들을 위해 차근차근 과정을 설명할 것임.\n\n2. 기본 파일 구조')]

In [29]:
db2.similarity_search(
    query='LLM을 적용하기 위한 코드',
    k=2,
    filter={'source': './data/langchain.txt'}
)

[Document(metadata={'source': './data/langchain.txt'}, page_content='LLM을 적용하기 위해 필요한 코드와 설정을 설명함.\n사용자가 입력한 내용을 기반으로 AI의 답변을 생성하는 과정을 구현함.'),
 Document(metadata={'source': './data/langchain.txt'}, page_content='9. LLM 적용')]

In [31]:
db.add_documents(documents=chunks)

['eac4a01d-8dcc-4562-9d7b-f0be996d887d',
 '8568d357-f180-4001-a5cf-7865b67bea3f',
 '6eca4e18-e0cb-4a43-80e0-8179e94c0605',
 '25969814-3b05-4b1a-b5e0-4335c8a8244d',
 '1a3248a4-54a7-412d-9cb2-678917ece050',
 '974e8549-cfc7-478a-a757-371f67553a88',
 'f1ca9b1d-229b-4b2f-9645-53d779068822']

In [32]:
db.get()

{'ids': ['eec4e347-fbb4-4e3e-a953-4f03380171d3',
  'abeadd57-6544-4783-8721-4b67248527c4',
  '208d6ec5-2b36-45bc-b566-d011ee9a0491',
  'c08c722a-afd6-49a6-8b1a-92419c89e473',
  'd27de79a-f331-4a2b-854f-de45ae164272',
  '2cba05e5-7ab0-4dac-b9ca-cf5e40c7d62b',
  'e9b93452-e3e5-4851-aff8-4eaa20d78125',
  'eac4a01d-8dcc-4562-9d7b-f0be996d887d',
  '8568d357-f180-4001-a5cf-7865b67bea3f',
  '6eca4e18-e0cb-4a43-80e0-8179e94c0605',
  '25969814-3b05-4b1a-b5e0-4335c8a8244d',
  '1a3248a4-54a7-412d-9cb2-678917ece050',
  '974e8549-cfc7-478a-a757-371f67553a88',
  'f1ca9b1d-229b-4b2f-9645-53d779068822'],
 'embeddings': None,
 'documents': ['이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표',
  '오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 

### 검색기로 만들기
- LLM에서 편리하게 사용하기 위함

In [None]:
retriever = db.as_retriever()  # langchain에서 활용하는 검색기의 역할
retriever.invoke('langchain이란?')


[Document(id='eec4e347-fbb4-4e3e-a953-4f03380171d3', metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표'),
 Document(id='eac4a01d-8dcc-4562-9d7b-f0be996d887d', metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표'),
 Document(id='8568d357-f180-4001-a5cf-7865b67bea3f', metadata={'source': './data/langchain.txt'}, page_content='오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 코드를 단순히 복사하여 붙여넣는 방식은 원하는 기능을 추가하기 어려움.\n코딩에 익숙하지 않은 사람들을 위해 차근차근 과정

In [None]:
retriever = db.as_retriever(
    search_type='mmr',  # 검색 결과에 다양성을 부여
    search_kwargs={
        "k": 2,
        "lambda_mult": 1,  # 1에 가까울 수록 정확도를 우선시하고, 0에 가까울 수록 다양성을 우선시 함
        "fatch_k": 10  # 초기 후보 개수 설정
    }
)
retriever.invoke('langchain이란?')

Number of requested results 20 is greater than number of elements in index 14, updating n_results = 14


[Document(id='eec4e347-fbb4-4e3e-a953-4f03380171d3', metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표'),
 Document(id='eac4a01d-8dcc-4562-9d7b-f0be996d887d', metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표')]

In [43]:
retriever = db.as_retriever(
    search_type='similarity_score_threshold',  # 검색 결과에 다양성을 부여
    search_kwargs={
        'score_threshold': 0.7
    }
)
retriever.invoke('langchain이란?')

[Document(id='eec4e347-fbb4-4e3e-a953-4f03380171d3', metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표'),
 Document(id='eac4a01d-8dcc-4562-9d7b-f0be996d887d', metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표')]

### Vector DB - FAISS

In [9]:
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
import faiss
from langchain_community.vectorstores import FAISS
from langchain.docstore.in_memory import InMemoryDocstore

loader = TextLoader("./data/langchain.txt")
splitter = RecursiveCharacterTextSplitter(chunk_size=300, chunk_overlap=0)

docs = loader.load()
chunks = splitter.split_documents(docs)

# chunks = loader.load_and_split(splitter)

chunks

[Document(metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표'),
 Document(metadata={'source': './data/langchain.txt'}, page_content='오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 코드를 단순히 복사하여 붙여넣는 방식은 원하는 기능을 추가하기 어려움.\n코딩에 익숙하지 않은 사람들을 위해 차근차근 과정을 설명할 것임.\n\n2. 기본 파일 구조'),
 Document(metadata={'source': './data/langchain.txt'}, page_content="'점 스트림'이라는 폴더를 만들고, 그 안에 'Secrets.toml' 파일을 생성함.\n이 파일에는 오픈 AI 키를 넣어두고, 나중에 이를 가져와서 설정할 것임.\n'메인.py' 파일 하나만 있으면 충분함.\n\n3. 단계적 개발 방법\n\n처음부터 완성형 서비스를 만들려고 하지 말고, 기본적인 수준부터 기능을 하나씩 추가하는 것이 좋음.\n가장 쉬운 기능부터 시작하여 난이도를 높여가는 방식으로 진행함.\n\n4. 웹사이트 띄우기"),
 Document(metadata={'source': './data/langchain.txt'}, page_content="웹사이트를 띄우기 위해 기본적

In [10]:
dim_size = 512
embeddings = OpenAIEmbeddings()

db = FAISS(
    embedding_function=embeddings,
    index=faiss.IndexFlatL2(dim_size),
    docstore=InMemoryDocstore(),
    index_to_docstore_id={}
)

db = db.from_documents(
    documents=chunks,
    embedding=embeddings,
)

db.similarity_search('langchain이란?')

[Document(id='b0e3f105-4841-4ec7-98b0-d48ca5b49b6b', metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표'),
 Document(id='3d38a532-6a36-4981-a683-e92236e5ad00', metadata={'source': './data/langchain.txt'}, page_content='오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 코드를 단순히 복사하여 붙여넣는 방식은 원하는 기능을 추가하기 어려움.\n코딩에 익숙하지 않은 사람들을 위해 차근차근 과정을 설명할 것임.\n\n2. 기본 파일 구조'),
 Document(id='22079c7f-35e2-4f02-a97c-155e831f6ade', metadata={'source': './data/langchain.txt'}, page_content='대화 기록을 로컬 DB에 저장하여 사용자가 다시 방문했을 때 이전 대화를 보여줄 수 있도록 함.\n다양한 컴포넌트를 활용하여 기능을 추가하고 개선할 수 있는 방법을 제시함.\n영상의 목적은 처음부터 구현하는 흐름을 보여주고, 기능 추가 및 오류 수정이 용이하도록 하는 것임.'),
 Document(id='2f26940c-143c-4781-967c-de8a6b8d

In [11]:
retriever_faiss = db.as_retriever()
retriever_faiss.invoke('langchain이란?')

[Document(id='b0e3f105-4841-4ec7-98b0-d48ca5b49b6b', metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표'),
 Document(id='3d38a532-6a36-4981-a683-e92236e5ad00', metadata={'source': './data/langchain.txt'}, page_content='오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 코드를 단순히 복사하여 붙여넣는 방식은 원하는 기능을 추가하기 어려움.\n코딩에 익숙하지 않은 사람들을 위해 차근차근 과정을 설명할 것임.\n\n2. 기본 파일 구조'),
 Document(id='22079c7f-35e2-4f02-a97c-155e831f6ade', metadata={'source': './data/langchain.txt'}, page_content='대화 기록을 로컬 DB에 저장하여 사용자가 다시 방문했을 때 이전 대화를 보여줄 수 있도록 함.\n다양한 컴포넌트를 활용하여 기능을 추가하고 개선할 수 있는 방법을 제시함.\n영상의 목적은 처음부터 구현하는 흐름을 보여주고, 기능 추가 및 오류 수정이 용이하도록 하는 것임.'),
 Document(id='2f26940c-143c-4781-967c-de8a6b8d

In [12]:
db.save_local(folder_path='./db/faiss_db', index_name='faiss_index')

In [13]:
db = FAISS.load_local(
    folder_path = './db/faiss_db',
    index_name='faiss_index',
    embeddings=embeddings,
    allow_dangerous_deserialization=True
)


In [14]:
db.similarity_search('langchain이란?')

[Document(id='b0e3f105-4841-4ec7-98b0-d48ca5b49b6b', metadata={'source': './data/langchain.txt'}, page_content='이 영상은 LangChain을 활용하여 Streamlit으로 ChatGPT 클론 서비스를 만드는 방법을 단계별로 설명합니다. 강사는 코드를 처음부터 끝까지 직접 작성하며, 기능을 하나씩 추가하는 과정을 보여주어 초보자들이 코드를 이해하고 수정할 수 있도록 돕고자 합니다. 이 과정에서 기능 추가와 코드 관리의 중요성을 강조하며, 실습을 통해 학습할 수 있는 기회를 제공합니다.\n\n1. 영상 소개 및 목표'),
 Document(id='3d38a532-6a36-4981-a683-e92236e5ad00', metadata={'source': './data/langchain.txt'}, page_content='오늘의 영상은 LML을 활용한 스트림 웹앱 서비스 제작에 대한 내용임.\n이전 영상과 마찬가지로 백지에서 코드를 만들어 나가는 과정을 보여줄 예정임.\n기능을 하나씩 추가하며 ChatGPT와 유사한 서비스를 만드는 것이 목표임.\n레퍼런스 코드를 단순히 복사하여 붙여넣는 방식은 원하는 기능을 추가하기 어려움.\n코딩에 익숙하지 않은 사람들을 위해 차근차근 과정을 설명할 것임.\n\n2. 기본 파일 구조'),
 Document(id='22079c7f-35e2-4f02-a97c-155e831f6ade', metadata={'source': './data/langchain.txt'}, page_content='대화 기록을 로컬 DB에 저장하여 사용자가 다시 방문했을 때 이전 대화를 보여줄 수 있도록 함.\n다양한 컴포넌트를 활용하여 기능을 추가하고 개선할 수 있는 방법을 제시함.\n영상의 목적은 처음부터 구현하는 흐름을 보여주고, 기능 추가 및 오류 수정이 용이하도록 하는 것임.'),
 Document(id='2f26940c-143c-4781-967c-de8a6b8d

### langchain / huggingface / ollama

In [17]:
from langchain_openai import OpenAIEmbeddings

embed = OpenAIEmbeddings(model='text-embedding-3-small')
result = embed.embed_query('안녕하세요')
result[:3]

[-0.0024854617659002542, -0.0613161139190197, -0.008378866128623486]

In [20]:
from langchain_huggingface.embeddings import HuggingFaceEndpointEmbeddings

# model_name = 'intfloat/multilingual-e5-large'
model_name = 'intfloat/multilingual-e5-large-instruct'
task_name = 'feature-extraction'

hf_emb = HuggingFaceEndpointEmbeddings(
    model=model_name,
    task=task_name
)

result = hf_emb.embed_query('안녕하세요')
result[:3]




[0.012227669358253479, 0.01514587365090847, 0.019981645047664642]

In [21]:
# $ ollama pull nomic-embed-text

from langchain_community.embeddings import OllamaEmbeddings

model_name = 'nomic-embed-text'

ollama_emb = OllamaEmbeddings(
    model=model_name
)

result = ollama_emb.embed_query('안녕하세요')
result[:3]

  ollama_emb = OllamaEmbeddings(


[0.18777593970298767, 0.005022969096899033, -3.0870871543884277]