In [3]:
from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings

load_dotenv()

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

text = "임베딩 테스트 하기 위한 샘플 문장"

query_result = embeddings.embed_query(text)

query_result[:5]

[-0.004322961904108524,
 0.036349765956401825,
 0.030112629756331444,
 -0.019303826615214348,
 0.009104208089411259]

In [9]:
from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings

load_dotenv()

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

text = "임베딩 테스트 하기 위한 샘플 문장"

doc_result = embeddings.embed_documents(
    [text,text,text,text]
)

len(doc_result)

# print("===="* 20)

# doc_result[0][:5]

4

In [None]:
from dotenv import load_dotenv
from langchain_openai import OpenAIEmbeddings

load_dotenv()

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

text = "임베딩 테스트 하기 위한 샘플 문장"

doc_result = embeddings.embed_documents(
    [text,text,text,text]
)

# len(doc_result)
len(doc_result[0])


1024

In [None]:

from langchain_openai import OpenAIEmbeddings


embeddings_1024 = OpenAIEmbeddings(model="text-embedding-3-small", dimensions = 1024)


doc_result_1024 = embeddings_1024.embed_documents([text, text,text,text])

len(doc_result_1024[0])



In [None]:
from sklearn.metrics.pairwise import cosine_similarity

sentence1 = "안녕하세요? 반갑습니다."
sentence2 = "안녕하세요? 반갑습니다!"
sentence3 = "안녕하세요? 반가워요."
sentence4 = "Hi, nice to meet you"
sentence5 = "I like to eat pizza"

sentences = [sentence1, sentence2, sentence3, sentence4, sentence5]

embedded_sentnences = embeddings_1024.embed_documents(sentences)

def similarity(a,b):
    return cosine_similarity([a], [b])[0][0]

for i, sentence in enumerate(embedded_sentnences):
    for j, other_sentence in enumerate(embedded_sentnences):
        if i < j:
            print(
                f"[유사도 {similarity(sentence, other_sentence):.4f}] {sentences[i]} \t <=====> \t {sentences[j]}"
            )

[유사도 0.9644] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 반갑습니다!
[유사도 0.8469] 안녕하세요? 반갑습니다. 	 <=====> 	 안녕하세요? 반가워요.
[유사도 0.4842] 안녕하세요? 반갑습니다. 	 <=====> 	 Hi, nice to meet you
[유사도 0.0890] 안녕하세요? 반갑습니다. 	 <=====> 	 I like to eat pizza
[유사도 0.8287] 안녕하세요? 반갑습니다! 	 <=====> 	 안녕하세요? 반가워요.
[유사도 0.4801] 안녕하세요? 반갑습니다! 	 <=====> 	 Hi, nice to meet you
[유사도 0.0922] 안녕하세요? 반갑습니다! 	 <=====> 	 I like to eat pizza
[유사도 0.4642] 안녕하세요? 반가워요. 	 <=====> 	 Hi, nice to meet you
[유사도 0.0945] 안녕하세요? 반가워요. 	 <=====> 	 I like to eat pizza
[유사도 0.2014] Hi, nice to meet you 	 <=====> 	 I like to eat pizza


In [16]:
from langchain_community.document_loaders import TextLoader
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 600, chunk_overlap=0)

# 텍스트 파일 로드
loader1 = TextLoader("./data/nlp-keywords.txt")
loader2 = TextLoader("./data/finance-keywords.txt")

# 문서 분할
split_doc1 = loader1.load_and_split(text_splitter)
split_doc2 = loader2.load_and_split(text_splitter)

print(len(split_doc1))
print(len(split_doc2))

db = Chroma.from_documents(
    documents=split_doc1, 
    embedding=OpenAIEmbeddings(), 
    collection_name="my_db"
)

# 저장 경로
DB_PATH = "./chroma_db"

persist_db = Chroma.from_documents(
    documents=split_doc1, 
    embedding=OpenAIEmbeddings(), 
    collection_name="my_db",
    persist_directory=DB_PATH
)

persist_db.get()

11
6


{'ids': ['803e4977-c729-4e9b-96e5-15ebcce509fa',
  '742f2128-101c-4959-aa40-77a3747fd5f8',
  'e8d050c8-1128-49d8-8be0-fa7729df5133',
  'f6f61753-0485-4765-9919-593aedae5b19',
  '97455f30-359a-4492-ab56-2340a8727a71',
  '145a3641-01bb-4c3a-ac47-a592a1bf3a37',
  '38c8e4c6-b718-4067-9823-92ec2e3d8c95',
  '0ca3a9dd-e5f5-4533-af32-b81b74f39e01',
  '3f26f487-feb6-4c7c-8e2e-d0b8e24d3455',
  '4ebd4902-35ff-48b4-995d-9af776dff623',
  '0aaeab1e-f050-45da-b52e-03e5a010d063'],
 'embeddings': None,
 'documents': ['Semantic Search\n\n정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.\n예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.\n연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝\n\nEmbedding\n\n정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.\n예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.\n연관키워드: 자연어 처리, 벡터화, 딥러닝\n\nToken\n\n정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.\n예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 

In [19]:
from langchain_chroma import Chroma

db2 = Chroma.from_texts(
    ["안녕하세요. 반갑습니다. 오늘 메뉴는 뭔가요?", "제 이름은 bear입니다."],
    embedding=OpenAIEmbeddings()
)

db2.get()


{'ids': ['f4bbf085-30b1-48ab-a2b6-7323732d9028',
  '08b13031-c62e-429a-8eca-474a70966e18',
  '80a6baba-4c2f-4ac1-9193-b32abbe30e15',
  '237dc48f-4002-4006-8425-b4a7cd9f6326',
  '031471d3-6ecc-41d2-b6d2-c59bbba8947b',
  '21f2d200-80d6-4aeb-815b-041cc9755bc0'],
 'embeddings': None,
 'documents': ['안녕하세요. 반갑습니다. 오늘 메뉴는 뭔가요?',
  '제 이름은 bear입니다.',
  '안녕하세요. 반갑습니다. 오늘 메뉴는 뭔가요?',
  '제 이름은 bear입니다.',
  '안녕하세요. 반갑습니다. 오늘 메뉴는 뭔가요?',
  '제 이름은 bear입니다.'],
 'uris': None,
 'data': None,
 'metadatas': [None, None, None, None, None, None],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [20]:
from langchain_chroma import Chroma
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import TextLoader

text_splitter = RecursiveCharacterTextSplitter(chunk_size = 600, chunk_overlap=0)

loader1 = TextLoader("./data/nlp-keywords.txt")

split_doc1 = loader1.load_and_split(text_splitter)

db = Chroma.from_documents(
    documents=split_doc1, 
    embedding=OpenAIEmbeddings(), 
    collection_name="my_db"
)

db.similarity_search("csv에 대해 알려줘", k = 2)

[Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='정의: CSV(Comma-Separated Values)는 데이터를 저장하는 파일 형식으로, 각 데이터 값은 쉼표로 구분됩니다. 표 형태의 데이터를 간단하게 저장하고 교환할 때 사용됩니다.\n예시: 이름, 나이, 직업이라는 헤더를 가진 CSV 파일에는 홍길동, 30, 개발자와 같은 데이터가 포함될 수 있습니다.\n연관키워드: 데이터 형식, 파일 처리, 데이터 교환\n\nJSON\n\n정의: JSON(JavaScript Object Notation)은 경량의 데이터 교환 형식으로, 사람과 기계 모두에게 읽기 쉬운 텍스트를 사용하여 데이터 객체를 표현합니다.\n예시: {"이름": "홍길동", "나이": 30, "직업": "개발자"}는 JSON 형식의 데이터입니다.\n연관키워드: 데이터 교환, 웹 개발, API\n\nTransformer\n\n정의: 트랜스포머는 자연어 처리에서 사용되는 딥러닝 모델의 한 유형으로, 주로 번역, 요약, 텍스트 생성 등에 사용됩니다. 이는 Attention 메커니즘을 기반으로 합니다.\n예시: 구글 번역기는 트랜스포머 모델을 사용하여 다양한 언어 간의 번역을 수행합니다.\n연관키워드: 딥러닝, 자연어 처리, Attention\n\nHuggingFace'),
 Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='정의: CSV(Comma-Separated Values)는 데이터를 저장하는 파일 형식으로, 각 데이터 값은 쉼표로 구분됩니다. 표 형태의 데이터를 간단하게 저장하고 교환할 때 사용됩니다.\n예시: 이름, 나이, 직업이라는 헤더를 가진 CSV 파일에는 홍길동, 30, 개발자와 같은 데이터가 포함될 수 있습니다.\n연관키워드: 데이터 형식, 파일 처리, 데이터 교환\n\nJSON\n\n정의: JSON(JavaScript Object

In [21]:
from langchain_core.documents import Document

db.add_documents(
    [
        Document(
            page_content="안녕하세요! 이번에는 문서를 추가해볼거에요",
            metadata={"source": "mydata.txt"},
            id="1"
        )
    ]
)

db.get("1")

{'ids': ['1'],
 'embeddings': None,
 'documents': ['안녕하세요! 이번에는 문서를 추가해볼거에요'],
 'uris': None,
 'data': None,
 'metadatas': [{'source': 'mydata.txt'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [22]:
from langchain_core.documents import Document

db.add_documents(
    [
        Document(
            page_content="안녕하세요! 이번에는 문서를 추가해볼거에요",
            metadata={"source": "mydata.txt"},
            id="1"
        )
    ]
)

db.get("1")

db.add_texts(
    ["이전에 추가한 문서를 덮어씌우기", "기존거는 삭제가 됩니다."],
    metadatas=[{"source": "mydata.txt"}, {"source": "mydata.txt"}],
    ids=["1", "2"]
)

db.get(["2"])

{'ids': ['2'],
 'embeddings': None,
 'documents': ['기존거는 삭제가 됩니다.'],
 'uris': None,
 'data': None,
 'metadatas': [{'source': 'mydata.txt'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [23]:
from langchain_core.documents import Document

db.add_documents(
    [
        Document(
            page_content="안녕하세요! 이번에는 문서를 추가해볼거에요",
            metadata={"source": "mydata.txt"},
            id="1"
        )
    ]
)

db.get("1")

db.add_texts(
    ["이전에 추가한 문서를 덮어씌우기", "기존거는 삭제가 됩니다."],
    metadatas=[{"source": "mydata.txt"}, {"source": "mydata.txt"}],
    ids=["1", "2"]
)

db.get(["2"])

db.delete(ids=["1"])

db.get(["1", "2"])

{'ids': ['2'],
 'embeddings': None,
 'documents': ['기존거는 삭제가 됩니다.'],
 'uris': None,
 'data': None,
 'metadatas': [{'source': 'mydata.txt'}],
 'included': [<IncludeEnum.documents: 'documents'>,
  <IncludeEnum.metadatas: 'metadatas'>]}

In [None]:
# 초기화
db.reset_collection()

db.get() # 문서조회

In [26]:
from langchain_chroma import Chroma
from langchain_community.document_loaders import TextLoader
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(chunk_size = 600, chunk_overlap=0)

loader1 = TextLoader("./data/nlp-keywords.txt")
loader2 = TextLoader("./data/finance-keywords.txt")

# 문서 분할
split_doc1 = loader1.load_and_split(text_splitter)
split_doc2 = loader2.load_and_split(text_splitter)


db = Chroma.from_documents(
    documents=split_doc1 + split_doc2,
    embedding=OpenAIEmbeddings(),
    collection_name = "nlp"
)

# 검색기
# retriever = db.as_retriever()

# 다양성이 높은 문서 검색
# retriever = db.as_retriever(
#     search_type="mmr", search_kwargs={"k": 5, "lanbda_mult": 0.25, "fetch_k": 10}
# )

# 특정 임계값 이상의 유사도를 가진 문서만 탐색
# retriever = db.as_retriever(
#     search_type="similarity_score_threshold", search_kwargs={"score_threshold": 0.8}
# )

# 메타데이터 필터 적용
retriever = db.as_retriever(
    search_kwargs={"filter" : {"source": "./data/nlp-keywords.txt"}, "k":2}, 
)

retriever.invoke("Word2Vec 에 대해 알려줘")

[Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.\n예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.\n연관키워드: 자연어 처리, 임베딩, 의미론적 유사성\nLLM (Large Language Model)\n\n정의: LLM은 대규모의 텍스트 데이터로 훈련된 큰 규모의 언어 모델을 의미합니다. 이러한 모델은 다양한 자연어 이해 및 생성 작업에 사용됩니다.\n예시: OpenAI의 GPT 시리즈는 대표적인 대규모 언어 모델입니다.\n연관키워드: 자연어 처리, 딥러닝, 텍스트 생성\n\nFAISS (Facebook AI Similarity Search)\n\n정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.\n예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.\n연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화\n\nOpen Source'),
 Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.\n예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.\n연관키워드: 자연어 처리, 임베딩, 의미론적 유사성\nLLM (Large Language Model)\n\n정의: LLM은 대규모의 텍스트 데이터로 훈련된 큰 규모의 언어 모델을 의미합니다. 이

In [28]:
from dotenv import load_dotenv
from langchain_community.document_loaders import TextLoader
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
import faiss
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore

load_dotenv()

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 600, chunk_overlap=0)

# 텍스트 파일 로드
loader1 = TextLoader("./data/nlp-keywords.txt")
loader2 = TextLoader("./data/finance-keywords.txt")

# 문서 분할
split_doc1 = loader1.load_and_split(text_splitter)
split_doc2 = loader2.load_and_split(text_splitter)

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 임베딩 차원수 확인
embeddings_size = len(embeddings.embed_query("hello world"))

db = FAISS(
    embedding_function=embeddings,
    index= faiss.IndexFlatL2(embeddings_size),
    docstore=InMemoryDocstore(),
    index_to_docstore_id={},
)

db = FAISS.from_documents(documents=split_doc1, embedding=OpenAIEmbeddings())

db.docstore._dict


{'9f8639b5-2774-4ef2-b4fd-4ac9c8dadd04': Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='Semantic Search\n\n정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.\n예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.\n연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝\n\nEmbedding\n\n정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.\n예시: "사과"라는 단어를 [0.65, -0.23, 0.17]과 같은 벡터로 표현합니다.\n연관키워드: 자연어 처리, 벡터화, 딥러닝\n\nToken\n\n정의: 토큰은 텍스트를 더 작은 단위로 분할하는 것을 의미합니다. 이는 일반적으로 단어, 문장, 또는 구절일 수 있습니다.\n예시: 문장 "나는 학교에 간다"를 "나는", "학교에", "간다"로 분할합니다.\n연관키워드: 토큰화, 자연어 처리, 구문 분석\n\nTokenizer'),
 'ee9edc59-e653-459a-8924-0238e394e4f1': Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.\n예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다.\n연관키워드: 토큰화, 자연어 처리, 구문 분석\n\nVectorStore\n\n정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이

In [29]:
from dotenv import load_dotenv
from langchain_community.document_loaders import TextLoader
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
import faiss
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore

load_dotenv()

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 600, chunk_overlap=0)

# 텍스트 파일 로드
loader1 = TextLoader("./data/nlp-keywords.txt")
loader2 = TextLoader("./data/finance-keywords.txt")

# 문서 분할
split_doc1 = loader1.load_and_split(text_splitter)
split_doc2 = loader2.load_and_split(text_splitter)

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 임베딩 차원수 확인
embeddings_size = len(embeddings.embed_query("hello world"))

db2 = FAISS.from_texts(
    ["안녕하세요 정말 반갑습니다.", "제 이름은 bear 입니다."],
    embedding=OpenAIEmbeddings(),
    metadatas=[{"source": "텍스트 문서"}, {"source" : "텍스트문서"}],
    ids=["doc1", "doc2"]
)

db2.docstore.__dict__

{'_dict': {'doc1': Document(metadata={'source': '텍스트 문서'}, page_content='안녕하세요 정말 반갑습니다.'),
  'doc2': Document(metadata={'source': '텍스트문서'}, page_content='제 이름은 bear 입니다.')}}

In [32]:
from dotenv import load_dotenv
from langchain_community.document_loaders import TextLoader
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
import faiss
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore

load_dotenv()

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 600, chunk_overlap=0)

# 텍스트 파일 로드
loader1 = TextLoader("./data/nlp-keywords.txt")
loader2 = TextLoader("./data/finance-keywords.txt")

# 문서 분할
split_doc1 = loader1.load_and_split(text_splitter)
split_doc2 = loader2.load_and_split(text_splitter)

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 임베딩 차원수 확인
embeddings_size = len(embeddings.embed_query("hello world"))

db = FAISS(
    embedding_function=embeddings,
    index= faiss.IndexFlatL2(embeddings_size),
    docstore=InMemoryDocstore(),
    index_to_docstore_id={},
)

db = FAISS.from_documents(documents=split_doc1, embedding=OpenAIEmbeddings())

# 유사도검색
# db.similarity_search("Tokenizer가 뭐야?")

# 검색결과 개수 지정 가능
# db.similarity_search("Tokenizer가 뭐야?", k=2)

# 필터링
db.similarity_search("Tokenizer가 뭐야?", filter={"source": "./data/nlp-keywords.txt"})


[Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.\n예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다.\n연관키워드: 토큰화, 자연어 처리, 구문 분석\n\nVectorStore\n\n정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업에 사용됩니다.\n예시: 단어 임베딩 벡터들을 데이터베이스에 저장하여 빠르게 접근할 수 있습니다.\n연관키워드: 임베딩, 데이터베이스, 벡터화\n\nSQL\n\n정의: SQL(Structured Query Language)은 데이터베이스에서 데이터를 관리하기 위한 프로그래밍 언어입니다. 데이터 조회, 수정, 삽입, 삭제 등 다양한 작업을 수행할 수 있습니다.\n예시: SELECT * FROM users WHERE age > 18;은 18세 이상의 사용자 정보를 조회합니다.\n연관키워드: 데이터베이스, 쿼리, 데이터 관리\n\nCSV'),
 Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='Semantic Search\n\n정의: 의미론적 검색은 사용자의 질의를 단순한 키워드 매칭을 넘어서 그 의미를 파악하여 관련된 결과를 반환하는 검색 방식입니다.\n예시: 사용자가 "태양계 행성"이라고 검색하면, "목성", "화성" 등과 같이 관련된 행성에 대한 정보를 반환합니다.\n연관키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝\n\nEmbedding\n\n정의: 임베딩은 단어나 문장 같은 텍스트 데이터를 저차원의 연속적인 벡터로 변환하는 과정입니다. 이를 통해 컴퓨터가 텍스트를 이해하고 처리할 수 있게 합니다.\

In [None]:
from dotenv import load_dotenv
from langchain_community.document_loaders import TextLoader
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
import faiss
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore
from langchain_core.documents import Document

load_dotenv()

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 600, chunk_overlap=0)

# 텍스트 파일 로드
loader1 = TextLoader("./data/nlp-keywords.txt")
loader2 = TextLoader("./data/finance-keywords.txt")

# 문서 분할
split_doc1 = loader1.load_and_split(text_splitter)
split_doc2 = loader2.load_and_split(text_splitter)

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 임베딩 차원수 확인
embeddings_size = len(embeddings.embed_query("hello world"))

db = FAISS(
    embedding_function=embeddings,
    index= faiss.IndexFlatL2(embeddings_size),
    docstore=InMemoryDocstore(),
    index_to_docstore_id={},
)

db = FAISS.from_documents(documents=split_doc1, embedding=OpenAIEmbeddings())

# 유사도검색
# db.similarity_search("Tokenizer가 뭐야?")

db.add_documents(
    [
        Document(
            page_content="안녕하세요 이번에 도큐먼트를 새로 추가합시다.",
            metadata={"source": "mydata.txt"}
        )
    ],
    ids = ["new_doc1"]
)

# db.similarity_search("안녕하세요", k=1)

db.add_texts(
    ["이번에는 텍스트 추가", "추가한 2번째 텍스트 데이터"],
    metadatas=[{"source": "mydata.txt"}, {"source": "mydata.txt"}],
    ids=["new_doc2", "new_doc3"]
)

db.index_to_docstore_id

# 문서 삭제
db.delete(["new_doc3"])

db.index_to_docstore_id

{0: 'f9d19ad7-9c9d-4233-a100-baf75f10fbca',
 1: '5b1eba69-98ac-4c85-b4ef-47a3ddfc9b26',
 2: '97dc1a2f-cff3-4f58-9a66-62e288962966',
 3: '74b0e850-2ebb-4948-93f1-87cc342864b1',
 4: '91886131-2d52-482a-8873-0aa86ba75aa5',
 5: '19c31336-52f1-4fb4-8340-a7d4afa79685',
 6: '22c97385-93e2-4119-9f65-c9717241f681',
 7: '35b9279d-fc5e-4fb4-88d2-2512be0388d2',
 8: '14a4e7ea-220c-4277-ba61-d34f753f55b4',
 9: 'd35a5df8-7b6e-4233-be61-faff7d9e3830',
 10: '91069263-5294-4e78-85be-76cf5129fe53',
 11: 'new_doc1',
 12: 'new_doc2'}

In [35]:
from dotenv import load_dotenv
from langchain_community.document_loaders import TextLoader
from langchain_openai.embeddings import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
import faiss
from langchain_community.vectorstores import FAISS
from langchain_community.docstore.in_memory import InMemoryDocstore
from langchain_core.documents import Document

load_dotenv()

# 텍스트 분할
text_splitter = RecursiveCharacterTextSplitter(chunk_size = 600, chunk_overlap=0)

# 텍스트 파일 로드
loader1 = TextLoader("./data/nlp-keywords.txt")
loader2 = TextLoader("./data/finance-keywords.txt")

# 문서 분할
split_doc1 = loader1.load_and_split(text_splitter)
split_doc2 = loader2.load_and_split(text_splitter)

embeddings = OpenAIEmbeddings(model="text-embedding-3-small")

# 임베딩 차원수 확인
embeddings_size = len(embeddings.embed_query("hello world"))

db = FAISS(
    embedding_function=embeddings,
    index= faiss.IndexFlatL2(embeddings_size),
    docstore=InMemoryDocstore(),
    index_to_docstore_id={},
)

db = FAISS.from_documents(documents=split_doc1, embedding=OpenAIEmbeddings())

db.save_local(folder_path="faiss_db", index_name="faiss_index")

# 저장된 데이터 로드
loaded_db = FAISS.load_local(
    folder_path="faiss_db",
    index_name="faiss_index",
    embeddings=embeddings,
    allow_dangerous_deserialization=True
)

loaded_db.index_to_docstore_id

db = FAISS.from_documents(
    documents=split_doc1 + split_doc2, embedding=OpenAIEmbeddings()
)

retriever = db.as_retriever()

retriever.invoke("WOrd2Vec 에 대해 알려줘")

[Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='정의: Word2Vec은 단어를 벡터 공간에 매핑하여 단어 간의 의미적 관계를 나타내는 자연어 처리 기술입니다. 이는 단어의 문맥적 유사성을 기반으로 벡터를 생성합니다.\n예시: Word2Vec 모델에서 "왕"과 "여왕"은 서로 가까운 위치에 벡터로 표현됩니다.\n연관키워드: 자연어 처리, 임베딩, 의미론적 유사성\nLLM (Large Language Model)\n\n정의: LLM은 대규모의 텍스트 데이터로 훈련된 큰 규모의 언어 모델을 의미합니다. 이러한 모델은 다양한 자연어 이해 및 생성 작업에 사용됩니다.\n예시: OpenAI의 GPT 시리즈는 대표적인 대규모 언어 모델입니다.\n연관키워드: 자연어 처리, 딥러닝, 텍스트 생성\n\nFAISS (Facebook AI Similarity Search)\n\n정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있도록 설계되었습니다.\n예시: 수백만 개의 이미지 벡터 중에서 비슷한 이미지를 빠르게 찾는 데 FAISS가 사용될 수 있습니다.\n연관키워드: 벡터 검색, 머신러닝, 데이터베이스 최적화\n\nOpen Source'),
 Document(metadata={'source': './data/nlp-keywords.txt'}, page_content='정의: 토크나이저는 텍스트 데이터를 토큰으로 분할하는 도구입니다. 이는 자연어 처리에서 데이터를 전처리하는 데 사용됩니다.\n예시: "I love programming."이라는 문장을 ["I", "love", "programming", "."]으로 분할합니다.\n연관키워드: 토큰화, 자연어 처리, 구문 분석\n\nVectorStore\n\n정의: 벡터스토어는 벡터 형식으로 변환된 데이터를 저장하는 시스템입니다. 이는 검색, 분류 및 기타 데이터 분석 작업