In [1]:
import os
from dotenv import load_dotenv

load_dotenv()
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
print(OPENAI_API_KEY[:2])

sk


In [3]:

from langchain_community.document_loaders import TextLoader  # 텍스트 파일 로더
from langchain_openai.embeddings import OpenAIEmbeddings  # OpenAI 임베딩 사용
from langchain.text_splitter import RecursiveCharacterTextSplitter  # 텍스트 분할기
from langchain_community.vectorstores import FAISS  # 벡터 DB (FAISS) 사용


In [4]:

# 2. 벡터 데이터베이스 저장 경로 설정
DB_PATH = "./db/faiss_db"

# 3. 텍스트 파일을 로드하고 문서를 분할하는 함수 정의
def load_and_split_text(file_path, splitter):
    """
    주어진 텍스트 파일을 로드한 후, 설정된 Splitter를 사용하여 문서를 나누는 함수.
    
    Args:
        file_path (str): 로드할 파일 경로
        splitter (RecursiveCharacterTextSplitter): 텍스트 분할기 객체

    Returns:
        list: 분할된 문서 리스트
    """
    if not os.path.exists(file_path):
        print(f" 파일을 찾을 수 없습니다: {file_path}")
        return []
    
    try:
        loader = TextLoader(file_path, encoding="utf-8")  # 텍스트 파일 로드
        return loader.load_and_split(splitter)  # 분할하여 반환
    except Exception as e:
        print(f" 파일 로드 오류 ({file_path}): {e}")
        return []

# 4. 텍스트 분할기 설정 (600자 단위로 나누고, 100자 겹침 포함)
text_splitter = RecursiveCharacterTextSplitter(chunk_size=600, chunk_overlap=100)

# 5. 두 개의 텍스트 파일 로드 및 분할
split_doc1 = load_and_split_text("data/ai-terminology.txt", text_splitter)
split_doc2 = load_and_split_text("data/finance-terminology.txt", text_splitter)

# 6. 문서 개수 출력
print(f"AI 문서 개수: {len(split_doc1)}")
print(f"금융 문서 개수: {len(split_doc2)}")

# 7. 모든 문서 합치기
all_documents = split_doc1 + split_doc2

# 8. FAISS 벡터 DB 생성 및 저장
try:
    # FAISS 벡터 DB 생성
    persist_db = FAISS.from_documents(
        documents=all_documents,
        embedding=OpenAIEmbeddings(),  # OpenAI Embeddings 사용
    )
    
    # 로컬 디스크에 저장
    if not os.path.exists(DB_PATH):
        os.makedirs(DB_PATH)
    persist_db.save_local(DB_PATH)
    
    print("FAISS 데이터베이스 저장 완료!")
except Exception as e:
    print(f" FAISS 데이터베이스 저장 오류: {e}")

# 9. 저장된 데이터 확인
try:
    # FAISS에서 인덱스 정보 확인
    print(f" 저장된 벡터 개수: {persist_db.index.ntotal}")
    print(f" 벡터 차원: {persist_db.index.d}")
    print(f" 인덱스 타입: {type(persist_db.index)}")
except Exception as e:
    print(f" 데이터 조회 오류: {e}")


AI 문서 개수: 6
금융 문서 개수: 5
FAISS 데이터베이스 저장 완료!
 저장된 벡터 개수: 11
 벡터 차원: 1536
 인덱스 타입: <class 'faiss.swigfaiss_avx2.IndexFlatL2'>


In [None]:

# 10. 유사도 검색 함수 정의
def search_query(query, k=2):
    """
    사용자 입력(query)에 대해 가장 유사한 문서를 검색하는 함수.

    Args:
        query (str): 검색할 문장 (예: "Transformer 개념 설명")
        k (int, optional): 검색할 문서 개수. Defaults to 2.

    Returns:
        None: 검색 결과를 출력
    """
    try:
        results = persist_db.similarity_search(query, k=k)  # 유사도 검색 수행
        print(f"\n [Query]: {query}\n")
        for i, doc in enumerate(results):
            print(f"[Result {i+1}]: {doc.page_content[:300]}...\n")  # 검색 결과 출력
    except Exception as e:
        print(f" 검색 오류: {e}")

# 11. 검색 테스트 실행
search_query("Embedding 에 대해 설명해줘", k=2)



 [Query]: Embedding 에 대해 설명해줘

[Result 1]: Semantic Search (의미론적 검색)

정의: 사용자의 질의를 단순한 키워드 매칭이 아니라 문맥과 의미를 분석하여 관련 정보를 반환하는 검색 방식.
예시: "우주 탐사"를 검색하면 "아폴로 11호", "화성 탐사 로버"와 같은 연관 정보가 포함된 결과를 제공함.
연관 키워드: 자연어 처리, 검색 알고리즘, 데이터 마이닝

FAISS (Facebook AI Similarity Search)

정의: FAISS는 페이스북에서 개발한 고속 유사성 검색 라이브러리로, 특히 대규모 벡터 집합에서 유사 벡터를 효과적으로 검색할 수 있...

[Result 2]: Token (토큰)

정의: 텍스트 데이터를 더 작은 단위(단어, 문자, 문장 등)로 나누는 과정.
예시: "AI는 혁신적이다"를 ["AI", "는", "혁신적", "이다"]로 분할.
연관 키워드: 토큰화, NLP, 텍스트 전처리

Transformer (트랜스포머)

정의: 자연어 처리에서 사용되는 신경망 아키텍처로, 병렬 연산과 장기 의존성 처리가 강점.
예시: GPT, BERT 등의 모델이 트랜스포머 기반으로 동작함.
연관 키워드: 딥러닝, 자기 주의 메커니즘, NLP

Self-Attention (자기 주의 메커니즘)

정의...



In [7]:

search_query("Hedge Fund 에 대해 설명해줘?", k=2)



 [Query]: Hedge Fund 에 대해 설명해줘?

[Result 1]: Mutual Fund (뮤추얼 펀드)

정의: 여러 투자자의 자금을 모아 다양한 자산에 투자하는 펀드.
예시: 뮤추얼 펀드는 분산 투자로 위험을 줄이는 데 도움을 줌.
연관 키워드: 간접 투자, 포트폴리오, 펀드 매니저

Hedge Fund (헤지펀드)

정의: 공격적인 투자 전략을 사용하여 높은 수익을 추구하는 투자 펀드.
예시: 헤지펀드는 공매도, 레버리지 등 다양한 전략을 활용함.
연관 키워드: 고위험 투자, 적극적 운용, 레버리지

Asset Allocation (자산 배분)

정의: 투자 포트폴리오에서 주식, 채권, 현금 ...

[Result 2]: Federal Reserve (연방준비제도, Fed)

정의: 미국의 중앙은행으로, 금리 정책과 통화 공급을 조절함.
예시: Fed가 금리를 인상하면 시장 유동성이 감소할 수 있음.
연관 키워드: 금리, 통화정책, 경제 조정

Bond (채권)

정의: 정부나 기업이 자금을 조달하기 위해 발행하는 부채 증서로, 일정 기간 동안 이자를 지급하고 만기에 원금을 상환함.
예시: 미국 국채는 안전한 투자 수단으로 간주됨.
연관 키워드: 고정 수익, 투자, 금리

Stock (주식)

정의: 기업의 지분을 나타내며, 주식을 보유한 투자자는 ...



In [None]:

# 12. 저장된 FAISS DB 로드 테스트
print("\n" + "="*50)
print("저장된 FAISS DB 로드 테스트")
print("="*50)

try:
    # 저장된 FAISS DB 로드
    loaded_db = FAISS.load_local(
        DB_PATH, 
        OpenAIEmbeddings(),
        allow_dangerous_deserialization=True
    )
    print("FAISS 데이터베이스 로드 완료!")
    
    # 로드된 DB로 검색 테스트
    print(f"로드된 벡터 개수: {loaded_db.index.ntotal}")
    
    # 검색 테스트
    test_results = loaded_db.similarity_search("인공지능이란?", k=1)
    print(f"\n로드된 DB 검색 결과: {test_results[0].page_content[:200]}...")
    #print(test_results)
    
except Exception as e:
    print(f"FAISS DB 로드 오류: {e}")


In [None]:

# 13. 유사도 점수와 함께 검색
print("\n" + "="*50)
print("유사도 점수와 함께 검색")
print("="*50)

def search_with_score(query, k=2):
    """
    유사도 점수와 함께 검색하는 함수
    """
    try:
        results = persist_db.similarity_search_with_score(query, k=k)
        print(f"\n [Query]: {query}\n")
        for i, (doc, score) in enumerate(results):
            print(f"[Result {i+1}] (Score: {score:.4f}):")
            print(f"{doc.page_content[:200]}...\n")
    except Exception as e:
        print(f" 점수 검색 오류: {e}")

# 점수와 함께 검색 테스트
search_with_score("딥러닝과 머신러닝", k=3)


In [None]:

# 14. FAISS 인덱스 정보 출력
print("\n" + "="*50)
print("FAISS 인덱스 상세 정보")
print("="*50)

try:
    index = persist_db.index
    print(f"인덱스 타입: {type(index).__name__}")
    print(f"총 벡터 수: {index.ntotal}")
    print(f"벡터 차원: {index.d}")
    print(f"훈련 여부: {index.is_trained}")
    print(f"메트릭 타입: {index.metric_type}")
    
    # 메모리 사용량 (추정)
    memory_usage = index.ntotal * index.d * 4 / (1024 * 1024)  # 4 bytes per float, MB 단위
    print(f"추정 메모리 사용량: {memory_usage:.2f} MB")
    
except Exception as e:
    print(f"인덱스 정보 조회 오류: {e}")

In [14]:
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain.schema import Document

# 문서 리스트 생성
documents = [
    Document(page_content="LangChain은 LLM 기반 애플리케이션을 쉽게 구축할 수 있도록 지원합니다."),
    Document(page_content="벡터 저장소는 문서를 벡터화하여 빠른 검색을 가능하게 합니다."),
    Document(page_content="멀티 쿼리 검색은 한 가지 질문을 여러 방식으로 변형하여 검색 효율을 높입니다."),
    Document(page_content="LangChain은 해리슨 체이스(Harrison Chase)가 2022년 10월에 개발되었습니다."),
    Document(page_content="LangChain의 주요 기능 중 하나는 다양한 LLM 모델과의 연동입니다."),
    Document(page_content="LangChain Core 라이브러리는 기본 추상화 및 LangChain 표현 언어"),
    Document(page_content="LangChain Community 라이브러리는 서드파티 통합"),
]

# 임베딩 모델 설정
embedding_model = OpenAIEmbeddings()

# FAISS 기반 벡터 저장소 생성
vector_store = FAISS.from_documents(documents, embedding_model)

# search_kwargs의 기본값은 {"k": 4} 기본적으로 최대 4개의 문서를 검색
# 필요에 따라 k 값을 조정하여 검색 문서 개수를 변경할 수 있음
retriever = vector_store.as_retriever(search_kwargs={"k": 3})

# 검색 실행
query = "LangChain 이란?"
retrieved_docs = retriever.invoke(query)

# 검색된 문서 출력
for doc in retrieved_docs:
    print(doc.page_content)

  embedding_model = OpenAIEmbeddings()


LangChain은 LLM 기반 애플리케이션을 쉽게 구축할 수 있도록 지원합니다.
LangChain의 주요 기능 중 하나는 다양한 LLM 모델과의 연동입니다.
LangChain은 해리슨 체이스(Harrison Chase)가 2022년 10월에 개발되었습니다.


In [15]:
from langchain.vectorstores import FAISS
from langchain.embeddings import OpenAIEmbeddings
from langchain_openai import ChatOpenAI
from langchain.retrievers.multi_query import MultiQueryRetriever

# 문서 리스트 생성
documents = [
    Document(page_content="LangChain은 LLM 기반 애플리케이션을 쉽게 구축할 수 있도록 지원합니다."),
    Document(page_content="벡터 저장소는 문서를 벡터화하여 빠른 검색을 가능하게 합니다."),
    Document(page_content="멀티 쿼리 검색은 한 가지 질문을 여러 방식으로 변형하여 검색 효율을 높입니다."),
    Document(page_content="LangChain은 해리슨 체이스(Harrison Chase)가 2022년 10월에 개발되었습니다."),
    Document(page_content="LangChain의 주요 기능 중 하나는 다양한 LLM 모델과의 연동입니다."),
    Document(page_content="LangChain Core 라이브러리는 기본 추상화 및 LangChain 표현 언어"),
    Document(page_content="LangChain Community 라이브러리는 서드파티 통합"),
]

# 임베딩 및 벡터스토어 설정
embedding_model = OpenAIEmbeddings()
vector_store = FAISS.from_documents(documents, embedding_model)

# LLM 모델 설정 (GPT 사용)
llm = ChatOpenAI(model_name="gpt-3.5-turbo-0125")

# Multi Query Retriever 생성
retriever = MultiQueryRetriever.from_llm(retriever=vector_store.as_retriever(), llm=llm)

# 검색 실행
query = "LangChain 이란?"
retrieved_docs = retriever.get_relevant_documents(query)

# 검색된 문서 출력
for doc in retrieved_docs:
    print(doc.page_content)

  retrieved_docs = retriever.get_relevant_documents(query)


LangChain은 LLM 기반 애플리케이션을 쉽게 구축할 수 있도록 지원합니다.
LangChain Core 라이브러리는 기본 추상화 및 LangChain 표현 언어
LangChain의 주요 기능 중 하나는 다양한 LLM 모델과의 연동입니다.
LangChain Community 라이브러리는 서드파티 통합
LangChain은 해리슨 체이스(Harrison Chase)가 2022년 10월에 개발되었습니다.
