In [2]:
import os
from pathlib import Path
from dotenv import load_dotenv
#dotenv에서 key를 가져온다

#환경 변수 로드
load_dotenv()

print("현재 디렉토리 :" + os.getcwd())
api_key = os.getenv('OPENAI_API_KEY')
print(api_key)

현재 디렉토리 :/Users/user/Desktop/Coding/FORIF Langchain
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


In [4]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import PDFMinerLoader
#PDF 파일 불러오기 위한 툴
from langchain_community.vectorstores import FAISS
from langchain_core.output_parsers import StrOutputParser
from langchain_core.runnables import RunnablePassthrough
from langchain_core.prompts import PromptTemplate
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
#텍스트를 숫자로 바꿔주는 Embedding 툴도 가져온다

In [5]:
def load_pdf_document(file_path) : 
    loader = PDFMinerLoader(file_path)
    #경로를 주는 것
    documents = loader.load()
    #실제 pdf 로드
    print(f"로드된 문서 수 : {len(documents)}")
    print("\n문서 내용 샘플 :", documents[0].page_content[:100])
    #PDF의 앞 100자 출력하도록
    return documents

pdf_document = load_pdf_document("너의 결혼식.pdf")

로드된 문서 수 : 1

문서 내용 샘플 : 너 의 결 혼 식

각본/감독    이석근

production  filmK

1. 타이틀  백 

또각또각-  걸어가는  한  여자의  뒷모습.  전방에  보이는  우체통

우


In [38]:
#문서에서 유관한 부분만 뽑아내는 함수
def split_documents(document) :
    text_spiltter = RecursiveCharacterTextSplitter(
        chunk_size = 1000, 
        #이 문서를 몇 자 크기를 기준으로 자를 건지
        chunk_overlap = 200,
        #문단 내 딱딱하게 끊기지 않기 위해 겹침 허용해서 분할
        separators = ["\n\n", "\n", ".", " ", ""]
    )
    splits = text_spiltter.split_documents(document)
    print("생성된 chunk 수 :", len(splits))
    return splits

splits = split_documents(pdf_document)

생성된 chunk 수 : 100


In [24]:
# 3. RAG 시스템 구축
def build_rag_system(splits):
    """RAG 시스템을 구축하는 함수"""

    # 벡터 저장소 생성
    embeddings = OpenAIEmbeddings()  # OpenAI 임베딩 모델 초기화
    vectorstore = FAISS.from_documents( # 문서 벡터들을 효율적으로 저장하고 검색할 수 있는 벡터 데이터베이스 생성
        documents=splits, # 이전 단계에서 분할된 문서 조각들
        embedding=embeddings # OpenAI 임베딩 모델을 사용하여 각 문서 조각을 벡터로 변환
    )

    # 검색기(Retriever) 설정
    retriever = vectorstore.as_retriever(
        search_kwargs={"k": 3}  # 검색할 문서 수
    )
    
    
    # 프롬프트 템플릿 설정
    template = """주어진 문서 내용을 바탕으로 질문에 답변해주세요.
    문서에 없는 내용이면 "주어진 문서에서 해당 내용을 찾을 수 없습니다."라고 답변해주세요.
    
    문서 내용:
    {context}
    
    질문:
    {question}
    
    답변:"""
    
    prompt = PromptTemplate.from_template(template)
    
    # LLM 설정
    llm = ChatOpenAI(
        temperature=0,  # 응답의 창의성 수준 (0: 일관된 응답)
        model_name="gpt-4o"  # 사용할 모델
    )
    
    # RAG 체인 구성
    chain = (
        {"context": retriever, "question": RunnablePassthrough()}
        | prompt
        | llm
        | StrOutputParser()
    )
    
    return chain

chain = build_rag_system(splits)

In [26]:
def ask_document(chain, question) :
    response = chain.invoke(question)
    print(f"질문 :", question)
    print(f"답변 :", response)
    print("--------" * 10)


test_questions = [
    "이 이야기를 간단히 요약해주세요.",
    "결말은 어떻게 끝이 났나요?",
    "명대사 두 개만 골라줘"
]

for question in test_questions:
    ask_document(chain, question)

질문 : 이 이야기를 간단히 요약해주세요.
답변 : 주어진 문서는 영화 "너의 결혼식"의 일부 내용을 담고 있습니다. 이야기의 주요 내용은 주인공 승희와 우연의 관계를 중심으로 전개됩니다. 승희는 사람에게 첫인상이 강하게 남는 시간이 3초라고 믿으며, 윤근이라는 인물과의 첫 만남에서 그런 느낌을 받습니다. 우연은 승희와 윤근의 관계에 질투를 느끼며, 하숙집에서의 면학 분위기를 문제 삼아 불만을 표출합니다. 또한, 승희와 우연은 경찰서에서 함께 시간을 보내며 서로에 대한 감정을 드러내기도 합니다. 이야기는 이들의 복잡한 감정과 관계를 중심으로 전개됩니다.
--------------------------------------------------------------------------------
질문 : 결말은 어떻게 끝이 났나요?
답변 : 주어진 문서에서 해당 내용을 찾을 수 없습니다.
--------------------------------------------------------------------------------
질문 : 명대사 두 개만 골라줘
답변 : 주어진 문서에서 명대사를 두 개 고르자면 다음과 같습니다:

1. "너.. 다시는 찾아오지 마라. 연락도 하지 말고."
2. "내가 오기 싫었던 진짜 이유는 웨딩드레스 속의 승희가 너무 예쁠 것 같아서였다. 저 모습을 잊으려면 또 얼마나 걸릴까? 씨발!"
--------------------------------------------------------------------------------


In [40]:
from langchain_teddynote.document_loaders import HWPLoader # HWP 로더 추가

# HWP 파일 로드
def load_hwp_document(file_path):
    """HWP 파일을 로드하고 기본 정보를 출력하는 함수"""
    loader = HWPLoader(file_path)
    documents = loader.load()
    print(f"문서 로드 완료: {len(documents)} 개의 문서")
    print("\n문서 메타데이터:", documents[0].metadata)
    print("\n문서 내용 샘플 (처음 300자):", documents[0].page_content[:100])
    return documents

documents = load_hwp_document("건축학개론.hwp")
splits = split_documents(documents)
chain = build_rag_system(splits)

# 질의-응답 테스트
ask_document(chain, "어떤 이야기에 대한 건지 알려주세요.")


문서 로드 완료: 1 개의 문서

문서 메타데이터: {'source': '건축학개론.hwp'}

문서 내용 샘플 (처음 300자): 건축학개론 2011제작 명필름 I 각본 이용주오래된 집. 오후.멀리서 매미 소리. 무더운 여름 한 낮.쨍한 햇살 아래 우두커니 서 있는 허름한 단층 벽돌집 한 채. 오래된 집이다.
생성된 chunk 수 : 66
질문 : 어떤 이야기에 대한 건지 알려주세요.
답변 : 주어진 문서는 영화 "건축학개론"의 대본 일부로 보입니다. 이 영화는 첫사랑의 추억과 성장을 다룬 이야기로, 주인공들이 과거와 현재를 오가며 서로의 감정을 회상하고 성장하는 과정을 그립니다. 문서에는 주인공 서연과 승민의 대화와 그들의 개인적인 이야기들이 포함되어 있습니다.
--------------------------------------------------------------------------------


In [48]:
from langchain_community.document_loaders import Docx2txtLoader  # DOCX 로더 추가

# DOCX 파일 로드
def load_docx_document(file_path):
    """DOCX 파일을 로드하고 기본 정보를 출력하는 함수"""
    loader = Docx2txtLoader(file_path)
    documents = loader.load()
    print(f"로드된 문서 개수:", len(documents))
    print("\n문서 엿보기:", documents[0].page_content[:100])
    return documents

documents = load_docx_document("레포트.docx")
splits = split_documents(documents)
chain = build_rag_system(splits)

# 질의-응답 테스트
ask_document(chain, "이 실험에 대해 설명해주세요.")

로드된 문서 개수: 1

문서 엿보기: 일반물리실험 Ⅰ : 결과 레포트

실험01. 중력 가속도 실험 -



2020078759 산업공학과 박현준



Ⅰ. 실제 실험방법



Science Workshop에 포토 게
생성된 chunk 수 : 2
질문 : 이 실험에 대해 설명해주세요.
답변 : 이 실험은 중력 가속도를 측정하기 위한 실험입니다. 실험 방법은 다음과 같습니다: Science Workshop에 포토 게이트를 연결하고, Data Studio를 켜서 포토 게이트와 연동시킵니다. 실험값을 보기 위한 속력 그래프를 띄운 후, 피켓 펜스를 포토 게이트에 수직하게 떨어뜨립니다. Linear Fitting을 사용해 가속도를 측정하고, 가속도의 평균을 냅니다. 실험 결과에서는 시간에 대한 속력의 기울기와 구간 별 가속도의 평균이 거의 비슷한 값을 보였으며, 실제 중력 가속도 값인 9.81m/s²과도 유사한 결과를 얻었습니다. 그러나 공기 저항과 실험 오차로 인해 실제 값보다 약간 작은 가속도가 측정되었습니다. 실험의 정확성을 높이기 위해 속력의 기울기를 최소 자승법을 통해 분석하였으며, 오차를 줄이기 위한 여러 개선 방안이 논의되었습니다.
--------------------------------------------------------------------------------


In [46]:
#필요한 논문을 찾는 것도 가능 !


from langchain_community.document_loaders import ArxivLoader

def load_arxiv_papers(query, max_docs=2):
    try:
        loader = ArxivLoader(
            query = query,
            load_max_docs=max_docs,
            load_all_available_meta=True,
            doc_content_chars_max=None,  # 전체 문서 로드
            pdf_loader_kwargs={'pdf_loader_cls_name': 'PDFMinerLoader'}  # PDFMiner 사용
        )

        docs = loader.load()

        print("검색된 논문 수 :", len(docs))
        for i, doc in enumerate(docs, 1):
            print(f"\n{i}번째 논문 정보 :")
            print("제목 :", doc.metadata.get('Title'))
            print("저자 :", doc.metadata.get('Authors'))
            print("출판일 :", doc.metadata.get('Published'))
            print("요약 :", doc.metadata.get('Summary') [:200])

        return docs
    
    except Exception as e:
        print("논문 로드 중 오류 : ", e)
        return None
    


documents = load_arxiv_papers("Linear Programming", 2)
splits = split_documents(documents)
chain = build_rag_system(splits)

ask_document(chain, "선형 계획법에 대해 설명해주세요.")


검색된 논문 수 : 2

1번째 논문 정보 :
제목 : Reduction of Linear Programming to Linear Approximation
저자 : Leonid N. Vaserstein
출판일 : 2006-02-15
요약 : It is well known that every Chebyshev linear approximation problem can be
reduced to a linear program. In this paper we show that conversely every linear
program can be reduced to a Chebyshev linear a

2번째 논문 정보 :
제목 : Matrix Games, Linear Programming, and Linear Approximation
저자 : L. N. Vaserstein
출판일 : 2006-09-12
요약 : The following four classes of computational problems are equivalent: solving
matrix games, solving linear programs, best $l^{\infty}$ linear approximation,
best $l^1$ linear approximation.
생성된 chunk 수 : 21
질문 : 선형 계획법에 대해 설명해주세요.
답변 : 선형 계획법은 주어진 선형 제약 조건 하에서 선형 함수의 최적화(최대화 또는 최소화)를 목표로 하는 수학적 방법입니다. 선형 계획 문제는 일반적으로 다음과 같은 형태로 표현됩니다:

- 목적 함수: 최적화하려는 선형 함수입니다.
- 제약 조건: 문제의 해가 만족해야 하는 일련의 선형 부등식 또는 등식입니다.

선형 계획법은 다양한 분야에서 자원 할당, 생산 계획, 물류 최적화 등과 같은 문제를 해결하는 데 사용됩니다. 주어진 문서에서는 선형 계획 문제를 Chebyshev 선형 근사 문제로 변환할 수 있음을 설명하고 있습니다.
-----------