In [None]:
!pip install langchain langchain-openai pypdf faiss-cpu python-dotenv tiktoken langchain_community -q

In [None]:
# ==============================================================================
# 라이브러리 임포트 및 API 키 설정
# ==============================================================================
from pypdf import PdfReader
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains.question_answering import load_qa_chain
from langchain_community.callbacks import get_openai_callback
from google.colab import files

# OpenAI API 키를 안전하게 입력받습니다.
api_key = "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"


# ==============================================================================
# 핵심 기능 함수
# ==============================================================================
def process_text_to_vectorstore(text: str):
    """
    입력된 텍스트를 청크로 분할하고, 임베딩하여 벡터 저장소(FAISS)를 생성합니다.
    """
    text_splitter = CharacterTextSplitter(
        separator="\n", chunk_size=1000, chunk_overlap=200, length_function=len
    )
    chunks = text_splitter.split_text(text)

    try:
        embeddings = OpenAIEmbeddings(model="text-embedding-3-small")
        vectorstore = FAISS.from_texts(chunks, embeddings)
        return vectorstore
    except Exception as e:
        print(f"임베딩 생성 중 오류가 발생했습니다: {e}")
        return None


def summarize_with_langchain(documents, query: str):
    """
    주어진 문서와 쿼리를 바탕으로 LangChain을 이용해 답변을 생성하고 비용을 추적합니다.
    """
    docs = documents.similarity_search(query)
    llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0.1)
    chain = load_qa_chain(llm, chain_type="stuff")

    with get_openai_callback() as cost_tracker:
        response_dict = chain.invoke({"input_documents": docs, "question": query})
        print("\n[비용 정보]")
        print(cost_tracker)

    return response_dict.get("output_text", "요약 결과를 생성하지 못했습니다.")


# ==============================================================================
# Colab에서 실행할 메인 로직
# ==============================================================================
def run_in_colab():
    """
    Google Colab 환경에서 PDF 요약 프로세스를 실행합니다.
    """
    print("PDF 파일 업로드를 시작합니다. 파일을 선택해주세요.")

    # Colab의 파일 업로드 기능을 사용합니다.
    uploaded = files.upload()

    # 업로드된 파일이 없으면 종료
    if not uploaded:
        print("파일이 업로드되지 않았습니다. 프로그램을 종료합니다.")
        return

    # 업로드된 첫 번째 파일의 이름을 가져옵니다.
    pdf_filename = next(iter(uploaded))
    print(f"\n'{pdf_filename}' 파일이 업로드되었습니다. 요약을 시작합니다...")

    try:
        with open(pdf_filename, "rb") as f:
            pdf_reader = PdfReader(f)
            text_content = "".join(page.extract_text() for page in pdf_reader.pages)

        if not text_content.strip():
            print(
                "경고: PDF에서 텍스트를 추출할 수 없습니다. 이미지로 된 PDF일 수 있습니다."
            )
            return

        vectorstore = process_text_to_vectorstore(text_content)

        if vectorstore:
            summarization_query = (
                "업로드된 PDF 파일의 내용을 3~5문장으로 명확하고 간결하게 요약해주세요."
            )
            summary = summarize_with_langchain(vectorstore, summarization_query)

            print("\n" + "=" * 50)
            print("📜 요약 결과")
            print("=" * 50)
            print(summary)

    except Exception as e:
        print(f"파일 처리 중 오류가 발생했습니다: {e}")

In [None]:
run_in_colab()