In [13]:
import streamlit as st
import tempfile
import os
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

# 페이지 설정
st.set_page_config(
    page_title="PDF 질의응답 시스템 (LangChain)",
    page_icon="📄",
    layout="centered"
)

# 제목
st.title("📄 PDF 질의응답 시스템")
st.markdown("LangChain을 활용한 고급 PDF 문서 분석 시스템")

# OpenAI API 키 입력
api_key = st.text_input("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", type="password")

if api_key:
    os.environ["OPENAI_API_KEY"] = api_key
    
    # PDF 파일 업로드
    uploaded_file = st.file_uploader("PDF 파일을 선택하세요", type="pdf")
    
    if uploaded_file is not None:
        # 임시 파일로 저장
        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
            tmp_file.write(uploaded_file.getbuffer())
            tmp_file_path = tmp_file.name
        
        # 벡터 저장소 생성 및 저장
        @st.cache_data
        def create_vectorstore(_file_path):
            try:
                # PDF 로드
                loader = PyPDFLoader(_file_path)
                documents = loader.load()
                
                # 텍스트 분할
                text_splitter = RecursiveCharacterTextSplitter(
                    chunk_size=1000,
                    chunk_overlap=200,
                    length_function=len
                )
                texts = text_splitter.split_documents(documents)
                
                # 임베딩 생성 및 벡터 저장소 구축
                embeddings = OpenAIEmbeddings()
                vectorstore = FAISS.from_documents(texts, embeddings)
                
                return vectorstore, len(texts), len(documents)
            
            except Exception as e:
                st.error(f"벡터 저장소 생성 중 오류: {e}")
                return None, 0, 0
        
        # 벡터 저장소 생성
        with st.spinner("PDF를 분석하고 벡터 저장소를 생성하는 중..."):
            vectorstore, num_chunks, num_pages = create_vectorstore(tmp_file_path)
        
        if vectorstore:
            st.success("PDF 분석 완료!")
            
            # 문서 정보 표시
            col1, col2, col3 = st.columns(3)
            with col1:
                st.metric("페이지 수", num_pages)
            with col2:
                st.metric("텍스트 청크 수", num_chunks)
            with col3:
                st.metric("파일 크기", f"{uploaded_file.size/1024:.1f} KB")
            
            # LLM 및 체인 설정
            llm = ChatOpenAI(
                model_name="gpt-3.5-turbo",
                temperature=0.3
            )
            
            # 커스텀 프롬프트 템플릿
            prompt_template = """
            당신은 PDF 문서의 내용을 바탕으로 질문에 답하는 전문 어시스턴트입니다.
            제공된 문서 내용을 바탕으로 정확하고 상세한 답변을 제공해주세요.
            만약 문서에서 답을 찾을 수 없다면, 그렇다고 명시해주세요.

            문서 내용:
            {context}

            질문: {question}

            답변:
            """
            
            PROMPT = PromptTemplate(
                template=prompt_template, 
                input_variables=["context", "question"]
            )
            
            # RetrievalQA 체인 생성
            qa_chain = RetrievalQA.from_chain_type(
                llm=llm,
                chain_type="stuff",
                retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
                chain_type_kwargs={"prompt": PROMPT},
                return_source_documents=True
            )
            
            # 질문 입력
            question = st.text_input("PDF 내용에 대해 질문하세요:")
            
            # 예시 질문들
            st.markdown("**예시 질문:**")
            col1, col2, col3 = st.columns(3)
            with col1:
                if st.button("📋 문서 요약"):
                    question = "이 문서의 주요 내용을 요약해주세요."
            with col2:
                if st.button("🔑 핵심 키워드"):
                    question = "이 문서의 핵심 키워드들을 추출해주세요."
            with col3:
                if st.button("❓ 주요 논점"):
                    question = "이 문서에서 다루는 주요 논점들은 무엇인가요?"
            
            if st.button("질문하기") and question:
                with st.spinner("LangChain으로 답변을 생성하는 중..."):
                    try:
                        # 질의응답 실행
                        result = qa_chain({"query": question})
                        answer = result["result"]
                        source_docs = result["source_documents"]
                        
                        # 답변 표시
                        st.markdown("### 📝 답변")
                        st.write(answer)
                        
                        # 관련 문서 청크 표시
                        with st.expander("📚 참조된 문서 내용"):
                            for i, doc in enumerate(source_docs):
                                st.markdown(f"**참조 {i+1}:**")
                                st.write(doc.page_content[:500] + "...")
                                st.markdown("---")
                        
                        # 신뢰도 점수 (간단한 버전)
                        confidence = len([doc for doc in source_docs if question.lower() in doc.page_content.lower()]) / len(source_docs) * 100
                        st.progress(confidence/100)
                        st.caption(f"답변 신뢰도: {confidence:.0f}%")
                        
                    except Exception as e:
                        st.error(f"오류가 발생했습니다: {str(e)}")
                        st.info("API 키와 인터넷 연결을 확인해주세요.")
            
            # 유사 문서 검색 기능
            st.markdown("---")
            st.markdown("### 🔍 유사 문서 검색")
            search_query = st.text_input("검색할 키워드를 입력하세요:")
            
            if st.button("검색") and search_query:
                with st.spinner("유사한 내용을 검색하는 중..."):
                    try:
                        # 유사도 검색
                        similar_docs = vectorstore.similarity_search(search_query, k=3)
                        
                        st.markdown("### 🎯 검색 결과")
                        for i, doc in enumerate(similar_docs):
                            with st.expander(f"결과 {i+1}"):
                                st.write(doc.page_content[:800] + "...")
                    
                    except Exception as e:
                        st.error(f"검색 중 오류: {e}")
        
        else:
            st.error("PDF 처리에 실패했습니다.")
        
        # 임시 파일 정리
        try:
            os.unlink(tmp_file_path)
        except:
            pass
        
        # 사이드바 - 시스템 정보
        with st.sidebar:
            st.markdown("### 🤖 LangChain 시스템")
            st.markdown("""
            **사용 중인 기술:**
            - 🦜 LangChain Framework
            - 📄 PyPDF Loader
            - 🔤 OpenAI Embeddings
            - 🗃️ FAISS Vector Store
            - 🤖 GPT-3.5-turbo
            - 📊 Retrieval QA Chain
            """)
            
            st.markdown("### 📋 사용 가이드")
            st.markdown("""
            1. OpenAI API Key 입력
            2. PDF 파일 업로드
            3. 자동 벡터화 및 인덱싱
            4. 질문 또는 키워드 검색
            5. AI가 관련 내용 기반 답변
            
            ⚠️ **특징:**
            - 문서를 청크 단위로 분할
            - 벡터 임베딩으로 의미 검색
            - 관련 문서만 참조하여 답변
            - 참조 출처 제공
            """)

else:
    st.warning("OpenAI API Key를 입력해주세요.")
    st.info("API Key는 https://platform.openai.com에서 발급받을 수 있습니다.")
    
    # LangChain 소개
    with st.expander("🦜 LangChain이란?"):
        st.markdown("""
        **LangChain**은 대형 언어 모델을 활용한 애플리케이션 개발을 위한 프레임워크입니다.
        
        **주요 기능:**
        - **Document Loaders**: 다양한 형식의 문서 로드
        - **Text Splitters**: 텍스트를 적절한 크기로 분할
        - **Embeddings**: 텍스트를 벡터로 변환
        - **Vector Stores**: 벡터 데이터베이스 관리
        - **Chains**: 복잡한 워크플로우 구성
        - **Retrievers**: 관련 정보 검색
        
        이 시스템에서는 **RAG (Retrieval Augmented Generation)** 패턴을 사용하여
        PDF 문서에서 관련 내용을 찾아 정확한 답변을 생성합니다.
        """)

# 독립 실행 파일 생성
st.markdown("---")
st.markdown("### 💾 독립 실행 파일 생성")

if st.button("langchain_pdf_app.py 파일 생성"):
    langchain_app_code = '''import streamlit as st
import tempfile
import os
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

st.set_page_config(
    page_title="PDF 질의응답 시스템 (LangChain)",
    page_icon="📄",
    layout="centered"
)

st.title("📄 PDF 질의응답 시스템")
st.markdown("LangChain을 활용한 고급 PDF 문서 분석 시스템")

api_key = st.text_input("OpenAI API Key를 입력하세요:", type="password")

if api_key:
    os.environ["OPENAI_API_KEY"] = api_key
    
    uploaded_file = st.file_uploader("PDF 파일을 선택하세요", type="pdf")
    
    if uploaded_file is not None:
        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
            tmp_file.write(uploaded_file.getbuffer())
            tmp_file_path = tmp_file.name
        
        @st.cache_data
        def create_vectorstore(_file_path):
            try:
                loader = PyPDFLoader(_file_path)
                documents = loader.load()
                
                text_splitter = RecursiveCharacterTextSplitter(
                    chunk_size=1000,
                    chunk_overlap=200
                )
                texts = text_splitter.split_documents(documents)
                
                embeddings = OpenAIEmbeddings()
                vectorstore = FAISS.from_documents(texts, embeddings)
                
                return vectorstore, len(texts), len(documents)
            except Exception as e:
                st.error(f"오류: {e}")
                return None, 0, 0
        
        with st.spinner("PDF 분석 중..."):
            vectorstore, num_chunks, num_pages = create_vectorstore(tmp_file_path)
        
        if vectorstore:
            st.success("PDF 분석 완료!")
            
            col1, col2, col3 = st.columns(3)
            with col1:
                st.metric("페이지 수", num_pages)
            with col2:
                st.metric("청크 수", num_chunks)
            with col3:
                st.metric("파일 크기", f"{uploaded_file.size/1024:.1f} KB")
            
            llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.3)
            
            prompt_template = \"\"\"
            PDF 문서 내용을 바탕으로 질문에 답해주세요.
            
            문서 내용: {context}
            질문: {question}
            답변:
            \"\"\"
            
            PROMPT = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
            
            qa_chain = RetrievalQA.from_chain_type(
                llm=llm,
                chain_type="stuff",
                retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
                chain_type_kwargs={"prompt": PROMPT},
                return_source_documents=True
            )
            
            question = st.text_input("질문을 입력하세요:")
            
            if st.button("질문하기") and question:
                with st.spinner("답변 생성 중..."):
                    try:
                        result = qa_chain({"query": question})
                        
                        st.markdown("### 📝 답변")
                        st.write(result["result"])
                        
                        with st.expander("참조 문서"):
                            for i, doc in enumerate(result["source_documents"]):
                                st.markdown(f"**참조 {i+1}:**")
                                st.write(doc.page_content[:300] + "...")
                    
                    except Exception as e:
                        st.error(f"오류: {e}")
        
        try:
            os.unlink(tmp_file_path)
        except:
            pass

else:
    st.warning("OpenAI API Key를 입력해주세요.")
'''
    
    try:
        with open('langchain_pdf_app.py', 'w', encoding='utf-8') as f:
            f.write(langchain_app_code)
        st.success("✅ langchain_pdf_app.py 파일이 생성되었습니다!")
        st.code("streamlit run langchain_pdf_app.py", language="bash")
    except Exception as e:
        st.error(f"파일 생성 오류: {e}")

# 설치 가이드
st.markdown("---")
st.markdown("### 🔧 패키지 설치 및 실행")

st.markdown("**필수 패키지 설치:**")
st.code("""
pip install streamlit
pip install langchain
pip install langchain-openai
pip install langchain-community
pip install pypdf
pip install faiss-cpu
""", language="bash")

st.markdown("**실행:**")
st.code("streamlit run langchain_pdf_app.py", language="bash")



DeltaGenerator()

In [5]:
!pip install -U openai langchain langchain-openai langchain-community

Collecting langchain
  Downloading langchain-0.3.26-py3-none-any.whl.metadata (7.8 kB)
Collecting langchain-openai
  Downloading langchain_openai-0.3.28-py3-none-any.whl.metadata (2.3 kB)
Collecting langchain-community
  Downloading langchain_community-0.3.27-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-core<1.0.0,>=0.3.66 (from langchain)
  Downloading langchain_core-0.3.70-py3-none-any.whl.metadata (5.8 kB)
Collecting langchain-text-splitters<1.0.0,>=0.3.8 (from langchain)
  Downloading langchain_text_splitters-0.3.8-py3-none-any.whl.metadata (1.9 kB)
Collecting langsmith>=0.1.17 (from langchain)
  Downloading langsmith-0.4.8-py3-none-any.whl.metadata (15 kB)
Collecting SQLAlchemy<3,>=1.4 (from langchain)
  Downloading sqlalchemy-2.0.41-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.6 kB)
Collecting async-timeout<5.0.0,>=4.0.0 (from langchain)
  Downloading async_timeout-4.0.3-py3-none-any.whl.metadata (4.2 kB)
Collecting jsonpatch<2.0,>=1.33 (from 

In [6]:
!pip install google-search-results
!pip install wikipedia
!pip install faiss-cpu 
!pip install sentence_transformers 
!pip install tiktoken 

Collecting google-search-results
  Downloading google_search_results-2.4.2.tar.gz (18 kB)
  Preparing metadata (setup.py) ... [?25ldone
Building wheels for collected packages: google-search-results
[33m  DEPRECATION: Building 'google-search-results' using the legacy setup.py bdist_wheel mechanism, which will be removed in a future version. pip 25.3 will enforce this behaviour change. A possible replacement is to use the standardized build interface by setting the `--use-pep517` option, (possibly combined with `--no-build-isolation`), or adding a `pyproject.toml` file to the source tree of 'google-search-results'. Discussion can be found at https://github.com/pypa/pip/issues/6334[0m[33m
[0m  Building wheel for google-search-results (setup.py) ... [?25ldone
[?25h  Created wheel for google-search-results: filename=google_search_results-2.4.2-py3-none-any.whl size=32016 sha256=7c7c0c58c1a87659b256e1e8336b86bca74bcbf8f7bbabbb3121850983507597
  Stored in directory: /root/.cache/pip/wh

In [14]:
import streamlit as st
import tempfile
import os
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

# 페이지 설정
st.set_page_config(
    page_title="PDF 질의응답 시스템 (LangChain)",
    page_icon="📄",
    layout="centered"
)

# 제목
st.title("📄 PDF 질의응답 시스템")
st.markdown("LangChain을 활용한 고급 PDF 문서 분석 시스템")

# OpenAI API 키 입력
api_key = st.text_input("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", type="password")

if api_key:
    os.environ["OPENAI_API_KEY"] = api_key
    
    # PDF 파일 업로드
    uploaded_file = st.file_uploader("PDF 파일을 선택하세요", type="pdf")
    
    if uploaded_file is not None:
        # 임시 파일로 저장
        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
            tmp_file.write(uploaded_file.getbuffer())
            tmp_file_path = tmp_file.name
        
        # 벡터 저장소 생성 및 저장
        @st.cache_data
        def create_vectorstore(_file_path):
            try:
                # PDF 로드
                loader = PyPDFLoader(_file_path)
                documents = loader.load()
                
                # 텍스트 분할
                text_splitter = RecursiveCharacterTextSplitter(
                    chunk_size=1000,
                    chunk_overlap=200,
                    length_function=len
                )
                texts = text_splitter.split_documents(documents)
                
                # 임베딩 생성 및 벡터 저장소 구축
                embeddings = OpenAIEmbeddings()
                vectorstore = FAISS.from_documents(texts, embeddings)
                
                return vectorstore, len(texts), len(documents)
            
            except Exception as e:
                st.error(f"벡터 저장소 생성 중 오류: {e}")
                return None, 0, 0
        
        # 벡터 저장소 생성
        with st.spinner("PDF를 분석하고 벡터 저장소를 생성하는 중..."):
            vectorstore, num_chunks, num_pages = create_vectorstore(tmp_file_path)
        
        if vectorstore:
            st.success("PDF 분석 완료!")
            
            # 문서 정보 표시
            col1, col2, col3 = st.columns(3)
            with col1:
                st.metric("페이지 수", num_pages)
            with col2:
                st.metric("텍스트 청크 수", num_chunks)
            with col3:
                st.metric("파일 크기", f"{uploaded_file.size/1024:.1f} KB")
            
            # LLM 및 체인 설정
            llm = ChatOpenAI(
                model_name="gpt-3.5-turbo",
                temperature=0.3
            )
            
            # 커스텀 프롬프트 템플릿
            prompt_template = """
            당신은 PDF 문서의 내용을 바탕으로 질문에 답하는 전문 어시스턴트입니다.
            제공된 문서 내용을 바탕으로 정확하고 상세한 답변을 제공해주세요.
            만약 문서에서 답을 찾을 수 없다면, 그렇다고 명시해주세요.

            문서 내용:
            {context}

            질문: {question}

            답변:
            """
            
            PROMPT = PromptTemplate(
                template=prompt_template, 
                input_variables=["context", "question"]
            )
            
            # RetrievalQA 체인 생성
            qa_chain = RetrievalQA.from_chain_type(
                llm=llm,
                chain_type="stuff",
                retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
                chain_type_kwargs={"prompt": PROMPT},
                return_source_documents=True
            )
            
            # 질문 입력
            question = st.text_input("PDF 내용에 대해 질문하세요:")
            
            # 예시 질문들
            st.markdown("**예시 질문:**")
            col1, col2, col3 = st.columns(3)
            with col1:
                if st.button("📋 문서 요약"):
                    question = "이 문서의 주요 내용을 요약해주세요."
            with col2:
                if st.button("🔑 핵심 키워드"):
                    question = "이 문서의 핵심 키워드들을 추출해주세요."
            with col3:
                if st.button("❓ 주요 논점"):
                    question = "이 문서에서 다루는 주요 논점들은 무엇인가요?"
            
            if st.button("질문하기") and question:
                with st.spinner("LangChain으로 답변을 생성하는 중..."):
                    try:
                        # 질의응답 실행
                        result = qa_chain({"query": question})
                        answer = result["result"]
                        source_docs = result["source_documents"]
                        
                        # 답변 표시
                        st.markdown("### 📝 답변")
                        st.write(answer)
                        
                        # 관련 문서 청크 표시
                        with st.expander("📚 참조된 문서 내용"):
                            for i, doc in enumerate(source_docs):
                                st.markdown(f"**참조 {i+1}:**")
                                st.write(doc.page_content[:500] + "...")
                                st.markdown("---")
                        
                        # 신뢰도 점수 (간단한 버전)
                        confidence = len([doc for doc in source_docs if question.lower() in doc.page_content.lower()]) / len(source_docs) * 100
                        st.progress(confidence/100)
                        st.caption(f"답변 신뢰도: {confidence:.0f}%")
                        
                    except Exception as e:
                        st.error(f"오류가 발생했습니다: {str(e)}")
                        st.info("API 키와 인터넷 연결을 확인해주세요.")
            
            # 유사 문서 검색 기능
            st.markdown("---")
            st.markdown("### 🔍 유사 문서 검색")
            search_query = st.text_input("검색할 키워드를 입력하세요:")
            
            if st.button("검색") and search_query:
                with st.spinner("유사한 내용을 검색하는 중..."):
                    try:
                        # 유사도 검색
                        similar_docs = vectorstore.similarity_search(search_query, k=3)
                        
                        st.markdown("### 🎯 검색 결과")
                        for i, doc in enumerate(similar_docs):
                            with st.expander(f"결과 {i+1}"):
                                st.write(doc.page_content[:800] + "...")
                    
                    except Exception as e:
                        st.error(f"검색 중 오류: {e}")
        
        else:
            st.error("PDF 처리에 실패했습니다.")
        
        # 임시 파일 정리
        try:
            os.unlink(tmp_file_path)
        except:
            pass
        
        # 사이드바 - 시스템 정보
        with st.sidebar:
            st.markdown("### 🤖 LangChain 시스템")
            st.markdown("""
            **사용 중인 기술:**
            - 🦜 LangChain Framework
            - 📄 PyPDF Loader
            - 🔤 OpenAI Embeddings
            - 🗃️ FAISS Vector Store
            - 🤖 GPT-3.5-turbo
            - 📊 Retrieval QA Chain
            """)
            
            st.markdown("### 📋 사용 가이드")
            st.markdown("""
            1. OpenAI API Key 입력
            2. PDF 파일 업로드
            3. 자동 벡터화 및 인덱싱
            4. 질문 또는 키워드 검색
            5. AI가 관련 내용 기반 답변
            
            ⚠️ **특징:**
            - 문서를 청크 단위로 분할
            - 벡터 임베딩으로 의미 검색
            - 관련 문서만 참조하여 답변
            - 참조 출처 제공
            """)

else:
    st.warning("OpenAI API Key를 입력해주세요.")
    st.info("API Key는 https://platform.openai.com에서 발급받을 수 있습니다.")
    
    # LangChain 소개
    with st.expander("🦜 LangChain이란?"):
        st.markdown("""
        **LangChain**은 대형 언어 모델을 활용한 애플리케이션 개발을 위한 프레임워크입니다.
        
        **주요 기능:**
        - **Document Loaders**: 다양한 형식의 문서 로드
        - **Text Splitters**: 텍스트를 적절한 크기로 분할
        - **Embeddings**: 텍스트를 벡터로 변환
        - **Vector Stores**: 벡터 데이터베이스 관리
        - **Chains**: 복잡한 워크플로우 구성
        - **Retrievers**: 관련 정보 검색
        
        이 시스템에서는 **RAG (Retrieval Augmented Generation)** 패턴을 사용하여
        PDF 문서에서 관련 내용을 찾아 정확한 답변을 생성합니다.
        """)

# 독립 실행 파일 생성
st.markdown("---")
st.markdown("### 💾 독립 실행 파일 생성")

if st.button("langchain_pdf_app.py 파일 생성"):
    langchain_app_code = '''import streamlit as st
import tempfile
import os
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

st.set_page_config(
    page_title="PDF 질의응답 시스템 (LangChain)",
    page_icon="📄",
    layout="centered"
)

st.title("📄 PDF 질의응답 시스템")
st.markdown("LangChain을 활용한 고급 PDF 문서 분석 시스템")

api_key = st.text_input("OpenAI API Key를 입력하세요:", type="password")

if api_key:
    os.environ["OPENAI_API_KEY"] = api_key
    
    uploaded_file = st.file_uploader("PDF 파일을 선택하세요", type="pdf")
    
    if uploaded_file is not None:
        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
            tmp_file.write(uploaded_file.getbuffer())
            tmp_file_path = tmp_file.name
        
        @st.cache_data
        def create_vectorstore(_file_path):
            try:
                loader = PyPDFLoader(_file_path)
                documents = loader.load()
                
                text_splitter = RecursiveCharacterTextSplitter(
                    chunk_size=1000,
                    chunk_overlap=200
                )
                texts = text_splitter.split_documents(documents)
                
                embeddings = OpenAIEmbeddings()
                vectorstore = FAISS.from_documents(texts, embeddings)
                
                return vectorstore, len(texts), len(documents)
            except Exception as e:
                st.error(f"오류: {e}")
                return None, 0, 0
        
        with st.spinner("PDF 분석 중..."):
            vectorstore, num_chunks, num_pages = create_vectorstore(tmp_file_path)
        
        if vectorstore:
            st.success("PDF 분석 완료!")
            
            col1, col2, col3 = st.columns(3)
            with col1:
                st.metric("페이지 수", num_pages)
            with col2:
                st.metric("청크 수", num_chunks)
            with col3:
                st.metric("파일 크기", f"{uploaded_file.size/1024:.1f} KB")
            
            llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.3)
            
            prompt_template = \"\"\"
            PDF 문서 내용을 바탕으로 질문에 답해주세요.
            
            문서 내용: {context}
            질문: {question}
            답변:
            \"\"\"
            
            PROMPT = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
            
            qa_chain = RetrievalQA.from_chain_type(
                llm=llm,
                chain_type="stuff",
                retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
                chain_type_kwargs={"prompt": PROMPT},
                return_source_documents=True
            )
            
            question = st.text_input("질문을 입력하세요:")
            
            if st.button("질문하기") and question:
                with st.spinner("답변 생성 중..."):
                    try:
                        result = qa_chain({"query": question})
                        
                        st.markdown("### 📝 답변")
                        st.write(result["result"])
                        
                        with st.expander("참조 문서"):
                            for i, doc in enumerate(result["source_documents"]):
                                st.markdown(f"**참조 {i+1}:**")
                                st.write(doc.page_content[:300] + "...")
                    
                    except Exception as e:
                        st.error(f"오류: {e}")
        
        try:
            os.unlink(tmp_file_path)
        except:
            pass

else:
    st.warning("OpenAI API Key를 입력해주세요.")
'''
    
    try:
        with open('langchain_pdf_app.py', 'w', encoding='utf-8') as f:
            f.write(langchain_app_code)
        st.success("✅ langchain_pdf_app.py 파일이 생성되었습니다!")
        st.code("streamlit run langchain_pdf_app.py", language="bash")
    except Exception as e:
        st.error(f"파일 생성 오류: {e}")

# 설치 가이드
st.markdown("---")
st.markdown("### 🔧 패키지 설치 및 실행")

st.markdown("**필수 패키지 설치:**")
st.code("""
pip install streamlit
pip install langchain
pip install langchain-openai
pip install langchain-community
pip install pypdf
pip install faiss-cpu
""", language="bash")

st.markdown("**실행:**")
st.code("streamlit run langchain_pdf_app.py", language="bash")



DeltaGenerator()

In [15]:
# PDF 질의응답 시스템 - LangChain 활용 버전
# 필요한 패키지 설치 (Jupyter에서 실행 시)
!pip install streamlit langchain langchain-openai langchain-community pypdf faiss-cpu

# Jupyter Notebook에서 Streamlit 경고 해결
import warnings
warnings.filterwarnings('ignore')

import streamlit as st
import tempfile
import os
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

# 페이지 설정
st.set_page_config(
    page_title="PDF 질의응답 시스템 (LangChain)",
    page_icon="📄",
    layout="centered"
)

# 제목
st.title("📄 PDF 질의응답 시스템")
st.markdown("LangChain을 활용한 고급 PDF 문서 분석 시스템")

# OpenAI API 키 입력
api_key = st.text_input("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", type="password")

if api_key:
    os.environ["OPENAI_API_KEY"] = api_key
    
    # PDF 파일 업로드
    uploaded_file = st.file_uploader("PDF 파일을 선택하세요", type="pdf")
    
    if uploaded_file is not None:
        # 임시 파일로 저장
        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
            tmp_file.write(uploaded_file.getbuffer())
            tmp_file_path = tmp_file.name
        
        # 벡터 저장소 생성 및 저장 (캐싱으로 성능 최적화)
        @st.cache_data(show_spinner=False)
        def create_vectorstore(_file_path):
            try:
                # PDF 로드
                loader = PyPDFLoader(_file_path)
                documents = loader.load()
                
                # 텍스트 분할
                text_splitter = RecursiveCharacterTextSplitter(
                    chunk_size=1000,
                    chunk_overlap=200,
                    length_function=len
                )
                texts = text_splitter.split_documents(documents)
                
                # 임베딩 생성 및 벡터 저장소 구축
                embeddings = OpenAIEmbeddings()
                vectorstore = FAISS.from_documents(texts, embeddings)
                
                return vectorstore, len(texts), len(documents)
            
            except Exception as e:
                st.error(f"벡터 저장소 생성 중 오류: {e}")
                return None, 0, 0
        
        # 벡터 저장소 생성
        with st.spinner("PDF를 분석하고 벡터 저장소를 생성하는 중..."):
            vectorstore, num_chunks, num_pages = create_vectorstore(tmp_file_path)
        
        if vectorstore:
            st.success("PDF 분석 완료!")
            
            # 문서 정보 표시
            col1, col2, col3 = st.columns(3)
            with col1:
                st.metric("페이지 수", num_pages)
            with col2:
                st.metric("텍스트 청크 수", num_chunks)
            with col3:
                st.metric("파일 크기", f"{uploaded_file.size/1024:.1f} KB")
            
            # LLM 및 체인 설정
            llm = ChatOpenAI(
                model_name="gpt-3.5-turbo",
                temperature=0.3
            )
            
            # 커스텀 프롬프트 템플릿
            prompt_template = """
            당신은 PDF 문서의 내용을 바탕으로 질문에 답하는 전문 어시스턴트입니다.
            제공된 문서 내용을 바탕으로 정확하고 상세한 답변을 제공해주세요.
            만약 문서에서 답을 찾을 수 없다면, 그렇다고 명시해주세요.

            문서 내용:
            {context}

            질문: {question}

            답변:
            """
            
            PROMPT = PromptTemplate(
                template=prompt_template, 
                input_variables=["context", "question"]
            )
            
            # RetrievalQA 체인 생성
            qa_chain = RetrievalQA.from_chain_type(
                llm=llm,
                chain_type="stuff",
                retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
                chain_type_kwargs={"prompt": PROMPT},
                return_source_documents=True
            )
            
            # 질문 입력
            question = st.text_input("PDF 내용에 대해 질문하세요:")
            
            # 예시 질문들
            st.markdown("**예시 질문:**")
            col1, col2, col3 = st.columns(3)
            with col1:
                if st.button("📋 문서 요약"):
                    question = "이 문서의 주요 내용을 요약해주세요."
            with col2:
                if st.button("🔑 핵심 키워드"):
                    question = "이 문서의 핵심 키워드들을 추출해주세요."
            with col3:
                if st.button("❓ 주요 논점"):
                    question = "이 문서에서 다루는 주요 논점들은 무엇인가요?"
            
            if st.button("질문하기") and question:
                with st.spinner("LangChain으로 답변을 생성하는 중..."):
                    try:
                        # 질의응답 실행
                        result = qa_chain({"query": question})
                        answer = result["result"]
                        source_docs = result["source_documents"]
                        
                        # 답변 표시
                        st.markdown("### 📝 답변")
                        st.write(answer)
                        
                        # 관련 문서 청크 표시
                        with st.expander("📚 참조된 문서 내용"):
                            for i, doc in enumerate(source_docs):
                                st.markdown(f"**참조 {i+1}:**")
                                st.write(doc.page_content[:500] + "...")
                                st.markdown("---")
                        
                        # 신뢰도 점수 (간단한 버전)
                        confidence = len([doc for doc in source_docs if question.lower() in doc.page_content.lower()]) / len(source_docs) * 100
                        st.progress(confidence/100)
                        st.caption(f"답변 신뢰도: {confidence:.0f}%")
                        
                    except Exception as e:
                        st.error(f"오류가 발생했습니다: {str(e)}")
                        st.info("API 키와 인터넷 연결을 확인해주세요.")
            
            # 유사 문서 검색 기능
            st.markdown("---")
            st.markdown("### 🔍 유사 문서 검색")
            search_query = st.text_input("검색할 키워드를 입력하세요:")
            
            if st.button("검색") and search_query:
                with st.spinner("유사한 내용을 검색하는 중..."):
                    try:
                        # 유사도 검색
                        similar_docs = vectorstore.similarity_search(search_query, k=3)
                        
                        st.markdown("### 🎯 검색 결과")
                        for i, doc in enumerate(similar_docs):
                            with st.expander(f"결과 {i+1}"):
                                st.write(doc.page_content[:800] + "...")
                    
                    except Exception as e:
                        st.error(f"검색 중 오류: {e}")
        
        else:
            st.error("PDF 처리에 실패했습니다.")
        
        # 임시 파일 정리
        try:
            os.unlink(tmp_file_path)
        except:
            pass
        
        # 사이드바 - 시스템 정보
        with st.sidebar:
            st.markdown("### 🤖 LangChain 시스템")
            st.markdown("""
            **사용 중인 기술:**
            - 🦜 LangChain Framework
            - 📄 PyPDF Loader
            - 🔤 OpenAI Embeddings
            - 🗃️ FAISS Vector Store
            - 🤖 GPT-3.5-turbo
            - 📊 Retrieval QA Chain
            """)
            
            st.markdown("### 📋 사용 가이드")
            st.markdown("""
            1. OpenAI API Key 입력
            2. PDF 파일 업로드
            3. 자동 벡터화 및 인덱싱
            4. 질문 또는 키워드 검색
            5. AI가 관련 내용 기반 답변
            
            ⚠️ **특징:**
            - 문서를 청크 단위로 분할
            - 벡터 임베딩으로 의미 검색
            - 관련 문서만 참조하여 답변
            - 참조 출처 제공
            """)

else:
    st.warning("OpenAI API Key를 입력해주세요.")
    st.info("API Key는 https://platform.openai.com에서 발급받을 수 있습니다.")
    
    # LangChain 소개
    with st.expander("🦜 LangChain이란?"):
        st.markdown("""
        **LangChain**은 대형 언어 모델을 활용한 애플리케이션 개발을 위한 프레임워크입니다.
        
        **주요 기능:**
        - **Document Loaders**: 다양한 형식의 문서 로드
        - **Text Splitters**: 텍스트를 적절한 크기로 분할
        - **Embeddings**: 텍스트를 벡터로 변환
        - **Vector Stores**: 벡터 데이터베이스 관리
        - **Chains**: 복잡한 워크플로우 구성
        - **Retrievers**: 관련 정보 검색
        
        이 시스템에서는 **RAG (Retrieval Augmented Generation)** 패턴을 사용하여
        PDF 문서에서 관련 내용을 찾아 정확한 답변을 생성합니다.
        """)

# 독립 실행 파일 생성
st.markdown("---")
st.markdown("### 💾 독립 실행 파일 생성")

if st.button("langchain_pdf_app.py 파일 생성"):
    langchain_app_code = '''# LangChain PDF 질의응답 시스템
import streamlit as st
import tempfile
import os
import warnings
warnings.filterwarnings('ignore')

from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import FAISS
from langchain_openai import OpenAIEmbeddings, ChatOpenAI
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate

# 페이지 설정
st.set_page_config(
    page_title="PDF 질의응답 시스템 (LangChain)",
    page_icon="📄",
    layout="centered"
)

st.title("📄 PDF 질의응답 시스템")
st.markdown("LangChain을 활용한 고급 PDF 문서 분석 시스템")

api_key = st.text_input("OpenAI API Key를 입력하세요:", type="password")

if api_key:
    os.environ["OPENAI_API_KEY"] = api_key
    
    uploaded_file = st.file_uploader("PDF 파일을 선택하세요", type="pdf")
    
    if uploaded_file is not None:
        # 임시 파일로 저장
        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf") as tmp_file:
            tmp_file.write(uploaded_file.getbuffer())
            tmp_file_path = tmp_file.name
        
        @st.cache_data(show_spinner=False)
        def create_vectorstore(_file_path):
            try:
                loader = PyPDFLoader(_file_path)
                documents = loader.load()
                
                text_splitter = RecursiveCharacterTextSplitter(
                    chunk_size=1000,
                    chunk_overlap=200
                )
                texts = text_splitter.split_documents(documents)
                
                embeddings = OpenAIEmbeddings()
                vectorstore = FAISS.from_documents(texts, embeddings)
                
                return vectorstore, len(texts), len(documents)
            except Exception as e:
                st.error(f"오류: {e}")
                return None, 0, 0
        
        with st.spinner("PDF 분석 중..."):
            vectorstore, num_chunks, num_pages = create_vectorstore(tmp_file_path)
        
        if vectorstore:
            st.success("PDF 분석 완료!")
            
            # 문서 정보
            col1, col2, col3 = st.columns(3)
            with col1:
                st.metric("페이지 수", num_pages)
            with col2:
                st.metric("청크 수", num_chunks)
            with col3:
                st.metric("파일 크기", f"{uploaded_file.size/1024:.1f} KB")
            
            # LLM 설정
            llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.3)
            
            # 프롬프트 템플릿
            prompt_template = \"\"\"PDF 문서 내용을 바탕으로 질문에 정확히 답해주세요.
            
            문서 내용: {context}
            질문: {question}
            
            답변:\"\"\"
            
            PROMPT = PromptTemplate(template=prompt_template, input_variables=["context", "question"])
            
            # QA 체인 생성
            qa_chain = RetrievalQA.from_chain_type(
                llm=llm,
                chain_type="stuff",
                retriever=vectorstore.as_retriever(search_kwargs={"k": 3}),
                chain_type_kwargs={"prompt": PROMPT},
                return_source_documents=True
            )
            
            # 질문 입력
            question = st.text_input("질문을 입력하세요:")
            
            # 예시 질문
            col1, col2, col3 = st.columns(3)
            with col1:
                if st.button("📋 문서 요약"):
                    question = "이 문서의 주요 내용을 요약해주세요."
            with col2:
                if st.button("🔑 핵심 키워드"):
                    question = "이 문서의 핵심 키워드들을 추출해주세요."
            with col3:
                if st.button("❓ 주요 논점"):
                    question = "이 문서에서 다루는 주요 논점들은 무엇인가요?"
            
            if st.button("질문하기") and question:
                with st.spinner("답변 생성 중..."):
                    try:
                        result = qa_chain({"query": question})
                        
                        # 답변 표시
                        st.markdown("### 📝 답변")
                        st.write(result["result"])
                        
                        # 참조 문서
                        with st.expander("📚 참조 문서"):
                            for i, doc in enumerate(result["source_documents"]):
                                st.markdown(f"**참조 {i+1}:**")
                                st.write(doc.page_content[:400] + "...")
                                st.markdown("---")
                    
                    except Exception as e:
                        st.error(f"오류: {e}")
            
            # 유사도 검색
            st.markdown("---")
            st.markdown("### 🔍 유사 문서 검색")
            search_query = st.text_input("검색 키워드:")
            
            if st.button("검색") and search_query:
                try:
                    similar_docs = vectorstore.similarity_search(search_query, k=3)
                    for i, doc in enumerate(similar_docs):
                        with st.expander(f"결과 {i+1}"):
                            st.write(doc.page_content[:600] + "...")
                except Exception as e:
                    st.error(f"검색 오류: {e}")
        
        # 임시 파일 정리
        try:
            os.unlink(tmp_file_path)
        except:
            pass

else:
    st.warning("OpenAI API Key를 입력해주세요.")
    st.info("API Key: https://platform.openai.com")
'''
    
    try:
        with open('langchain_pdf_app.py', 'w', encoding='utf-8') as f:
            f.write(langchain_app_code)
        st.success("✅ langchain_pdf_app.py 파일이 생성되었습니다!")
        st.code("streamlit run langchain_pdf_app.py", language="bash")
    except Exception as e:
        st.error(f"파일 생성 오류: {e}")

# 설치 가이드
st.markdown("---")
st.markdown("### 🔧 패키지 설치 및 실행")

st.markdown("**필수 패키지 설치:**")
st.code("""
pip install streamlit
pip install langchain
pip install langchain-openai
pip install langchain-community
pip install pypdf
pip install faiss-cpu
""", language="bash")

st.markdown("**실행:**")
st.code("streamlit run langchain_pdf_app.py", language="bash")

Collecting pypdf
  Downloading pypdf-5.8.0-py3-none-any.whl.metadata (7.1 kB)
Downloading pypdf-5.8.0-py3-none-any.whl (309 kB)
Installing collected packages: pypdf
Successfully installed pypdf-5.8.0
[0m



DeltaGenerator()