# PDF 요약 챗봇 만들기
- 사용자가 PDF 파일을 업로드하면, 챗봇이 내용을 요약해주고 질문에도 답해주는 것

##  사용 도구
- LangChain (문서 QA 및 요약)
- PyPDFLoader (PDF 읽기)
- Chroma (벡터 저장소로 RAG 수행)
- OpenAI (LLM)

In [2]:
!pip install langchain langchain-openai chromadb unstructured pypdf

Collecting unstructured
  Downloading unstructured-0.18.1-py3-none-any.whl.metadata (24 kB)
Collecting filetype (from unstructured)
  Downloading filetype-1.2.0-py2.py3-none-any.whl.metadata (6.5 kB)
Collecting python-magic (from unstructured)
  Downloading python_magic-0.4.27-py2.py3-none-any.whl.metadata (5.8 kB)
Collecting emoji (from unstructured)
  Downloading emoji-2.14.1-py3-none-any.whl.metadata (5.7 kB)
Collecting python-iso639 (from unstructured)
  Downloading python_iso639-2025.2.18-py3-none-any.whl.metadata (14 kB)
Collecting langdetect (from unstructured)
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h  Preparing metadata (setup.py) ... [?25ldone
[?25hCollecting rapidfuzz (from unstructured)
  Downloading rapidfuzz-3.13.0-cp312-cp312-macosx_11_0_arm64.whl.metadata (12 kB)
Collecting unstructured-client (from unstructured)
  Down

In [10]:
from langchain_community.document_loaders import PyPDFLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_openai import ChatOpenAI, OpenAIEmbeddings
from langchain.vectorstores import Chroma
from langchain.chains import RetrievalQA, load_summarize_chain
import os

os.environ["OPENAI_API_KEY"] = ""

# ✅ 1. Load PDF
loader = PyPDFLoader("Reglements_Noca.pdf")  # ← 요약하고 싶은 PDF 경로
docs = loader.load()

# ✅ 2. Split
splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
split_docs = splitter.split_documents(docs)

# ✅ 3. Embedding + Vector DB
embedding = OpenAIEmbeddings()
vectorstore = Chroma.from_documents(split_docs, embedding)

# ✅ 4. Retrieval QA 챗봇
llm = ChatOpenAI(model="gpt-3.5-turbo", temperature=0)
qa = RetrievalQA.from_chain_type(llm=llm, retriever=vectorstore.as_retriever())

# ✅ 5. 질문 예시
print("Q: What is this PDF about?")
print(qa.run("What is this PDF about?"))

# ✅ 6. 전체 요약
summary_chain = load_summarize_chain(llm, chain_type="stuff")
print("\n📝 Summary of PDF:")
print(summary_chain.run(split_docs[:10]))  # 너무 많으면 일부만 사용


Q: What is this PDF about?


  print(qa.run("What is this PDF about?"))


This PDF contains information about the regulations and rules related to common areas, animals, landscaping, meeting agendas, convocation notices, proxies, and other aspects of a condominium or shared property. It outlines rules regarding animals in common areas, landscaping, meeting agendas, convocation notices, proxies for meetings, and the responsibilities of owners, tenants, and occupants in shared spaces.

📝 Summary of PDF:
The document outlines various regulations related to the use and maintenance of private and common areas in a condominium building. It covers rules regarding the design and use of private spaces, signage on the building facade, responsibilities of owners for damages, and regulations for parking and storing bicycles in common areas. The regulations aim to ensure the proper upkeep and respectful use of the property by all residents.


## 💡 응용 아이디어
- Streamlit 또는 Gradio로 인터페이스 추가
- PDF -> 요약 저장 -> 질문 응답 플로우 자동화
- 업로드한 PDF를 여러 개 비교 요약하기

## 패키지 설명
| 패키지 이름                 | 설명                                                                                                                                           |
| ---------------------- | -------------------------------------------------------------------------------------------------------------------------------------------- |
| **`langchain`**        | LLM 애플리케이션을 빠르게 만들 수 있는 파이썬 프레임워크입니다. 다양한 체인, 에이전트, 툴, 문서 처리 로직 등을 제공합니다. <br>→ `DocumentLoader`, `RetrievalQA`, `summarize_chain` 등을 제공합니다. |
| **`langchain-openai`** | LangChain에서 OpenAI의 LLM(GPT-3.5, GPT-4 등)을 쉽게 연동할 수 있게 해주는 모듈입니다. <br>→ 예: `ChatOpenAI`, `OpenAIEmbeddings`                                  |
| **`chromadb`**         | 오픈소스 벡터 데이터베이스입니다. 문서 임베딩을 저장하고, 쿼리(검색어)와 유사한 문서를 빠르게 찾아줍니다. <br>→ `Chroma`는 LangChain에서 가장 많이 쓰이는 기본 벡터 저장소입니다.                             |
| **`unstructured`**     | 다양한 문서 타입(PDF, HTML, Word, 이메일 등)을 구조화된 텍스트로 파싱해주는 라이브러리입니다. <br>→ LangChain 문서 로더들이 내부적으로 사용합니다.                                            |
| **`pypdf`**            | PDF 파일을 읽고 파싱하기 위한 파이썬 라이브러리입니다. <br>→ `PyPDFLoader`는 이걸 활용하여 PDF 문서를 페이지별로 로드합니다.                                                           |

