#### LangChain 필요성

- OpenAI API 직접 사용시 
    - 사용자 질문 -> LLM 호출 -> 응답

- 실제 서비스에서 필요한 기능
    - PDF 문서 안에서 답 찾기
    - DB 조회 후 결과 설명
    - 이전 대화 기억
    - 여러 단계 추론

#### LangChain 핵심 개념
- Chain : 여러 단계를 연결한 처리 흐름
    - ex) 검색 + 요약 + 생성 같은 다단계 흐름 구성 가능
- Prompt Template : 프롬프트를 템플릿화
- Memory : 이전 대화 저장
- Retriever (검색기)
- Agent : LLM 이 스스로 도구를 선택하여 실행

#### 활용 가능 분야
- 문서기반 QA
    - ex) 사내문서 QA 챗봇, PDF 기반 질의응답, 법률 문서 검색, 기술 매뉴얼 검색
- 챗봇 시스템
- 데이터 분석 AI
- 에이전트 기반 자동화 시스템

### RAG(Retrieval Augmented Generation)
- 검색 증강 생성
- 특정 자료(문서, PDF, DB 등)에 대해 질문에 답할 수 있다.
- 2가지 방식 제공
    - RAG Agent 방식 : Agent 를 이용해 여러번 검색이 가능하고 복잡한 질문 처리 가능
    - Two-step RAG Chain : 단순한 형태 / 한 번 호출

- 처리 단계
    - 1) Indexing : 데이터를 어떤 소스로부터 가져와서 검색할 수 있도록 정리(PDF->텍스트 추출->분할->임베딩->벡터DB 저장장)
    - 2) Retrieval and Generation : 실제 RAG가 동작하는 단계(사용자가 질문을 입력하면 인덱스에서 관련 데이터를 검색하고 그 데이터를 모델에 전달하여 답변을 생성)

#### 정리
- LLM 기반 기능을 체계적으로 사용할 수 있도록 제공되는 오픈소스 프레임워크
- 외부 데이터 연결, 문서검색, 도구사용(API 호출), 멀티스텝 추론, 메모리 유지 대화 같은 복합적인 AI 애플리케이션 구조를 쉽게 만들 수 있도록 도와주는 도구

<img src="https://xeblog.s3.ap-northeast-2.amazonaws.com/langchain_builder_9f58224358.jpg" width="700" height="604">

In [None]:
from dotenv import load_dotenv, find_dotenv
import bs4
from pathlib import Path

load_dotenv(find_dotenv())

In [None]:
# 랭체인에서 제공하는 로더 
from langchain_community.document_loaders import YoutubeLoader, WebBaseLoader, PyPDFLoader 

# 임베딩 처리
from langchain_community.vectorstores import FAISS

# 문서 내용 임베딩
from langchain_openai import OpenAIEmbeddings
# 모델 생성
from langchain_openai import ChatOpenAI
from langchain.chat_models import init_chat_model

# 메세지
from langchain.messages import HumanMessage, AIMessage, SystemMessage

# 프롬프트 작성
from langchain_core.prompts import PromptTemplate 

# 글을 쪼갤 때 사용하는 라이브러리
from langchain_text_splitters  import RecursiveCharacterTextSplitter

# Tools
from langchain.tools import tool
from langchain.agents import create_agent

# 크롤링
from langchain_community.document_loaders.firecrawl import FireCrawlLoader

from langchain_core.prompts import ChatPromptTemplate
from langchain_core.runnables import RunnableLambda
from langchain_core.output_parsers import StrOutputParser

In [None]:
# 모델 생성



##### Langchain
- 모델 호출
    - 1) invoke() : 모델이 답변을 전체 생성 후 응답
    - 2) stream() : 모델이 생성한 답변을 중간중간 응답(논문요약, 보고서 생성, 코드 생성, 긴 설명)
    - 3) batch() : 여러 개 요청을 한 번에 처리(병렬 처리 가능 - 리뷰 100 개 요약, 문단 50개 번역..)

In [None]:
# 모델 호출 : invoke()
# 하나의 메시지 입력 시 


- Messages
    - https://docs.langchain.com/oss/python/langchain/messages

In [None]:
# 여러 개의 메시지 리스트
# https://docs.langchain.com/oss/python/langchain/models#invoke
# 대화기록


- Tools : 앞에서 했었던 function calling 
    - https://docs.langchain.com/oss/python/langchain/tools

In [None]:
# 앞에서 했었던 function calling 
import json
import requests



### LangChain 을 사용한 RAG
#### [실습 1] blog 를 기반으로 질의 검색

In [None]:
# Load and chunk contents of the blog
loader = WebBaseLoader(
    web_paths=("https://lilianweng.github.io/posts/2023-06-23-agent/",),
    header_template={
        "User-Agent": "my-langchain-rag-app"
    },
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("post-content", "post-title", "post-header")
        )
    ),
)
docs = loader.load()



#### [실습 2] PDF 기반 질의탐색

In [None]:
# 1. 문서 로드드


In [None]:
# 2. 텍스트 분할



In [None]:
# 3. 벡터 스토어 생성



In [None]:
# 4. 검색 tool 작성



In [None]:
# 5. 모델 생성

In [None]:
# 6. 질문 던지기



#### [실습 3] 유튜브 영상 자막 추출 후 내용요약

- YoutubeLoader 를 이용한 자막 추출
- RecursiveCharacterTextSplitter 를 이용한 일정한 크기로 자막 분할
- agent 를 이용한 LLM 호출 
- 응답

In [None]:
# 1. 유튜브 자막 로드


In [None]:
# 2. 문서 분할



In [None]:
# -----------------------
# 3. Map 단계 (각 chunk 요약)
# -----------------------



In [None]:
# -----------------------
# 4. Reduce 단계 (전체 결합 요약)
# -----------------------



#### Firecrawl
- 웹사이트를 크롤링하여 LLM(Long Library Management)에서 사용할 수 있는 데이터로 변환
- 접근 가능한 모든 하위 페이지를 크롤링하고 각 페이지에 대한 깔끔한 마크다운과 메타데이터를 제공
- https://docs.langchain.com/oss/python/integrations/document_loaders/firecrawl (api 키 발급 필요)

#### [실습] react 페이지 크롤링 후 크롤링 문서 기반으로 RAG 적용
- 1. Ingest(색인) 단계: URL들 → Firecrawl → Document → Split → Embedding → FAISS 저장
- 2. Query(질의) 단계: 질문 → FAISS 검색(top-k) → (질문 + 근거) → LLM 답변

In [None]:
import re

loader = FireCrawlLoader(
    url="https://ko.react.dev/reference/react/",
    mode="crawl",
    params={
        "includePaths": [r"^/reference/react/use.*"], 
        "limit": 100,  # 넓게 크롤링
    }
)

docs = loader.load()


def get_url(doc):
    md = doc.metadata or {}
    return md.get("source_url") or md.get("source") or md.get("url") or "(unknown)"


# use~ 시작하는 url 만 걸러내기
pattern = re.compile(r"^https://ko\.react\.dev/reference/react/use.*")
use_docs = [d for d in docs if pattern.match(get_url(d))]

In [None]:
# 벡터 작업

