# WebBaseLoader로 웹 페이지 로드하기

이 노트북에서는 **WebBaseLoader**를 사용하여 웹 페이지의 내용을 LangChain Document로 로드하는 방법을 알아봅니다.

## WebBaseLoader란?

웹 URL에서 HTML을 가져와 텍스트를 추출하는 Document Loader입니다.

```python
loader = WebBaseLoader('https://example.com')
docs = loader.load()  # 웹 페이지 → Document
```

## 특징

- **BeautifulSoup** 기반 HTML 파싱
- JavaScript 렌더링이 필요 없는 정적 페이지에 적합
- 여러 URL을 한 번에 로드 가능

## 다른 웹 로더들

| Loader | 특징 |
|--------|------|
| `WebBaseLoader` | 기본 HTML 파싱 |
| `SeleniumURLLoader` | JavaScript 렌더링 지원 |
| `PlaywrightURLLoader` | 브라우저 자동화 |
| `UnstructuredURLLoader` | 구조화된 추출 |

---

# 1. 패키지 설치

In [None]:
!pip install -q langchain langchain-community beautifulsoup4

# 2. WebBaseLoader로 웹 페이지 로드

**코드 설명:**

```python
loader = WebBaseLoader('https://www.langchain.com/')
docs = loader.load()
```

- URL을 지정하여 로더 생성
- `load()` 호출 시 웹 페이지를 가져와 텍스트 추출

In [None]:
from langchain_community.document_loaders import WebBaseLoader

# 웹 페이지 로드
loader = WebBaseLoader('https://www.langchain.com/')
docs = loader.load()

print(f"로드된 문서 수: {len(docs)}")

# 3. Document 내용 확인

In [None]:
doc = docs[0]

print("=== metadata ===")
print(doc.metadata)

print("\n=== page_content (처음 500자) ===")
print(doc.page_content[:500])

# 4. 여러 URL 동시 로드

In [None]:
# 여러 URL 로드
urls = [
    'https://python.langchain.com/docs/introduction/',
    'https://python.langchain.com/docs/tutorials/',
]

loader = WebBaseLoader(urls)
docs = loader.load()

print(f"로드된 문서 수: {len(docs)}")
for i, doc in enumerate(docs):
    print(f"\n[{i+1}] {doc.metadata.get('source', 'N/A')}")
    print(f"    길이: {len(doc.page_content)}자")

---

## 고급 옵션

### 특정 요소만 추출 (BeautifulSoup 설정)

```python
import bs4

loader = WebBaseLoader(
    web_paths=['https://example.com'],
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=['article-content', 'main-text']  # 특정 클래스만 추출
        )
    )
)
```

### 헤더 설정

```python
loader = WebBaseLoader(
    'https://example.com',
    header_template={'User-Agent': 'MyBot/1.0'}
)
```

## 주의사항

1. **JavaScript 렌더링**: WebBaseLoader는 정적 HTML만 처리. 동적 콘텐츠는 Selenium/Playwright 사용
2. **robots.txt 준수**: 웹 크롤링 시 사이트 정책 확인
3. **요청 제한**: 대량 크롤링 시 딜레이 추가 권장