# WebBaseLoader란?
웹 페이지에서 HTML 콘텐츠를 추출하여 문서 형태로 변환하는 도구입니다

### Langchain의 WebBaseLoader
- 웹 페이지의 HTML을 자동으로 크롤링하고 텍스트를 추출합니다
- BeautifulSoup을 기반으로 한 강력한 파싱 기능을 제공합니다
- 다수의 URL을 동시에 처리할 수 있는 비동기 로딩을 지원합니다
- 다양한 웹사이트 형식에 대응 가능합니다

`BeautifulSoup`란?
- Python에서 HTML과 XML 파일을 파싱하기 위한 라이브러리입니다
- 복잡한 HTML 구조에서 원하는 데이터를 쉽게 추출할 수 있습니다

In [None]:
# 필요한 라이브러리 설치
%pip install -qU beautifulsoup4 requests

In [None]:
# 실습용 URL 설정
NEWS_URL = "https://www.gukbangnews.com/news/articleView.html?idxno=9439"

### WebBaseLoader 사용법
- LangChain에서 제공하는 웹 페이지용 문서 로더 클래스입니다
- URL을 입력하면 해당 페이지의 HTML을 다운로드하고 텍스트를 추출합니다
- BeautifulSoup을 내부적으로 사용하여 HTML을 파싱합니다
- 웹 페이지의 메타데이터(제목, 설명 등)도 함께 추출합니다


In [None]:
from langchain_community.document_loaders import WebBaseLoader

# 단일 웹 페이지 로드
loader = WebBaseLoader(NEWS_URL)

# 문서 로드 실행
documents = loader.load()

# 문서 내용 미리보기 (처음 300자)
print(f"\n문서 내용 미리보기:")
print(f"{documents[0].page_content[:500]}")


### WebBaseLoader와 BeautifulSoup을 이용한 특정 요소 크롤링
웹 페이지에서 특정 HTML 요소만 추출하는 고급 크롤링 기법

### BeautifulSoup kwargs 활용
- `bs_kwargs`: BeautifulSoup 파서에 전달되는 옵션들
- `bs_get_text_kwargs`: 텍스트 추출 시 사용되는 옵션들
- 특정 요소만 추출하여 노이즈 제거 및 성능 향상

### 특정 요소 추출의 장점:
1. **노이즈 제거**: 광고, 네비게이션 등 불필요한 요소 제외
2. **성능 향상**: 필요한 콘텐츠만 처리하여 속도 개선
3. **정확도 향상**: 핵심 콘텐츠에 집중하여 품질 향상
4. **메모리 효율성**: 불필요한 데이터 로딩 방지


In [None]:
from bs4 import SoupStrainer

# article-view-content-div 요소만 추출
def load_article_content(urls):
    loader = WebBaseLoader(
        urls,
        bs_kwargs={
            "parse_only": SoupStrainer(id="article-view-content-div")
            }
    )
    
    return loader.load()

# 사용 예제
urls = [
    "https://www.gukbangnews.com/news/articleView.html?idxno=9439"
]

docs = load_article_content(urls)

print(f"로드된 문서 수: {len(docs)}")
print(f"문서 : {len(docs[0].page_content)} 문자")
print(f"미리보기: {docs[0].page_content[:300]}...")