### **WebBaseLoader**

`WebBaseLoader` 는 웹 기반 문서 로더

`bs4` 라이브러리를 사용하여 웹 페이지를 파싱

- `bs4.SoupStrainer` 를 사용하여 파싱할 요소를 지정
- `bs_kwargs` 매개변수를 사용하여 `bs4.SoupStrainer` 의 추가적인 인수를 지정

**참고**

- [API 도큐먼트](https://api.python.langchain.com/en/latest/document_loaders/langchain_community.document_loaders.web_base.WebBaseLoader.html)

### **1. 특정 태그의 클래스만을 이용해서 가져오기**

In [None]:
import bs4
from langchain_community.document_loaders import WebBaseLoader

# 뉴스기사 내용을 로드합니다.
loader = WebBaseLoader(
    web_paths=("https://news.sbs.co.kr/news/endPage.do?news_id=N1008023036&plink=ORI&cooper=NAVER",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            "div",
            attrs={"class": ["text_area"]},
            
        )
    ),
    header_template={
        "User_Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36",
    },
)

docs = loader.load()
print(f"문서의 수: {len(docs)}")
docs

문서의 수: 1


[Document(metadata={'source': 'https://news.sbs.co.kr/news/endPage.do?news_id=N1008023036&plink=ORI&cooper=NAVER'}, page_content='\n\n▲ 배우 김수현\n\n MBC 예능 프로그램 \'굿데이\'가 고(故) 김새론이 미성년자였던 시절부터 교제했다는 의혹이 불거진 배우 김수현의 출연 분량을 편집하기로 결정했습니다. \n  \n \'굿데이\' 제작진은 오늘(17일) 배포한 입장문에서 "출연자 논란의 위중함을 인지하고, 시청자 반응을 우선으로 살피며 제작을 이어가고 있다"며 "제작진은 김수현 씨 출연분은 최대한 편집하기로 결정한 상황"이라고 밝혔습니다. \n  \n 이어 "출연자 관련 논란이 앞으로 지속되는 한, 좋은 뜻으로 시작한 \'굿데이\'의 목적 그리고 진심으로 함께한 출연자들의 마음, 공감하고 응원해 주신 시청자들의 사랑도 계속 훼손될 수 있다고 판단했다"고 설명했습니다. \n  \n 김수현은 지난 10일 유튜브 채널 \'가로세로연구소\'(이하 \'가세연\')가 고(故) 김새론 유족과의 통화를 인용해 김수현이 2015년 당시 15세였던 김새론과 6년간 교제했다고 주장하면서 논란에 휩싸였습니다. \n  \n 연일 파장이 커지면서 김수현이 출연하는 예능 프로그램 \'굿데이\' 시청자 게시판에는 김수현의 하차 요구가 빗발쳤으나, 김수현은 지난 13일 진행된 \'굿데이\' 녹화에 참여한 것으로 알려져 시청자들의 거센 항의를 받았습니다. \n  \n 지난 16일 방송된 \'굿데이\' 5회에서 김수현은 개인 출연 분량은 편집됐지만, 출연진의 단체 샷 등에 함께 등장했습니다. \n  \n 제작진은 "16일 방송된 5회는 (중략) 김수현 씨의 출연 부분을 급박하게 편집하여 재입고한 버전이다. 기존 회차보다 방송 분량도 10분 정도 짧았고 디테일도 미흡했다"고 설명했습니다. \n  \n 또한 지난 13일 촬영을 예정대로 진행한 이유에 관해서는 "분량 삭제를 염두에 두고, 

### **2. 여러 태그의 클래스를 이용해서 가져오기**

In [None]:
import bs4
from langchain_community.document_loaders import WebBaseLoader

# 뉴스기사 내용을 로드합니다.
loader = WebBaseLoader(
    web_paths=("https://news.sbs.co.kr/news/endPage.do?news_id=N1008023036&plink=ORI&cooper=NAVER",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            ["div", "h1"],
            attrs={"class": ["text_area", "article_main_tit"]},
            
        )
    ),
    header_template={
        "User_Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36",
    },
)

docs = loader.load()
print(f"문서의 수: {len(docs)}")
docs

문서의 수: 1


[Document(metadata={'source': 'https://news.sbs.co.kr/news/endPage.do?news_id=N1008023036&plink=ORI&cooper=NAVER'}, page_content='\'굿데이\' 제작진 "김수현 최대한 편집…논란 위중함 인지"\n\n▲ 배우 김수현\n\n MBC 예능 프로그램 \'굿데이\'가 고(故) 김새론이 미성년자였던 시절부터 교제했다는 의혹이 불거진 배우 김수현의 출연 분량을 편집하기로 결정했습니다. \n  \n \'굿데이\' 제작진은 오늘(17일) 배포한 입장문에서 "출연자 논란의 위중함을 인지하고, 시청자 반응을 우선으로 살피며 제작을 이어가고 있다"며 "제작진은 김수현 씨 출연분은 최대한 편집하기로 결정한 상황"이라고 밝혔습니다. \n  \n 이어 "출연자 관련 논란이 앞으로 지속되는 한, 좋은 뜻으로 시작한 \'굿데이\'의 목적 그리고 진심으로 함께한 출연자들의 마음, 공감하고 응원해 주신 시청자들의 사랑도 계속 훼손될 수 있다고 판단했다"고 설명했습니다. \n  \n 김수현은 지난 10일 유튜브 채널 \'가로세로연구소\'(이하 \'가세연\')가 고(故) 김새론 유족과의 통화를 인용해 김수현이 2015년 당시 15세였던 김새론과 6년간 교제했다고 주장하면서 논란에 휩싸였습니다. \n  \n 연일 파장이 커지면서 김수현이 출연하는 예능 프로그램 \'굿데이\' 시청자 게시판에는 김수현의 하차 요구가 빗발쳤으나, 김수현은 지난 13일 진행된 \'굿데이\' 녹화에 참여한 것으로 알려져 시청자들의 거센 항의를 받았습니다. \n  \n 지난 16일 방송된 \'굿데이\' 5회에서 김수현은 개인 출연 분량은 편집됐지만, 출연진의 단체 샷 등에 함께 등장했습니다. \n  \n 제작진은 "16일 방송된 5회는 (중략) 김수현 씨의 출연 부분을 급박하게 편집하여 재입고한 버전이다. 기존 회차보다 방송 분량도 10분 정도 짧았고 디테일도 미흡했다"고 설명했습니다. \n  \n 또한 지난 13일 촬영을 

### **3. 특정 태그를 지정하지 않고 클래스 만으로 가져오기**

In [21]:
import bs4
from langchain_community.document_loaders import WebBaseLoader

# 뉴스기사 내용을 로드합니다.
loader = WebBaseLoader(
    web_paths=("https://news.sbs.co.kr/news/endPage.do?news_id=N1008023036&plink=ORI&cooper=NAVER",),
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            class_=("tit_recent")
            
        )
    ),
    header_template={
        "User_Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36",
    },
)

docs = loader.load()
print(f"문서의 수: {len(docs)}")
docs

문서의 수: 1


[Document(metadata={'source': 'https://news.sbs.co.kr/news/endPage.do?news_id=N1008023036&plink=ORI&cooper=NAVER'}, page_content='이 시각 인기기사')]

**SSL 인증 오류를 우회하기 위해, `"verify"` 옵션을 설정**

In [23]:
# ssl 인증 우회
loader.requests_kwargs = {"verify": True}

# 데이터 로드
docs = loader.load()

docs

[Document(metadata={'source': 'https://news.sbs.co.kr/news/endPage.do?news_id=N1008023036&plink=ORI&cooper=NAVER'}, page_content='이 시각 인기기사')]

### **여러 페이지 로드**

리스트, 튜플 중에 묶으면 됨

In [None]:
loader = WebBaseLoader(
    web_paths=[
        "https://n.news.naver.com/article/437/0000378416",
        "https://n.news.naver.com/mnews/hotissue/article/092/0002340014?type=series&cid=2000063",
    ],
    bs_kwargs=dict(
        parse_only=bs4.SoupStrainer(
            "div",
            attrs={"class": ["newsct_article _article_body", "media_end_head_title"]},
        )
    ),
    header_template={
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36",
    },
)

# 데이터 로드
docs = loader.load()

# 문서 수 확인
print(len(docs))

2


In [None]:
print(docs[0].page_content[:500])
print("===" * 10)
print(docs[1].page_content[:500])

여러 URL을 동시에 스크래핑하면 스크래핑 과정을 가속화

동시 요청에는 합리적인 제한이 있으며, 기본값은 초당 2회입니다. 서버 부하에 대해 걱정하지 않거나, 스크래핑하는 서버를 제어하는 경우라면 `requests_per_second` 매개변수를 변경하여 최대 동시 요청 수를 늘릴 수 있습니다. 이 방법은 스크래핑 속도를 높일 수 있지만, 서버로부터 차단될 수 있으므로 주의해야 합니다.

In [None]:
# jupyter notebook 에서만 실행(asyncio)
import nest_asyncio

nest_asyncio.apply()

In [None]:
# 초당 요청 수 설정
loader.requests_per_second = 1

# 비동기 로드
docs = loader.aload()

In [None]:
# 결과 출력
docs

### **프록시 사용**

IP 차단을 우회하기 위해 때때로 프록시를 사용할 필요가 있을 수 있음 

프록시를 사용하려면 로더(및 그 아래의 `requests`)에 프록시 딕셔너리를 전달

In [None]:
loader = WebBaseLoader(
    "https://www.google.com/search?q=parrots",
    proxies={
        "http": "http://{username}:{password}:@proxy.service.com:6666/",
        "https": "https://{username}:{password}:@proxy.service.com:6666/",
    },
    # 웹 기반 로더 초기화
    # 프록시 설정
)

# 문서 로드
docs = loader.load()