# Async Chromium

Chromium은 브라우저 자동화를 제어하는 데 사용되는 라이브러리인 Playwright에서 지원하는 브라우저 중 하나입니다.

`p.chromium.launch(headless=True)`를 실행하면 Chromium의 headless 인스턴스를 실행합니다.

Headless 모드는 브라우저가 그래픽 사용자 인터페이스 없이 실행되고 있음을 의미합니다.

`AsyncChromiumLoader`는 페이지를 로드한 다음 `Html2TextTransformer`를 사용하여 텍스트로 변환합니다.


- Playwright와 BeautifulSoup4 라이브러리를 최신 버전으로 업그레이드하고 조용히(quiet) 설치합니다.
- Playwright 브라우저 엔진을 설치합니다.


In [None]:
%pip install -qU  playwright beautifulsoup4
! playwright install

LangChain 프레임워크를 사용하려고 할 때 `RuntimeError: asyncio.run()` 이 이미 실행 중인 이벤트 루프에서 호출될 수 없다는 오류가 발생합니다.

이 오류는 보통 `asyncio.run()` 이 다른 asyncio 이벤트 루프가 이미 실행 중인 상황에서 호출될 때 발생합니다.

Jupyter Notebook 에서 이미 실행되고 있는 이벤트 루프가 존재하고, 또 하나의 이벤트 루프를 생성하려고 할 때 나타나는 오류 입니다.

이러한 오류를 해결하기 위하여 아래의 코드를 실행하여 Jupyter Notebook 의 이벤트 루프를 가져옵니다.


In [None]:
%pip install nest-asyncio

Note: you may need to restart the kernel to use updated packages.


In [1]:
import nest_asyncio

nest_asyncio.apply()

- `AsyncChromiumLoader`를 사용하여 웹 페이지의 콘텐츠를 비동기적으로 로드합니다.
- `urls` 리스트에 로드할 웹 페이지의 URL을 지정합니다.
- `AsyncChromiumLoader` 객체를 생성하고 `urls`를 전달합니다.
- `load()` 메서드를 호출하여 웹 페이지의 콘텐츠를 로드하고 `Document` 객체의 리스트를 반환합니다.
- 로드된 `Document` 객체의 `page_content` 속성을 사용하여 웹 페이지의 텍스트 콘텐츠에 접근합니다.
- `docs[0].page_content[0:100]`을 사용하여 첫 번째 `Document` 객체의 처음 100자를 출력합니다.


In [32]:
from langchain_community.document_loaders import AsyncChromiumLoader

urls = ["https://news.naver.com"]  # 크롤링할 URL 목록을 설정합니다.
# AsyncChromiumLoader를 사용하여 URL에서 비동기적으로 문서를 로드합니다.
loader = AsyncChromiumLoader(urls)
docs = loader.load()  # 로드된 문서를 가져옵니다.
docs[0].page_content[
    3000:3500
]  # 로드된 첫 번째 문서의 내용 중 처음 100자를 출력합니다.

'sizes="152x152" href="https://ssl.pstatic.net/static.news/image/news/m/2018/favicon/06/iOS_iPad_2x_152X152.png" />\'\n\t\t\t];\n\t\t}\n\t\tdocument.write(result.join(\'\\n\'));\n\t})();\n</script>\n\n<script type="text/javascript" src="https://ssl.pstatic.net/static.news/mnews/resources/20240308_031235/js/generated/statistics_jquery.js"></script>\n\t<script>\n    document.documentElement.setAttribute(\'data-useragent\',navigator.userAgent);\n</script>\n\n\n\n<script>\n\ndocument.documentElement.setAttribute(\'data-useragent\', '

- `Html2TextTransformer` 클래스를 사용하여 HTML 문서를 텍스트로 변환하는 과정을 보여줍니다.
- `html2text` 객체를 생성합니다.
- `transform_documents` 메서드를 호출하여 `docs` 리스트에 포함된 HTML 문서들을 텍스트로 변환합니다.
- 변환된 문서들은 `docs_transformed` 리스트에 저장됩니다.
- `docs_transformed[0].page_content`을 통해 변환된 첫 번째 문서의 내용을 확인합니다.


html 을 문자열로 변환 & 파싱합니다.

파싱하기 위한 `html2text` 를 설치합니다.


In [11]:
%pip install -qU html2text

Note: you may need to restart the kernel to use updated packages.


In [26]:
from langchain_community.document_transformers import Html2TextTransformer

html2text = Html2TextTransformer()  # HTML을 텍스트로 변환하는 객체를 생성합니다.
docs_transformed = html2text.transform_documents(
    docs
)  # HTML 문서를 텍스트로 변환합니다.

In [27]:
# 변환된 문서를 출력합니다.
print(docs_transformed[0].page_content[2000:3000])

 분 만에 꺼졌습니다. 소방
당국은 "핑크 뮬리를 수확하던 농기계에서 불꽃이 튀면서 불이 난 것으로 보인다"

#### JIBS03월 12일 16:20

구독

냉면·비빔밥·삼겹살 또 올랐는데, 화장지·라면까지?.. 먹고 씻고 다니기가 참 “더 힘들어”

외식 물가와 생필품 가격이 지속 오르면서 가계 부담을 가중시키는 것으로 나타났습니다. 메뉴 가격이 1,2만 원대 훌쩍 오가는가 하면, 주요
생필품 가격도 상승세를 거듭하면서 가뜩이나 빠듯한 가계 지출 압박을 더하고

#### 국민일보03월 12일 16:57

구독

영등포 철도 지하화 발표한 한동훈

한동훈 국민의힘 비상대책위원장이 12일 철도 지하화 공약 발표를 하기 위해 서울 영등포역 고가차도 밑을 지나고 있다. 영등포갑 김영주
후보와, 영등포을 박용찬 후보는 이날 철도역 지하화 공약발표에 동참했다. 앞서 영

#### 뉴스타파03월 08일 17:06

구독

[팩트체크]민주당에 음주운전 가산점?...양당 후보 음주운전 전력 따져보니

한동훈 국민의힘 비상대책위원장은 어제(3.7) 비상대책회의에서 더불어민주당의 음주운전 전력자 공천을 비판하면서 이렇게 말했습니다. 혹시
이재명 대표 본인도 음주운전 전과자지 않나. 민주당에는 혹시 음주운전 가산점 같

새로보기

#### 이코노미스트03월 12일 16:37

구독

테슬라 환호에 ‘들썩’…국내 2차전지주 장중 강세 지속 [증시이슈]

국내 2차전지 관련주들이 미국 테슬라 상승 마감에 장중 강세를 지속하고 있다. 12일 한국거래소에 따르면 오후 1시 30분 기준 현재
유가증권시장에서 LG에너지솔루션(373220)은 전장 대비 1만8000원(4.49

#### 오마이뉴스03월 12일 16:30

구독

2년마다 1명씩 죽어나가는 공장... "얼마나 더 죽어야 문 닫나"

경북 봉화군 영풍석포제련소 장례식 열려... "실질사주 중대재해처벌법으로 처벌해야" ▲ ‘사망노동자 추모 및 죽음의 공장 영풍 석포제련소
문닫아라 장례캠페인 기자회견’이 12일 오전 서울 광화문

## Beautiful Soup

> [Beautiful Soup](https://www.crummy.com/software/BeautifulSoup/)은 HTML 및 XML 문서를 파싱하기 위한 Python 패키지입니다(잘못 형성된 마크업, 즉 닫히지 않은 태그를 포함하여, 태그 수프라고 불립니다).
> 파싱된 페이지에 대한 파싱 트리를 생성하여 HTML에서 데이터를 추출하는 데 사용할 수 있으며, 이는 웹 스크래핑에 유용합니다.

`Beautiful Soup`은 HTML 내용에 대한 세밀한 제어를 제공하여, 특정 태그의 추출, 제거 및 내용 정리를 가능하게 합니다.

특정 정보를 추출하고 HTML 내용을 필요에 따라 정리하고자 하는 경우에 적합합니다.

예를 들어, HTML 내용에서 `<p>, <li>, <div>, <a>` 태그 내의 텍스트 내용을 스크래핑할 수 있습니다:

- `<p>`: 단락 태그입니다. HTML에서 단락을 정의하며 관련된 문장 및/또는 구절을 함께 그룹화하는 데 사용됩니다.

- `<li>`: 목록 항목 태그입니다. 순서가 있는 (`<ol>`) 및 순서가 없는 (`<ul>`) 목록 내에서 개별 항목을 정의하는 데 사용됩니다.

- `<div>`: 구분 태그입니다. 블록 수준 요소로 다른 인라인 또는 블록 수준 요소를 그룹화하는 데 사용됩니다.

- `<a>`: 앵커 태그입니다. 하이퍼링크를 정의하는 데 사용됩니다.


In [40]:
from langchain_community.document_loaders import AsyncChromiumLoader

urls = ["https://news.naver.com"]  # 크롤링할 URL 목록을 설정합니다.
# AsyncChromiumLoader를 사용하여 URL에서 비동기적으로 문서를 로드합니다.
loader = AsyncChromiumLoader(urls)
docs = loader.load()  # 로드된 문서를 가져옵니다.

In [41]:
from langchain_community.document_transformers import BeautifulSoupTransformer

# 변환 작업
bs_transformer = BeautifulSoupTransformer()
# HTML 문서를 변환합니다. p, li, div, a 태그의 내용을 추출합니다.
docs_transformed = bs_transformer.transform_documents(
    docs,
    # tags_to_extract=["p", "li", "div", "a"]
    tags_to_extract=["a"],
)

In [42]:
# a 태그의 내용을 출력합니다.
print(docs_transformed[0].page_content[:1000])

본문 바로가기 (#ct) NAVER 뉴스  (https://entertain.naver.com/home) 연예  (https://entertain.naver.com/home)  (https://sports.news.naver.com/index) 스포츠  (https://sports.news.naver.com/index)  (https://weather.naver.com/) 날씨  (https://weather.naver.com/)  (https://contents.premium.naver.com/) 프리미엄  (https://contents.premium.naver.com/)  (https://news.naver.com/election/nation2024) 총선  (https://news.naver.com/election/nation2024) 도움말 (https://help.naver.com/support/alias/search/word/word_32.naver) 전체삭제 (javascript:;) 자동저장 (javascript:;) 끄기 켜기 도움말 (https://help.naver.com/support/alias/search/word/word_32.naver) 도움말 (https://help.naver.com/support/alias/search/word/word_48.naver) 신고 (https://help.naver.com/support/alias/search/word/word_18.naver) 검색 언론사별 정치 경제 사회 생활/문화 IT/과학 세계 랭킹 신문보기 오피니언 TV 팩트체크 알고리즘 안내 정정보도 모음 전체 언론사 (https://news.naver.com/main/officeList.naver ) 뉴스스탠드 (https://newsstand.naver.com/) 라이브러리 (https://newslibrary.naver.com/search/searchByDate.naver)  (#feedJournalistCard) 기자  (#feed

In [None]:
loader = WebBaseLoader(
    # 월마트 웹사이트에서 "parrots" 검색 결과 페이지의 URL을 지정합니다.
    "https://www.walmart.com/search?q=parrots",
    proxies={  # 프록시 서버 설정을 지정합니다.
        # HTTP 프록시 서버의 URL과 인증 정보를 설정합니다.
        "http": "http://{username}:{password}:@proxy.service.com:6666/",
        # HTTPS 프록시 서버의 URL과 인증 정보를 설정합니다.
        "https": "https://{username}:{password}:@proxy.service.com:6666/",
    },
)
docs = loader.load()  # 지정된 URL에서 웹 페이지를 로드하고 문서를 추출합니다.

# WebBaseLoader

WebBaseLoader는 HTML 웹페이지에서 모든 텍스트를 로드하여 다운스트림에서 사용할 수 있는 문서 형식으로 변환하는 방법을 다룹니다.

웹페이지를 로드하는 보다 사용자 정의된 로직을 살펴보려면 IMSDbLoader, AZLyricsLoader 및 CollegeConfidentialLoader와 같은 일부 자식 클래스 예제를 참조하세요.


WebBaseLoader를 사용하여 웹 페이지에서 데이터를 로드하는 기능을 제공합니다.

- `WebBaseLoader`는 `langchain_community.document_loaders` 모듈에서 import 됩니다.
- 이 로더는 웹 페이지의 콘텐츠를 추출하여 LangChain에서 사용할 수 있는 문서 형식으로 변환합니다.
- 웹 페이지의 URL을 지정하면 해당 페이지의 텍스트 콘텐츠를 로드할 수 있습니다.
- 로드된 문서는 LangChain의 다른 컴포넌트에서 사용될 수 있습니다.


In [2]:
from langchain_community.document_loaders import WebBaseLoader

- `WebBaseLoader`를 사용하여 "https://www.espn.com/" 웹 페이지를 로드합니다.


In [3]:
# 웹 페이지 "https://news.naver.com/"에서 데이터를 로드하는 WebBaseLoader 객체를 생성합니다.
loader = WebBaseLoader("https://news.naver.com/")

# 한글이 깨져서 로드되는 경우 아래와 같이 인코딩을 지정합니다.
# loader = WebBaseLoader("https://news.naver.com/", encoding="utf-8")

SSL 인증서 검증 오류를 우회하기 위해 데이터를 가져오는 동안 "verify" 옵션을 설정할 수 있습니다.

python
loader.requests_kwargs = {'verify':False}

이렇게 하면 SSL 인증서 검증 과정을 건너뛰고 데이터를 가져올 수 있습니다.

하지만 이 방법은 보안상의 이유로 권장되지 않습니다.

가능하다면 올바른 SSL 인증서를 사용하는 것이 좋습니다.


`loader.load()` 메서드를 호출하여 데이터를 로드합니다.

- `loader` 객체는 데이터 로딩을 담당하는 객체입니다.
- `load()` 메서드는 데이터 소스로부터 데이터를 읽어들입니다.
- 로드된 데이터는 `data` 변수에 할당됩니다.


In [4]:
data = loader.load()  # 로더를 사용하여 데이터를 불러옵니다.

In [5]:
data

[Document(page_content='\n\n\n\n네이버 뉴스\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n본문 바로가기\n\n\n\n\n\n\n\nNAVER\n\n뉴스\n\n\n연예\n\n\n\n\n스포츠\n\n\n\n\n날씨\n\n\n\n\n프리미엄\n\n\n\n\n총선\n\n\n\n\n\n\n\n\n\n\n검색\n\n\n\n\n\n\n\n\n\n\n\n\n언론사별\n정치\n경제\n사회\n생활/문화\nIT/과학\n세계\n랭킹\n신문보기\n오피니언\nTV\n팩트체크\n알고리즘 안내\n정정보도 모음\n\n\n\n\n\n\n\n\n\n\n\n\n\n콘텐츠\n\n\n3.12(화)\n\n\n전체 언론사\n뉴스스탠드\n라이브러리\n\n\n\n\n\n\n\n\n\n\n언론사편집\n\n기자\n                        \n                    \n\n\n연재\n                        \n                    \n\n\n\n                구독설정\n                \n                \n\n\n\n\n속보\n\n\n\n\n윤 "의료개혁, 원칙대로 신속 추진"\n\n\n\nCJB청주방송\n\n내용작성전\n\n\n\n\n\n尹 "의료개혁, 원칙대로 신속하게 추진하라"\n\n\n\n노컷뉴스\n\n\n\n\n\n\n윤 대통령 "의료개혁, 원칙대로 신속하게 추진하라"\n\n\n\n경기일보\n\n\n\n\n\n\n윤 대통령 "의료개혁, 원칙대로 신속하게 추진하라"\n\n\n\n부산일보\n\n\n\n\n\n\n尹 "의료개혁, 원칙대로 신속하게 추진하라"\n\n\n\nYTN\n\n\n\n\n\n\n윤 대통령 “의료개혁, 원칙대로 신속하게 추진하라”\n\n\n\n채널A\n\n\n\n\n\n\n尹대통령 "의료개혁, 원칙대로 신속하게 추진"\n\n\n\n아시아경제\n\n내용작성전\n\n\n\n\n속보 닫기\n\n\n\n\n\n\n\n

이 코드는 BeautifulSoup을 사용하여 새로운 사용자 정의 웹 페이지 파서를 테스트하기 위한 템플릿입니다.

- `requests` 라이브러리를 사용하여 지정된 URL에서 HTML 문서를 가져옵니다.
- `BeautifulSoup` 객체를 생성하여 HTML 문서를 파싱합니다.
- 주석 처리된 부분에는 `langchain_community.document_loaders.webpage.py` 파일로 내보낼 BeautifulSoup 로직을 작성합니다.
- 예시로 `soup.select_one("td[class='scrtext']").text`와 같은 코드를 사용하여 원하는 요소를 선택하고 텍스트를 추출할 수 있습니다.
- BeautifulSoup 라이브러리의 자세한 문서는 주석에 제공된 URL에서 확인할 수 있습니다.


In [6]:
import requests
from bs4 import BeautifulSoup

html_doc = requests.get("{INSERT_NEW_URL_HERE}")
soup = BeautifulSoup(html_doc.text, "html.parser")

# 새로운 사용자 정의 BeautifulSoup 파서를 테스트하기 위해 이 코드 조각을 사용하세요.
# BeautifulSoup 로직은 langchain_community.document_loaders.webpage.py로 내보내집니다.
# 예시: transcript = soup.select_one("td[class='scrtext']").text
# BS4 문서는 여기에서 찾을 수 있습니다: https://www.crummy.com/software/BeautifulSoup/bs4/doc/

MissingSchema: Invalid URL '{INSERT_NEW_URL_HERE}': No scheme supplied. Perhaps you meant https://{INSERT_NEW_URL_HERE}?

## Loading multiple webpages

여러 개의 웹페이지를 한 번에 로드하려면 로더에 URL 리스트를 전달하면 됩니다.

이렇게 하면 전달된 URL과 동일한 순서로 문서 리스트가 반환됩니다.


- `WebBaseLoader`를 사용하여 "https://www.espn.com/"과 "https://google.com" 웹 페이지를 로드합니다.
- `load()` 메서드를 호출하여 로드된 웹 페이지의 내용을 `docs` 변수에 저장합니다.
- `docs`를 출력하여 로드된 웹 페이지의 내용을 확인합니다.


In [7]:
# 웹 페이지 URL 목록을 사용하여 WebBaseLoader 객체를 생성합니다.
loader = WebBaseLoader(["https://www.espn.com/", "https://google.com"])
docs = loader.load()  # 지정된 웹 페이지에서 문서를 로드합니다.
docs  # 로드된 문서를 출력합니다.

[Document(page_content="\n\n\n\n\n\n\n\n\nESPN - Serving Sports Fans. Anytime. Anywhere.\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n        Skip to main content\n    \n\n        Skip to navigation\n    \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n<\n\n>\n\n\n\n\n\n\n\n\n\nMenuESPN\n\n\n\n\n\nscores\n\n\n\nNFLNBANCAAMNCAAWNHLSoccer…MLBNCAAFSports BettingBoxingCFLNCAACricketF1GolfHorseLLWSMMANASCARNBA G LeagueOlympic SportsPLLProfessional WrestlingRacingRN BBRN FBRugbyTennisWNBAX GamesXFLMore ESPNFantasyWatchESPN BETESPN+\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n  \n\nSubscribe Now\n\n\n\n\n\nNCAA Men's Basketball\n\n\n\n\n\n\n\nNCAA Women's Basketball\n\n\n\n\n\n\n\nNHL\n\n\n\n\n\n\n\nNCAA Men's Tournament Bubble Watch\n\n\nQuick Links\n\n\n\n\nNFL Free Agency\n\n\n\n\n\n\n\nMen's Bracketology\n\n\n\n\n\n\n\nWomen's Bracketology\n\n

### Load multiple urls concurrently

여러 URL을 동시에 스크래핑하고 파싱함으로써 스크래핑 프로세스의 속도를 높일 수 있습니다.

동시 요청에는 합리적인 제한이 있으며, 기본값은 초당 2개입니다. 만약 여러분이 좋은 시민이 되는 것에 대해 신경 쓰지 않거나, 스크래핑하는 서버를 제어하면서 부하에 대해 신경 쓰지 않는다면, `requests_per_second` 매개변수를 변경하여 최대 동시 요청 수를 늘릴 수 있습니다.

하지만 이는 스크래핑 프로세스의 속도를 높일 수는 있지만, 서버 측에서 차단할 가능성이 있다는 점에 유의해야 합니다. 주의깊게 사용하시기 바랍니다!


- nest_asyncio 라이브러리를 최신 버전으로 업그레이드하고 설치합니다.
- Jupyter 환경에서 asyncio 사용 시 발생할 수 있는 버그를 해결하기 위해 `nest_asyncio` 모듈을 임포트합니다.
- `nest_asyncio.apply()` 함수를 호출하여 asyncio와 Jupyter의 호환성 문제를 해결합니다.


In [8]:
# %pip install --upgrade --quiet  nest_asyncio

# 비동기 I/O 라이브러리인 asyncio와 Jupyter 노트북 간의 호환성 문제를 해결하기 위해 nest_asyncio 모듈을 가져옵니다.
import nest_asyncio

# nest_asyncio 모듈의 apply() 함수를 호출하여 asyncio와 Jupyter 노트북 간의 호환성 문제를 해결합니다.
nest_asyncio.apply()

- `WebBaseLoader`를 사용하여 웹 페이지 URL 목록(["https://www.espn.com/", "https://google.com"])에서 데이터를 로드합니다.
- `requests_per_second` 속성을 1로 설정하여 초당 요청 수를 제한합니다.
- `aload()` 메서드를 호출하여 비동기적으로 웹 페이지 데이터를 로드하고 `docs` 변수에 할당합니다.
- `docs`를 출력하여 로드된 문서 데이터를 확인합니다.


In [9]:
# 웹 페이지 URL 리스트를 사용하여 WebBaseLoader 객체를 생성합니다.
loader = WebBaseLoader(["https://www.espn.com/", "https://google.com"])
loader.requests_per_second = 1  # 초당 요청 수를 1로 설정합니다.
docs = loader.aload()  # 비동기적으로 웹 페이지를 로드하고 문서를 가져옵니다.
docs  # 가져온 문서를 출력합니다.

Fetching pages: 100%|##########| 2/2 [00:01<00:00,  1.79it/s]


[Document(page_content="\n\n\n\n\n\n\n\n\nESPN - Serving Sports Fans. Anytime. Anywhere.\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n        Skip to main content\n    \n\n        Skip to navigation\n    \n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n<\n\n>\n\n\n\n\n\n\n\n\n\nMenuESPN\n\n\n\n\n\nscores\n\n\n\nNFLNBANCAAMNCAAWNHLSoccer…MLBNCAAFSports BettingBoxingCFLNCAACricketF1GolfHorseLLWSMMANASCARNBA G LeagueOlympic SportsPLLProfessional WrestlingRacingRN BBRN FBRugbyTennisWNBAX GamesXFLMore ESPNFantasyWatchESPN BETESPN+\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n  \n\nSubscribe Now\n\n\n\n\n\nNCAA Men's Basketball\n\n\n\n\n\n\n\nNCAA Women's Basketball\n\n\n\n\n\n\n\nNHL\n\n\n\n\n\n\n\nLALIGA\n\n\n\n\n\n\n\nNCAA Baseball\n\n\n\n\n\n\n\nNCAA Softball\n\n\n\n\n\n\n\nNCAA Men's Tournament Bubble Watch\n\n\nQuick Links\n\n\n\n\nNFL Free 

## XML 파일 로드 또는 다른 BeautifulSoup 파서 사용하기

`SitemapLoader`를 살펴보면 사이트맵 파일을 로드하는 방법에 대한 예시를 확인할 수 있습니다.

이는 이 기능을 사용하는 예시 중 하나입니다.


- `WebBaseLoader`를 사용하여 웹 페이지(https://www.govinfo.gov/content/pkg/CFR-2018-title10-vol3/xml/CFR-2018-title10-vol3-sec431-86.xml)에서 데이터를 로드합니다.
- `default_parser`를 "xml"로 설정하여 XML 형식의 데이터를 파싱합니다.
- `load()` 메서드를 호출하여 웹 페이지에서 문서를 로드합니다.
- 로드된 문서는 `docs` 변수에 저장됩니다.


In [10]:
loader = WebBaseLoader(
    # 웹 기반 로더를 사용하여 XML 문서를 로드합니다.
    "https://www.govinfo.gov/content/pkg/CFR-2018-title10-vol3/xml/CFR-2018-title10-vol3-sec431-86.xml"
)
loader.default_parser = "xml"  # 기본 파서를 XML로 설정합니다.
docs = loader.load()  # 문서를 로드합니다.
docs  # 로드된 문서를 출력합니다.

[Document(page_content='\n\n10\nEnergy\n3\n2018-01-01\n2018-01-01\nfalse\nUniform test method for the measurement of energy efficiency of commercial packaged boilers.\nÂ§ 431.86\nSection Â§ 431.86\n\nEnergy\nDEPARTMENT OF ENERGY\nENERGY CONSERVATION\nENERGY EFFICIENCY PROGRAM FOR CERTAIN COMMERCIAL AND INDUSTRIAL EQUIPMENT\nCommercial Packaged Boilers\nTest Procedures\n\n\n\n\n§\u2009431.86\nUniform test method for the measurement of energy efficiency of commercial packaged boilers.\n(a) Scope. This section provides test procedures, pursuant to the Energy Policy and Conservation Act (EPCA), as amended, which must be followed for measuring the combustion efficiency and/or thermal efficiency of a gas- or oil-fired commercial packaged boiler.\n(b) Testing and Calculations. Determine the thermal efficiency or combustion efficiency of commercial packaged boilers by conducting the appropriate test procedure(s) indicated in Table 1 of this section.\n\nTable 1—Test Requirements for Commercial 