In [1]:
import chromedriver_autoinstaller

path = chromedriver_autoinstaller.install()

### bokjiro_pdf(page_url, js_function, iframe_selector, pdf_xpath, save_path)

In [3]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import requests


def bokjiro_pdf(page_url, js_function, iframe_selector, pdf_xpath, save_path):
    # Selenium WebDriver 설정
    driver = webdriver.Chrome()
    driver.get(page_url)

    # JavaScript 실행
    driver.execute_script(js_function)

    # iframe 전환 대기 (iframe이 로드될 때까지 대기)
    iframe_locator = (By.CSS_SELECTOR, iframe_selector)  # iframe의 title 속성 기준
    WebDriverWait(driver, 10).until(EC.presence_of_element_located(iframe_locator))

    # iframe 전환
    iframe_element = driver.find_element(*iframe_locator)
    driver.switch_to.frame(iframe_element)

    try:
        download_link_element = WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.XPATH, pdf_xpath))
        )
        download_url = download_link_element.get_attribute("href")
        response = requests.get(download_url, stream=True)

        with open(save_path, "wb") as file:
            file.write(response.content)

    except Exception as e:
        print(f"요소를 찾는 중 오류 발생: {e}")

    driver.switch_to.default_content()

    driver.quit()


In [None]:
# 실행 예제
page_url = "https://www.bokjiro.go.kr/ssis-tbu/twatxa/wlfarePr/selectWlfareSubMain.do"
js_function = 'fnSideMenu("MTWAT00072")'  # JavaScript 함수 호출
iframe_selector = 'iframe[title="안내책자"]'
pdf_xpath = '//a[contains(@title, "장애인")]'

save_path = "2024_장애인_안내책자.pdf"

bokjiro_pdf(page_url, js_function, iframe_selector, pdf_xpath, save_path)

### loader

In [5]:
from langchain_community.document_loaders import PyPDFLoader

loader = PyPDFLoader(save_path)
docs = loader.load()

print(f"문서의 수: {len(docs)}")
docs[:5]

문서의 수: 100


[Document(metadata={'source': '2024_장애인_안내책자.pdf', 'page': 0}, page_content=''),
 Document(metadata={'source': '2024_장애인_안내책자.pdf', 'page': 1}, page_content=''),
 Document(metadata={'source': '2024_장애인_안내책자.pdf', 'page': 2}, page_content='복지서비스는 365일 24시간\n활짝 열려있습니다.\n이 책은 \n사회보장위원회  www.ssc.go.kr , 보건복지부  www.mohw.go.kr , \n복지로  www.bokjiro.go.kr 에서 내려받을 수 있습니다. \n이 책자에 수록된 내용을 활용하여 자체 제작하실 수 있습니다.\n※ 단, 이 책에 사용된 이미지는 공공의 목적 이외(상업용·판매용)에는 사용하실 수 없습니다.\n본 책의 내용은 2024년 4월 기준으로 작성되었습니다.\n수록된 내용은 추후 변동될 수 있으니, 정확한 확인을 위해서는 해당 페이지의 문의처로 문의하시기 바랍니다.'),
 Document(metadata={'source': '2024_장애인_안내책자.pdf', 'page': 3}, page_content='건강\n01 발달장애인 부모 상담 지원 08\n02 발달재활 서비스 09\n03 의료급여 제도 10\n04 장애 입양 아동 의료비 지원 11\n05 장애인 의료비 지원 12\n06 장애인 의료재활시설 이용 13\n07 장애친화 건강검진 14\n08 지역장애인보건의료센터 15\n09 청각장애인 인공달팽이관 수술비 지원 16\n10 특수교육대상자 치료지원 서비스 17\n임신·출산\n11 여성장애인 출산비용 지원 18\n12 출산비용 지원 19\n양육\n13 발달장애인 가족휴식 지원 20\n14 발달장애인 긴급돌봄 시범사업 21\n15 아이돌봄서비스 22\n16 언어발달 지원 24\n17 장애아 방과후 보육료 지원 25\n18 장애아 보육료 지원 26\n19