### crawling & scraping
### pip install selenium
### brew install chromedriver

In [32]:
import asyncio
import nest_asyncio
from pyppeteer import launch
import os
import json

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time
import pprint

# ディレクトリの確認と作成
pdf_dir = '../data/pdfs/'
json_dir = '../data/json/'
# ディレクトリが存在しない場合は作成
if not os.path.exists(pdf_dir):
    os.makedirs(pdf_dir)

if not os.path.exists(json_dir):
    os.makedirs(json_dir)
# JSONファイルのパス
json_path = os.path.join(json_dir, 'links_data.json')

# ChromeDriverのパスをServiceオブジェクトとして指定
s = Service('/opt/homebrew/bin/chromedriver')  # ここにchromedriverの絶対パスを指定
driver = webdriver.Chrome(service=s)

# GradioのWebページにアクセス
driver.get("https://www.gradio.app")

# WebDriverWaitを使用して、"Docs"リンクが表示されるまで最大10秒間待つ
# CSSセレクタを使用して"Docs"リンクを見つける
docs_button = WebDriverWait(driver, 10).until(
    EC.element_to_be_clickable((By.CSS_SELECTOR, 'a[href="/docs"]'))
)
docs_button.click()

# ここに、"Docs"ページでのさらなる操作を追加できます
# ページが完全にロードされるのを待つために少し待つ
time.sleep(5)

# 遷移後のページ内のすべてのリンクを取得
links = driver.find_elements(By.CSS_SELECTOR, 'a.thin-link')

# リンクのテキストとURLの一覧を表示
links_data = {}
for link in links:
    text = link.text
    href = link.get_attribute('href')
    if href[-1] == '/':
        links_data[text] = href

# JSONファイルとして保存
with open(json_path, 'w') as json_file:
    json.dump(links_data, json_file, indent=4)
    
# link_dataのhrefのページを読み取り、pdfに変換して、ローカルの　.data/pdfs/　に保存する
# nest_asyncioを適用
nest_asyncio.apply()

async def save_pdf(url, output_path):
    browser = await launch()
    page = await browser.newPage()
    # タイムアウトを120秒に設定し、waitUntilオプションをnetworkidle2に変更
    await page.goto(url, {'waitUntil': 'networkidle2', 'timeout': 120000})
    await page.pdf({'path': output_path, 'format': 'A4'})
    await browser.close()
    
# 非同期関数を実行するためのラッパー関数
async def save_all_pdfs(links_data):
    tasks = []
    for title, url in links_data.items():
        # ファイル名の設定（タイトルを使用）
        filename = title.replace(" ", "_").replace("/", "_") + '.pdf'
        filepath = os.path.join(pdf_dir, filename)
        # タスクの作成
        task = asyncio.create_task(save_pdf(url, filepath))
        tasks.append(task)
    # すべてのタスクを同時に実行
    await asyncio.gather(*tasks)

# 非同期関数を実行
asyncio.get_event_loop().run_until_complete(save_all_pdfs(links_data))

# ブラウザを閉じる
time.sleep(5)
driver.quit()


In [7]:
import os

files = {}
files = os.listdir("../data/html/")

In [12]:
for f in files:
    print(f)
print(len(files))

TabbedInterface.html
Dataset.html
Textbox.html
ColorPicker.html
Image.html
Client.html
Label.html
Themes.html
load.html
Audio.html
HTML.html
ScatterPlot.html
Interface.html
Group.html
LogoutButton.html
make_waveform.html
Info.html
CheckboxGroup.html
JSON.html
Video.html
ChatInterfaceNEW.html
Progress.html
Radio.html
HighlightedText.html
Accordion.html
Dataframe.html
Job.html
Row.html
ClearButton.html
BarPlot.html
AnnotatedImage.html
Button.html
mount_gradio_app.html
LinePlot.html
LoginButton.html
FileExplorer.html
Checkbox.html
Number.html
Gallery.html
UploadButton.html
EventData.html
Column.html
Model3D.html
Flagging.html
File.html
Markdown.html
Blocks.html
Dropdown.html
slider.html
Examples.html
Chatbot.html
DuplicateButton.html
Code.html
ImageEditor.html
Plot.html
State.html
Error.html
Tab.html
Request.html
60
