Spider
クロール対象のサイトへのリクエスト、レスポンスのパース処理を記述します
どのようにサイトを辿って、ページの内容をどうパースするかのロジックが Spider に書かれます

Items
クロール対象のデータから抽出したいデータ構造を記述するモデルのようなものです
目的に応じて自由な構造を定義できます
Items は Spider で生成され Pipeline に渡されます

Pipeline
Spider より渡された Items に対する処理を記述します
DB への保存、ファイル出力など目的に応じて自由に処理を記述できます

In [None]:
from bs4 import BeautifulSoup

# ファイルパス
file_path = '../data/html/slider.html'

# ファイルからHTMLを読み込み
with open(file_path, 'r', encoding='utf-8') as file:
    html_content = file.read()

# 読み込んだHTMLをBeautiful Soupで解析
soup = BeautifulSoup(html_content, 'html.parser')

# `<code class="code language-python">`タグに囲まれたブロックを抽出
code_tabs = soup.find('div', class_='codeblock')
tab_names = code_tabs.get('id')
code_blocks = soup.find_all('code', class_='code language-python')

# 抽出したブロックを表示
# for code_tab in code_tabs:
#     print(code_tab.text.strip())  # `.strip()`を追加して余分な空白を削除
# for i, tab_name, code_block in tab_names, enumerate(code_blocks, start=1):
for i, (tab_name, code_block) in enumerate(zip(tab_names, code_blocks), start=1):
    id_value = tab_name.get('id')  # id属性の値を取得
    print(f"Code Block {i} - {id_value}:")
    print(code_block.text.strip())  # `.strip()`を追加して余分な空白を削除
    print("-" * 80)  # 区切り線を表示


In [3]:
import json
import requests

# ../data/json/links_data.jsonを読み込み、
# links_dataにdict型で格納する
with open('../data/json/links_data.json', 'r', encoding='utf-8') as file:
    links_data = json.load(file)

# links_data.json からkey, value=URLを取り出して、
# key + '.html'のファイル名で、../data/html/ に保存する
for key, value in links_data.items():
    # ファイルパス
    file_path = '../data/html/' + key + '.html'
    # valueのURLからHTMLを読み込み
    html_content = requests.get(value).text
    # 読み込んだHTMLをBeautiful Soupで解析して
    soup = BeautifulSoup(html_content, 'html.parser')
    # ファイルに書き込み
    with open(file_path, 'w', encoding='utf-8') as file:
        file.write(soup.prettify())


In [ ]:
# div class="codeblock" の取り出したidをコードブロック名として
# `<code class="code language-python">`タグに囲まれたブロックを抽出する。
# 抽出したブロックを表示する。


In [4]:
from bs4 import BeautifulSoup

# ファイルパス
file_path = '../data/html/slider.html'

# ファイルからHTMLを読み込み
with open(file_path, 'r', encoding='utf-8') as file:
    html_content = file.read()

# 読み込んだHTMLをBeautiful Soupで解析
soup = BeautifulSoup(html_content, 'html.parser')

# すべての`<div class="codeblock">`ブロックを検索
codeblock_divs = soup.find_all('div', class_='codeblock')

# 各`<div>`ブロックとその中のPythonコードブロックを表示
for i, div in enumerate(codeblock_divs, start=1):
    # divブロックのidを取得
    div_id = div.get('id')
    print(f"Div {i} (ID: {div_id}):")
    
    # divブロック内のすべての`<code class="code language-python">`タグに囲まれたコンテンツを抽出
    code_blocks = div.find_all('code', class_='code language-python')
    
    # 抽出したコードブロックを表示
    for j, code_block in enumerate(code_blocks, start=1):
        print(f"  Code Block {j}:")
        print(code_block.text.strip())  # `.strip()`を追加して余分な空白を削除
        print("-" * 80)  # 区切り線を表示

Div 1 (ID: None):
  Code Block 1:
gradio.Slider(···)
--------------------------------------------------------------------------------
Div 2 (ID: sentence_builder_code):
  Code Block 1:
import gradio as gr


def sentence_builder(quantity, animal, countries, place, activity_list, morning):
    return f"""The {quantity} {animal}s from {" and ".join(countries)} went to the {place} where they {" and ".join(activity_list)} until the {"morning" if morning else "night"}"""


demo = gr.Interface(
    sentence_builder,
    [
        gr.Slider(2, 20, value=4, label="Count", info="Choose between 2 and 20"),
        gr.Dropdown(
            ["cat", "dog", "bird"], label="Animal", info="Will add more animals later!"
        ),
        gr.CheckboxGroup(["USA", "Japan", "Pakistan"], label="Countries", info="Where are they from?"),
        gr.Radio(["park", "zoo", "road"], label="Location", info="Where did they go?"),
        gr.Dropdown(
            ["ran", "swam", "ate", "slept"], value=["swam", "sle