In [None]:
import json
from bs4 import BeautifulSoup

# 假設 `html_content` 是從網頁加載的 HTML 內容
html_content = '...'

# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 尋找包含 JSON-LD 的 <script> 標籤
script_tags = soup.find_all('script', type='application/ld+json')

# **1-1.檢查 JSON-LD 數據：**
確認從`script標籤`中提取出來的數據是有效的`JSON`格式這可以通過打印出`script.string內容`並檢查它是否是一個有效的`JSON`字符串來完成。

In [None]:
for script in script_tags:
    print(script.string)
    # 確保這是一個有效的 JSON 字符串

# **1-2.進行 JSON 解析：**
使用 `json.loads()`將 `JSON` 字符串解析為 `Python 字典`，並捕捉任何可能出現的異常。

In [None]:
for script in script_tags:
    try:
        data = json.loads(script.string)
    except json.JSONDecodeError as e:
        print("JSON 解析錯誤：", e)
        # 如果出現解析錯誤，可以跳過此次循環的後續操作
        continue

**3.檢查 @type 屬性：**
確認解析後的字典中 `@type` 的值是否為 `'Event'`。可以在條件判斷之前打印 `@type` 的值來檢查。

In [None]:
for script in script_tags:
    data = json.loads(script.string)
    # 打印出 @type 屬性來檢查它的值
    print(data.get('@type'))
    if data.get('@type') == 'Event':
    # 這裡應該有一些代碼來處理當 @type 是 'Event' 時的情況
      pass  # 'pass' 是一個占位符，什麼也不做，用於示例
    else:
    # 如果有 'else' 語句，這裡也應該有代碼
      pass


**4.確保有條件匹配的項目：**
如果 `@type` 屬性為 `'Event'` 的項目不存在，則代碼中相關處理的部分不會執行。確保至少有一個符合條件的項目存在。

In [None]:
found_event = False
for script in script_tags:
    data = json.loads(script.string)
    if data.get('@type') == 'Event':
        found_event = True
        # ...（處理數據的代碼）
if not found_event:
    print("沒有找到任何 @type 為 Event 的項目")

沒有找到任何 @type 為 Event 的項目


如果你的腳本提示“`沒有找到任何 @type 為 Event 的項目`”，這意味著在解析的 JSON-LD 結構中沒有匹配到任何具有 `"@type": "Event"` 的項目。

**以下是一些檢查和調試步驟，可以幫助你找出問題所在：**

**1.檢查原始 HTML：**
首先，確保你的 HTML 字符串或文檔中包含了正確的 `script type="application/ld+json" `標籤。你可以打印原始的 HTML 來檢查這些標籤是否存在。

**2.檢查提取的 JSON-LD：**
確認從每個 `script` 標籤中提取的 `JSON-LD` 內容。你可以在 `json.loads()` 之前打印 `script.string` 或 `script.contents` 來查看它是否包含期望的數據。

**3.檢查 JSON-LD 內容：**
如果你能夠從 `script` 標籤中提取 `JSON-LD` 數據，請檢查這些數據是否實際包含 `"@type": "Event"` 屬性。有可能這些數據中的 `"@type"` 屬性有不同的值，或者格式不是你預期的。

**4.驗證 JSON-LD 結構：**
如果 `script` 標籤內的結構是一個 `JSON-LD` 列表（以 [ 開始和結束），你需要遍歷這個列表，而不是直接訪問它的 `"@type"` 屬性。

**5.進行條件檢查：**
如果存在多個 `JSON-LD` 腳本塊，請確保你的代碼遍歷了所有這些塊，並且檢查了每一個塊中的 `"@type"` 屬性。

*以下是一個更新後的代碼示例，包含了一些額外的打印語句來幫助調試:

In [None]:
import json
from bs4 import BeautifulSoup

# 假設 `html_content` 是從網頁加載的 HTML 內容
html_content = '...'  # 這裡應該是從網頁加載的實際 HTML 內容

# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')

# 尋找包含 JSON-LD 的 <script> 標籤
script_tags = soup.find_all('script', type='application/ld+json')

print(f"找到了 {len(script_tags)} 個 <script> 標籤。")

# 對每個找到的 <script> 標籤進行處理
for script in script_tags:
    # 嘗試解析 JSON-LD 內容
    try:
        data = json.loads(script.string)
        # 如果 data 是列表，遍歷列表中的每個項目
        if isinstance(data, list):
            for item in data:
                if item.get('@type') == 'Event':
                    print("找到了一個 @type 為 Event 的項目")
                    # 這裡添加處理項目的代碼
        else:
            if data.get('@type') == 'Event':
                print("找到了一個 @type 為 Event 的項目")
                # 這裡添加處理項目的代碼
    except json.JSONDecodeError as e:
        print("JSON 解析錯誤：", e)

# 如果代碼結束後沒有打印出找到的項目，則表示沒有匹配的項目

找到了 0 個 <script> 標籤。


使用更廣泛的選擇器來嘗試找到 `script`標籤：

In [None]:
script_tags = soup.find_all('script')
print(f"找到了 {len(script_tags)} 個 <script> 標籤。")

# 現在打印出每個 <script> 標籤，來檢查它們是否包含所需的 JSON-LD 數據
for script in script_tags:
    if 'application/ld+json' in script.attrs.get('type', ''):
        print(script.string)

找到了 0 個 <script> 標籤。


***使用 Selenium 獲取動態加載的網頁內容***，你需要安裝 Selenium 庫以及一個瀏覽器驅動（例如 ChromeDriver 或 GeckoDriver）。由於你正在使用 Colab，安裝和配置這些可能會有些不同於在本地機器上的步驟。

**以下是在 Colab 中設置 Selenium 的一般步驤：**

# **2-1.安裝 Selenium：**
在 Colab 的單元格中運行以下命令來安裝 Selenium。

In [None]:
!pip install selenium

Collecting selenium
  Downloading selenium-4.15.2-py3-none-any.whl (10.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.2/10.2 MB[0m [31m51.3 MB/s[0m eta [36m0:00:00[0m
Collecting trio~=0.17 (from selenium)
  Downloading trio-0.23.1-py3-none-any.whl (448 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m448.3/448.3 kB[0m [31m33.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting trio-websocket~=0.9 (from selenium)
  Downloading trio_websocket-0.11.1-py3-none-any.whl (17 kB)
Collecting outcome (from trio~=0.17->selenium)
  Downloading outcome-1.3.0.post0-py2.py3-none-any.whl (10 kB)
Collecting wsproto>=0.14 (from trio-websocket~=0.9->selenium)
  Downloading wsproto-1.2.0-py3-none-any.whl (24 kB)
Collecting h11<1,>=0.9.0 (from wsproto>=0.14->trio-websocket~=0.9->selenium)
  Downloading h11-0.14.0-py3-none-any.whl (58 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m58.3/58.3 kB[0m [31m6.6 MB/s[0m eta [36m0:00:00[0m
[?

# **2-2.安裝並設置 ChromeDriver：**
Colab 環境預先裝有 Chrome，所以你只需要安裝對應的 ChromeDriver。

In [None]:
# 安裝 ChromeDriver
!apt-get update # 更新 apt 庫
!apt install chromium-chromedriver
!cp /usr/lib/chromium-browser/chromedriver /usr/bin

0% [Working]            Hit:1 http://security.ubuntu.com/ubuntu jammy-security InRelease
0% [Waiting for headers] [Waiting for headers] [Connecting to ppa.launchpadcontent.net (185.125.190.                                                                                                    Hit:2 http://archive.ubuntu.com/ubuntu jammy InRelease
0% [Waiting for headers] [Waiting for headers] [Connecting to ppa.launchpadcontent.net (185.125.190.                                                                                                    Hit:3 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
0% [Waiting for headers] [Waiting for headers] [Connecting to ppa.launchpadcontent.net (185.125.190.                                                                                                    Hit:4 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
                                                                            

# **2-3.安装 webdriver_manager：**

在 Colab 中使用 Selenium 需要安装 webdriver_manager，用於自動下載和安裝 WebDriver。根據錯誤信息，看来你還没有安裝 webdriver_manager。

In [None]:
!pip install webdriver_manager



# **2-4.配置 Selenium 使用 ChromeDriver：**
由於 Colab 不提供圖形用戶界面，因此你需要配置 Selenium 以無頭模式（headless mode）運行 Chrome。

In [None]:
# 請確保 Colab 環境中的 Selenium 已經更新到最新版本
!pip install -U selenium
!apt-get update
!apt install chromium-chromedriver

Hit:1 https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64  InRelease
Hit:2 https://cloud.r-project.org/bin/linux/ubuntu jammy-cran40/ InRelease
Hit:3 http://security.ubuntu.com/ubuntu jammy-security InRelease
Hit:4 http://archive.ubuntu.com/ubuntu jammy InRelease
Hit:5 http://archive.ubuntu.com/ubuntu jammy-updates InRelease
Hit:6 https://ppa.launchpadcontent.net/c2d4u.team/c2d4u4.0+/ubuntu jammy InRelease
Hit:7 http://archive.ubuntu.com/ubuntu jammy-backports InRelease
Hit:8 https://ppa.launchpadcontent.net/deadsnakes/ppa/ubuntu jammy InRelease
Hit:9 https://ppa.launchpadcontent.net/graphics-drivers/ppa/ubuntu jammy InRelease
Hit:10 https://ppa.launchpadcontent.net/ubuntugis/ppa/ubuntu jammy InRelease
Reading package lists... Done
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
chromium-chromedriver is already the newest version (1:85.0.4183.83-0ubuntu2.22.04.1).
0 upgraded, 0 newly installed, 0 to remove and 18 n

In [None]:
# 導入 ChromeDriverManager
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager


chrome_options = webdriver.ChromeOptions()
chrome_options.add_argument('--headless')  # 設定無頭模式
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 使用 Service 來指定 chromedriver 的路徑
service = Service(executable_path='/usr/bin/chromedriver')

from selenium import webdriver
from selenium.webdriver.chrome.options import Options

# 為 Selenium 設置 Chrome 選項
chrome_options = Options()
chrome_options.add_argument('--headless')
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')

# 在 Colab 中，可以直接使用 'chromedriver'（无需指定路径），因为它已经被安装在 PATH 中
driver = webdriver.Chrome('chromedriver', options=chrome_options)


In [None]:
# 創建 Chrome WebDriver 的實例
driver = webdriver.Chrome(service=service, options=chrome_options)

# **4.獲取網頁內容：**
使用 Selenium 的 WebDriver 來訪問網頁，並等待必要的動態內容加載完成。

In [None]:
driver.get('你的目標網址')
# 等待頁面加載，可以使用 time.sleep 或 WebDriverWait

# **5.提取 HTML 內容：**
一旦網頁加載完成，你可以獲取頁面的源代碼。

In [None]:
html_content = driver.page_source

# **6.解析 HTML 內容：**
使用 BeautifulSoup 或其他工具來解析 html_content。

In [None]:
soup = BeautifulSoup(html_content, 'html.parser')
# 從 soup 中提取你需要的資訊

# **7.關閉 WebDriver：**
完成操作後，不要忘記關閉 WebDriver。

In [None]:
driver.quit()

In [None]:
# 對每個找到的 <script> 標籤進行處理
for script in script_tags:
    # 將 JSON-LD 內容載入為字典
    data = json.loads(script.string)

    # 檢查 JSON-LD 數據是不是 Event 類型
    if data['@type'] == 'Event':
        # 提取職缺相關資訊
        job_title = data.get('name')
        company = data['organizer'].get('name')
        location = data['location'].get('name')
        description = data.get('description')

        # 技能要求通常包含在描述中，可能需要進一步的處理來提取
        skills = description  # 這裡你可能需要自定義方法來提取特定的技能列表

        # 打印資訊
        print(f'Job Title: {job_title}')
        print(f'Company: {company}')
        print(f'Location: {location}')
        print(f'Description: {description}')
        print(f'Skills: {skills}')
        print('---')