In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re
import json

In [2]:

# 爬取網頁內容
url = 'https://www.ptt.cc/bbs/KoreaDrama/index.html'
response = requests.get(url)
html_content = response.text

In [3]:
response.text

'<!DOCTYPE html>\n<html>\n\t<head>\n\t\t<meta charset="utf-8">\n\t\t\n\n<meta name="viewport" content="width=device-width, initial-scale=1">\n\n<title>看板 KoreaDrama 文章列表 - 批踢踢實業坊</title>\n\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-common.css">\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen">\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-custom.css">\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen">\n<link rel="stylesheet" type="text/css" href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print">\n\n\n\n\n\t</head>\n    <body>\n\t\t\n<div id="topbar-container">\n\t<div id="topbar" class="bbs-content">\n\t\t<a id="logo" href="/bbs/">批踢踢實業坊</a>\n\t\t<span>&rsaquo;</span>\n\t\t<a class="board" href="/bbs/KoreaDrama/index.html"><span class="board-label">看板 </span>KoreaDrama</a>\n\t\t<a class="right small" href="/about.h

In [4]:
# 使用 BeautifulSoup 解析 HTML
soup = BeautifulSoup(html_content, 'html.parser')


In [5]:
# 找到標題的標籤
title_tags = soup.find_all('div', class_='title')

# 提取標題文本
titles = []
for tag in title_tags:
    title = tag.text.strip()
    titles.append(title)

# 印出提取的標題
for title in titles:
    print("Title:", title)


Title: [LIVE] ENA 夜限照相館 EP11
Title: [情報] 鄭麗媛、魏嘏雋主演《畢業》預告
Title: [心得] 美好世界（雷）
Title: [閒聊] 淚之女王 劇情猜測 關於病情
Title: Re: [閒聊] 淚之女王 劇情猜測 關於病情
Title: (本文已被刪除) [mooneyess]
Title: [閒聊] 韓網熱議/金秀賢收視率跟角色財產成正比
Title: [情報] 曹政奭電影《Pilot》韓國7/31上映
Title: [LIVE] 支配物種 Ep.03-04
Title: [心得] 車貞淑醫生 意外不錯看
Title: [新聞] Coupang Play 公布今年陣容
Title: [心得] 淚之女王默默鋪陳的洪家人(雷)
Title: [公告] 韓劇板板規 Ver.16 (21/03/31修訂)
Title: [情報] 播出中韓劇與跟播平台 ＆ LIVE 文認領區
Title: [置底] 韓劇「求、推薦區」
Title: [置底] 4月難以發文討論之「閒聊區」


In [6]:
# 找到作者的標籤
author_tags = soup.find_all('div', class_='author')

# 提取作者文本
authors = []
for tag in author_tags:
    author = tag.text.strip()
    authors.append(author)

# 印出提取的作者
for author in authors:
    print("Author:", author)

Author: kawasau
Author: XOD
Author: fishgift
Author: mooneyess
Author: erric
Author: -
Author: mininakai
Author: jinyi
Author: Gardenia0603
Author: b8827025
Author: yihsuan1122
Author: l89
Author: XDDDD555
Author: watase124
Author: XDDDD555
Author: will83tw1


In [7]:
# 找到日期的標籤
date_tags = soup.find_all('div', class_='date')

# 提取日期文本
dates = []
for tag in date_tags:
    date = tag.text.strip()
    dates.append(date)

# 印出提取的日期
for date in dates:
    print("Date:", date)


Date: 4/16
Date: 4/16
Date: 4/16
Date: 4/17
Date: 4/17
Date: 4/17
Date: 4/17
Date: 4/17
Date: 4/17
Date: 4/17
Date: 4/17
Date: 4/17
Date: 10/06
Date: 12/01
Date: 8/31
Date: 4/02


In [8]:
# 將提取的資料組合成 DataFrame
data = {'Title': titles, 'Author': authors, 'Date': dates}
df = pd.DataFrame(data)


In [9]:
# 輸出成 CSV 檔
df.to_csv('KoreaDrama_posts.csv', index=False)

print(df)



                             Title        Author   Date
0            [LIVE] ENA 夜限照相館 EP11       kawasau   4/16
1             [情報] 鄭麗媛、魏嘏雋主演《畢業》預告           XOD   4/16
2                     [心得] 美好世界（雷）      fishgift   4/16
3              [閒聊] 淚之女王 劇情猜測 關於病情     mooneyess   4/17
4          Re: [閒聊] 淚之女王 劇情猜測 關於病情         erric   4/17
5             (本文已被刪除) [mooneyess]             -   4/17
6         [閒聊] 韓網熱議/金秀賢收視率跟角色財產成正比     mininakai   4/17
7        [情報] 曹政奭電影《Pilot》韓國7/31上映         jinyi   4/17
8             [LIVE] 支配物種 Ep.03-04  Gardenia0603   4/17
9                 [心得] 車貞淑醫生 意外不錯看      b8827025   4/17
10        [新聞] Coupang Play 公布今年陣容   yihsuan1122   4/17
11            [心得] 淚之女王默默鋪陳的洪家人(雷)           l89   4/17
12  [公告] 韓劇板板規 Ver.16 (21/03/31修訂)      XDDDD555  10/06
13     [情報] 播出中韓劇與跟播平台 ＆ LIVE 文認領區     watase124  12/01
14                  [置底] 韓劇「求、推薦區」      XDDDD555   8/31
15             [置底] 4月難以發文討論之「閒聊區」     will83tw1   4/02


In [10]:
# 輸出成 JSON 檔
with open('KoreaDrama_posts.json', 'w') as json_file:
    json.dump(data, json_file, ensure_ascii=False, indent=4)