# 爬取PTT文章
在這份範例中，會透過在PTT網站上爬取文章的內容，為你示範如何透過網頁爬蟲來取得網頁上的資料。



## 爬取單一文章內容

### 使用`request`取得網頁內容
+ `request.get(url)`: 使用GET方式取得網頁內容
+ 回傳的物件為`Response`型態，可以透過`Response.text`取得網頁內容
    + 若狀態碼為`200`：表示成功取得網頁內容
    + 若狀態碼為`4xx`：通常是使用者端的某些問題而導致沒有收到內容
    + 若狀態碼為`5xx`：通常是伺服器端的某些問題而導致沒有收到內容

In [1]:
import requests # requests是一個Python HTTP請求套件，可以用來向網站發送各種HTTP請求

URL = "https://www.ptt.cc/bbs/joke/M.1380444935.A.7A8.html" # PTT joke版某篇文章的網址

response = requests.get(URL)
response # <Response [200]> 代表成功

<Response [200]>

In [None]:
# 透過 text 屬性可以取得網頁原始碼
print(response.text)

### 使用`BeautifulSoup`解析網頁內容
若是直接查看未解析過的網頁原始碼，會發現內容非常雜亂，且不易閱讀。
因此我們需要使用`BeautifulSoup`來協助我們，將網頁內容解析成格式化的資料，以利後續的處理。
+ `BeautifulSoup(response.text, "lxml")`: 將網頁內容解析成格式化的資料，其中的參數如下
    + `response.text`: 網頁內容
    + `lxml`: 解析器，也有其他選項，例如：
        + `lxml`: 使用`lxml`解析器
        + `html.parser`: 使用`html.parser`解析器
        + `html5lib`: 使用`html5lib`解析器

In [2]:
from bs4 import BeautifulSoup # 注意這邊是從bs4這個套件中，引入BeautifulSoup這個類別

soup = BeautifulSoup(response.text, "html.parser")
soup # 格式化排版後的網頁內容

<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>Fw: [問卦] 英文真的重要嗎 - 看板 joke - 批踢踢實業坊</title>
<meta content="all" name="robots"/>
<meta content="Ptt BBS 批踢踢" name="keywords"/>
<meta content="作者: milkcake (光良的星星) 看板: Gossiping
標題: Re: [問卦] 英文真的重要嗎
時間: Sun Sep 29 16:26:31 2013
本人曾在高雄某外商公司(美商)工作過兩年
期間幾乎沒講過英文
" name="description"/>
<meta content="Ptt 批踢踢實業坊" property="og:site_name"/>
<meta content="Fw: [問卦] 英文真的重要嗎" property="og:title"/>
<meta content="作者: milkcake (光良的星星) 看板: Gossiping
標題: Re: [問卦] 英文真的重要嗎
時間: Sun Sep 29 16:26:31 2013
本人曾在高雄某外商公司(美商)工作過兩年
期間幾乎沒講過英文
" property="og:description"/>
<link href="https://www.ptt.cc/bbs/joke/M.1380444935.A.7A8.html" rel="canonical"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-common.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-cus

#### 取得文章標題及其他資訊

In [3]:
article_meta_values = soup.select(".article-meta-value")
article_meta_values

[<span class="article-meta-value">lihsien (希洛)</span>,
 <span class="article-meta-value">joke</span>,
 <span class="article-meta-value">Fw: [問卦] 英文真的重要嗎</span>,
 <span class="article-meta-value">Sun Sep 29 16:55:33 2013</span>]

In [4]:
# 分別取出作者、看板、標題、時間
post_author = article_meta_values[0].text
post_category = article_meta_values[1].text
post_title = article_meta_values[2].text
post_time = article_meta_values[3].text

print(f"作者：{post_author}\n",
      f"看板：{post_category}\n",
      f"標題：{post_title}\n",
      f"時間：{post_time}\n")

作者：lihsien (希洛)
 看板：joke
 標題：Fw: [問卦] 英文真的重要嗎
 時間：Sun Sep 29 16:55:33 2013



#### 取得留言列表

In [5]:
# 找出所有 class 為 "f3 push-content" 的 tag
push_contents = soup.select(".f3.push-content") # 記得要把空格換成點
push_contents

[<span class="f3 push-content">:XDDDDDDDDDD</span>,
 <span class="f3 push-content">:倒數第二句??</span>,
 <span class="f3 push-content">:ㄜ..</span>,
 <span class="f3 push-content">:美商英文能力不好怎麼進的....</span>,
 <span class="f3 push-content">:能夠當下判斷出綠皮馬鈴薯才重要</span>,
 <span class="f3 push-content">:XDDDDD</span>,
 <span class="f3 push-content">:有好笑到</span>,
 <span class="f3 push-content">:麥當勞打工......</span>,
 <span class="f3 push-content">:XDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDD</span>,
 <span class="f3 push-content">:........麥當勞 靠</span>,
 <span class="f3 push-content">:.........</span>,
 <span class="f3 push-content">:。。。。。。</span>,
 <span class="f3 push-content">:這篇很瓦風</span>,
 <span class="f3 push-content">:..................</span>,
 <span class="f3 push-content">:會覺得某件事不重要都是沒辦法把那件事作好才安慰自己</span>,
 <span class="f3 push-content">:XDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDDD</span>,
 <span class="f3 push-content">:XDDDD</span>,
 <span class="f3 push-content">:就是有這種文，八卦板才有活力</span>,
 <span class="f3 pus

#### 進階：按照結構找出留言的各種資訊
在前面的方式中，我們會發現若直接用`f3 push-content`去取得內容，只會留下留言的內容，但是無法取得留言的其他資訊(例如：留言者、留言時間)。  
因此這邊可以對過程進行調整，先找出每一則推文內容的上一層的物件，再取得它底下的各種資訊

In [6]:
# 找出所有 class 為 "push" 的 tag
pushes = soup.select(".push")
pushes[0] # 先看看第一個推文的結構


<div class="push"><span class="hl push-tag">推 </span><span class="f3 hl push-userid">cephalitis</span><span class="f3 push-content">:XDDDDDDDDDD</span><span class="push-ipdatetime"> 09/29 16:27
</span></div>

In [7]:
# 以pushes[0]為例
# 分別找出 "hl push-tag", "f3 hl push-userid", "f3 push-content", "f3 push-ipdatetime" 的 tag
push_tag = pushes[0].select_one(".hl.push-tag").text
push_userid = pushes[0].select_one(".f3.hl.push-userid").text
push_content = pushes[0].select_one(".f3.push-content").text
push_ipdatetime = pushes[0].select_one(".push-ipdatetime").text

print(f"推文類型：{push_tag}\n",
      f"推文作者：{push_userid}\n",
      f"推文內容：{push_content}\n",
      f"推文時間：{push_ipdatetime}\n")

推文類型：推 
 推文作者：cephalitis
 推文內容：:XDDDDDDDDDD
 推文時間： 09/29 16:27




## 搜尋關鍵字取得文章列表

### 從搜尋頁面取得內容

In [8]:
import requests
from bs4 import BeautifulSoup

BOARD = "joke" # 欲搜尋的看板
KEYWORD = "地獄" # 欲搜尋的關鍵字
SEARCH_URL = f"https://www.ptt.cc/bbs/{BOARD}/search?page=1&q={KEYWORD}"
response = requests.get(SEARCH_URL)
response

<Response [200]>

In [9]:
soup = BeautifulSoup(response.text, "lxml")
soup

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1" name="viewport"/>
<title>地獄 - joke - 批踢踢實業坊</title>
<link href="//images.ptt.cc/bbs/v2.27/bbs-common.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-base.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-custom.css" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/pushstream.css" media="screen" rel="stylesheet" type="text/css"/>
<link href="//images.ptt.cc/bbs/v2.27/bbs-print.css" media="print" rel="stylesheet" type="text/css"/>
</head>
<body>
<div id="topbar-container">
<div class="bbs-content" id="topbar">
<a href="/bbs/" id="logo">批踢踢實業坊</a>
<span>›</span>
<a class="board" href="/bbs/joke/index.html"><span class="board-label">看板 </span>joke</a>
<a class="right small" href="/about.html">關於我們</a>
<a class="right small" href="/contact.html">聯絡資訊</a>
</div>
</div>
<div id="main-c

### 取得文章列表

In [10]:
# 找出每一篇貼文的結果
posts = soup.select("div.r-ent")
posts[0] # 先看看第一篇貼文的結構

<div class="r-ent">
<div class="nrec"><span class="hl f3">19</span></div>
<div class="title">
<a href="/bbs/joke/M.1694424295.A.4F7.html">[地獄] 時光膠囊</a>
</div>
<div class="meta">
<div class="author">atliberty</div>
<div class="article-menu">
<div class="trigger">⋯</div>
<div class="dropdown">
<div class="item"><a href="/bbs/joke/search?q=thread%3A%5B%E5%9C%B0%E7%8D%84%5D+%E6%99%82%E5%85%89%E8%86%A0%E5%9B%8A">搜尋同標題文章</a></div>
<div class="item"><a href="/bbs/joke/search?q=author%3Aatliberty">搜尋看板內 atliberty 的文章</a></div>
</div>
</div>
<div class="date"> 9/11</div>
<div class="mark"></div>
</div>
</div>

In [11]:
# 以posts[0]為例，找出連結、標題、作者、推文數
post_url = posts[0].find("div", "title").a.attrs["href"]
post_title = posts[0].find("div", "title").text.strip()
post_author = posts[0].find("div", "author").text.strip()
post_push = posts[0].find("div", "nrec").text.strip()
print(f"貼文連結：{post_url}\n")
print(f"貼文標題：{post_title}\n")
print(f"貼文作者：{post_author}\n")
print(f"貼文推文數：{post_push}\n")

貼文連結：/bbs/joke/M.1694424295.A.4F7.html

貼文標題：[地獄] 時光膠囊

貼文作者：atliberty

貼文推文數：19



In [12]:
# 將這個頁面的所有貼文資訊加入到一個list中
post_list = []
for post in posts:
    post_url = post.find("div", "title").a.attrs["href"]
    post_title = post.find("div", "title").text.strip()
    post_author = post.find("div", "author").text.strip()
    post_push = post.find("div", "nrec").text.strip()
    post_list.append({
        "url": post_url,
        "title": post_title,
        "author": post_author,
        "push": post_push
    })
post_list[:3] # 查看前三篇貼文的資訊

[{'url': '/bbs/joke/M.1694424295.A.4F7.html',
  'title': '[地獄] 時光膠囊',
  'author': 'atliberty',
  'push': '19'},
 {'url': '/bbs/joke/M.1694409851.A.6C3.html',
  'title': '[地獄] 牧師死後',
  'author': 'belleaya',
  'push': '78'},
 {'url': '/bbs/joke/M.1694238818.A.7B6.html',
  'title': '[地獄] 迴力鏢打到自己囉',
  'author': 'sherlockan',
  'push': '48'}]

### 取得所有文章列表(跨頁)

In [13]:
post_list = [] # 建立一個空的list來存放所有文章資訊
page = 1 # 從第一頁開始
while True:
    full_url = f"https://www.ptt.cc/bbs/{BOARD}/search?page={page}&q={KEYWORD}"
    response = requests.get(full_url, cookies={"over18": "1"}) # 設定cookie通過滿18歲的檢查
    print(f"正在處理第 {page} 頁，目前累積 {len(post_list)} 篇文章", end="\r")
    if response.status_code != 200:
        break
    else:
        soup = BeautifulSoup(response.text, "lxml")
        posts = soup.select("div.r-ent")
        for post in posts:
            post_url = post.find("div", "title").a.attrs["href"]
            post_title = post.find("div", "title").text.strip()
            post_author = post.find("div", "author").text.strip()
            post_push = post.find("div", "nrec").text.strip()
            post_list.append({
                "url": post_url,
                "title": post_title,
                "author": post_author,
                "push": post_push
            })
        page += 1

正在處理第 92 頁，目前累積 1812 篇文章

In [14]:
# 將資料轉換成dataframe
import pandas as pd
df = pd.DataFrame(post_list, columns=["title", "author", "push", "url"])
df

Unnamed: 0,title,author,push,url
0,[地獄] 時光膠囊,atliberty,19,/bbs/joke/M.1694424295.A.4F7.html
1,[地獄] 牧師死後,belleaya,78,/bbs/joke/M.1694409851.A.6C3.html
2,[地獄] 迴力鏢打到自己囉,sherlockan,48,/bbs/joke/M.1694238818.A.7B6.html
3,[地獄] 哪個展覽活動待人冷淡,Hanedas,3,/bbs/joke/M.1693932594.A.B11.html
4,[地獄] 孝順的阿明,xx49874039,4,/bbs/joke/M.1693316842.A.0C1.html
...,...,...,...,...
1807,Re: [耍冷] 吳鳳死了下地獄！？,aaagang,23,/bbs/joke/M.1383835628.A.639.html
1808,[耍冷] 吳鳳死了下地獄！？,SUZIKU,1,/bbs/joke/M.1383832975.A.2F0.html
1809,[笑話] 你要上天堂還是下地獄?,ijn123g,1,/bbs/joke/M.1382606366.A.5C9.html
1810,[翻譯] Oatmeal：印表機是地獄的使者！,SetsunaLeo,8,/bbs/joke/M.1379386388.A.D6E.html


In [15]:
# 儲存成csv檔
df.to_csv("ptt_joke.csv", index=False, encoding="utf-8-sig")

## 從列表取得每一篇文章的內容與留言

### 還原網址

In [16]:
import pandas as pd
df = pd.read_csv("ptt_joke.csv")
df["url"] = df["url"].apply(lambda x: "https://www.ptt.cc" + x)
df

Unnamed: 0,title,author,push,url
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...
1,[地獄] 牧師死後,belleaya,78,https://www.ptt.cc/bbs/joke/M.1694409851.A.6C3...
2,[地獄] 迴力鏢打到自己囉,sherlockan,48,https://www.ptt.cc/bbs/joke/M.1694238818.A.7B6...
3,[地獄] 哪個展覽活動待人冷淡,Hanedas,3,https://www.ptt.cc/bbs/joke/M.1693932594.A.B11...
4,[地獄] 孝順的阿明,xx49874039,4,https://www.ptt.cc/bbs/joke/M.1693316842.A.0C1...
...,...,...,...,...
1807,Re: [耍冷] 吳鳳死了下地獄！？,aaagang,23,https://www.ptt.cc/bbs/joke/M.1383835628.A.639...
1808,[耍冷] 吳鳳死了下地獄！？,SUZIKU,1,https://www.ptt.cc/bbs/joke/M.1383832975.A.2F0...
1809,[笑話] 你要上天堂還是下地獄?,ijn123g,1,https://www.ptt.cc/bbs/joke/M.1382606366.A.5C9...
1810,[翻譯] Oatmeal：印表機是地獄的使者！,SetsunaLeo,8,https://www.ptt.cc/bbs/joke/M.1379386388.A.D6E...


### 取得回應結果

In [17]:
df = df[:20] # 取其中20筆作為示範，若要取得所有資料，請將這行拿掉
df

Unnamed: 0,title,author,push,url
0,[地獄] 時光膠囊,atliberty,19.0,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...
1,[地獄] 牧師死後,belleaya,78.0,https://www.ptt.cc/bbs/joke/M.1694409851.A.6C3...
2,[地獄] 迴力鏢打到自己囉,sherlockan,48.0,https://www.ptt.cc/bbs/joke/M.1694238818.A.7B6...
3,[地獄] 哪個展覽活動待人冷淡,Hanedas,3.0,https://www.ptt.cc/bbs/joke/M.1693932594.A.B11...
4,[地獄] 孝順的阿明,xx49874039,4.0,https://www.ptt.cc/bbs/joke/M.1693316842.A.0C1...
5,[地獄] 鳳梨加油,LeeAnAn,7.0,https://www.ptt.cc/bbs/joke/M.1693019558.A.515...
6,[地獄] 華格納大廚死了,chibmw,2.0,https://www.ptt.cc/bbs/joke/M.1692825520.A.2CC...
7,[地獄] 為什麼大家都不禮讓行人,Hanbor,,https://www.ptt.cc/bbs/joke/M.1692601045.A.590...
8,[地獄]吉娃娃被輾,hchsu,24.0,https://www.ptt.cc/bbs/joke/M.1692336705.A.776...
9,[地獄] 買星巴克前面排的是牙套大舌頭妹,LeeAnAn,4.0,https://www.ptt.cc/bbs/joke/M.1691997590.A.4B9...


In [18]:
import pyprind # 顯示進度條
import requests

pbar = pyprind.ProgBar(len(df["url"]), title="正在抓取文章中...") # 設定進度條

def url2response(url):
    response = requests.get(url, cookies={"over18": "1"})
    pbar.update() # 更新進度條
    return response

df["response"] = df["url"].apply(url2response)




A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["response"] = df["url"].apply(url2response)


### 從回應結果提取文章內容

In [19]:
def get_post_content(response):
    soup = BeautifulSoup(response.text, "lxml")
    # 篩選文章內容
    content = soup.select_one(".bbs-screen.bbs-content")
    # 移除所有span 和div tag 等不必要的tag
    for tag in content.select("span, div, a"):
        tag.decompose()
    return content.text.strip() # 回傳文章內容

df["內文"] = df["response"].apply(get_post_content)
df["內文"]


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["內文"] = df["response"].apply(get_post_content)


0     一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...
1     有個牧師過世了\n\n他的靈魂上了天堂\n\n本來期待看到他信奉的上帝\n\n沒想到來迎接他...
2                                                    --
3                                             客博會\n\n--
4     阿明是一個很孝順的孩子\n\n有一天他因為不明原因死了\n\n於是家屬安排驗屍\n\n只見法...
5     鳳梨加油，誰沒有過去\n誰沒有假扮檢查官詐騙阿嬤\n誰沒有吸毒，誰沒有販毒\n誰沒有把另一半...
6                                            廚爆安涼\n\n--
7                                   當人不讓\n\n都變成鬼了\n\n--
8     吉娃娃被輾過會變成什麼\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\...
9     去買星巴克排隊時前面有個戴牙套大舌頭的女孩\n點了一杯「某ㄍㄚˊ拿鐵」\n-----\nSe...
10            那核彈..........\n在那爆\n\n--\n\n哎呦 你臉紅了\n\n--
11    睡前滑了一下短影片\n\n嗯 又是搬運別人影片的抄襲仔\n\n繼續滑....\n\n嗯？？\...
12    現在AI都這麼地獄嗎?\n\n\n力克胡哲圖\n-----\nSent from JPTT ...
13    愛馬仕官方line今天發了這張貼心贈禮\n\n\n\n………..\n七月還沒到啊\n\n\n...
14                  女：別人的男友都是小奶狗，你只有狗\n男：因為小奶在你那邊\n\n--
15    觀眾丟了一杯價值台幣30的飲料\n\n\n      馬上得到演唱會級的無線麥克風 最少上萬...
16    為什麼憂鬱症的人都不往好處想?\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\...
17                                            心臟

### 從回應結果提取留言列表

In [20]:
def get_comments(response):
    soup = BeautifulSoup(response.text, "lxml")
    pushes = soup.select(".push")
    comment_list = []
    
    for push in pushes:
        # 對每一則留言進行處理，取得相關資訊並加入到comment_list中
        push_tag = push.find("span", "push-tag").text.strip() # 推/噓/→
        push_userid = push.find("span", "push-userid").text.strip() # 推文的使用者id
        push_content = push.find("span", "push-content").text.strip()[2:] # 推文內容
        push_ipdatetime = push.find("span", "push-ipdatetime").text.strip() # 推文的時間
        comment_list.append({
            "推文類型": push_tag,
            "使用者id": push_userid,
            "推文內容": push_content,
            "推文時間": push_ipdatetime,
        })
    
    return comment_list
    
df["留言列表"] = df["response"].apply(get_comments)
df["留言列表"][0] # 查看第一篇文章的留言列表

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df["留言列表"] = df["response"].apply(get_comments)


[{'推文類型': '推', '使用者id': 'Birdy', '推文內容': '樓下說你是柯粉', '推文時間': '09/11 18:10'},
 {'推文類型': '→',
  '使用者id': 'FlynnZhang',
  '推文內容': '不小心把肛塞劑吃下去 食肛交囊',
  '推文時間': '09/11 19:07'},
 {'推文類型': '噓', '使用者id': 'LeeAnAn', '推文內容': '政治滾出joke板', '推文時間': '09/11 19:10'},
 {'推文類型': '推',
  '使用者id': 'cerberi',
  '推文內容': '講笑話 農業部是專業的 何必來這裡欺負業餘玩家',
  '推文時間': '09/11 19:13'},
 {'推文類型': '推',
  '使用者id': 'iKelly',
  '推文內容': '政治性笑話也是笑話其中一類啊，不然蘇聯系列怎麼辦？',
  '推文時間': '09/11 21:46'},
 {'推文類型': '推', '使用者id': 'noname912301', '推文內容': 'www', '推文時間': '09/11 22:05'},
 {'推文類型': '推', '使用者id': 'if4', '推文內容': '         www', '推文時間': '09/11 22:09'},
 {'推文類型': '噓',
  '使用者id': 'markkao456',
  '推文內容': '重點是不好笑-.-',
  '推文時間': '09/11 22:56'},
 {'推文類型': '推',
  '使用者id': 'kaitokid1214',
  '推文內容': '齁氣氣氣氣氣氣氣',
  '推文時間': '09/11 23:01'},
 {'推文類型': '推',
  '使用者id': 'fishest',
  '推文內容': '不是不好笑 是根本笑不出來',
  '推文時間': '09/11 23:45'},
 {'推文類型': '→',
  '使用者id': 'shintz',
  '推文內容': '夠酸 但是不好笑，政府護航的太難看',
  '推文時間': '09/12 00:19'},
 {'推文類型': '推',
  '使用者id': 'w

### 拆分留言列表並儲存
+ 目前我們的結果中是一整個list，但是這樣的資料是比較難被csv或xlsx進行儲存的，因此我們需要做一些調整。
+ 將留言列表用`explode()`展開，讓每一則留言都是一個row

In [21]:
# 查看目前的DataFrame的結構
df.head()

Unnamed: 0,title,author,push,url,response,內文,留言列表
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,<Response [200]>,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,"[{'推文類型': '推', '使用者id': 'Birdy', '推文內容': '樓下說你..."
1,[地獄] 牧師死後,belleaya,78,https://www.ptt.cc/bbs/joke/M.1694409851.A.6C3...,<Response [200]>,有個牧師過世了\n\n他的靈魂上了天堂\n\n本來期待看到他信奉的上帝\n\n沒想到來迎接他...,"[{'推文類型': '推', '使用者id': 'chocoboytw', '推文內容': ..."
2,[地獄] 迴力鏢打到自己囉,sherlockan,48,https://www.ptt.cc/bbs/joke/M.1694238818.A.7B6...,<Response [200]>,--,"[{'推文類型': '→', '使用者id': 'Ahhhhaaaa', '推文內容': '..."
3,[地獄] 哪個展覽活動待人冷淡,Hanedas,3,https://www.ptt.cc/bbs/joke/M.1693932594.A.B11...,<Response [200]>,客博會\n\n--,"[{'推文類型': '推', '使用者id': 'remixk', '推文內容': '肩酸'..."
4,[地獄] 孝順的阿明,xx49874039,4,https://www.ptt.cc/bbs/joke/M.1693316842.A.0C1...,<Response [200]>,阿明是一個很孝順的孩子\n\n有一天他因為不明原因死了\n\n於是家屬安排驗屍\n\n只見法...,"[{'推文類型': '推', '使用者id': 'if4', '推文內容': '不是「笑死」..."


In [28]:
# 展開留言列表
df_exploded = df.explode("留言列表")
df_exploded.dropna(subset=["留言列表"], inplace=True) # 移除留言列表為空值的資料
df_exploded["推文類型"] = df_exploded["留言列表"].apply(lambda x: x["推文類型"])
df_exploded["使用者id"] = df_exploded["留言列表"].apply(lambda x: x["使用者id"])
df_exploded["推文內容"] = df_exploded["留言列表"].apply(lambda x: x["推文內容"])
df_exploded["推文時間"] = df_exploded["留言列表"].apply(lambda x: x["推文時間"])
df_exploded = df_exploded.drop("留言列表", axis=1) # 移除留言列表欄位
df_exploded

Unnamed: 0,title,author,push,url,response,內文,推文類型,使用者id,推文內容,推文時間
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,<Response [200]>,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,推,Birdy,樓下說你是柯粉,09/11 18:10
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,<Response [200]>,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,→,FlynnZhang,不小心把肛塞劑吃下去 食肛交囊,09/11 19:07
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,<Response [200]>,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,噓,LeeAnAn,政治滾出joke板,09/11 19:10
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,<Response [200]>,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,推,cerberi,講笑話 農業部是專業的 何必來這裡欺負業餘玩家,09/11 19:13
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,<Response [200]>,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,推,iKelly,政治性笑話也是笑話其中一類啊，不然蘇聯系列怎麼辦？,09/11 21:46
...,...,...,...,...,...,...,...,...,...,...
18,[地獄] 一個笑話,kinda83,2,https://www.ptt.cc/bbs/joke/M.1690413062.A.ADD...,<Response [200]>,台南今天放颱風假！\n\n\n\n快進來笑北北基桃！\n\n--,→,m6990400,放颱風假明明對喜歡上班的社畜更有利。,07/27 07:42
18,[地獄] 一個笑話,kinda83,2,https://www.ptt.cc/bbs/joke/M.1690413062.A.ADD...,<Response [200]>,台南今天放颱風假！\n\n\n\n快進來笑北北基桃！\n\n--,推,ailio,社畜颱風都是無薪假，上班哪有加班費,07/27 07:50
18,[地獄] 一個笑話,kinda83,2,https://www.ptt.cc/bbs/joke/M.1690413062.A.ADD...,<Response [200]>,台南今天放颱風假！\n\n\n\n快進來笑北北基桃！\n\n--,噓,ccchenny,自己有放到就很爽 沒放就笑人家,07/27 08:45
18,[地獄] 一個笑話,kinda83,2,https://www.ptt.cc/bbs/joke/M.1690413062.A.ADD...,<Response [200]>,台南今天放颱風假！\n\n\n\n快進來笑北北基桃！\n\n--,推,kcryo0103,現在都改WFH，沒有假了,07/27 08:53


In [29]:
# 移除不必要的欄位後儲存
df_exploded = df_exploded.drop(["response"], axis=1)
df_exploded.to_csv("ptt_joke_comments.csv", index=False, encoding="utf-8-sig")
df_exploded

Unnamed: 0,title,author,push,url,內文,推文類型,使用者id,推文內容,推文時間
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,推,Birdy,樓下說你是柯粉,09/11 18:10
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,→,FlynnZhang,不小心把肛塞劑吃下去 食肛交囊,09/11 19:07
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,噓,LeeAnAn,政治滾出joke板,09/11 19:10
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,推,cerberi,講笑話 農業部是專業的 何必來這裡欺負業餘玩家,09/11 19:13
0,[地獄] 時光膠囊,atliberty,19,https://www.ptt.cc/bbs/joke/M.1694424295.A.4F7...,一群小朋友相約在校園大樹旁開挖數年前埋下的時光膠囊\n\n打開後，裡面埋著一本獵人漫畫，一罐...,推,iKelly,政治性笑話也是笑話其中一類啊，不然蘇聯系列怎麼辦？,09/11 21:46
...,...,...,...,...,...,...,...,...,...
18,[地獄] 一個笑話,kinda83,2,https://www.ptt.cc/bbs/joke/M.1690413062.A.ADD...,台南今天放颱風假！\n\n\n\n快進來笑北北基桃！\n\n--,→,m6990400,放颱風假明明對喜歡上班的社畜更有利。,07/27 07:42
18,[地獄] 一個笑話,kinda83,2,https://www.ptt.cc/bbs/joke/M.1690413062.A.ADD...,台南今天放颱風假！\n\n\n\n快進來笑北北基桃！\n\n--,推,ailio,社畜颱風都是無薪假，上班哪有加班費,07/27 07:50
18,[地獄] 一個笑話,kinda83,2,https://www.ptt.cc/bbs/joke/M.1690413062.A.ADD...,台南今天放颱風假！\n\n\n\n快進來笑北北基桃！\n\n--,噓,ccchenny,自己有放到就很爽 沒放就笑人家,07/27 08:45
18,[地獄] 一個笑話,kinda83,2,https://www.ptt.cc/bbs/joke/M.1690413062.A.ADD...,台南今天放颱風假！\n\n\n\n快進來笑北北基桃！\n\n--,推,kcryo0103,現在都改WFH，沒有假了,07/27 08:53


In [30]:
# 移除不必要的欄位後儲存文章內容
df.drop(["response", "留言列表"], axis=1).to_csv("ptt_joke_content.csv", index=False, encoding="utf-8-sig")