In [None]:

#   透過Python抓取PTT文章列表與內文 by Wen Chieh
import re
#   載入套件
from bs4 import BeautifulSoup as bs
import requests
import pandas as pd

#   建立函式
def get_ptt_post(soup):

    #   CH2 - 取得文章列表
    #   目標 div
    data = soup.select("div.r-ent")
    result = []
    for i in data:

        #   1 - 標題
        title = i.select("div.title")[0].text.strip()

        #   忽略 公告類文章 & 已刪文文章
        if "公告" in title or ("已被" in title and "刪除" in title):
            continue

        #   2 - 發文時間
        date = i.select("div.date")[0].text.strip()

        #   3 - 作者
        author = i.select("div.author")[0].text.strip()

        #   4 - 網址
        #   PTT 網站
        oriLink = "https://www.ptt.cc" + i.select("div.title a")[0]["href"]

        #   CH3 - 取得文章相關資訊
        #   8 - 內文
        #   8.1 - 請求文章內文
        res_content = requests.get(oriLink)
        soup_content = bs(res_content.text,"lxml")
        #   8.2 - 文章內容簡易驗證
        results_content = soup_content.select('span.article-meta-value')
        if len(results_content) > 3:
            #   8.2.1 - 驗證成功, 篩出文章內文
            content = soup_content.find(id="main-content").text
            Footer = u'※ 發信站: 批踢踢實業坊(ptt.cc),'
            #   8.3 - 移除註腳以下內容
            content = content.split(Footer)
            #   8.4 - 存取內容
            main_content = content[0]
            pass
        else:
            #   8.2.2 - 驗證失敗, 跳過該文章
            print(oriLink,"內文異常:ID/版標/標題/日期為空")
            print(results_content)
            continue

        result.append({
            "title":title,
            "date":date,
            "author":author,
            "link":oriLink,
            "content":main_content
        })
    return result

In [None]:
#   前綴與首頁網址
prefix = "https://www.ptt.cc"
url = "https://www.ptt.cc/bbs/HatePolitics/index.html"

#   請求與解析
res = requests.get(url)
soup = bs(res.text,"lxml")


#   CH4 - 建立資料集並匯出
#   首次呼叫 Def
output = []
result = get_ptt_post(soup)

#   將結果韓式返回的內容存入output陣列
output += result

#   再次呼叫數(N)頁 - 前頁網址
N = 100
previous_page = soup.select("div#action-bar-container div.action-bar div.btn-group-paging a")[1]["href"]
# Extract the page number using split and indexing
page_number = int(previous_page.split('/')[-1].split('.')[0].replace('index',''))

for i in range(N):
    url = "https://www.ptt.cc/bbs/HatePolitics/index{}".format(page_number-i)+".html"
    res = requests.get(url)
    soup = bs(res.text,"lxml")

    result = get_ptt_post(soup)
    output += result
    print("{} is ok".format(url))

#   產出資料集
df = pd.DataFrame(output)

#   欄位重新命名
df.rename(columns={
    "title":'標題',
    "date":'發文時間',
    "author":'作者',
    "link":'網址',
    "content":'內文'
    }, inplace=True)

df.to_excel("ptt_tech_job_post.xlsx")
df.head()

In [None]:
import pandas as pd
import re

# 读取 CSV 文件
file_path = 'original_data.csv'
data = pd.read_csv(file_path)

# 假设需要处理的文本在某一列中，例如 'content' 列
# 请确认您文件中实际的文本列名
if '內文' in data.columns:
    def process_text(text):
        # Check if the input is a string
        if isinstance(text, str):
            # 正则表达式处理文本
            pattern = r'標題(.*?)時間.*?\n(.*)'
            match = re.search(pattern, text, re.DOTALL)
            if match:
                title = match.group(1).strip()
                content = match.group(2).strip()
                return f'{title}\n{content}'
        return text  # 如果不匹配，返回原文本或者非字符串类型

    # 应用正则表达式处理每一行
    data['processed_content'] = data['內文'].apply(process_text)

    # 保存为新文件
    output_path = 'processed_ptt_tech_job_post.csv'
    data.to_csv(output_path, index=False)
    print(f"处理完成，文件已保存至: {output_path}")
else:
    print("未找到 'content' 列，请确认文件中的列名。")

In [None]:
clean_text = []
for text in data['Column1']:
  # Check if the value is a string before applying re.sub
  if isinstance(text, str):
    clean = re.sub(r'(\n|\t|\r|[a-z]|[A-Z]|http\S+)', r'', text)
    clean_text.append(clean)
  else:
    # Handle non-string values (e.g., NaN)
    clean_text.append('')  # Or any other appropriate value

# 清理完的text存成新的一欄 clean_text
data['clean_text'] = clean_text
data['clean_text']
# 刪除 '欄位名稱' 欄位
data = data.drop('內文', axis=1)
data = data.drop('processed_content', axis=1)
output_path = 'clean_processed_ptt_tech_job_post.csv'
data.to_csv(output_path, index=False)
print(f"处理完成，文件已保存至: {output_path}")

In [None]:
import pandas as pd

# 讀取CSV檔案
input_file = 'original_data.csv'  # 替換成你的檔案名稱
output_file = 'original_data.csv'  # 建議更改為不同的輸出檔案名稱，避免覆蓋原始檔案

# 載入資料
df = pd.read_csv(input_file ,on_bad_lines='skip')

# 檢查 'clean_text' 欄位是否存在
if 'Column1' in df.columns:
    # 篩選資料，移除含有 "[新聞]" 的列
    filtered_df = df[~df['Column1'].str.contains(r'\[新聞\]', na=False)]

    # 儲存到新的CSV檔案
    filtered_df.to_csv(output_file, index=False)

    print(f"已移除含有 '[新聞]' 的列，結果儲存至 {output_file}")
else:
    print(f"錯誤: 在 '{input_file}' 檔案中找不到 'clean_text' 欄位。")
    print("請確認你是否已正確執行先前的資料清理步驟，並將結果儲存到此檔案。")
