# scape articles

In [38]:
import requests
from bs4 import BeautifulSoup
import os
import re

# 创建保存文件夹
output_dir = "./corpus/raw_articles"
os.makedirs(output_dir, exist_ok=True)

# 获取当前文件夹下最大的现有文件编号
existing_files = [f for f in os.listdir(output_dir) if f.startswith("page_") and f.endswith(".txt")]
if existing_files:
    # 提取现有文件的编号，转换为整数后找到最大值
    max_existing_num = max(int(re.search(r"\d+", f).group()) for f in existing_files)
else:
    max_existing_num = 0  # 如果没有文件，编号从 0 开始

start_index = max_existing_num + 1
print(f"开始编号: {start_index}")

# 设置起始和结束页码
start_page = 1

# 而已集
# end_page = 31  
# url_prefix = "http://www.ziyexing.com/luxun/luxun_zw_eyj_"

# 坟
end_page = 24  # 设置要爬取的最大页码，根据需要调整
url_prefix = "http://www.ziyexing.com/luxun/luxun_zw_fen_"

# 循环爬取各个页面
for page_num in range(start_page, end_page + 1):
    # URL格式化
    url = f"{url_prefix}{page_num:02}.htm"
    response = requests.get(url)
    
    if response.status_code == 200:
        # 解析页面内容
        soup = BeautifulSoup(response.content, 'html.parser')
        # 提取标题
        title = soup.title.string

        # 提取正文内容
        content_table = soup.find("p", style="line-height: 150%")
        if content_table:
            content_text = title + "\n"
            
            for element in content_table.stripped_strings:
                content_text += element + "\n"
            
            # 保存到本地文件，文件名用页面编号
            file_path = os.path.join(output_dir, f"page_{start_index:03}.txt")
            with open(file_path, 'w', encoding='utf-8') as file:
                file.write(content_text.strip())  # 去除多余空行
            
            print(f"已保存: page_{start_index:03}.txt")
            start_index += 1

        else:
            print(f"未找到内容: {url}")
    else:
        print(f"无法访问页面: {url}")


开始编号: 32
已保存: page_032.txt
已保存: page_033.txt
未找到内容: http://www.ziyexing.com/luxun/luxun_zw_fen_03.htm
已保存: page_034.txt
已保存: page_035.txt
已保存: page_036.txt
已保存: page_037.txt
已保存: page_038.txt
已保存: page_039.txt
已保存: page_040.txt
已保存: page_041.txt
已保存: page_042.txt
已保存: page_043.txt
已保存: page_044.txt
已保存: page_045.txt
已保存: page_046.txt
已保存: page_047.txt
已保存: page_048.txt
已保存: page_049.txt
已保存: page_050.txt
已保存: page_051.txt
已保存: page_052.txt
已保存: page_053.txt
已保存: page_054.txt


# clean text

In [51]:
import os
import re

# 读取爬取的数据文件夹
input_dir = "./corpus/raw_articles"
output_dir = "./corpus/cleaned_articles"
os.makedirs(output_dir, exist_ok=True)

# 正则模式：匹配注释、特殊字符、数字标记
pattern = re.compile(r"[①②③④⑤⑥⑦⑧⑨⑩⒀⒁⒂⒃⒄⒅⒆⒇]|<\d{2,}>|〔\d{2,}〕｜（\d{2,}）|【\d{2,}】|［\d{2,}］|〈\d{2,}〉") 

# clean and format the text
for filename in os.listdir(input_dir):
    if filename.endswith(".txt"):
        input_path = os.path.join(input_dir, filename)
        output_path = os.path.join(output_dir, filename)
        
        with open(input_path, 'r', encoding='utf-8') as file:
            content = file.read()
        
        # 去除注释内容
        if "【注释】" in content or "【注】" in content:
            content = re.split("【注释】|【注】", content)[0]
        
        # 去除特殊字符
        content = pattern.sub("", content)
        
        # 删除段落中的多余换行和缩进
        content = re.sub(r'\s{2,}', ' ', content)  # 删除多余空白
        
        # 格式化段落：确保段落分隔清晰，每段独立成行
        formatted_content = ""
        for line in content.splitlines():
            if line and line.strip()[-1] not in [",", ":", ";", "：", "；", "，"]:
                formatted_content += line.strip() + "\n"
            else:
                formatted_content += line.strip()
        
        # 保存清洗后的内容
        with open(output_path, 'w', encoding='utf-8') as file:
            file.write(formatted_content.strip())  # 去除多余空行
        
        print(f"已清洗并保存: {filename}")


已清洗并保存: page_053.txt
已清洗并保存: page_047.txt
已清洗并保存: page_046.txt
已清洗并保存: page_052.txt
已清洗并保存: page_044.txt
已清洗并保存: page_050.txt
已清洗并保存: page_051.txt
已清洗并保存: page_045.txt
已清洗并保存: page_041.txt
已清洗并保存: page_054.txt
已清洗并保存: page_040.txt
已清洗并保存: page_042.txt
已清洗并保存: page_043.txt
已清洗并保存: page_030.txt
已清洗并保存: page_024.txt
已清洗并保存: page_018.txt
已清洗并保存: page_019.txt
已清洗并保存: page_025.txt
已清洗并保存: page_031.txt
已清洗并保存: page_027.txt
已清洗并保存: page_033.txt
已清洗并保存: page_032.txt
已清洗并保存: page_026.txt
已清洗并保存: page_022.txt
已清洗并保存: page_036.txt
已清洗并保存: page_037.txt
已清洗并保存: page_023.txt
已清洗并保存: page_009.txt
已清洗并保存: page_035.txt
已清洗并保存: page_021.txt
已清洗并保存: page_020.txt
已清洗并保存: page_034.txt
已清洗并保存: page_008.txt
已清洗并保存: page_011.txt
已清洗并保存: page_005.txt
已清洗并保存: page_039.txt
已清洗并保存: page_038.txt
已清洗并保存: page_004.txt
已清洗并保存: page_010.txt
已清洗并保存: page_006.txt
已清洗并保存: page_012.txt
已清洗并保存: page_013.txt
已清洗并保存: page_007.txt
已清洗并保存: page_003.txt
已清洗并保存: page_017.txt
已清洗并保存: page_016.txt
已清洗并保存: page_002.txt
已清洗并保存: page_