对知乎上某个用户发布的帖子 进行爬虫：用户的连接如下 ：https://www.zhihu.com/people/lin-ge-39-3/posts
过滤规则： 标题是否含有 "三国演义"

In [1]:
import time
from selenium import webdriver
"""
webdriver 是 Selenium 的核心模块，负责通过浏览器驱动（如 chromedriver、msedgedriver 等）与实际浏览器进行通信。
它提供了一系列类和方法，用于启动浏览器、加载网页、执行操作（如点击、输入文本）、获取页面内容等。
"""
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
from urllib.parse import urljoin
import json

def init_driver():
    # get直接返回，不再等待界面加载完成
    desired_capabilities = DesiredCapabilities.EDGE
    # DesiredCapabilities 是 Selenium 的一个类，允许开发者通过配置来控制浏览器的行为。
    # 它提供了多种预定义的浏览器能力（例如 DesiredCapabilities.CHROME）
    # 之后可以通过修改 desired_capabilities 对象（如下面的 pageLoadStrategy）来调整浏览器的行为。

    desired_capabilities["pageLoadStrategy"] = "none"
    # 设置 EDGE 浏览器的页面加载策略为“none”，即不等待页面完全加载。
    # 在爬虫或自动化测试中，页面加载时间可能会影响脚本的运行效率。如果我们只需要获取页面的部分内容（例如某些 DOM 元素），
    # 而不需要等待整个页面加载完成，使用 "none" 策略可以显著提高脚本的执行效率。
    # 设置谷歌驱动器的环境
    options = webdriver.EdgeOptions()

    # 设置不显示窗口,确保返回正常，也能降低负载
    options.add_argument('--headless')
    # 禁用自动化标记,确保返回正常。否则可能被反爬虫
    options.add_argument("--disable-blink-features=AutomationControlled")
    options.add_experimental_option("excludeSwitches", ["enable-automation"])
    """
    EdgeOptions 是 Selenium 中专门为 Edge 浏览器提供的配置类。
    它允许开发者通过添加参数、设置实验性选项等方式，定制浏览器的启动行为。例如：是否显示浏览器窗口（无头模式）。是否禁用图片、JavaScript 等。设置代理服务器。添加扩展程序。
    禁用图片加载可以提高页面加载速度。
    无头模式可以在后台运行浏览器，减少资源占用。
    设置代理可以绕过 IP 限制。
    """

    # 设置chrome不加载图片，提高速度
    options.add_experimental_option("prefs", {"profile.managed_default_content_settings.images": 2})
    """
    add_experimental_option 是一个方法，用于设置浏览器的实验性选项。
    "prefs" 是一个字典，包含浏览器的用户首选项设置。
    这些设置通常与浏览器的行为或界面相关。例如：
    禁用图片加载。
    禁用 JavaScript。
    """

    options.add_argument(
        "user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36")
        #这个去浏览器的 network 查看（右键 检查）


    # 用于操作 Microsoft Edge 浏览器。
    driver = webdriver.Edge(options=options)

    # 先访问知乎主页以设置 Cookie
    driver.get("https://www.zhihu.com")

    requestHeader = {
        "cookie": "******************************"
    }
    # cookie去浏览器的 network 查看（右键 检查）
    # 拆分 Cookie 字符串
    cookies = requestHeader["cookie"].split("; ")

    for cookie in cookies:
        name, value = cookie.split("=", 1)
        driver.add_cookie({
            "name": name,
            "value": value,
            "domain": ".zhihu.com"  # 根据实际域名调整
        })

    driver.get("https://www.zhihu.com/topic/19731651/hot")

    # 检查是否成功绕过登录
    try:
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.CLASS_NAME, "List"))
        )
        print("成功进入页面，无需登录！")
    except:
        print("Cookie 已失效，需手动登录")
    return driver

In [47]:
driver = init_driver()

成功进入页面，无需登录！


In [23]:
from selenium.webdriver.common.keys import Keys
from tqdm import tqdm

def sum_item(driver :webdriver):
    """
    找到所有符合要求的链接，并且保存到 字典格式的文件当中
    :return:
    """
    result = {}
    for index , _i in enumerate(tqdm(range(71))): #一共有71页
        url = f"https://www.zhihu.com/people/lin-ge-39-3/posts?page={index+1}"
        driver.get(url)

        for _ in range(1):  # 滚动3次 防止有的需要滚动才能加载
            driver.find_element(By.TAG_NAME, 'body').send_keys(Keys.END)
            time.sleep(1)  # 等待加载
        try:
            WebDriverWait(driver, 5).until(
            EC.presence_of_all_elements_located((By.CLASS_NAME, "ContentItem-title"))
                )
        except ConnectionError:
            print("加载失败，没有返回值")

        # 获取所有标题元素
        title_elements = driver.find_elements(By.CLASS_NAME, "ContentItem-title")
        # 遍历提取数据
        for index, element in enumerate(title_elements, 1):
            # 提取链接元素
            link = element.find_element(By.TAG_NAME, "a")
            text = link.text
            href = link.get_attribute("href")
            if "三国演义" in text:
                result[text] = href
                # print(f"文本内容: {text}")
                # print(f"链接地址: {href}\n")
    # 写入 JSON 文件
    with open("result.json", "w", encoding="utf-8") as f:
        json.dump(result, f, ensure_ascii=False, indent=4)


![image.png](attachment:image.png)

In [19]:
sum_item(driver)

In [45]:
from bs4 import BeautifulSoup
from bs4 import Tag, NavigableString

# 处理数据逻辑
def process_paragraph(p):
    parts = []
    for element in p.descendants: #p.descendants：递归遍历段落 <p> 内的所有子元素（包括嵌套的标签和文本）。
        if isinstance(element, Tag) and element.name == 'br': #Tag 类型检查：如果元素是 HTML 标签（如 <br>、<b>），则执行特定操作。
            parts.append('\n')  # 直接替换 <br> 为换行符
        elif isinstance(element, NavigableString): #NavigableString 类型检查：如果元素是纯文本，则直接提取并保留内容。
            parts.append(str(element))  # 保留原始文本（包括空格）

    # 拼接并清理格式
    text = ''.join(parts)
    # 处理：合并连续换行 + 去除每行首尾空格（保留中间空格）
    lines = [line.strip() for line in text.split('\n')]
    """
    text.split('\n')**：将文本按换行符 \n 分割成多行。
    line.strip()**：去除每行首尾的空白字符（例如 <br> 后的空格）。
    """
    return '\n'.join(line for line in lines if line) #合并连续换行：将多个连续的 <br> 导致的空行合并为一个换行符。

def crawl_page(driver:webdriver,url :str):
    "对url实现抓取逻辑"

    # 打开目标页面
    driver.get(url)

    # 获取页面源代码
    page_source = driver.page_source

    # 使用 BeautifulSoup 解析页面
    soup = BeautifulSoup(page_source, "html.parser")

    # 找到目标元素（根据你的需求调整选择器）
    content_div = soup.find("div", class_="RichText ztext Post-RichText css-ob6uua")

    if content_div:
        paragraphs = []
        for p in content_div.find_all('p'):
            paragraph_text = process_paragraph(p)
            paragraphs.append(paragraph_text)

        # 合并所有段落，段落之间用换行分隔
        final_text = '\n'.join(paragraphs)

        return final_text

    else:
        print("未找到目标元素")


soup.find()：
soup 是 BeautifulSoup 解析后的 HTML 文档对象。
find() 是 BeautifulSoup 提供的方法，用于查找符合指定条件的第一个元素。
"div"：
指定要查找的 HTML 标签类型。这里是要查找 <div> 标签。<div> 是 HTML 中的一个标签，全称为 Division 中文译为“区块”或“容器”。它是 HTML 中最常用的元素之一，用于将网页内容划分为不同的区块或区域，方便对内容进行布局和样式控制。
class_="RichText ztext Post-RichText css-ob6uua"：
class_ 是 BeautifulSoup 中用于匹配 HTML 元素的 class 属性的参数。
"RichText ztext Post-RichText css-ob6uua" 是要匹配的 class 值。这里表示查找 class 属性值为 RichText ztext Post-RichText css-ob6uua 的 <div> 元素。

content_div.get_text()：
get_text() 是 BeautifulSoup 提供的方法，用于提取元素的文本内容。
它会递归地提取元素及其子元素中的所有文本，并返回一个字符串。
separator="\n"：
separator 是 get_text() 的一个可选参数，用于指定文本之间的分隔符。
这里设置为 "\n"，表示在每个段落之间插入一个换行符。

In [48]:
import copy
def crawl_pages( driver:webdriver ,reverse = True ):
    """
    给定一个json文件： [ {"第xx集文章" ："url"},... ]
    reverse ：倒序索引
    对每一页的内容进行抓取
    return: 一个文本文件
    """
    my_dict = {}
    with open("result.json", "r", encoding="utf-8") as f:
        result = json.load(f)
        my_dict = copy.deepcopy(result)

    # 将 dict_items 转换为列表，然后倒序
    final_texts = []
    for key, value in tqdm(reversed(list(my_dict.items()))):
        final_text = crawl_page(driver = driver,url = value)
        final_texts.append(final_text)
        time.sleep(5)
    final_text = '\n'.join(final_texts)
    return final_text

final_text = crawl_pages(driver)

# 保存到文件
with open("output.txt", "w", encoding="utf-8") as file:
    file.write(final_text.strip())  # 去除首尾空行

print("文件已保存为 output.txt")

55it [07:27,  8.14s/it]

文件已保存为 output.txt



