In [2]:
# === 导入工具库 ===
import asyncio
import aiohttp
import nest_asyncio
from parsel import Selector
from urllib.parse import urljoin
from rule_manager import RuleManager

# 解决 Jupyter 中运行 asyncio 的冲突问题
nest_asyncio.apply()

# === 配置调试目标 ===
# 在这里替换你想测试的小说目录页或章节页 URL
#详情页URL
TARGET_URL = "https://www.mnwx.cc/down/419057.html"
#目录页URL 
Book_URL = "https://www.mnwx.cc/book/419057/"
#章节URL
Chapter_URL = "https://www.mnwx.cc/book/419057/29019735.html"  # 替换为实际章节 URL

# 伪装 Headers
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}

# === 获取网页源码 (下载一次，后续反复使用) ===
async def get_html(url):
    print(f"正在下载: {url} ...")
    async with aiohttp.ClientSession() as session:
        async with session.get(url, headers=HEADERS) as response:
            if response.status == 200:
                # 自动识别编码，防止乱码
                raw = await response.read()
                try:
                    text = raw.decode("utf-8")
                except UnicodeDecodeError:
                    text = raw.decode("gbk", errors="ignore")
                print("✅ 下载成功！")
                return text
            else:
                print(f"❌ 下载失败，状态码: {response.status}")
                return None

# 在 Jupyter 中直接运行异步函数
html = asyncio.run(get_html(TARGET_URL))

# === 创建选择器对象 ===
# 如果下载成功，初始化 sel 对象
if html:
    sel = Selector(text=html)
    print("工具准备就绪！请在下一个单元格测试你的选择器。")

正在下载: https://www.mnwx.cc/down/419057.html ...
✅ 下载成功！
工具准备就绪！请在下一个单元格测试你的选择器。


In [None]:
#查看html内容
print("=== 网页源码预览 ===")
#print(html[:1000])  # 只显示前1000字符，避免输出过多内容
print(html)  # 如果需要查看完整源码，可以取消注释这一行

In [10]:
# 尝试提取小说信息
# 语法: sel.css('标签名.类名::text').get()
title = sel.css('h1.title::text').get()
author = sel.css('table#at th:contains("文章作者") + td::text').get()
category = sel.css('table#at th:contains("文章类别") + td a::text').get()
status = sel.css('table#at th:contains("文章状态") + td::text').get()
update = sel.css('table#at th:contains("最后更新") + td::text').get()
toc_rel = sel.css('p.btnlinks a.read::attr(href)').get()
toc_url = urljoin(TARGET_URL, toc_rel) if toc_rel else ""
intro = sel.xpath("//p[b[contains(normalize-space(.),'内容简介')]]/following-sibling::p[1]/text()").get()


print(f"小说标题: {title.replace('全文阅读', '').strip()}")
print(f"小说作者: {author}")
print(f"小说类别: {category}")
print(f"小说状态: {status}")
print(f"最后更新: {update}")
print(f"获取链接: {toc_rel}")
print(f"目录链接: {toc_url}")
print(f"小说简介: {intro}")

# 如果打印是 None，说明规则不对，你可以马上修改成 sel.css('.book-name::text') 再试

小说标题: 我的一位仙子道友
小说作者: 我们的幻想乡
小说类别: 修仙武侠
小说状态: 已完本
最后更新: 2025-02-17
获取链接: /book/419057/
目录链接: https://www.mnwx.cc/book/419057/
小说简介: 我为什么要修仙？我修仙的目的是为了你，你在我眼中，曾是那般耀眼，纤尘不染，不食人间烟火，是我穷极一切也想要追上的目标。我想追上你的步伐，报答你的恩情，如果可以的话，我甚至想要娶你为妻。


In [9]:
# 尝试用xpath提取小说信息
# 语法: sel.xpath
#表格里的信息用“th 文本 → 后面的 td”这种 XPath 最稳，不依赖结构位置。
#目录链接是相对路径，记得 urljoin(base_url, href)
#简介段落是“内容简介”后面的第一个 <p>，用 following-sibling::p[1] 拿即可。

title = sel.xpath("//h1[@class='title']/text()").get(default="").strip()
author = sel.xpath("//table[@id='at']//th[normalize-space()='文章作者']/following-sibling::td[1]/text()").get(default="").strip()
category = sel.xpath("//table[@id='at']//th[normalize-space()='文章类别']/following-sibling::td[1]/a/text()").get(default="").strip()
status = sel.xpath("//table[@id='at']//th[normalize-space()='文章状态']/following-sibling::td[1]/text()").get(default="").strip()
updated = sel.xpath("//table[@id='at']//th[normalize-space()='最后更新']/following-sibling::td[1]/text()").get(default="").strip()
toc_rel = sel.xpath("//p[@class='btnlinks']//a[@class='read']/@href").get()
toc_url = urljoin(TARGET_URL, toc_rel) if toc_rel else ""
intro = sel.xpath("//p[b[contains(normalize-space(.),'内容简介')]]/following-sibling::p[1]/text()").get(default="").strip()
print(f"小说标题: {title.replace('全文阅读', '').strip()}")
print(f"小说作者: {author}")
print(f"小说类别: {category}")
print(f"小说状态: {status}")
print(f"最后更新: {updated}")
print(f"目录链接: {toc_url}")
print(f"小说简介: {intro}")

小说标题: 我的一位仙子道友
小说作者: 我们的幻想乡
小说类别: 修仙武侠
小说状态: 已完本
最后更新: 2025-02-17
目录链接: https://www.mnwx.cc/book/419057/
小说简介: 我为什么要修仙？我修仙的目的是为了你，你在我眼中，曾是那般耀眼，纤尘不染，不食人间烟火，是我穷极一切也想要追上的目标。我想追上你的步伐，报答你的恩情，如果可以的话，我甚至想要娶你为妻。


In [16]:
#获取目录页面
book_html = asyncio.run(get_html(Book_URL))
if book_html:
    book_sel = Selector(text=book_html)
    print("目录页面工具准备就绪！请在下一个单元格测试你的 CSS 选择器。")

正在下载: https://www.mnwx.cc/book/419057/ ...
✅ 下载成功！
目录页面工具准备就绪！请在下一个单元格测试你的 CSS 选择器。


In [17]:
# 尝试提取所有章节链接
links = book_sel.css('td.L a') # 假设的规则

print(f"找到 {len(links)} 个章节")

# 打印前 5 个看看对不对
for link in links[:5]:
    name = link.css('::text').get()
    url = link.attrib.get('href')
    print(f"{name} -> {url}")

找到 650 个章节
说明 -> 29019725.html
第一章 雨台山 -> 29019735.html
第二章 天上掉下个仙子姐姐 -> 29022030.html
第三章 她是你的机缘 -> 29022040.html
第四章 师兄,她是谁? -> 29024335.html


In [None]:
#获取章节页面
content_html = asyncio.run(get_html(Chapter_URL))
if content_html:
    cont_sel = Selector(text=content_html)
    print("章节页面工具准备就绪！请在下一个单元格测试你的 CSS 选择器。")
    print(content_html)

In [8]:
# 提取正文内容，并用换行符拼接
# 常见规则: #content, .read-content, .txtnav
content_list = cont_sel.css('#contents::text').getall()
print(f"提取到 {len(content_list)} 行文本")
# 清洗数据：去掉空行和多余空格
clean_content = [line.strip() for line in content_list if line.strip()]
text = "\n".join(clean_content)

print(text[:200]) # 只打印前200字预览

提取到 52 行文本
东洲边缘，雨台山。
雨台山四周灵气环绕，空气怡人，天空中还悬浮着几个中型岛屿，仅仅只用几根铁锁相连，不知是以何等伟力将其托起，只见岛上花草茂盛，宛如人间仙境般，明明就在眼前，却又感觉像是海市蜃楼般带着虚幻的色彩。
雨台福地就坐落在雨台山上，也因此而得名。
雨台福地是附近小有名气的洞天福地，不少凡间的王公贵族都将自己的孩子送到这里，如果自己的孩子能修仙，便能让整个家族的命运发生翻天覆地的变化。
在这
