In [40]:
import asyncio
from playwright.async_api import async_playwright
from bs4 import BeautifulSoup

# 目标URL
url = 'https://mp.weixin.qq.com/s/jvLPxVEYFV9h4qjb_XQu2w'

async def main():
    # 使用 Playwright 打开网页
    async with async_playwright() as p:
        # 启动浏览器
        browser = await p.chromium.launch(headless=True)  # 无头模式，不打开浏览器窗口
        page = await browser.new_page()
        
        # 打开网页
        await page.goto(url)
        
        # 等待页面加载完成
        await page.wait_for_load_state('networkidle')  # 等待网络空闲
        
        # 获取页面源代码
        page_source = await page.content()
        
        # 关闭浏览器
        await browser.close()

    # 解析HTML内容
    soup = BeautifulSoup(page_source, 'html.parser')

    # 打印网页标题
    print("网页标题:", soup.title.string)

    # 提取所有文章标题
    articles = soup.find_all('h2', class_='entry-title')
    for article in articles:
        print("文章标题:", article.text.strip())

    return soup

# 运行异步主函数
soup = await main()

网页标题: 跑步十二年之后


In [45]:
soup.get_text(strip=True)

'跑步十二年之后跑步十二年之后原创人物作者人物人物北京人物天下文化传媒有限公司记录这个时代值得记录的人。3272篇原创内容2024年09月18日 09:00北京跑步会给一个人带来什么？今年巴黎奥运会的大众马拉松比赛上，于嘉以2小时58分40秒的成绩完赛，这是他第41个马拉松，也是他第一次在正式比赛中「破三」。赛后每次受访，于嘉都在镜头前哽咽、大哭，感慨奥运会让人梦想成真。过去，于嘉被人熟知的身份是央视体育频道的篮球解说员，20岁就开始解说NBA赛事。他从2012年开始跑马拉松，最初的三年里，他近乎狂热地参加比赛，推广马拉松运动。他是第二个完成马拉松六大满贯的中国人，被称为「中国最能跑的主持人」。但始终没能在正式比赛中「破三」——对马拉松跑者来说，全马跑进三小时是普通与高手的分野，全国只有1%的跑者可以达成。但真正完成这个目标，于嘉用了12年。这12年里，他从疯狂比赛、疯狂训练，几次阴差阳错没能破三，到最终想明白，「自己不是喜欢马拉松，而是跑步。」当年求而不得的成绩，在不参加全马比赛的6年后，在巴黎实现了。8月底，《人物》在北京见到了于嘉。见面之前，他刚送完女儿到书法班，他坦言，如今的生活里，除了上班、锻炼、陪家庭，没有第四件事。此时的他44岁，回顾过去的跑步生涯，他流露出对当年狂热比赛的后悔。他曾经用马拉松的成就感逃避现实的困境，没能做好一个丈夫和父亲。也因为训练不科学，在左脚跟里留下了四个钙化点和一根骨刺。直到39岁这年，他意识到自己真正想要的，是像运动员一样生活。我们谈起跑步的感悟。那些年的挫败、伤病让于嘉意识到，生活不是一分付出一分收获，更多时候是「痛苦无益」、「尽全力也无获」。跑步教会他最多的是坦然面对现实的能力——「光明正大地赢，哪怕是坦坦荡荡地输」。于嘉在跑步上经历了什么，又如何体悟这一切，破三到底对他意味着什么，以下是他的讲述——文｜吕蓓卡编辑｜李天宇图｜（除特殊标注外）宋璐\xa0摄1我开始跑步是2012年前后。当时一个因为胖，一个也因为浮躁。减肥老得去健身房，影响整体时间规划，我就觉得干吗不跑会儿步呢？跑步没有时间和空间的限制，比较自如。还有一个事，是2011年我参加北京马拉松（以下简称北马）的迷你跑，4.2公里，全马的十分之一。跑完之后我问同事，咱们用了多长时间？他说掐头去尾出来之后也就十几二十分钟吧。我就发一微博，说我十几二十分钟跑完迷你跑，就

In [38]:
h2s = soup.find_all('h2')
links = [h.find('a') for h in h2s if h.find('a') is not None]
urls = [l.get('href') for l in links]

In [39]:
urls

['https://mp.weixin.qq.com/s/jvLPxVEYFV9h4qjb_XQu2w',
 'https://mp.weixin.qq.com/s/Ditlfr9dMvhrZMrnLPwRqw',
 'https://mp.weixin.qq.com/s/dzAMc5DfXDmlDsdvBoWwsA',
 'https://mp.weixin.qq.com/s/O3Hq3hmKG5TIGdCLcTwk8A',
 'https://mp.weixin.qq.com/s/CrGa2Cn2d_oAg1S_T718Hw',
 'https://mp.weixin.qq.com/s/MLmT9KRXXBEP9qSbB-njHQ',
 'https://mp.weixin.qq.com/s/n9G5_PcPIZ3nT1z8EjnoVQ',
 'https://mp.weixin.qq.com/s/gMiCMma6jcqpnwvEXEYY_A',
 'https://mp.weixin.qq.com/s/FquoEuo1qQ7TU8pw7sGGug',
 'https://mp.weixin.qq.com/s/WdgzJB9i6jzAygnu7nfJgg',
 'https://mp.weixin.qq.com/s/VJWWHwZNWDSlYxmEqYb1BQ',
 'https://mp.weixin.qq.com/s/wOY91EiAMt8oTfUrk_-Fcw',
 'https://mp.weixin.qq.com/s/UDrr6d_lrKHBioVKULvYUA',
 'https://mp.weixin.qq.com/s/tR_aAHm5aXuyCYM9LHfReA',
 'https://mp.weixin.qq.com/s/8VCnZo_28VL9BdYBvSVxdw',
 'https://mp.weixin.qq.com/s/LqyySLTCdvhHQn6fZHNgJg',
 'https://mp.weixin.qq.com/s/BQ49uFXZg4Ix8lW31NXQhg',
 'https://mp.weixin.qq.com/s/bUUXKDgTgIKp9pmX8xKOug',
 'https://mp.weixin.qq.com/s

In [9]:
f

{'bozo': True,
 'entries': [],
 'feed': {},
 'headers': {},
 'bozo_exception': urllib.error.URLError(ssl.SSLCertVerificationError(1,
                                                    "[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: Hostname mismatch, certificate is not valid for 'www.chinanonfiction.com'. (_ssl.c:1000)"))}