## 第十部分:Python爬虫

**26.XPath**

**26.1本章工作任务**
采用 XPath 语言编写程序,对人民网新闻详情页的信息（新闻的标题、时间、来源和内容）进行抓取。①算法的输入是需要抓取的新闻页面的 URL 地址。②算法模型需要求解的是目标信息所在网页文件中的特征标签和属性名称。③、算法的结果是 URL 的网页中的所有新闻的标题、时间、来源和内容，以列表的形式呈现。

基于 XPath 的人民网新闻信息抓取方案
一、工作任务说明
任务目标
通过 XPath 语言实现对人民网新闻详情页的信息抓取，提取以下核心内容：
新闻标题
发布时间
新闻来源
新闻正文内容
输入与输出
类型	描述	示例格式
输入	新闻详情页 URL	https://www.people.com.cn/xxx
输出	结构化新闻信息列表	JSON/List（包含 4 个字段的字典）

**26.2本章技能目标**
- 掌握爬虫原理
- 掌握 Xpath (XML 路径语言)方法原理
- 使用 request 包实现对网页 html 代码的获取
- 使用 XPath 方法实现对 html 中内容的抓取
- 使用 pandas库实现对抓取结果的文件储存。

**26.3本章简介**
- 数据抓取是指一种将非结构化的数据网站、微博等网页中的网格、文字、图片等按照一定规则来获取，并将获取的数据以结构化的数据表格等的形式进行保存和应用的技术。
- XPath是指一种用来确定 x m l 的文档，网页文档中某个标签位置，如标题在网页文档中所处标签的属性，你的查询语言。第五，若网页的源代码为标签开始符号，属性名等于属性值，标签内容、标签结束符号格式可以通过编写代码对象点方法，标签开始符号逗号，属性名等于属性值。定位内容标签位置，通过后续方法获取标签内容。
- Xpath以解决的科学问题是对于网页内容，如果内容与标签存在如下关系，标签开始符号属性名等于属性值标签内容标签结束符号，则根据标签符号将标签内容进行提取。
- XPath可以解决的实际应用问题是，我们想获得人民日报网站上的新闻信息，包括新闻标题时间来源和内容信息，则可以使用 Xpath 语言来进行逐一定位并获取，并将结果放入列表 list 中并保存文件。
- 本章的重点是 x pass 中各种方法的理解和使用。

**26.4理论讲解部分**
- 26.4.1任务描述
- 需要实现的功能描述如下
- (1).输入待抓取的页面地址本章采用人民日报网新闻详情页，网址如图所示。
- (2).利用 xPath获取目标信息
- (3).得到抓取的结果，通过遍历每一条新闻，将获取到的信息存入名为 news 列表中。

- 理解XPath的要点如下
- (1).方法的输入是需要抓取的新闻页面的 URL 地址。
- (2).方法的求解是目标信息所在网页文件中的特征标签和属性名称
- (3)方法输出是 URL 网页中所有的新闻标题，时间、来源和内容以列表形式呈现。
- (4).方法的核心思想是找到所需信息前后的特征标签，根据特征标签获取，希望抓取内容。
- (5).方法的注意事项是 ① 面对反爬虫机制需要设置 ID，网页的 ID 是网页向服务器请求的和响应的核心，它承载了客户端浏览器请求页面服务器的相关的信息，模拟浏览器访问网页。②获取信息有多余字符(如空格)时,需要去掉。

In [4]:
#步骤1 导入requests包
import requests
import csv
import pandas as pd
from lxml import etree    #Lxml是Python的一个解析库支持HTML和XML的解析，而且解析效率非常高

In [5]:
#步骤2 模拟浏览器访问网址，构建浏览器访问网页时的 Headers 标签信息，跳过反爬虫机制以获取信息，可以避免反爬虫机制造成信息获取失败。
HEADERS = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
}    #构造请求头

- puzzle1:请求头构造的方法是啥呀，这东西是在哪里看的啊？

In [7]:
#步骤3 获取指定URL的页面内容,并根据抓取模板,进行待抓取信息的提取

def parse_detail_page(url):
    news = {}  #字典news用于存放获取到的新闻信息
    response = requests.get(url, headers = HEADERS)    #请求url数据并返回给response对象
    text = response.content.decode("gb18030")
    #获取response中的信息数据(HTML文本),并进行解码。因为编码方式的不同,获取内容是乱码，需要进行编码转换
    html = etree.HTML(text)    #构建一个XPath解析对象html,用来解析字符串格式的text

    #获取新闻标题
    div_title = html.xpath("//div[@class='clearfix w1000_320 text_title']")[0]
    #获取标题所在div。 （此处。。
    title = div_title.xpath("./h1/text()")
    # 在当前div标签下的h1标签下获取新闻标题
    #.表示选取当前节点,
    news['title'] = (title[0]).replace('\xa0','')
    #去掉title中的多余字符"\xa0"(空格),将新闻标题存入字典

    #获取时间和来源
    div_whenandwhere = html.xpath("//div[@class='box01']/div[@class='f1']")[0]
    #获取时间和来源所在的div,@表示选取的目标标签的对应属性
    title = div_title.xpath("./h1/text()")
    when = div_whenandwhere.xpath("./text()")[0].replace("\xa0"," ")
    #获取新闻发布时间并去掉多余字符
    where = div_whenandwhere.xpath("./a[@href]/text()")[0]
    #获取新闻来源
    news['whenandwhere'] = when + where    #将新闻事件和来源存入news

    #获取新闻内容
    ps = html.xpath("//div[@class='box_con']/p") #获取所有p标签
    contents = []    #列表contents用于存放每个p标签内的新闻内容
    for p in ps: #遍历获取到的p标签进行处理
        content = p.xpath("./text()")    #获取p标签的文本内容
        contents.append((content[0].replace("\n\t",' ')).replace("\u3000\u3000",''))
        #去掉content中的多余字符并将其追加至contents列表
    news['content'] = contents    #将新闻内容存入字典news
    return news    #返回news字典    

In [8]:
# 步骤4 获取指定页面的内容,存入.csv或者.xls文件。定义函数名为spider(),获取指定URL的新闻详情页内容。
def spider(urls):
    news = []    #用于存放获取到的新闻详情页信息
    for url in urls:    #遍历详情页面的url列表,对每个详情页分别进行解析
        new = parse_detail_page(url)    
        #解析获取到的详情页，返回给用于存放新闻信息的字典new
        news.append(new)    #将字典new追加到列表news中
    print(news)    #打印获取到的新闻详情页信息

    df = pd.DataFrame(news, columns = ['title', 'whenandwhere', 'content'])
    #使用字典news构建DataFrame对象df，指定列名为'title'、'whenandwhere'、'content'
    df.to_csv('news.csv')    #将df对象写入csv文件
    df.to_excel('news.xls')    #将df对象写入xls文件

- puzzle3:一堆字典列表[ { } ]打印出来的是啥东西？？？

In [9]:
# 步骤5：指定URL的值，调用spider()进行页面内容的获取
urls = ['http://politics.people.com.cn/n1/2019/0411/c1024-31025481.html' ,
        'http://politics.people.com.cn/n1/2019/0411/c1024-31025480.html' ]
#指定待抓取的新闻详情页url
spider(urls)    #调用spider(),获取并打印指定url的新闻详情页内容

IndexError: list index out of range

调用DeepSeek---解决网页结构改变
综上，现在需要做的是：

1. 检查网页结构，确认时间和来源的XPath路径。

2. 修改代码中的XPath表达式，或者处理可能的空列表情况。

例如，假设在目标网页中，时间和来源的div位于：

//div[@class='col-1-1 fl']

那么，正确的XPath应该是：

div_whenandwhere = html.xpath("//div[@class='col-1-1 fl']")[0]

或者，可能需要更精确的路径。

或者，可能时间和来源所在的元素结构已经改变，所以原来的XPath无法找到元素。

例如，在某个例子中，时间和来源的XPath可能是：

//div[@class='channel']/span/text()

此时，原来的XPath表达式无法正确获取。

因此，修改代码中的XPath表达式以匹配当前页面结构即可解决问题。

In [10]:
import requests
import csv
import pandas as pd
from lxml import etree

HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
}

def parse_detail_page(url):
    news = {}
    response = requests.get(url, headers=HEADERS)
    text = response.content.decode("gb18030")
    html = etree.HTML(text)

    # 获取新闻标题
    title_element = html.xpath("//h1[@class='title']/text()")
    if title_element:
        news['title'] = title_element[0].replace('\xa0', '')
    else:
        news['title'] = ''

    # 获取时间和来源
    # 假设时间和来源位于某个特定的div或span中，调整XPath
    # 示例：假设时间为class='date'，来源为class='source'
    time_element = html.xpath("//div[@class='article-info']/span[1]/text()")
    source_element = html.xpath("//div[@class='article-info']/span[2]/a/text()")
    
    when = time_element[0].strip() if time_element else ''
    where = source_element[0].strip() if source_element else ''
    news['whenandwhere'] = f"{when} {where}"

    # 获取新闻内容
    content_paragraphs = html.xpath("//div[@class='article-content']//p/text()")
    contents = [p.strip().replace('\u3000', ' ') for p in content_paragraphs if p.strip()]
    news['content'] = ' '.join(contents)

    return news

def spider(urls):
    news_list = []
    for url in urls:
        try:
            news = parse_detail_page(url)
            news_list.append(news)
        except Exception as e:
            print(f"Error processing {url}: {e}")
    
    df = pd.DataFrame(news_list, columns=['title', 'whenandwhere', 'content'])
    df.to_csv('news.csv', index=False)
    df.to_excel('news.xlsx', index=False)

urls = [
    'http://politics.people.com.cn/n1/2019/0411/c1024-31025481.html',
    'http://politics.people.com.cn/n1/2019/0411/c1024-31025480.html'
]
spider(urls)

- 调用豆包
你遇到的 IndexError: list index out of range 错误表明，在代码里尝试访问一个空列表的元素。具体而言，错误出现在 div_whenandwhere = html.xpath("//div[@class='box01']/div[@class='f1']")[0] 这一行，这意味着 html.xpath("//div[@class='box01']/div[@class='f1']") 返回的列表为空，所以无法访问其索引为 0 的元素。
这种情况通常是由于网页结构发生了变化，导致 XPath 表达式无法找到对应的元素。以下是对代码的修改建议，添加了错误处理，避免因找不到元素而引发异常：  

In [12]:
import requests
import csv
import pandas as pd
from lxml import etree

# 构造请求头
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
}

def parse_detail_page(url):
    news = {}  # 字典news用于存放获取到的新闻信息
    try:
        response = requests.get(url, headers=HEADERS)    # 请求url数据并返回给response对象
        text = response.content.decode("gb18030")
        # 获取response中的信息数据(HTML文本),并进行解码。因为编码方式的不同,获取内容是乱码，需要进行编码转换
        html = etree.HTML(text)    # 构建一个XPath解析对象html,用来解析字符串格式的text

        # 获取新闻标题
        div_title_list = html.xpath("//div[@class='clearfix w1000_320 text_title']")
        if div_title_list:
            div_title = div_title_list[0]
            title = div_title.xpath("./h1/text()")
            if title:
                news['title'] = (title[0]).replace('\xa0', '')
            else:
                news['title'] = None
        else:
            news['title'] = None

        # 获取时间和来源
        div_whenandwhere_list = html.xpath("//div[@class='box01']/div[@class='f1']")
        if div_whenandwhere_list:
            div_whenandwhere = div_whenandwhere_list[0]
            when_list = div_whenandwhere.xpath("./text()")
            if when_list:
                when = when_list[0].replace("\xa0", " ")
            else:
                when = None
            where_list = div_whenandwhere.xpath("./a[@href]/text()")
            if where_list:
                where = where_list[0]
            else:
                where = None
            if when and where:
                news['whenandwhere'] = when + where
            else:
                news['whenandwhere'] = None
        else:
            news['whenandwhere'] = None

        # 获取新闻内容
        ps = html.xpath("//div[@class='box_con']/p")  # 获取所有p标签
        contents = []    # 列表contents用于存放每个p标签内的新闻内容
        for p in ps:  # 遍历获取到的p标签进行处理
            content = p.xpath("./text()")    # 获取p标签的文本内容
            if content:
                contents.append((content[0].replace("\n\t", ' ')).replace("\u3000\u3000", ''))
        news['content'] = contents if contents else None

    except Exception as e:
        print(f"解析页面 {url} 时出错: {e}")
        news = {
            'title': None,
            'whenandwhere': None,
            'content': None
        }

    return news

def spider(urls):
    news = []    # 用于存放获取到的新闻详情页信息
    for url in urls:    # 遍历详情页面的url列表,对每个详情页分别进行解析
        new = parse_detail_page(url)
        news.append(new)    # 将字典new追加到列表news中
    print(news)    # 打印获取到的新闻详情页信息

    df = pd.DataFrame(news, columns=['title', 'whenandwhere', 'content'])
    # 使用字典news构建DataFrame对象df，指定列名为'title'、'whenandwhere'、'content'
    df.to_csv('news.csv')    # 将df对象写入csv文件
    df.to_excel('news.xls')    # 将df对象写入xls文件

# 指定待抓取的新闻详情页url
urls = ['http://politics.people.com.cn/n1/2019/0411/c1024-31025481.html',
        'http://politics.people.com.cn/n1/2019/0411/c1024-31025480.html']
spider(urls)    # 调用spider(),获取并打印指定url的新闻详情页内容

[{'title': '韩正会见美国前财政部长保尔森', 'whenandwhere': None, 'content': [' 新华社北京4月11日电（记者潘洁）中共中央政治局常委、国务院副总理韩正11日在中南海紫光阁会见美国前财政部长保尔森。', ' 韩正表示，中美建交40年来，两国关系经历各种考验，取得了历史性发展。中美在维护世界和平稳定、促进全球发展繁荣方面拥有广泛利益、肩负着重要责任。要在两国元首重要共识的指引下，推动中美经贸合作和两国关系健康稳定向前发展。加强生态环境保护是中国实现高质量发展的必然要求，中方愿意开展各种形式的国际合作，愿意与保尔森基金会共同努力，在生态环境保护方面进一步拓宽合作领域。', ' 保尔森表示，美中关系是世界上最重要的双边关系之一。保尔森基金会愿意积极推动美中贸易投资、环境保护、清洁能源、绿色金融等领域的合作。']}, {'title': '习近平与独龙族的故事', 'whenandwhere': None, 'content': [' 新华网 金佳绪', ' ', ' 4月10日，习近平给云南省贡山县独龙江乡群众回信，祝贺独龙族实现整族脱贫。', ' 总书记说，得知这个消息，我很高兴，向你们表示衷心的祝贺！', ' ', ' 2018年，独龙江乡6个行政村整体脱贫，独龙族实现整族脱贫，当地群众委托乡党委给习近平总书记写信，汇报独龙族实现整族脱贫的喜讯。', ' 2019年4月10日，习近平给乡亲们回信，祝贺独龙族实现整族脱贫。', ' 在信里，习近平说：', ' “让各族群众都过上好日子，是我一直以来的心愿，也是我们共同奋斗的目标。新中国成立后，独龙族告别了刀耕火种的原始生活。进入新时代，独龙族摆脱了长期存在的贫困状况。这生动说明，有党的坚强领导，有广大人民群众的团结奋斗，人民追求幸福生活的梦想一定能够实现。”', ' “脱贫只是第一步，更好的日子还在后头。”习近平勉励乡亲们再接再厉、奋发图强，同心协力建设好家乡、守护好边疆，努力创造独龙族更加美好的明天。', ' ', ' 独龙族是我国28个人口较少民族之一，也是新中国成立初期一个从原始社会末期直接过渡到社会主义社会的少数民族，主要聚居在云南省贡山县独龙江乡。当地地处深山峡谷，自然条件恶劣，一直是云南乃至全国最为贫穷的地区之一。', ' 摆脱贫困，过上美好生活，这是独龙族同胞

ValueError: No engine for filetype: 'xls'

In [3]:
import requests
import csv
import pandas as pd
from lxml import etree

# 构造请求头
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
}

def parse_detail_page(url):
    news = {}  # 字典news用于存放获取到的新闻信息
    try:
        response = requests.get(url, headers=HEADERS)    # 请求url数据并返回给response对象
        text = response.content.decode("gb18030")
        # 获取response中的信息数据(HTML文本),并进行解码。因为编码方式的不同,获取内容是乱码，需要进行编码转换
        html = etree.HTML(text)    # 构建一个XPath解析对象html,用来解析字符串格式的text

        # 获取新闻标题
        div_title_list = html.xpath("//div[@class='clearfix w1000_320 text_title']")
        if div_title_list:
            div_title = div_title_list[0]
            title = div_title.xpath("./h1/text()")
            if title:
                news['title'] = (title[0]).replace('\xa0', '')
            else:
                news['title'] = None
        else:
            news['title'] = None

        # 获取时间和来源
        div_whenandwhere_list = html.xpath("//div[@class='box01']/div[@class='f1']")
        if div_whenandwhere_list:
            div_whenandwhere = div_whenandwhere_list[0]
            when_list = div_whenandwhere.xpath("./text()")
            if when_list:
                when = when_list[0].replace("\xa0", " ")
            else:
                when = None
            where_list = div_whenandwhere.xpath("./a[@href]/text()")
            if where_list:
                where = where_list[0]
            else:
                where = None
            if when and where:
                news['whenandwhere'] = when + where
            else:
                news['whenandwhere'] = None
        else:
            news['whenandwhere'] = None

        # 获取新闻内容
        ps = html.xpath("//div[@class='box_con']/p")  # 获取所有p标签
        contents = []    # 列表contents用于存放每个p标签内的新闻内容
        for p in ps:  # 遍历获取到的p标签进行处理
            content = p.xpath("./text()")    # 获取p标签的文本内容
            if content:
                contents.append((content[0].replace("\n\t", ' ')).replace("\u3000\u3000", ''))
        news['content'] = contents if contents else None

    except Exception as e:
        print(f"解析页面 {url} 时出错: {e}")
        news = {
            'title': None,
            'whenandwhere': None,
            'content': None
        }

    return news

def spider(urls):
    news = []    # 用于存放获取到的新闻详情页信息
    for url in urls:    # 遍历详情页面的url列表,对每个详情页分别进行解析
        new = parse_detail_page(url)
        news.append(new)    # 将字典new追加到列表news中
    print(news)    # 打印获取到的新闻详情页信息

    df = pd.DataFrame(news, columns=['title', 'whenandwhere', 'content'])
    # 使用字典news构建DataFrame对象df，指定列名为'title'、'whenandwhere'、'content'
    df.to_csv('news.csv')    # 将df对象写入csv文件
    #df.to_excel('news.xls',engine='xlwt')    # 将df对象写入xls文件

# 指定待抓取的新闻详情页url
urls = ['http://politics.people.com.cn/n1/2019/0411/c1024-31025481.html',
        'http://politics.people.com.cn/n1/2019/0411/c1024-31025480.html']
spider(urls)    # 调用spider(),获取并打印指定url的新闻详情页内容

[{'title': '韩正会见美国前财政部长保尔森', 'whenandwhere': None, 'content': [' 新华社北京4月11日电（记者潘洁）中共中央政治局常委、国务院副总理韩正11日在中南海紫光阁会见美国前财政部长保尔森。', ' 韩正表示，中美建交40年来，两国关系经历各种考验，取得了历史性发展。中美在维护世界和平稳定、促进全球发展繁荣方面拥有广泛利益、肩负着重要责任。要在两国元首重要共识的指引下，推动中美经贸合作和两国关系健康稳定向前发展。加强生态环境保护是中国实现高质量发展的必然要求，中方愿意开展各种形式的国际合作，愿意与保尔森基金会共同努力，在生态环境保护方面进一步拓宽合作领域。', ' 保尔森表示，美中关系是世界上最重要的双边关系之一。保尔森基金会愿意积极推动美中贸易投资、环境保护、清洁能源、绿色金融等领域的合作。']}, {'title': '习近平与独龙族的故事', 'whenandwhere': None, 'content': [' 新华网 金佳绪', ' ', ' 4月10日，习近平给云南省贡山县独龙江乡群众回信，祝贺独龙族实现整族脱贫。', ' 总书记说，得知这个消息，我很高兴，向你们表示衷心的祝贺！', ' ', ' 2018年，独龙江乡6个行政村整体脱贫，独龙族实现整族脱贫，当地群众委托乡党委给习近平总书记写信，汇报独龙族实现整族脱贫的喜讯。', ' 2019年4月10日，习近平给乡亲们回信，祝贺独龙族实现整族脱贫。', ' 在信里，习近平说：', ' “让各族群众都过上好日子，是我一直以来的心愿，也是我们共同奋斗的目标。新中国成立后，独龙族告别了刀耕火种的原始生活。进入新时代，独龙族摆脱了长期存在的贫困状况。这生动说明，有党的坚强领导，有广大人民群众的团结奋斗，人民追求幸福生活的梦想一定能够实现。”', ' “脱贫只是第一步，更好的日子还在后头。”习近平勉励乡亲们再接再厉、奋发图强，同心协力建设好家乡、守护好边疆，努力创造独龙族更加美好的明天。', ' ', ' 独龙族是我国28个人口较少民族之一，也是新中国成立初期一个从原始社会末期直接过渡到社会主义社会的少数民族，主要聚居在云南省贡山县独龙江乡。当地地处深山峡谷，自然条件恶劣，一直是云南乃至全国最为贫穷的地区之一。', ' 摆脱贫困，过上美好生活，这是独龙族同胞

- 我得到的结果和书上的不一样，犹豫了以下，纠结了半天，实现有些瑕疵。不过转过头一看，原来是自己代码，抓取的网页whenandwhere为None，那就算解决了啊。

**本章作业:抓取新浪新闻详情页最新的一条新闻内容，并将结果导入.csv文件和.xlsx文件中。**
- 请课后后完成2025-03-25-14：25

- puzzle2:抓取到详情页面后，html格式的信息说了啥，想要保存为csv文件，格式转化的方法是啥？

In [1]:
#这是大语言模型给出的一段程序修改了url后可以保存为一个csv文件文件内容"未知"

import requests
from lxml import etree
import pandas as pd

def get_html(url):
    """
    发送HTTP请求，获取网页的HTML代码
    :param url: 目标网页的URL
    :return: 网页的HTML代码
    """
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        response = requests.get(url, headers=headers)
        response.raise_for_status()  # 检查请求是否成功
        return response.text
    except requests.RequestException as e:
        print(f"请求出错: {e}")
        return None

def parse_html(html):
    """
    使用XPath解析HTML代码，提取所需信息
    :param html: 网页的HTML代码
    :return: 提取的信息列表
    """
    if html:
        tree = etree.HTML(html)
        # 示例：提取所有a标签的文本和链接
        links = tree.xpath('//a')
        results = []
        for link in links:
            text = link.text
            href = link.get('href')
            results.append({'text': text, 'href': href})
        return results
    return []

def save_to_file(results, filename):
    """
    使用pandas将抓取结果保存为CSV文件
    :param results: 提取的信息列表
    :param filename: 保存的文件名
    """
    df = pd.DataFrame(results)
    df.to_csv(filename, index=False)
    print(f"数据已保存到 {filename}")

if __name__ == "__main__":
    url = 'http://opinion.people.com.cn/n1/2025/0325/c1003-40445766.html'  # 替换为实际的URL
    html = get_html(url)
    results = parse_html(html)
    save_to_file(results, 'results.csv')

数据已保存到 results.csv


In [3]:
#这是测试失败的大预言模型(2)

import requests
from lxml import etree
import pandas as pd

def get_news_info(url):
    try:
        headers = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
        response = requests.get(url, headers=headers)
        response.raise_for_status()
        html = response.text
        tree = etree.HTML(html)

        # 假设这里是人民日报新闻页面的 XPath 表达式，实际需要根据页面结构调整
        titles = tree.xpath('//h3[@class="title"]/text()')
        times = tree.xpath('//span[@class="time"]/text()')
        sources = tree.xpath('//span[@class="source"]/text()')
        contents = tree.xpath('//div[@class="content"]/text()')

        news_list = []
        for title, time, source, content in zip(titles, times, sources, contents):
            news_list.append({
                '标题': title.strip(),
                '时间': time.strip(),
                '来源': source.strip(),
                '内容': content.strip()
            })
        return news_list
    except requests.RequestException as e:
        print(f"请求出错: {e}")
        return []

if __name__ == "__main__":
    url = 'http://politics.people.com.cn/n1/2025/0325/c1001-40445729.html'  # 替换为实际的人民日报新闻页面 URL
    news_info = get_news_info(url)
    if news_info:
        df = pd.DataFrame(news_info)
        df.to_csv('news_info.csv', index=False)
        print("新闻信息已保存到 news_info.csv")
    else:
        print("未获取到新闻信息")

未获取到新闻信息


In [11]:
import requests
from lxml import etree

# 构造请求头
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36',
}

def get_web_page_content(url):
    try:
        # 发送请求，携带构造好的请求头
        response = requests.get(url, headers=HEADERS)
        # 检查请求是否成功
        response.raise_for_status()
        # 返回网页的 HTML 内容
        return response.text
    except requests.RequestException as e:
        print(f"请求网页时出错: {e}")
        return None

def extract_info(html_content):
    if html_content:
        # 解析 HTML 内容
        tree = etree.HTML(html_content)
        # 这里需要根据实际网页结构修改 XPath 表达式
        # 示例：提取所有链接
        links = tree.xpath('//a/@href')
        return links
    return []

if __name__ == "__main__":
    # 替换为你要访问的实际网址
    target_url = "http://politics.people.com.cn/n1/2019/0411/c1024-31025480.html"
    page_content = get_web_page_content(target_url)
    if page_content:
        info = extract_info(page_content)
        if info:
            print("提取到的信息：")
            for item in info:
                print(item)
        else:
            print("未提取到有效信息。")    

提取到的信息：
http://www.people.com.cn/
http://cpc.people.com.cn/
http://finance.people.com.cn/
http://society.people.com.cn/
http://ent.people.com.cn/
http://health.people.com.cn/
http://opinion.people.com.cn/
http://fangtan.people.com.cn/
http://world.people.com.cn/
http://military.people.com.cn/
http://hm.people.com.cn/
http://tw.people.com.cn/
http://v.people.cn/
http://pic.people.com.cn/
http://edu.people.com.cn/
http://house.people.com.cn/
http://sso.people.com.cn/u/reg?appCode=ENw9NE44
http://sso.people.com.cn/u/reg?appCode=ENw9NE44
http://sso.people.com.cn/u/findpwd/user
http://www.people.com.cn
http://www.people.com.cn
http://www.people.com.cn/
http://politics.people.com.cn/GB/1024/
http://www.people.com.cn/GB/138812/index.html
http://www.xinhuanet.com/politics/xxjxs/2019-04/11/c_1124355291.htm
http://bbs1.people.com.cn/postLink.do?nid=31025480
http://www.people.com.cn/GB/123231/365206/index.html
http://www.people.com.cn/GB/123231/365208/index.html
http://5g.people.cn/rmspdown/
http