In [6]:
import requests
import json
from urllib import parse
import os
import time
import pandas as pd  # 导入pandas库，用来读取和保存Excel文件
from openpyxl import Workbook
from openpyxl.drawing.image import Image


class BaiduImageSpider(object):
    def __init__(self):
        self.json_count = 1  # 每次请求获取1个json文件（即30张图片）
        self.url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&logid=5179920884740494226&ipn=rj&ct' \
                   '=201326592&is=&fp=result&queryWord={}&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&hd=1' \
                   '&latest=&copyright=&word={}&s=&se=&tab=&width=&height=&face=0&istype=2&qc=&nc=1&fr=&expermode=' \
                   '&nojc=&pn={}&rn=30&gsm=1e&1635054081427='  # 百度图片搜索的URL模板
        self.header = {
            'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) '
                          'Chrome/95.0.4638.54 Safari/537.36 Edg/95.0.1020.30 '
        }
        self.base_directory = os.path.join(os.getcwd(), "智库下载图片2")  # 创建一个总文件夹，存放所有图片
        self.folder_counter = 1  # 用于生成按顺序编号的文件夹
        self.image_paths = []  # 用来存储每个关键词的下载图片路径

    # 创建总文件夹下的子文件夹，使用顺序编号和查询关键词作为文件夹名
    def create_directory(self, name):
        # 创建总文件夹（如果不存在）
        if not os.path.exists(self.base_directory):
            os.makedirs(self.base_directory)

        # 使用编号和关键词来创建文件夹
        folder_name = f"{str(self.folder_counter).zfill(2)}_{name}"  # 如：01_关键词
        self.directory = os.path.join(self.base_directory, folder_name)

        # 创建文件夹
        if not os.path.exists(self.directory):
            os.makedirs(self.directory)

        # 更新文件夹编号
        self.folder_counter += 1

    # 获取图像链接，调整为只获取1张高清图片
    def get_image_link(self, url):
        list_image_link = []
        try:
            strhtml = requests.get(url, headers=self.header)
            strhtml.raise_for_status()  # 检查HTTP请求是否成功
            jsonInfo = json.loads(strhtml.text)
            if 'data' in jsonInfo and jsonInfo['data']:
                # 只取第一张图片
                image_data = jsonInfo['data'][0]
                if 'thumbURL' in image_data:  # 确保有图片链接
                    list_image_link.append(image_data['thumbURL'])
        except requests.exceptions.RequestException as e:
            print(f"请求出错: {e}")
        return list_image_link

    # 下载图片
    def save_image(self, img_link, filename):
        try:
            res = requests.get(img_link, headers=self.header)
            res.raise_for_status()  # 检查HTTP请求是否成功
            with open(filename, "wb") as f:
                f.write(res.content)
                print(f"图片已保存到: {filename}")
            return filename  # 返回保存的图片路径
        except requests.exceptions.RequestException as e:
            print(f"图片下载出错: {e}")
            return None

    # 处理每个关键词进行图片下载
    def run(self, keywords, original_excel_file):
        results = []  # 用来存储每个关键词的下载结果
        for searchName in keywords:
            searchName_parse = parse.quote(searchName)  # 对关键词进行编码

            # 创建以查询内容为文件夹名的子目录，并添加编号
            self.create_directory(searchName)

            pic_number = 0  # 图像数量
            found_images = False  # 标记是否找到图片
            image_paths = []  # 用于存储当前关键词的图片路径

            try:
                for index in range(self.json_count):
                    pn = (index) * 30  # 调整分页参数为1张图片
                    request_url = self.url.format(searchName_parse, searchName_parse, str(pn))
                    list_image_link = self.get_image_link(request_url)

                    if list_image_link:  # 如果找到了图片链接
                        found_images = True
                        link = list_image_link[0]  # 只取第一张图片
                        pic_number += 1
                        # 存储图片到关键词文件夹
                        image_path = self.save_image(link, os.path.join(self.directory, f'{pic_number}.jpg'))
                        if image_path:
                            image_paths.append(image_path)  # 将下载的图片路径添加到列表
                        time.sleep(0.5)  # 休眠0.5秒，防止封IP

                # 记录下载结果
                if found_images:
                    results.append([searchName] + image_paths)  # 存储关键词和图片路径
                    print(f"{searchName} ---- 图像下载完成--------->")
                else:
                    results.append([searchName, '未找到图片'])  # 如果未找到图片
                    print(f"{searchName} ---- 未找到图片，已跳过。")

            except Exception as e:
                # 捕获所有异常并处理
                print(f"错误处理：{searchName} - {e}")
                # 即使发生错误，也将结果记录为未找到图片并跳过
                results.append([searchName, '下载失败'])
                print(f"{searchName} ---- 发生错误，跳过该关键词。")

        # 保存结果到Excel文件并插入图片
        self.save_to_excel(results, original_excel_file)

    # 将结果保存到Excel文件并插入图片
    def save_to_excel(self, results, original_excel_file):
        # 读取原始Excel文件
        df = pd.read_excel(original_excel_file)

        # 创建一个新的Excel工作簿
        wb = Workbook()
        ws = wb.active

        # 设置标题行，保留原始数据列
        header = df.columns.tolist() + ['图片1']
        ws.append(header)

        # 遍历每个关键词的结果
        for i, result in enumerate(results):
            keyword = result[0]
            image_paths = result[1:]

            # 获取原始文件中的一行数据
            original_row = df.iloc[i].tolist()

            # 向Excel中插入原始数据和图片路径
            ws.append(original_row + [''] * (5 - len(image_paths)))  # 保证每个关键词都有1个单元格

            # 向单元格中插入图片
            if image_paths:
                image_path = image_paths[0]  # 取第一张图片
                if image_path and os.path.exists(image_path):
                    img = Image(image_path)
                    img.width = 100  # 设置图片宽度
                    img.height = 100  # 设置图片高度
                    cell = ws.cell(row=ws.max_row, column=len(original_row) + 1)  # 图片插入到对应列
                    ws.add_image(img, cell.coordinate)

        # 保存最终结果到Excel文件
        output_filename = f"4测试.xlsx"
        wb.save(output_filename)
        print(f"所有结果已保存到 '{output_filename}' 文件中。")


if __name__ == '__main__':
    # 读取Excel文件中的关键词列表
    excel_file = r"C:\Users\86155\Desktop\学习\6.xlsx"  # 替换为你的Excel文件路径
    df = pd.read_excel(excel_file)  # 读取Excel文件
    keywords = df.iloc[:, 0].tolist()  # 假设关键词存储在第三列

    spider = BaiduImageSpider()
    spider.json_count = 1  # 设置每次只下载1张图片
    spider.run(keywords, excel_file)  # 传入从Excel读取的关键词列表


错误处理：加勒比地区 300 万美元的豪宅 - Invalid \escape: line 54 column 148 (char 63844)
加勒比地区 300 万美元的豪宅 ---- 发生错误，跳过该关键词。
图片已保存到: D:\我的文档\我的代码\爬虫\爬虫\智库下载图片2\02_加勒比辣椒酱如何火起来\1.jpg
加勒比辣椒酱如何火起来 ---- 图像下载完成--------->
图片已保存到: D:\我的文档\我的代码\爬虫\爬虫\智库下载图片2\03_巨型船舶之战？一艘欧洲巨无霸驶向加勒比海。\1.jpg
巨型船舶之战？一艘欧洲巨无霸驶向加勒比海。 ---- 图像下载完成--------->
错误处理：从加利福尼亚到加勒比海：5 个阳光明媚的新度假胜地 - Invalid \escape: line 14 column 158 (char 19069)
从加利福尼亚到加勒比海：5 个阳光明媚的新度假胜地 ---- 发生错误，跳过该关键词。
图片已保存到: D:\我的文档\我的代码\爬虫\爬虫\智库下载图片2\05_飓风席卷加勒比地区\1.jpg
飓风席卷加勒比地区 ---- 图像下载完成--------->
图片已保存到: D:\我的文档\我的代码\爬虫\爬虫\智库下载图片2\06_古根海姆策展人将举办加勒比侨民展览\1.jpg
古根海姆策展人将举办加勒比侨民展览 ---- 图像下载完成--------->
错误处理：克里斯托弗·哥伦布是否引发了气候危机？ - Invalid control character at: line 84 column 157 (char 42949)
克里斯托弗·哥伦布是否引发了气候危机？ ---- 发生错误，跳过该关键词。
图片已保存到: D:\我的文档\我的代码\爬虫\爬虫\智库下载图片2\08_邮轮公司改变行程以避开飓风海伦的影响\1.jpg
邮轮公司改变行程以避开飓风海伦的影响 ---- 图像下载完成--------->
图片已保存到: D:\我的文档\我的代码\爬虫\爬虫\智库下载图片2\09_想看珊瑚礁生长吗？那就冷冻它们吧。\1.jpg
想看珊瑚礁生长吗？那就冷冻它们吧。 ---- 图像下载完成--------->
图片已保存到: D:\我的文档\我的代码\爬虫\爬虫\智库下载图片2\10_飓风贝丽尔袭击