In [1]:
# 导入必要的包
import os
import re
import time
import json
import random
import pymongo
import pandas as pd
import requests  # 新增：用于下载图片

from PIL import Image
from io import BytesIO
from datetime import datetime
from tqdm.notebook import tqdm

from scrapy.selector import Selector
from scrapy.http import TextResponse

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.common.action_chains import ActionChains
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.ui import WebDriverWait

# 配置Chrome浏览器
options = Options()
options.add_experimental_option('debuggerAddress', '127.0.0.1:9222')
options.add_argument('--incognito')
browser = webdriver.Chrome(options=options)
action = ActionChains(browser)

# 定义全局变量
key_word = ""
num = 0

def selenium_test():
    """
    初始化Selenium浏览器，检查登录状态，并获取用户输入的搜索关键词和爬取数量。
    """
    global key_word, num  # 使用全局变量
    browser.get('https://www.xiaohongshu.com/explore')

    print("即将开始检查小红书登录状态...")
    print("爬取数据有账户封禁的风险，建议使用非主账号登录。")
    
    wait = WebDriverWait(browser, 30)  # 设置最长等待时间为30秒

    # 定义循环：检查是否成功登录小红书
    while True:
        try:
            # 尝试查找登录相关的元素
            login_element = browser.find_element(By.XPATH, "//div[contains(text(), '登录探索更多内容')]")
            print('暂未登录，请手动登录')
            print('检查时间:', time.ctime())
            wait.until(EC.staleness_of(login_element))  # 等待登录状态改变
        except:
            print('登录成功')
            print('检查时间:', time.ctime())
            break

    print("即将开始检查网页加载状态...")
    print("如果网页进入人机验证页面，请先手动完成验证。")
    print("请在文本框中根据提示输入搜索关键词和笔记爬取数量。")
    key_word = input("搜索关键词：")
    num = input("笔记爬取数量：")
    try:
        num = int(num)
    except ValueError:
        print("请输入一个有效的数字作为笔记爬取数量。")
        browser.quit()
        exit()

    url = f'https://www.xiaohongshu.com/search_result?keyword={key_word}&source=web_explore_feed'
    browser.get(url)

    try:
        # 等待标题中包含关键词
        wait.until(EC.title_contains(key_word))
        print('加载成功')
        print('检查时间:', time.ctime())
    except:
        print('页面加载超时，请检查网络或关键词。')
        browser.quit()
        exit()

if __name__ == '__main__':
    selenium_test()

# 通过模拟点击更改模式
try:
    mode = WebDriverWait(browser, 10).until(
        EC.element_to_be_clickable((By.XPATH, '//*[@id="search-type"]/div/div/div[2]'))
    )
    mode.click()  # 模拟鼠标点击
    print('已自动更改模式为图文。')
except Exception as e:
    print(f"更改模式时出错: {e}")

# 通过模拟点击更改排序方式
sort_order = ['综合', '最新', '最热']
print("请在文本框中根据提示输入对应数字来选择排序方式。")
for i, order in enumerate(sort_order, 1):
    print(f'{i}.{order}')
selected_order = input("请选择排序方式:")

try:
    selected_order_index = int(selected_order)
    if selected_order_index < 1 or selected_order_index > len(sort_order):
        raise ValueError
    selected_order_text = sort_order[selected_order_index - 1]
    element = browser.find_element(By.XPATH, '//*[@id="global"]/div[2]/div[2]/div/div[1]/div[2]')
    action.move_to_element(element).perform()  # 模拟鼠标悬停
    menu = browser.find_element(By.CLASS_NAME, 'dropdown-items')
    option = menu.find_element(By.XPATH, f'/html/body/div[4]/div/li[{selected_order_index}]')
    option.click()  # 模拟鼠标点击
    print(f'已选择排序方式为: {selected_order_text}')
    print('检查时间:', time.ctime())
except (ValueError, IndexError):
    print("选择排序方式时输入无效。")
except Exception as e:
    print(f"选择排序方式时出错: {e}")

# 初始化数据存储列表
authorName_list = []
likeNr_list = []
URL_list = []
userURL_list = []
commentNr_list = []
post_title_list = [] 
caption_list = []  # 已初始化，用于存储帖子内容
datePublished_list = []
images_list = []
author_avatar_list = []  # 单独初始化用于存储头像图片
starNr_list = []
authorCollectNr_list = []
authorFansNr_list = []
authorNoteNr_list = []
video_urls = [] 

def parsePage(page_source):
    """
    解析当前页面的HTML内容，提取笔记的基本信息并更新对应的列表。
    
    Args:
        page_source (str): 当前页面的HTML内容
    """
    response = TextResponse(url=browser.current_url, body=page_source.encode('utf-8'), encoding='utf-8')
    selector = Selector(response)

    print("正在分析页面结构...")

    containers = [
        '//div[contains(@class, "note-item")]'
    ]

    for container in containers:
        elements = selector.xpath(container)
        if elements:
            print(f"找到容器，xpath: {container}")

    content_elements = selector.xpath('//section[contains(@class, "note-item")]')
    if content_elements:
        print(f"找到 {len(content_elements)} 个内容元素")

        for element in content_elements:
            try:
                # 提取用户URL
                user_url = element.xpath('.//a[contains(@class, "cover")]/@href').get()
                if user_url:
                    note_id = user_url.split('/')[-1].split('?')[0]
                    if note_id in URL_list:
                        continue  # 避免重复
                    URL_list.append(note_id)
                    userURL_list.append(user_url)

                    # 提取作者名字
                    author = element.xpath('.//div[contains(@class, "author-wrapper")]//span[contains(@class, "name")]/text()').get()
                    authorName_list.append(author.strip() if author else "N/A")

                    # 提取点赞数量
                    likes = element.xpath('.//span[contains(@class, "like-wrapper")]/span[contains(@class, "count")]/text()').get()
                    likeNr_list.append(likes.strip() if likes else "0")

                    # 提取帖子标题
                    post_title = element.xpath('.//a[contains(@class, "title")]//span/text()').getall()
                    post_title_cleaned = ' '.join([c.strip() for c in post_title if c.strip()])
                    post_title_list.append(post_title_cleaned if post_title_cleaned else "N/A")

                    # 提取图片（主图）
                    main_image = element.xpath('.//a[contains(@class, "cover")]/img/@src').get()
                    images_list.append(main_image.strip() if main_image else "N/A")

                    # 提取头像图片
                    avatar_image = element.xpath('.//a[contains(@class, "author")]/img/@src').get()
                    author_avatar_list.append(avatar_image.strip() if avatar_image else "N/A")

                    # 初始化附加字段的默认值
                    commentNr_list.append("0")
                    datePublished_list.append("N/A")
                    starNr_list.append("0")
                    authorCollectNr_list.append("0")
                    authorFansNr_list.append("0")
                    authorNoteNr_list.append("0")
                    video_urls.append("N/A")  
                    caption_list.append("N/A")  # 初始化为默认值

                    qbar.update(1)

            except Exception as e:
                print(f"处理元素时出错: {str(e)}")
                continue

    print(f"当前已爬取总数: {len(URL_list)}")

def extract_additional_fields(note_url, note_id):
    """
    访问每个笔记的页面，提取附加字段，包括评论数量、发布时间、收藏数量、粉丝数量、笔记数量、视频URL以及帖子内容（Caption）。
    
    Args:
        note_url (str): 笔记的相对URL
        note_id (str): 笔记的唯一ID
    """
    try:
        full_note_url = f'https://www.xiaohongshu.com{note_url}'
        browser.get(full_note_url)
        
        # 使用显式等待代替固定的等待时间，等待描述meta标签加载完成
        wait = WebDriverWait(browser, 15)
        wait.until(EC.presence_of_element_located((By.XPATH, '//*[@name="description"]')))
        
        # 获取页面源代码
        page_source = browser.page_source
        response = TextResponse(url=browser.current_url, body=page_source.encode('utf-8'), encoding='utf-8')
        selector = Selector(response)

        # 提取评论数量
        comments = selector.xpath('//*[@class="total"]/text()').get()
        comments = comments.strip() if comments else "0"

        # 提取发布时间，使用多个XPath策略
        date_published = selector.xpath('//*[@class="date"]/text()').get()
        if not date_published:
            # 替代XPath，如果第一个失败
            date_published = selector.xpath('//time/@datetime').get()
        date_published = date_published.strip() if date_published else "N/A"

        # 提取收藏数量
        stars = selector.xpath('//*[@class="count"]/text()').get()
        stars = stars.strip() if stars else "0"

        # 提取作者收藏数量
        collect_nr = selector.xpath('//span[contains(@class, "collect") or contains(@class, "saved")]/text()').get()
        collect_nr = collect_nr.strip() if collect_nr else "0"

        # 提取作者粉丝数量
        fans_nr = selector.xpath('//span[contains(@class, "fans") or contains(@class, "followers")]/text()').get()
        fans_nr = fans_nr.strip() if fans_nr else "0"

        # 提取作者笔记数量
        note_nr = selector.xpath('//span[contains(@class, "notes") or contains(@class, "posts")]/text()').get()
        note_nr = note_nr.strip() if note_nr else "0"

        # 提取视频URL（如果有）
        video_url = selector.xpath('//video/@src').get()
        video_url = video_url.strip() if video_url else "N/A"

        # 提取帖子内容（Caption）
        caption = selector.xpath('//*[@name="description"]/@content').get()
        caption = caption.strip() if caption else "N/A"

        # 更新全局列表
        if note_id in URL_list:
            index = URL_list.index(note_id)
            commentNr_list[index] = comments
            datePublished_list[index] = date_published
            starNr_list[index] = stars
            authorCollectNr_list[index] = collect_nr
            authorFansNr_list[index] = fans_nr
            authorNoteNr_list[index] = note_nr
            video_urls[index] = video_url
            caption_list[index] = caption  # 存储提取的帖子内容
            print(f"已提取附加字段，笔记ID: {note_id}")
        else:
            print(f"笔记ID {note_id} 未在URL_list中找到。")

    except Exception as e:
        print(f"提取附加字段时出错，笔记ID: {note_id}, 错误: {str(e)}")

def ensure_search_results():
    """
    确保已导航到搜索结果页面，并选择“图文”模式。
    """
    current_url = browser.current_url
    print(f"当前URL: {current_url}")

    search_url = f'https://www.xiaohongshu.com/search_result?keyword={key_word}&source=web_explore_feed'
    browser.get(search_url)

    try:
        # 等待页面标题包含关键词
        wait = WebDriverWait(browser, 15)
        wait.until(EC.title_contains(key_word))
        print("已导航到搜索结果页面。")
    except:
        print("导航到搜索结果页面时超时。")
        browser.quit()
        exit()

    try:
        selectors = [
            "//div[text()='图文']",
            "//div[contains(@class, 'tab')]//span[text()='图文']",
            "//div[contains(@class, 'filter')]//div[text()='图文']",
            "//*[contains(text(), '图文')]"
        ]

        for selector in selectors:
            try:
                element = WebDriverWait(browser, 10).until(
                    EC.element_to_be_clickable((By.XPATH, selector))
                )
                print(f"找到元素，选择器: {selector}")
                element.click()
                time.sleep(2)  # 等待模式切换
                break
            except:
                continue
        else:
            print("未找到“图文”标签，可能页面结构已更改。")
    except Exception as e:
        print(f"切换视图时出错: {e}")

    # 等待任何内容加载完成
    time.sleep(3)

def download_image(url, save_path):
    """
    下载图片并保存到指定路径。
    
    Args:
        url (str): 图片的URL地址。
        save_path (str): 图片保存的本地路径。
    
    Returns:
        bool: 下载是否成功。
    """
    try:
        response = requests.get(url, timeout=10)
        response.raise_for_status()  # 检查请求是否成功
        with open(save_path, 'wb') as f:
            f.write(response.content)
        return True
    except Exception as e:
        print(f"下载图片时出错，URL: {url}, 错误: {str(e)}")
        return False

# 创建目录用于存储图片
def create_directories():
    """
    创建用于存储主图片和头像图片的目录。
    """
    if not os.path.exists('images'):
        os.makedirs('images')
    if not os.path.exists('avatars'):
        os.makedirs('avatars')

# 调用目录创建函数
create_directories()

# 定义进度条:实时跟踪已爬取的笔记数量
qbar = tqdm(total=num, desc="爬取进度")

ensure_search_results()

while len(URL_list) < num:
    for _ in range(3):
        browser.execute_script("window.scrollBy(0, 300);")
        time.sleep(1)

    parsePage(browser.page_source)

    if '- THE END -' in browser.page_source or 'No more content' in browser.page_source:
        print(f"已到达内容末尾。总共收集: {len(URL_list)} 条")
        break

    time.sleep(random.uniform(2, 4))

print(f"总共收集的条目数: {len(URL_list)}")
if URL_list:
    print("收集的数据样本:")
    for i in range(min(5, len(URL_list))):
        print(f"URL: {URL_list[i]}")

if len(URL_list) > num:
    URL_list = URL_list[:num]
    authorName_list = authorName_list[:num]
    likeNr_list = likeNr_list[:num]
    userURL_list = userURL_list[:num]
    commentNr_list = commentNr_list[:num]
    post_title_list = post_title_list[:num]
    datePublished_list = datePublished_list[:num]
    images_list = images_list[:num]
    author_avatar_list = author_avatar_list[:num]  # 截断头像列表
    starNr_list = starNr_list[:num]
    authorCollectNr_list = authorCollectNr_list[:num]
    authorFansNr_list = authorFansNr_list[:num]
    authorNoteNr_list = authorNoteNr_list[:num]
    video_urls = video_urls[:num]
    caption_list = caption_list[:num]  # 截断帖子内容列表

print(f"截断后的总条目数: {len(URL_list)}")
print("收集的数据样本:")
for i in range(min(5, len(URL_list))):
    print(f"作者: {authorName_list[i]}, 点赞: {likeNr_list[i]}, URL: {URL_list[i]}")

qbar.close()

# 提取附加字段，包括帖子内容、日期发布和评论数量
print("开始提取附加字段，包括帖子内容、日期发布和评论数量...")
qbar = tqdm(total=len(URL_list), desc="已获取的笔记数量...")

for note_id, note_url in zip(URL_list, userURL_list):
    extract_additional_fields(note_url, note_id)
    qbar.update(1)
    time.sleep(random.uniform(2, 4))  # 礼貌等待，避免服务器压力过大

qbar.close()

# 下载图片
print("开始下载主图片和头像图片...")

# 下载主图片
image_download_bar = tqdm(total=len(images_list), desc="下载主图片")
for idx, image_url in enumerate(images_list):
    if image_url == "N/A":
        image_download_bar.update(1)
        continue
    # 构造图片保存路径，使用note_id作为文件名
    image_extension = os.path.splitext(image_url)[1].split('?')[0]  # 获取文件扩展名
    if image_extension.lower() not in ['.jpg', '.jpeg', '.png', '.gif']:
        image_extension = '.jpg'  # 默认使用.jpg
    image_filename = f"images/{URL_list[idx]}{image_extension}"
    success = download_image(image_url, image_filename)
    if not success:
        image_filename = "N/A"  # 如果下载失败，标记为N/A
    images_list[idx] = image_filename  # 更新为本地路径
    image_download_bar.update(1)
image_download_bar.close()

# 下载头像图片
avatar_download_bar = tqdm(total=len(author_avatar_list), desc="下载头像图片")
for idx, avatar_url in enumerate(author_avatar_list):
    if avatar_url == "N/A":
        avatar_download_bar.update(1)
        continue
    # 构造头像保存路径，使用note_id作为文件名
    avatar_extension = os.path.splitext(avatar_url)[1].split('?')[0]  # 获取文件扩展名
    if avatar_extension.lower() not in ['.jpg', '.jpeg', '.png', '.gif']:
        avatar_extension = '.jpg'  # 默认使用.jpg
    avatar_filename = f"avatars/{URL_list[idx]}{avatar_extension}"
    success = download_image(avatar_url, avatar_filename)
    if not success:
        avatar_filename = "N/A"  # 如果下载失败，标记为N/A
    author_avatar_list[idx] = avatar_filename  # 更新为本地路径
    avatar_download_bar.update(1)
avatar_download_bar.close()

print("所有图片下载完成。")

# 创建数据字典，包括“Author Avatar”和“Caption”
data = {
    'Author Name': authorName_list,
    'Likes': likeNr_list,
    'Comments': commentNr_list,
    'Post Title': post_title_list, 
    'Caption': caption_list,  # 包含帖子内容
    'Date Published': datePublished_list,
    'Images': images_list,  # 仅主图的本地路径
    'Author Avatar': author_avatar_list,  # 单独的头像列表的本地路径
    'Stars': starNr_list,
    'Author Collect Nr': authorCollectNr_list,
    'Author Fans Nr': authorFansNr_list,
    'Author Note Nr': authorNoteNr_list,
    'Video URL': video_urls,
    'URL': URL_list,
    'User URL': userURL_list
}

# 创建DataFrame并保存为CSV
df = pd.DataFrame(data)
df.set_index('URL', inplace=True)
print(df.head())
df.to_csv('scraped_data2.csv', encoding='utf-8-sig')
print("数据已保存到 'scraped_data2.csv'")


即将开始检查小红书登录状态...
爬取数据有账户封禁的风险，建议使用非主账号登录。
登录成功
检查时间: Thu Dec  5 01:59:09 2024
即将开始检查网页加载状态...
如果网页进入人机验证页面，请先手动完成验证。
请在文本框中根据提示输入搜索关键词和笔记爬取数量。
加载成功
检查时间: Thu Dec  5 01:59:14 2024
已自动更改模式为图文。
请在文本框中根据提示输入对应数字来选择排序方式。
1.综合
2.最新
3.最热
已选择排序方式为: 综合
检查时间: Thu Dec  5 01:59:19 2024


爬取进度:   0%|          | 0/100 [00:00<?, ?it/s]

当前URL: https://www.xiaohongshu.com/search_result?keyword=%E4%B8%8A%E7%BA%BD%E5%B8%82%E5%9C%BA%E8%90%A5%E9%94%80&source=web_explore_feed&type=51
已导航到搜索结果页面。
找到元素，选择器: //*[contains(text(), '图文')]
正在分析页面结构...
找到容器，xpath: //div[contains(@class, "note-item")]
找到 18 个内容元素
当前已爬取总数: 17
正在分析页面结构...
找到容器，xpath: //div[contains(@class, "note-item")]
找到 18 个内容元素
当前已爬取总数: 28
正在分析页面结构...
找到容器，xpath: //div[contains(@class, "note-item")]
找到 18 个内容元素
当前已爬取总数: 38
正在分析页面结构...
找到容器，xpath: //div[contains(@class, "note-item")]
找到 18 个内容元素
当前已爬取总数: 46
正在分析页面结构...
找到容器，xpath: //div[contains(@class, "note-item")]
找到 18 个内容元素
当前已爬取总数: 55
正在分析页面结构...
找到容器，xpath: //div[contains(@class, "note-item")]
找到 18 个内容元素
当前已爬取总数: 64
正在分析页面结构...
找到容器，xpath: //div[contains(@class, "note-item")]
找到 18 个内容元素
当前已爬取总数: 73
正在分析页面结构...
找到容器，xpath: //div[contains(@class, "note-item")]
找到 18 个内容元素
当前已爬取总数: 82
正在分析页面结构...
找到容器，xpath: //div[contains(@class, "note-item")]
找到 18 个内容元素
当前已爬取总数: 91
正在分析页面结构...
找到容器，xpath: //div[contains(@c

已获取的笔记数量...:   0%|          | 0/100 [00:00<?, ?it/s]

已提取附加字段，笔记ID: 6572c4b3000000003a00b725
已提取附加字段，笔记ID: 62272e89000000002103ce15
已提取附加字段，笔记ID: 664e11e90000000016013819
已提取附加字段，笔记ID: 6579a9ca0000000006020dfa
已提取附加字段，笔记ID: 6703a702000000001902d59d
已提取附加字段，笔记ID: 658bf47b000000001101c78b
已提取附加字段，笔记ID: 6473d619000000001300603d
已提取附加字段，笔记ID: 66f5ea02000000002c01718c
已提取附加字段，笔记ID: 66a0f883000000000d00d341
已提取附加字段，笔记ID: 657c16570000000016004d4a
已提取附加字段，笔记ID: 673daa98000000000202bef1
已提取附加字段，笔记ID: 64dcd0b40000000010032ecc
已提取附加字段，笔记ID: 668691fb000000001c024430
已提取附加字段，笔记ID: 667cd95b000000001e0123b8
已提取附加字段，笔记ID: 667a99c4000000001c023d4a
已提取附加字段，笔记ID: 61ffcac0000000000102d6c9
已提取附加字段，笔记ID: 66d19d18000000001d03984b
已提取附加字段，笔记ID: 65b362b2000000002b03f8e3
已提取附加字段，笔记ID: 67283993000000001901aa51
已提取附加字段，笔记ID: 668688ad000000000d00ff62
已提取附加字段，笔记ID: 66c32746000000001d01514c
已提取附加字段，笔记ID: 649908ed00000000140276ca
已提取附加字段，笔记ID: 67492679000000000202a8ab
已提取附加字段，笔记ID: 6745574f0000000006015cee
已提取附加字段，笔记ID: 63d67794000000001b01ca8a
已提取附加字段，笔记ID: 624b001b000

下载主图片:   0%|          | 0/100 [00:00<?, ?it/s]

下载头像图片:   0%|          | 0/100 [00:00<?, ?it/s]

所有图片下载完成。
                          Author Name Likes Comments  \
URL                                                    
6572c4b3000000003a00b725          心莫鸢     1        0   
62272e89000000002103ce15  美研老阿姨Eva讲申请    66        0   
664e11e90000000016013819    Iris林小西🐱🌸    43        0   
6579a9ca0000000006020dfa     Camellia    30        0   
6703a702000000001902d59d       邵主任讲升学     5        0   

                                        Post Title          Caption  \
URL                                                                   
6572c4b3000000003a00b725        上纽市场营销和零售offer火热出炉  3 亿人的生活经验，都在小红书   
62272e89000000002103ce15    上海纽约大学项目解析:营销与零售科学MMRS  3 亿人的生活经验，都在小红书   
664e11e90000000016013819       毕业季太卷了，上纽大的营销实操值得表扬  3 亿人的生活经验，都在小红书   
6579a9ca0000000006020dfa  Go violet💜第一个offer是NYU的！  3 亿人的生活经验，都在小红书   
6703a702000000001902d59d        3.上海纽约大学目前开设了哪些专业？  3 亿人的生活经验，都在小红书   

                         Date Published                               Images  \
URL                