In [45]:
# 导入 Selenium 及相关模块，用于自动化浏览器操作
from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.common import NoSuchElementException
import pandas as pd

# 初始化 Edge 浏览器驱动
driver = webdriver.Edge()

# 定义要访问的网页 URL
base_url = 'https://esf.fang.com/house-a015277-b03115/'

# 存储数据的列表
data = []

# 打开初始网页
driver.get(base_url)

wait = WebDriverWait(driver, 10)

# 遍历前20页
for page in range(1, 21):
    print(f"正在抓取第 {page} 页...")

    # 抓取二手房信息
    house_list = wait.until(EC.presence_of_all_elements_located(
        (By.CSS_SELECTOR, "dl.clearfix[dataflag='bg']")
    ))

    # 遍历房源条目
    for house in house_list:
        # 名称
        try:
            name = house.find_element(By.CSS_SELECTOR, "span.tit_shop").text.strip()
        except NoSuchElementException:
            name = None
        
        # 总价（万） 
        try:
            total_price = house.find_element(By.CSS_SELECTOR, "dd.price_right span.red").text.strip()
        except NoSuchElementException:
            total_price = None
        
        # 单价（元/平米）
        try:
            unit_price = house.find_element(By.CSS_SELECTOR, "dd.price_right span:not(.red)").text.strip()
        except NoSuchElementException:
            unit_price = None
        
        # 面积（平方米）
        try:
            tel_shop = house.find_element(By.XPATH, ".//p[@class='tel_shop']").text.strip()
            area = tel_shop.split('|')[1].strip()  # 提取面积
        except (NoSuchElementException, IndexError):
            area = None

        data.append({
            '名称': name,
            '总价': total_price,
            '单价': unit_price,
            '面积': area
        })

    # 寻找下一页的链接
    if page < 20:  # 只在前19页时寻找下一页
        try:
            next_page_link = driver.find_element(By.LINK_TEXT, "下一页")
            next_page_link.click()  # 点击下一页
            wait = WebDriverWait(driver, 10)  # 每次翻页后重新设置等待时间
        except NoSuchElementException:
            print("没有找到下一页，即将结束抓取。")
            break

# 生成 DataFrame
df = pd.DataFrame(data)

# 打印抓取到的结果
print(df)

# 可以选择将结果保存到 CSV 文件
df.to_csv('esfang.com_house_data.csv', index=False)

# 关闭浏览器
driver.quit()


正在抓取第 1 页...
正在抓取第 2 页...
正在抓取第 3 页...
正在抓取第 4 页...
正在抓取第 5 页...
正在抓取第 6 页...
正在抓取第 7 页...
正在抓取第 8 页...
正在抓取第 9 页...
正在抓取第 10 页...
正在抓取第 11 页...
正在抓取第 12 页...
正在抓取第 13 页...
正在抓取第 14 页...
正在抓取第 15 页...
正在抓取第 16 页...
正在抓取第 17 页...
正在抓取第 18 页...
正在抓取第 19 页...
正在抓取第 20 页...
                                 名称     总价         单价       面积
0         世纪城春荫园南北通透四居室稳定出售,近地铁靠近金源  2100万  100478元/㎡     209㎡
1                      4室2厅世纪城三期晴波园  1820万  110303元/㎡     165㎡
2     世纪城 眼镜4居 南北向通透 装修好 拎包入住业主诚意出售  2600万  124294元/㎡  209.18㎡
3                      3室2厅世纪城三期时雨园  1350万   81325元/㎡     166㎡
4                       5室2厅鲁艺上河村三区  5300万  183346元/㎡  289.07㎡
...                             ...    ...        ...      ...
1195                   3室2厅世纪城三期晴波园  2380万  153548元/㎡     155㎡
1196                 2室2厅世纪城二期远大园三区  1120万   86153元/㎡     130㎡
1197                 4室2厅世纪城二期远大园一区  1800万   93264元/㎡     193㎡
1198                   3室2厅世纪城三期春荫园  1750万  106707元/㎡     164㎡
1199                   3室2厅世纪城三期晴雪园 

In [47]:
# 导入 Selenium 及相关模块
from selenium import webdriver
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.common.exceptions import NoSuchElementException, TimeoutException
import pandas as pd

# 初始化 Edge 浏览器驱动
driver = webdriver.Edge()

# 定义要访问的网页 URL
base_url = 'https://zu.fang.com/house-a015277-b03115/'

# 存储数据的列表
data = []

# 打开初始网页
driver.get(base_url)
wait = WebDriverWait(driver, 20)

# 遍历前20页
for page in range(1, 21):
    print(f"正在抓取第 {page} 页...")

    # 抓取房源信息
    try:
        house_list = wait.until(EC.presence_of_all_elements_located(
            (By.CSS_SELECTOR, "div.houseList dl.list")
        ))

        if house_list:
            print("选择器有效！")
        else:
            print("选择器无效。")
            break

    except TimeoutException:
        print("超时：未能找到房屋列表元素。请检查选择器或网络状态。")
        break

    # 遍历房源条目
    for house in house_list:
        # 房屋名称
        try:
            title = house.find_element(By.CSS_SELECTOR, "p.title").text.strip()
        except NoSuchElementException:
            title = None
            
        # 租金
        try:
            price = house.find_element(By.CSS_SELECTOR, "span.price").text.strip()
        except NoSuchElementException:
            price = None
            
        # 面积和房间信息
        try:
            size_info = house.find_element(By.CSS_SELECTOR, "p.font15.mt12.bold")
            spans = size_info.find_elements(By.CSS_SELECTOR, "span.splitline")  # 选取分隔符
            # 获取房间数和面积，分别是 spans 上下文的前后文本
            text_parts = size_info.text.split('|')  # 用竖线分割文本
            rooms = text_parts[1].strip() if len(text_parts) > 1 else "N/A"  # 获取房间信息
            area = text_parts[2].strip() if len(text_parts) > 2 else "N/A"  # 获取面积信息
        except NoSuchElementException:
            rooms = area = None
        
        # 保存数据到列表
        data.append({
            '房屋名称': title,
            '租金': price,
            '房间数': rooms,
            '面积': area
        })

    # 尝试找到下一页的链接
    if page < 20:
        try:
            next_page_link = driver.find_element(By.LINK_TEXT, "下一页")
            next_page_link.click()
            wait.until(EC.presence_of_all_elements_located((By.CSS_SELECTOR, "div.houseList dl.list")))
        except NoSuchElementException:
            print("没有找到下一页，即将结束抓取。")
            break
        except TimeoutException:
            print("超时：点击下一页后未能加载新页面。")
            break

# 生成 DataFrame 并处理其他逻辑
try:
    df = pd.DataFrame(data)
    print(df)  # 打印抓取到的数据
    df.to_csv('fang.com_house_data.csv', index=False)  # 保存到 CSV
except Exception as e:
    print(f"处理数据时发生错误: {e}")

# 关闭浏览器
driver.quit()


正在抓取第 1 页...
选择器有效！
正在抓取第 2 页...
选择器有效！
正在抓取第 3 页...
选择器有效！
正在抓取第 4 页...
选择器有效！
正在抓取第 5 页...
选择器有效！
正在抓取第 6 页...
选择器有效！
正在抓取第 7 页...
选择器有效！
正在抓取第 8 页...
选择器有效！
正在抓取第 9 页...
选择器有效！
正在抓取第 10 页...
选择器有效！
正在抓取第 11 页...
选择器有效！
正在抓取第 12 页...
选择器有效！
正在抓取第 13 页...
选择器有效！
正在抓取第 14 页...
选择器有效！
正在抓取第 15 页...
选择器有效！
正在抓取第 16 页...
选择器有效！
正在抓取第 17 页...
选择器有效！
正在抓取第 18 页...
选择器有效！
正在抓取第 19 页...
选择器有效！
正在抓取第 20 页...
选择器有效！
                            房屋名称     租金   房间数    面积
0     远大园三区 4室2卫2厅 204平简装修 22000  22000  4室2厅  204㎡
1      世纪城三期垂虹园 4室2厅2卫 主卧朝南 品质小区  20000  4室2厅  207㎡
2                   2室2厅世纪城三期垂虹园  12500  2室2厅  122㎡
3                   4室2厅世纪城三期春荫园  29000  4室2厅  213㎡
4               整租·远大园六区 4室2厅 东南  16200  4室2厅  172㎡
...                          ...    ...   ...   ...
1195         客厅开窗比较大+卧室很大+南北单线通透  20000  4室2厅  194㎡
1196                3室2厅世纪城三期翠叠园  20000  3室2厅  167㎡
1197                2室2厅世纪城三期垂虹园  12500  2室2厅  107㎡
1198               三期垂虹园 业主保养的很好  13000  2室2厅  107㎡
1199             