## 二手房

In [16]:
import pandas as pd
import time
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException, TimeoutException

#  初始化 WebDriver 
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome()
url1='https://zhangjiakou.esf.fang.com/house-a014962/' #桥西
#url1 = 'https://zhangjiakou.esf.fang.com/house-a011434/' #怀来
#url1='https://zhangjiakou.esf.fang.com/house-a014963/' #下花园
#url1='https://zhangjiakou.esf.fang.com/house-a011426/' #张北
driver.get(url1)

In [17]:
# 存储所有二手房房源的字典 
all_esf_data = []
all_pages = 20

# 开始循环翻页与数据抓取 
page_num = 1
while page_num <= all_pages:
    try:
        print(f" 开始抓取第 {page_num} 页数据 ")
        wait = WebDriverWait(driver, 10)
        wait.until(EC.presence_of_element_located((By.XPATH, "//div[contains(@class, 'shop_list')]/dl")))
        
        # 获取当前页面所有的房源元素 <dl>
        house_list = driver.find_elements(By.XPATH, "//div[contains(@class, 'shop_list')]/dl")

        # 遍历
        for house in house_list:
            try:                              
                # 提取总价
                price_element = house.find_element(By.XPATH, ".//dd[@class='price_right']//span[@class='red']/b").text
                total_price_text = f"{price_element}"
                total_price = float(total_price_text)
                # 提取面积
                p_tel_shop = house.find_element(By.XPATH, ".//p[@class='tel_shop']").text
                # 正则表达式
                area_match = re.search(r'(\d+\.?\d*)㎡', p_tel_shop)
                area = float(area_match.group(1)) if area_match else None
                # 提取均价
                unit_price_text = house.find_element(By.XPATH, ".//dd[@class='price_right']/span[2]").text
                unit_price = int(unit_price_text.replace('元/㎡', ''))

                listing_info = {
                    '面积(㎡)': area,
                    '总价(万)': total_price,
                     '均价(元/㎡)': unit_price
                }
                
                # 追加到总列表
                all_esf_data.append(listing_info)

            except (NoSuchElementException, AttributeError):
                print("发现一个结构不同的条目（可能是广告），已跳过。")
                continue
        
        print(f"第 {page_num} 页抓取完成，本页{len(house_list)} 条，累计 {len(all_esf_data)} 条房源。")

        # 下一页 
        next_page_button = driver.find_element(By.LINK_TEXT, '下一页')
        next_page_button.click()
        
        page_num += 1
        time.sleep(2) 

    except TimeoutException:
        print("\n页面加载超时，爬虫任务终止。")
        break
    except NoSuchElementException:
        print("\n未找到“下一页”按钮，所有页面抓取完毕！")
        break


 开始抓取第 1 页数据 
第 1 页抓取完成，本页60 条，累计 60 条房源。
 开始抓取第 2 页数据 
第 2 页抓取完成，本页60 条，累计 120 条房源。
 开始抓取第 3 页数据 
发现一个结构不同的条目（可能是广告），已跳过。
发现一个结构不同的条目（可能是广告），已跳过。
发现一个结构不同的条目（可能是广告），已跳过。
第 3 页抓取完成，本页49 条，累计 166 条房源。

未找到“下一页”按钮，所有页面抓取完毕！


In [18]:

driver.quit()
#保存到 Excel 
if all_esf_data:
    df = pd.DataFrame(all_esf_data)
    #output_filename = 'hebei_esf_qiaoxi_data.xlsx'
    #output_filename = 'hebei_esf_huailai_data.xlsx'
    #output_filename = 'hebei_esf_xiahuayuan_data.xlsx'
    output_filename = 'hebei_esf_zhangbei_data.xlsx'
    df.to_excel(output_filename, index=False)
    
    print(f"\n数据已成功保存到文件: {output_filename}")
    print(df.head())
else:
    print("\n未能抓取到任何数据。")


数据已成功保存到文件: hebei_esf_zhangbei_data.xlsx
    面积(㎡)  总价(万)  均价(元/㎡)
0   90.65   43.0     4744
1   95.28   45.0     4723
2  109.00   28.0     2569
3  120.00   48.0     4000
4   79.00   27.0     3418


## 租房

In [19]:
import pandas as pd
import time
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException, TimeoutException

# 初始化 WebDriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

driver = webdriver.Chrome()
url2 = 'https://zhangjiakou.zu.fang.com/house-a014962/'#桥西
#url2 = 'https://zhangjiakou.zu.fang.com/house-a011434/' #怀来
#url2 = 'https://zhangjiakou.zu.fang.com/house-a014963/' #下花园
#url2 = 'https://zhangjiakou.zu.fang.com/house-a011426/' #张北

driver.get(url2)


In [20]:
#所有租房房源的字典
all_rent_data = []
all_pages = 20  

# 循环翻页
page_num = 1
while page_num <= all_pages:
    try:
        print(f"开始抓取第 {page_num} 页数据")
        wait = WebDriverWait(driver, 10)
        wait.until(EC.presence_of_element_located((By.XPATH, "//div[@class='houseList']/dl")))
        
        # 获取当前页面所有的房源元素 <dl>
        house_list = driver.find_elements(By.XPATH, "//div[@class='houseList']/dl")

        # 遍历
        for house in house_list:
            try:
                rent_price_text = house.find_element(By.XPATH, ".//span[@class='price']").text
                rent_price = int(rent_price_text)

                p_info_text = house.find_element(By.XPATH, ".//p[contains(@class, 'font15')]").text
                # 正则表达式
                area_match = re.search(r'(\d+\.?\d*)㎡', p_info_text)
                area = float(area_match.group(1)) if area_match else None

                listing_info = {
                    '面积(㎡)': area,
                    '租金(元/月)': rent_price
                }
                
                # 追加到总列表中
                all_rent_data.append(listing_info)

            except (NoSuchElementException, AttributeError, ValueError):
                print("发现一个结构不同的条目（可能是广告或已下架），已跳过。")
                continue
        
        print(f"第 {page_num} 页抓取完成，本页 {len(house_list)} 条，累计 {len(all_rent_data)} 条房源。")

        # 下一页
        next_page_button = driver.find_element(By.LINK_TEXT, '下一页')
        next_page_button.click()
        
        page_num += 1
        time.sleep(2)  

    except TimeoutException:
        print("\n页面加载超时，爬虫任务终止。")
        break
    except NoSuchElementException:
        print("\n未找到“下一页”按钮，所有页面抓取完毕！")
        break


开始抓取第 1 页数据
第 1 页抓取完成，本页 60 条，累计 60 条房源。
开始抓取第 2 页数据
第 2 页抓取完成，本页 15 条，累计 75 条房源。

未找到“下一页”按钮，所有页面抓取完毕！


In [21]:
driver.quit()

if all_rent_data:
    df = pd.DataFrame(all_rent_data)
    
    #output_filename = 'hebei_zu_qiaoxi_data.xlsx'
    #output_filename = 'hebei_zu_huailai_data.xlsx'
    output_filename = 'hebei_zu_zhangbei_data.xlsx'

    df.to_excel(output_filename, index=False)
    
    print(f"\n数据已成功保存到文件: {output_filename}")
    print(df.head())
else:
    print("\n未能抓取到任何数据。")


数据已成功保存到文件: hebei_zu_zhangbei_data.xlsx
   面积(㎡)  租金(元/月)
0   93.0     1100
1   93.0     1100
2   96.0     1000
3   73.0     1000
4   86.0     1083
