## 二手房

In [2]:
import pandas as pd
import time
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException, TimeoutException

#  初始化 WebDriver 
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)
url = 'https://tj.esf.fang.com/house-a041-b0967/'
driver.get(url)

# 存储所有房源的字典 
all_listings_data = []


In [3]:
all_pages = 20
# 开始循环翻页与数据抓取 
page_num = 1
while page_num <= all_pages:
    try:
        print(f" 开始抓取第 {page_num} 页数据 ")
        wait = WebDriverWait(driver, 10)
        wait.until(EC.presence_of_element_located((By.XPATH, "//div[contains(@class, 'shop_list')]/dl")))
        
        # 获取当前页面所有的房源元素 <dl>
        house_list = driver.find_elements(By.XPATH, "//div[contains(@class, 'shop_list')]/dl")

        # 遍历
        for house in house_list:
            try:                              
                # 提取总价
                price_num = house.find_element(By.XPATH, ".//dd[@class='price_right']//span[@class='red']/b").text
                total_price = f"{price_num}"
                # 提取面积
                p_tel_shop = house.find_element(By.XPATH, ".//p[@class='tel_shop']").text
                
                # 正则表达式
                area_match = re.search(r'(\d+\.?\d)㎡', p_tel_shop)
                area = float(area_match.group(1)) if area_match else None
                # 提取均价
                unit_price_text = house.find_element(By.XPATH, ".//dd[@class='price_right']/span[2]").text
                unit_price = int(unit_price_text.replace('元/㎡', ''))

                listing_info = {
                    '面积(㎡)': area,
                    '总价(万)': total_price,
                     '均价(元/㎡)': unit_price
                }
                
                # 追加到总列表
                all_listings_data.append(listing_info)

            except (NoSuchElementException, AttributeError):
                print("发现一个结构不同的条目（可能是广告），已跳过。")
                continue
        
        print(f"第 {page_num} 页抓取完成，本页{len(house_list)} 条，累计 {len(all_listings_data)} 条房源。")

        # 下一页 
        next_page_button = driver.find_element(By.LINK_TEXT, '下一页')
        next_page_button.click()
        
        page_num += 1
        time.sleep(2) 

    except TimeoutException:
        print("\n页面加载超时，爬虫任务终止。")
        break


 开始抓取第 1 页数据 
第 1 页抓取完成，本页60 条，累计 60 条房源。
 开始抓取第 2 页数据 
第 2 页抓取完成，本页60 条，累计 120 条房源。
 开始抓取第 3 页数据 
第 3 页抓取完成，本页60 条，累计 180 条房源。
 开始抓取第 4 页数据 
第 4 页抓取完成，本页60 条，累计 240 条房源。
 开始抓取第 5 页数据 
第 5 页抓取完成，本页60 条，累计 300 条房源。
 开始抓取第 6 页数据 
第 6 页抓取完成，本页60 条，累计 360 条房源。
 开始抓取第 7 页数据 
第 7 页抓取完成，本页60 条，累计 420 条房源。
 开始抓取第 8 页数据 
第 8 页抓取完成，本页60 条，累计 480 条房源。
 开始抓取第 9 页数据 
第 9 页抓取完成，本页60 条，累计 540 条房源。
 开始抓取第 10 页数据 
第 10 页抓取完成，本页60 条，累计 600 条房源。
 开始抓取第 11 页数据 
第 11 页抓取完成，本页60 条，累计 660 条房源。
 开始抓取第 12 页数据 
第 12 页抓取完成，本页60 条，累计 720 条房源。
 开始抓取第 13 页数据 
第 13 页抓取完成，本页60 条，累计 780 条房源。
 开始抓取第 14 页数据 
第 14 页抓取完成，本页60 条，累计 840 条房源。
 开始抓取第 15 页数据 
第 15 页抓取完成，本页60 条，累计 900 条房源。
 开始抓取第 16 页数据 
第 16 页抓取完成，本页60 条，累计 960 条房源。
 开始抓取第 17 页数据 
第 17 页抓取完成，本页60 条，累计 1020 条房源。
 开始抓取第 18 页数据 
第 18 页抓取完成，本页60 条，累计 1080 条房源。
 开始抓取第 19 页数据 
第 19 页抓取完成，本页60 条，累计 1140 条房源。
 开始抓取第 20 页数据 
第 20 页抓取完成，本页60 条，累计 1200 条房源。


In [5]:

driver.quit()
#保存到 Excel 
if all_listings_data:
    df = pd.DataFrame(all_listings_data)
    output_filename = 'Tianjin_Balitai_esf_data.xlsx'
    df.to_excel(output_filename, index=False)
    
    print(f"\n数据已成功保存到文件: {output_filename}")
    print(df.head())
else:
    print("\n未能抓取到任何数据。")


数据已成功保存到文件: Tianjin_Balitai_esf_data.xlsx
   面积(㎡) 总价(万)  均价(元/㎡)
0   67.0   436    21727
1   66.0   406    39166
2   67.0   430    29518
3   18.0   410    36225
4   15.0   119    20822


## 租房

In [6]:
import pandas as pd
import time
import re
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import NoSuchElementException, TimeoutException

# 初始化 WebDriver
from selenium.webdriver.chrome.service import Service
from webdriver_manager.chrome import ChromeDriverManager

service = Service(ChromeDriverManager().install())
driver = webdriver.Chrome(service=service)

ur2 = 'https://tj.zu.fang.com/house-a041-b0967/'
driver.get(ur2)


In [7]:
all_listings_data2 = []
all_pages = 20  

# 循环翻页
page_num = 1
while page_num <= all_pages:
    try:
        print(f"开始抓取第 {page_num} 页数据")
        wait = WebDriverWait(driver, 10)
        wait.until(EC.presence_of_element_located((By.XPATH, "//div[@class='houseList']/dl")))
        
        # 获取当前页面所有的房源元素 <dl>
        house_list = driver.find_elements(By.XPATH, "//div[@class='houseList']/dl")

        # 遍历
        for house in house_list:
            try:
                rent_price_text = house.find_element(By.XPATH, ".//span[@class='price']").text
                rent_price = int(rent_price_text)

                p_info_text = house.find_element(By.XPATH, ".//p[contains(@class, 'font15')]").text
                
                # 正则表达式
                area_match = re.search(r'(\d+\.?\d)㎡', p_info_text)
                area = float(area_match.group(1)) if area_match else None

                listing_info = {
                    '面积(㎡)': area,
                    '租金(元/月)': rent_price
                }
                
                # 追加到总列表中
                all_listings_data2.append(listing_info)

            except (NoSuchElementException, AttributeError, ValueError):
                print("发现一个结构不同的条目（可能是广告或已下架），已跳过。")
                continue
        
        print(f"第 {page_num} 页抓取完成，本页 {len(house_list)} 条，累计 {len(all_listings_data2)} 条房源。")

        # 下一页
        next_page_button = driver.find_element(By.LINK_TEXT, '下一页')
        next_page_button.click()
        
        page_num += 1
        time.sleep(2)  

    except TimeoutException:
        print("\n页面加载超时，爬虫任务终止。")
        break
    except NoSuchElementException:
        print("\n未找到“下一页”按钮，所有页面抓取完毕！")
        break


开始抓取第 1 页数据
第 1 页抓取完成，本页 60 条，累计 60 条房源。
开始抓取第 2 页数据
第 2 页抓取完成，本页 60 条，累计 120 条房源。
开始抓取第 3 页数据
第 3 页抓取完成，本页 60 条，累计 180 条房源。
开始抓取第 4 页数据
第 4 页抓取完成，本页 60 条，累计 240 条房源。
开始抓取第 5 页数据
第 5 页抓取完成，本页 60 条，累计 300 条房源。
开始抓取第 6 页数据
第 6 页抓取完成，本页 60 条，累计 360 条房源。
开始抓取第 7 页数据
第 7 页抓取完成，本页 60 条，累计 420 条房源。
开始抓取第 8 页数据
第 8 页抓取完成，本页 60 条，累计 480 条房源。
开始抓取第 9 页数据
第 9 页抓取完成，本页 60 条，累计 540 条房源。
开始抓取第 10 页数据
第 10 页抓取完成，本页 60 条，累计 600 条房源。

未找到“下一页”按钮，所有页面抓取完毕！


In [8]:
driver.quit()

if all_listings_data2:
    df = pd.DataFrame(all_listings_data2)
    
    output_filename = 'Tianjin_Balitai_zu_data.xlsx'
    
    df.to_excel(output_filename, index=False)
    
    print(f"\n数据已成功保存到文件: {output_filename}")
    print(df.head())
else:
    print("\n未能抓取到任何数据。")


数据已成功保存到文件: Tianjin_Balitai_zu_data.xlsx
   面积(㎡)  租金(元/月)
0   38.0     2000
1  400.0    29000
2   49.0     1700
3  380.0    30000
4   71.0     2200
