In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import random

# Cấu hình headers chuyên sâu
HEADERS = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8',
    'Accept-Encoding': 'gzip, deflate, br',
    'Accept-Language': 'vi-VN,vi;q=0.9,en-US;q=0.8,en;q=0.7',
    'Cache-Control': 'no-cache',
    'DNT': '1',
    'Pragma': 'no-cache',
    'Referer': 'https://www.google.com/',
    'Sec-Fetch-Dest': 'document',
    'Sec-Fetch-Mode': 'navigate',
    'Sec-Fetch-Site': 'cross-site',
    'Sec-Fetch-User': '?1',
    'Upgrade-Insecure-Requests': '1'
}

COOKIES = {
    'session_cookie': '1',  # Cookie giả lập
    'advertising_id': str(random.randint(1000000, 9999999))
}

def generate_fake_fingerprint():
    """Tạo dấu vết trình duyệt giả mạo"""
    return {
        'screen_resolution': f"{random.randint(1280, 1920)}x{random.randint(720, 1080)}",
        'timezone_offset': f"UTC+{random.randint(-12, 12)}",
        'touch_support': random.choice(['true', 'false'])
    }

def enhanced_request(url):
    """Gửi request với cơ chế bảo mật nâng cao"""
    try:
        # Thêm các tham số fingerprint vào headers
        fingerprint = generate_fake_fingerprint()
        headers = {
            **HEADERS,
            'X-Screen-Resolution': fingerprint['screen_resolution'],
            'X-Timezone-Offset': fingerprint['timezone_offset'],
            'X-Touch-Support': fingerprint['touch_support']
        }
        
        # Tạo session với timeout động
        with requests.Session() as s:
            s.headers.update(headers)
            s.cookies.update(COOKIES)
            
            # Thêm các tham số query ngẫu nhiên
            params = {
                '_r': str(random.randint(1, 99999)),
                '_t': str(int(time.time()))
            }
            
            response = s.get(
                url,
                params=params,
                timeout=(10, 15),  # Connect timeout 10s, read timeout 15s
                allow_redirects=True
            )
            
            # Kiểm tra response đặc biệt
            if response.status_code == 403:
                print("Phát hiện hệ thống chống scrape!")
                return None
                
            if 'cloudflare' in response.headers.get('Server', '').lower():
                print("Vượt qua Cloudflare...")
                return handle_cloudflare(response)
                
            return response
            
    except Exception as e:
        print(f"Lỗi kết nối nâng cao: {str(e)}")
        return None

def handle_cloudflare(response):
    """Xử lý thử thách Cloudflare (nếu có)"""
    # Triển khai logic bypass Cloudflare tại đây
    # (Cần cập nhật thủ công dựa trên response thực tế)
    return None

def extract_data_v2(html):
    """Phiên bản trích xuất dữ liệu mới nhất"""
    soup = BeautifulSoup(html, 'html.parser')
    listings = soup.select('div.re_card-info')
    
    data = []
    for listing in listings:
        try:
            item = {
                'title': listing.select_one('[class*="title"]').get_text(strip=True),
                'price': listing.select_one('[class*="price"]').get_text(strip=True),
                'area': listing.select_one('[class*="area"]').get_text(strip=True),
                'location': listing.select_one('div.re_card-location').find_all('span')[-1].text,
                'date': listing.select_one('[class*="published-at"]').get_text(strip=True)
            }
            data.append(item)
        except AttributeError:
            continue
            
    return data

def main():
    all_data = []
    base_url = "https://batdongsan.com.vn/nha-dat-ban"
    
    for page in range(1, 4):
        url = f"{base_url}/p{page}" if page > 1 else base_url
        print(f"🌐 Đang xử lý: {url}")
        
        # Thêm độ trễ thông minh
        time.sleep(abs(random.gauss(5, 2)))
        
        response = enhanced_request(url)
        if not response or not response.ok:
            continue
            
        if page_data := extract_data_v2(response.text):
            all_data.extend(page_data)
            print(f"✅ Đã thu thập {len(page_data)} bản ghi")
        else:
            print("⚠️ Cấu trúc HTML đã thay đổi!")
            break
    
    if all_data:
        pd.DataFrame(all_data).to_csv('batdongsan_pro_data.csv', index=False, encoding='utf-8-sig')
        print(f"🎉 Hoàn thành! Tổng {len(all_data)} bản ghi")
    else:
        print("❌ Không có dữ liệu")

if __name__ == "__main__":
    main()

🌐 Đang xử lý: https://batdongsan.com.vn/nha-dat-ban
Phát hiện hệ thống chống scrape!
🌐 Đang xử lý: https://batdongsan.com.vn/nha-dat-ban/p2
Phát hiện hệ thống chống scrape!
🌐 Đang xử lý: https://batdongsan.com.vn/nha-dat-ban/p3
Phát hiện hệ thống chống scrape!
❌ Không có dữ liệu


In [7]:
import requests
from bs4 import BeautifulSoup
import csv
import time
import random
from fake_useragent import UserAgent

# Danh sách proxy mẫu - thay thế bằng proxy ổn định của bạn hoặc dùng dịch vụ proxy trả phí
proxies_list = [
    "http://123.456.78.90:8080",
    "http://98.76.54.32:3128",
    "http://111.222.333.444:8000",
    # Thêm các proxy khác nếu có
]

# Hàm chọn proxy ngẫu nhiên
def get_random_proxy():
    return {"http": random.choice(proxies_list), "https": random.choice(proxies_list)}

# Khởi tạo đối tượng UserAgent
ua = UserAgent()

# Tạo session
session = requests.Session()

# Header mặc định (không bao gồm User-Agent để set riêng cho mỗi request)
default_headers = {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Accept-Language": "vi,en;q=0.9",
    "Referer": "https://www.google.com/",
    "Connection": "keep-alive"
}

# Danh sách để lưu các bản ghi dữ liệu
all_records = []

# Hàm lấy nội dung trang với cơ chế thử lại
def get_page_content(url, max_retries=5):
    for attempt in range(max_retries):
        # Set User-Agent ngẫu nhiên cho mỗi lần thử
        headers = default_headers.copy()
        headers["User-Agent"] = ua.random
        # Lấy một proxy ngẫu nhiên
        proxy = get_random_proxy()
        try:
            response = session.get(url, headers=headers, proxies=proxy, timeout=10)
            # Nếu nhận được mã 200 trả về nội dung trang
            if response.status_code == 200:
                return response.text
            else:
                print(f"Lần thử {attempt+1}: HTTP {response.status_code} với proxy {proxy}")
        except Exception as e:
            print(f"Lần thử {attempt+1}: Lỗi {e} với proxy {proxy}")
        # Delay ngẫu nhiên trước khi thử lại
        time.sleep(random.uniform(2, 4))
    return None

# Lặp qua các trang từ 2 đến 100
for page in range(2, 101):
    url = f"https://batdongsan.com.vn/nha-dat-ban/p{page}"
    print(f"Đang xử lý trang {page}...")
    page_content = get_page_content(url)
    if not page_content:
        print(f"Không lấy được dữ liệu trang {page} sau nhiều lần thử.")
        continue

    soup = BeautifulSoup(page_content, 'html.parser')
    listings = soup.find_all('div', class_='re_card-info')
    if not listings:
        print(f"Không tìm thấy bài đăng nào ở trang {page}.")
        continue

    for listing in listings:
        # Tiêu đề (kèm SĐT ẩn)
        title_elem = listing.find('span', class_='pr-title')
        title_text = title_elem.get_text(separator=" ", strip=True) if title_elem else ""

        # Giá
        price_elem = listing.find('span', class_='re_card-config-price')
        price_text = price_elem.get_text(strip=True) if price_elem else ""

        # Diện tích
        area_elem = listing.find('span', class_='re_card-config-area')
        area_text = area_elem.get_text(strip=True) if area_elem else ""

        # Số phòng ngủ
        bed_elem = listing.find('span', class_='re_card-config-bedroom')
        bed_text = bed_elem.get_text(strip=True) if bed_elem else ""

        # Số toilet
        toilet_elem = listing.find('span', class_='re_card-config-toilet')
        toilet_text = toilet_elem.get_text(strip=True) if toilet_elem else ""

        # Địa chỉ
        addr_elem = listing.find('div', class_='re_card-location')
        addr_text = addr_elem.get_text(strip=True) if addr_elem else ""

        # Mô tả
        desc_elem = listing.find('div', class_='re_card-description')
        desc_text = desc_elem.get_text(strip=True) if desc_elem else ""

        # Thời gian đăng
        time_elem = listing.find('span', class_='re_card-published-info-published-at')
        time_text = time_elem.get_text(strip=True) if time_elem else ""

        record = [title_text, price_text, area_text, bed_text, toilet_text, addr_text, desc_text, time_text]
        all_records.append(record)
    
    # Delay ngẫu nhiên giữa các trang
    time.sleep(random.uniform(2, 5))

# Ghi dữ liệu vào file CSV
with open("batdongsan_data.csv", "w", newline="", encoding="utf-8") as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(["Tiêu đề", "Giá", "Diện tích", "Phòng ngủ", "Toilet", "Địa chỉ", "Mô tả", "Thời gian đăng"])
    writer.writerows(all_records)

print(f"Đã thu thập {len(all_records)} bản ghi và lưu vào 'batdongsan_data.csv'")


Đang xử lý trang 2...
Lần thử 1: Lỗi HTTPSConnectionPool(host='batdongsan.com.vn', port=443): Max retries exceeded with url: /nha-dat-ban/p2 (Caused by ProxyError('Unable to connect to proxy', ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x0000025BAE53AB40>, 'Connection to 98.76.54.32 timed out. (connect timeout=10)'))) với proxy {'http': 'http://123.456.78.90:8080', 'https': 'http://98.76.54.32:3128'}
Lần thử 2: Lỗi HTTPSConnectionPool(host='batdongsan.com.vn', port=443): Max retries exceeded with url: /nha-dat-ban/p2 (Caused by ProxyError('Unable to connect to proxy', ConnectTimeoutError(<urllib3.connection.HTTPSConnection object at 0x0000025BAEE70D70>, 'Connection to 98.76.54.32 timed out. (connect timeout=10)'))) với proxy {'http': 'http://123.456.78.90:8080', 'https': 'http://98.76.54.32:3128'}
Lần thử 3: Lỗi HTTPSConnectionPool(host='batdongsan.com.vn', port=443): Max retries exceeded with url: /nha-dat-ban/p2 (Caused by ProxyError('Unable to connect to proxy

KeyboardInterrupt: 