# **Phần mở rộng - Kiểm tra tính xác thực của tin đăng thông qua hình ảnh**

## **Mục tiêu**

Xây dựng một pipeline **kiểm tra tính xác thực** của các tiện ích (amenities) mà chủ nhà/phòng trọ **tuyên bố có** trên website phongtro123.com, bằng cách:

1. Crawl 3 ảnh đẹp nhất / tiềm năng nhất từ bài đăng
2. Dùng **Gemini (Google Generative AI)** phân tích hình ảnh
3. So sánh với danh sách tiện ích mà bài đăng **claim** (có = 1 trong file raw.csv)

**Ứng dụng thực tế**: Phát hiện phòng trọ **quảng cáo sai sự thật** (ví dụ: đã xác nhận có máy lạnh, tủ lạnh nhưng ảnh không thấy), hỗ trợ người thuê nhà trọ tránh bị lừa.

### **1. Tại sao phải dùng **Vision model** (multimodal LLM) thay vì chỉ text?**

- Chủ nhà thường **khai khống** tiện ích (máy lạnh, tủ lạnh, máy giặt, gác lửng…)
- Ảnh thực tế là nguồn chứng cứ **đáng tin cậy nhất** (khó giả mạo hơn text)
- Gemini 1.5 Flash / 1.5 Pro hỗ trợ **vision** rất tốt, giá rẻ, context lớn (1M tokens)

### **2. Gemini API – Quota & Giới hạn (tính đến 2026)**

- **Free tier** (không cần credit card):
  - ~5–15 RPM (requests/phút)
  - ~25–250 RPD (requests/ngày) tùy model
  - Sau update Dec 2025: free tier bị siết chặt, rất dễ 429
- **Paid Tier 1**: cao hơn nhiều (150–1000 RPM), nhưng cần billing
- Mẹo tránh hết quota:
  - Dùng gemini-1.5-flash (rẻ & nhanh)
  - Resize ảnh nhỏ (640×640)
  - Thêm sleep giữa các request
  - Xử lý retry + backoff khi gặp 429

### **3. Computer Vision cho bài toán này**

Đây là bài toán **zero-shot object detection + scene understanding**:

- Không train model riêng
- Dùng prompt engineering chi tiết + few-shot example (nếu cần)
- Yêu cầu model trả về **structured JSON** → dễ parse & tích hợp

### **4. Thách thức chính**

- Ảnh chất lượng thấp, góc chụp lạ
- Vật bị che khuất / chỉ thấy một phần
- Có watermark, logo, ảnh quảng cáo lẫn vào
- Quota API rất dễ bị chạm (đặc biệt free tier)


## **Thực nghiệm (Implementation)**
### **Cài đặt thư viện cần thiết**

Cell này cài đặt package `google-generativeai` (nếu chưa có).

**Lưu ý**: Dùng `-q` hoặc `--quiet` để giảm log thừa. Nếu gặp lỗi pip, có thể restart kernel sau khi cài.


In [1]:
%%capture
import os
import warnings
warnings.filterwarnings('ignore')

os.environ['TF_CPP_MIN_LOG_LEVEL'] = '3'
%pip install google-generativeai -q


### **Import thư viện & Setup cấu hình ban đầu**

- Import các thư viện xử lý web (requests, BeautifulSoup), hình ảnh (PIL), JSON, base64...
- Cấu hình **API Key** của Gemini (bắt buộc thay bằng key thật của bạn)
- Tạo thư mục debug để lưu ảnh (giúp kiểm tra xem crawl có đúng không)



In [2]:
import google.generativeai as genai
import requests
from bs4 import BeautifulSoup
from PIL import Image
from io import BytesIO
import pandas as pd
import os
import time
import random
import json
import base64
from datetime import datetime

DEBUG_MODE = True
DEBUG_FOLDER = "images"
if DEBUG_MODE and not os.path.exists(DEBUG_FOLDER):
    os.makedirs(DEBUG_FOLDER)

API_KEY = "AIzaSyArrtZd2smuLqFpciDajbQdWd28WANpmH8"     
genai.configure(api_key=API_KEY)

print("Cấu hình hoàn tất!")


Cấu hình hoàn tất!


### **Khai báo model & Danh sách tiện ích cần kiểm tra**

- Chọn model **gemini-1.5-flash** (nhanh, rẻ, hỗ trợ vision tốt)
- Định nghĩa **visible_amenities**: mapping giữa key trong CSV và mô tả tiếng Việt + tiếng Anh để prompt dễ hiểu hơn

**Lưu ý**: Chỉ kiểm tra những tiện ích **có thể thấy bằng mắt** trong ảnh (không kiểm tra wifi, nóng lạnh, giờ giấc... vì không nhìn được).


In [3]:
# Chọn model (gemini-1.5-flash là lựa chọn cân bằng tốc độ - chất lượng - quota)
model = genai.GenerativeModel('gemini-2.5-flash')

# Danh sách tiện ích có thể kiểm tra qua ảnh
visible_amenities = {
    'maylanh': 'máy lạnh / điều hòa treo tường (air_conditioning)',
    'tulanh': 'tủ lạnh / tủ mát (fridge)',
    'maygiat': 'máy giặt (washing_machine)',
    'gac': 'gác lửng / gác xép (mezzanine)',
    'kebep': 'bếp / tủ bếp / kệ bếp / khu vực nấu ăn (kitchen)',
    'tulao': 'tủ quần áo / tủ áo (wardrobe)',
    'giuong': 'giường / nệm (bed)',
    'bancong': 'ban công / cửa sổ lớn ra ngoài trời (balcony)',
    'thangmay': 'thang máy (elevator) - chỉ khi ảnh chụp cửa hoặc bên trong thang máy',
    'hamxe': 'chỗ để xe / hầm xe / sân để xe (parking) - chỉ khi ảnh chụp rõ khu vực xe',
    'noithat': 'nội thất tổng thể (full nội thất: giường + tủ + bàn ghế)'
}

print("Cấu hình hoàn tất!")


Cấu hình hoàn tất!


### **Các hàm hỗ trợ (Helper Functions)**

- `get_image_urls()`: Crawl 3 ảnh tiềm năng nhất từ trang phongtro123 (dùng BeautifulSoup)
- `debug_save_and_show_images()`: Lưu ảnh về máy để debug (rất hữu ích khi kiểm tra crawl sai)



In [4]:
def get_image_urls(page_url):
    """Crawl 3 ảnh tiềm năng nhất từ URL bài đăng"""
    try:
        headers = {'User-Agent': 'Mozilla/5.0'}
        response = requests.get(page_url, headers=headers, timeout=10)
        soup = BeautifulSoup(response.text, 'html.parser')

        selectors = [
            'div.detail-gallery img', 'img[src*="/photos/"]', 'img[src*="/upload/"]',
            'img[alt*="phòng"]', 'img[alt*="nội thất"]', 'img.img-responsive'
        ]
        candidates = []
        for sel in selectors:
            candidates.extend(soup.select(sel))

        image_urls = []
        for img in candidates[:5]:
            src = img.get('src') or img.get('data-src')
            if src:
                if not src.startswith('http'):
                    src = 'https://phongtro123.com' + src
                lower = src.lower()
                if any(x in lower for x in ['logo', 'icon', 'banner', '.svg', 'placeholder', 'watermark']):
                    continue
                image_urls.append(src)

        final_urls = list(set(image_urls))
        if DEBUG_MODE:
            print(f"[DEBUG] Từ {page_url} đã tìm thấy {len(final_urls)} ảnh.")
        return final_urls
    except Exception as e:
        print(f"[ERROR] Lỗi crawl {page_url}: {e}")
        return []


def debug_save_and_show_images(image_urls, title):
    """Lưu ảnh vào thư mục debug để kiểm tra"""
    for i, url in enumerate(image_urls):
        try:
            resp = requests.get(url, timeout=10)
            if resp.status_code == 200:
                img = Image.open(BytesIO(resp.content))
                safe_title = "".join(c if c.isalnum() else '_' for c in title)[:30]
                path = os.path.join(DEBUG_FOLDER, f"{safe_title}_{i+1}.jpg")
                img.save(path)
        except Exception:
            pass


### **Hàm chính – Sử dụng Gemini phân tích ảnh**

- Chuẩn bị **prompt rất chi tiết** (đây là phần quan trọng nhất)
- Resize ảnh → giảm token → tiết kiệm quota & nhanh hơn
- Gửi text + nhiều ảnh cùng lúc (multimodal)
- Retry 3 lần nếu lỗi (trừ quota hết thì dừng luôn)
- Trả về: (đủ/thiếu, danh sách thiếu, reason chi tiết)


In [None]:
def check_amenities_with_gemini(image_urls, required_keys, title):
    if not image_urls:
        return False, ["No images"], "No images found in URL"

    if DEBUG_MODE:
        debug_save_and_show_images(image_urls, title)

    # Tạo prompt động
    required_str = ", ".join([f"{k}: {v}" for k, v in visible_amenities.items() if k in required_keys])

    prompt = f"""
Bạn là chuyên gia nhận diện nội thất phòng trọ, nhà trọ, KTX tại Việt Nam với kinh nghiệm xem hàng nghìn ảnh thực tế.

QUY TẮC PHÂN TÍCH:
- Chỉ phân tích ảnh chụp bên trong phòng ở thật (bỏ qua hoàn toàn logo, banner, watermark, ảnh quảng cáo, sơ đồ mặt bằng, ảnh ngoài tòa nhà, ảnh chung cư bên ngoài).
- Nếu ảnh không phải phòng ở thật → ghi rõ trong reason và đánh giá missing tất cả.
- Phải thấy **rõ ràng, chắc chắn** (toàn bộ hoặc phần lớn vật thể) mới đánh dấu present. Không đoán mò, không suy diễn.
- Nếu vật thể bị che khuất, mờ, hoặc chỉ thấy một phần nhỏ → coi là missing.

DANH SÁCH TIỆN ÍCH CẦN KIỂM TRA:
- máy lạnh / điều hòa treo tường
- tủ lạnh / tủ mát
- máy giặt
- gác lửng / gác xép (sàn gỗ/sắt phía trên)
- bếp / tủ bếp / kệ bếp / khu vực nấu ăn
- tủ quần áo / tủ áo
- giường / nệm
- ban công (cửa sổ lớn mở ra ngoài trời hoặc ban công thật)
- thang máy (cửa hoặc bên trong thang máy rõ ràng)
- chỗ để xe / hầm xe / sân để xe (khu vực để xe máy/xe hơi rõ ràng)
- nội thất tổng thể (ít nhất 3 món: giường + tủ + bàn ghế)

Yêu cầu kiểm tra: {required_str}

Trả về **chính xác định dạng JSON** sau, không thêm bất kỳ text nào ngoài JSON:

{{
  "present": ["máy lạnh", "tủ lạnh", ...],
  "missing": ["máy giặt", "bếp", ...],
  "confidence": {{
    "máy lạnh": 0.95,
    "tủ lạnh": 0.0,
    ...
  }},
  "reason": "Mô tả chi tiết từng ảnh (ví dụ: Ảnh 1: thấy máy lạnh treo tường bên trái, không thấy tủ lạnh; Ảnh 2: có gác lửng rõ ràng...)"
}}
"""

    contents = [prompt]
    for url in image_urls:
        try:
            resp = requests.get(url, timeout=10)
            img = Image.open(BytesIO(resp.content)).convert('RGB')
            img.thumbnail((640, 640))
            buffered = BytesIO()
            img.save(buffered, format="JPEG", quality=85)
            data = base64.b64encode(buffered.getvalue()).decode('utf-8')
            contents.append({"mime_type": "image/jpeg", "data": data})
        except Exception:
            continue

    last_error = "Unknown"
    quota_exceeded = False

    for attempt in range(3):
        try:
            response = model.generate_content(contents)
            raw = response.text.strip()
            if raw.startswith('```json'): raw = raw[7:]
            if raw.endswith('```'): raw = raw[:-3]
            result = json.loads(raw.strip())
            missing = result.get("missing", [])
            return len(missing) == 0, missing, result.get("reason", "OK")

        except Exception as e:
            last_error = str(e)
            if "429" in last_error or "quota" in last_error.lower():
                quota_exceeded = True
                print(" QUOTA EXCEEDED (429)! Dừng!")
                break
            time.sleep(2)

    if quota_exceeded:
        return False, ["QUOTA_EXCEEDED"], "Dừng vì hết quota API."

    return False, ["API_ERROR"], f"Lỗi: {last_error}"


### **Hàm main – Xử lý dữ liệu thực tế**

- Đọc file `raw.csv` (giả sử đã có cột url + các cột tiện ích 0/1)
- Lấy 5 dòng đầu để test (bạn có thể bỏ `.head(5)` để chạy full)
- Với mỗi dòng:
  - Lấy danh sách tiện ích claim = 1
  - Crawl ảnh
  - Gọi Gemini check
  - In kết quả + lưu vào list
- Dừng ngay nếu hết quota

**Kết quả**: Có thể xuất ra file CSV để phân tích sau.


In [6]:
import pandas as pd
import time
import random
from IPython.display import display, HTML  # <--- Thêm thư viện này

# Giả định code cũ của bạn
df = pd.read_csv("../Data/raw.csv")
df = df.head(5)

results = []
print(f" Bắt đầu xử lý {len(df)} dòng dữ liệu...\n")

for i, row in enumerate(df.itertuples()):
    required = [col for col in visible_amenities if getattr(row, col, 0) == 1]

    # Trường hợp không cần check
    if not required:
        # (Giữ nguyên logic cũ của bạn)
        results.append({
            'title': row.title, 'url': row.url,
            'required': 'None', 'status': 'Skip', 'reason': 'Không yêu cầu check'
        })
        continue

    # 1. Lấy ảnh và gọi Model
    images = get_image_urls(row.url)
    enough, missing, reason = check_amenities_with_gemini(images, required, row.title)

    status = "ĐỦ" if enough else "THIẾU"
    missing_str = ", ".join(missing) if isinstance(missing, list) else str(missing)
    color_status = "green" if enough else "red"

    # 2. TẠO HTML ĐỂ HIỂN THỊ ĐẸP MẮT
    # Tạo chuỗi thẻ img cho tối đa 4 ảnh đầu tiên để không bị dài quá
    img_html = ""
    for img in images[:4]: 
        img_html += f'<img src="{img}" style="height: 150px; margin-right: 5px; object-fit: cover; border-radius: 5px;">'

    # Tạo khung hiển thị thông tin
    display_html = f"""
    <div style="border: 1px solid #ddd; padding: 15px; margin-bottom: 20px; border-radius: 8px; background-color: #f9f9f9;color: #000; font-family: Arial, sans-serif;">
        <h3 style="margin-top: 0;"><a href="{row.url}" target="_blank" style="text-decoration: none; color: #000;">{i+1}. {row.title}</a></h3>
        
        <div style="display: flex; gap: 20px;">
            <div style="flex: 1;">
                <p><b> Yêu cầu tìm:</b> {', '.join(required)}</p>
                <p><b> Trạng thái:</b> <span style="color: {color_status}; font-weight: bold; font-size: 1.2em;">{status}</span></p>
                <p><b> Thiếu:</b> {missing_str}</p>
                <div style="background-color: #fff; padding: 10px; border-left: 4px solid {color_status};">
                    <b> Lý do model đưa ra:</b><br>
                        <i>"{reason}"</i>  
                </div>
            </div>
            <div style="flex: 1; display: flex; flex-wrap: wrap;">
                {img_html}
            </div>
        </div>
    </div>
    """
    
    # 3. In ra màn hình Notebook
    display(HTML(display_html))

    # Lưu kết quả vào list (logic cũ)
    results.append({
        'title': row.title,
        'url': row.url,
        'required': ", ".join(required),
        'result ': status,
        'missing': missing_str,
        'reason': reason
    })

    if "QUOTA_EXCEEDED" in missing:
        print("\n[EXCEED] Đạt giới hạn Quota")
        break

    time.sleep(1.5 + random.uniform(0, 1.2))


 Bắt đầu xử lý 5 dòng dữ liệu...

[DEBUG] Từ https://phongtro123.com/nha-tro-hem-c3-pham-hung-loi-di-rieng-giap-quan-8-pr664279.html đã tìm thấy 4 ảnh.
 QUOTA EXCEEDED (429)! Dừng ngay.



[EXCEED] Đạt giới hạn Quota


### **Thực hiện lưu kết quả**

- Lưu kết quả ra file: `pd.DataFrame(results).to_csv("amenities_check.csv", index=False)`
- Thêm few-shot examples vào prompt để tăng độ chính xác
- Giải thích ý nghĩa từng cột kết quả:

  1. `title` : tiêu đề bài đăng
  2. `url` : link bài đăng
  3. `required` : danh sách tiện ích mà bài đăng **xác nhận có giá trị bằng 1** từ file `raw.csv`.
  4. `result` : kết quả tổng: **ĐỦ** hoặc **THIẾU** (tức là có đủ tất cả tiện ích đã xác nhận hay không)
  5. `missing` : danh sách cụ thể những tiện ích **bị thiếu có = 0** (theo Gemini phân tích)
  6. `reason` : giải thích chi tiết và mô tả từng ảnh từ Gemini
  7. `status` : chỉ dùng cho trường hợp skip (ví dụ: "Skip", "Không yêu cầu check")


In [7]:
# Lưu kết quả ra CSV
output_file = "amenities_check_results.csv"

df_results = pd.DataFrame(results)
df_results.to_csv(output_file, index=False, encoding='utf-8-sig')

print(f"Kết quả đã được lưu vào file: {output_file}")
print(f"Vị trí file: {os.path.abspath(output_file)}")


Kết quả đã được lưu vào file: amenities_check_results.csv
Vị trí file: c:\Intro2DSb\notebooks\amenities_check_results.csv


## **Gợi ý cải tiến**

- Lưu kết quả ra file: `pd.DataFrame(results).to_csv("amenities_check.csv", index=False)`
- Thêm few-shot examples vào prompt để tăng độ chính xác
- Chạy batch nhỏ + dùng paid tier nếu muốn scale chính xác hơn
- Thử các model khác (GPT-4V, Claude Vision, Llama2 Vision...)
