In [2]:
from langchain_community.graphs import Neo4jGraph
from node2vec import Node2Vec
import networkx as nx
import pandas as pd
import google.generativeai as genai
import numpy as np
import json
import re
from sklearn.metrics.pairwise import cosine_similarity

In [3]:
NEO4J_URL = "bolt://localhost:7687"
NEO4J_USERNAME = "neo4j"
NEO4J_PASSWORD = "hqiineo4j"
NEO4J_DATABASE = "neo4j"

graph = Neo4jGraph(
    url=NEO4J_URL,
    username=NEO4J_USERNAME,
    password=NEO4J_PASSWORD,
    database=NEO4J_DATABASE
)

print("okay")

  graph = Neo4jGraph(


okay


In [4]:
query = """
MATCH (h:House)-[r]->(e)  
RETURN 
    h.title AS house_title, h.description AS house_description, 
    h.price AS house_price, h.amount AS house_amount,
    type(r) AS relationship, 
    labels(e)[0] AS entity_type, e.name AS entity_name
"""

# Thực thi truy vấn
result = graph.query(query)

# Xử lý dữ liệu
house_entities = {}
for record in result:
    house_title = record["house_title"]
    if house_title not in house_entities:
        house_entities[house_title] = {
            "description": record["house_description"],
            "price": record["house_price"],
            "amount": record["house_amount"],
            "entities": []  # Danh sách thực thể liên kết
        }
    house_entities[house_title]["entities"].append({
        "type": record["entity_type"],
        "name": record["entity_name"],
        "relationship": record["relationship"]
    })


# Xây dựng đồ thị bằng NetworkX
G = nx.Graph()
for house, data in house_entities.items():
    for entity in data["entities"]:
        G.add_edge(house, entity["name"], label=entity["relationship"])

print(f"Đồ thị có {G.number_of_nodes()} nodes và {G.number_of_edges()} edges")
print(f"Có {len(house_entities)} căn nhà với thông tin đầy đủ.")

# In thử một số thông tin về House và thực thể liên kết
for house, data in list(house_entities.items())[:3]:  # Hiển thị 3 căn nhà đầu tiên
    print(f"\n🏠 Nhà: {house}")
    print(f"   - Mô tả: {data['description']}")
    print(f"   - Giá: {data['price']} rupees")
    print(f"   - Giá trị thực tế: {data['amount']} INR")
    print(f"   - Thực thể liên kết:")
    for entity in data["entities"]:
        print(f"     + {entity['type']}: {entity['name']} ({entity['relationship']})")


Đồ thị có 239 nodes và 1803 edges
Có 170 căn nhà với thông tin đầy đủ.

🏠 Nhà: 1 BHK Ready to Occupy Flat for sale in Brahmand Thane West
   - Mô tả: One can find this stunning 1 BHK flat for sale in Thane West, Thane. It is in a prime location within the Brahmand. Invest your valuable money in this flat that is for resale. This apartment ready to move in the Thane West is available for an attractive price of INR 60 Lac. It is furnished to accommodate your needs.
   - Giá: 10256.0 rupees
   - Giá trị thực tế: 6000000.0 INR
   - Thực thể liên kết:
     + Location: thane (LOCATED_IN)
     + Ownership: Freehold (HAS_OWNERSHIP)
     + Status: Ready to Move (HAS_STATUS)
     + Transaction: Resale (HAS_TRANSACTION)
     + Furnishing: Furnished (HAS_FURNISHING)
     + Facing: North (HAS_FACING)
     + Bathroom: 2 (HAS_BATHROOM)
     + Balcony: 1 (HAS_BALCONY)
     + CarParking: 0 (HAS_CAR_PARKING)
     + CurrentFloor: 4 (HAS_CURRENT_FLOOR)
     + TotalFloors: 4 (HAS_TOTAL_FLOORS)

🏠 Nhà: 4 BH

In [5]:
# Chạy Node2Vec trên đồ thị
node2vec = Node2Vec(G, dimensions=64, walk_length=10, num_walks=200, workers=4)
model = node2vec.fit(window=5, min_count=1, batch_words=4)

# Chuyển đổi các node thành vector embedding
house_embeddings = {house: model.wv[house] for house in house_entities if house in model.wv}

# Chuyển đổi thành numpy array để dễ thao tác
house_vectors = np.array(list(house_embeddings.values()))

print(f"Đã tạo embedding cho {len(house_embeddings)} căn nhà.")

Computing transition probabilities:   0%|          | 0/239 [00:00<?, ?it/s]

Đã tạo embedding cho 170 căn nhà.


In [6]:
print(type(model))  # Kiểm tra kiểu của model

<class 'gensim.models.word2vec.Word2Vec'>


In [7]:

# Cấu hình Gemini API
genai.configure(api_key="AIzaSyAmLesw2keGhIrZPMEyYJUs1PUqIidIWFU")

# Khởi tạo model Gemini
LLM = genai.GenerativeModel("gemini-2.0-flash")

# Hàm trích xuất thực thể từ câu hỏi
def extract_entities(question):
    prompt = """
        Bạn là một hệ thống AI chuyên phân tích câu hỏi của khách hàng để trích xuất thông tin liên quan đến bất động sản.  
        Hãy xác định các thực thể quan trọng trong câu hỏi và trả về kết quả dưới dạng JSON với các trường sau:
        Lưu ý là chỉ trả về dạng json để tôi dễ xử lý, không cần thông tin hay câu nói ngoài nội dung mà tôi cần trích xuất
        
        - `Title`: Tiêu đề mô tả loại bất động sản.
        - `Location`: Thành phố hoặc khu vực mà người dùng quan tâm.
        - `Status`: Trạng thái của căn nhà (Ready to Move, Under Construction, v.v.).
        - `Transaction`: Loại giao dịch (Resale, New Property, v.v.).
        - `Furnishing`: Tình trạng nội thất (Furnished, Semi-Furnished, Unfurnished).
        - `Facing`: Hướng nhà (North, South, East, West).
        - `Bathroom`: Số lượng phòng tắm.
        - `Balcony`: Số lượng ban công.
        - `CarParking`: Số chỗ đỗ xe.
        - `Ownership`: Loại sở hữu (Freehold, Leasehold).
        - `CurrentFloor`: Tầng hiện tại của căn hộ.
        - `TotalFloors`: Tổng số tầng của tòa nhà.
        
        ### **Ví dụ đầu vào:**  
        *"I’m looking for a 1 BHK Ready to Occupy Flat for sale in Srushti, ready-to-move flat in Thane with 2 bathrooms, face to the west, a balcony, and open car parking, floor higher than 15."*
        
        ### **Kết quả mong muốn:**  
        ```json
        {
          "Title": "1 BHK Ready to Occupy Flat for sale in Srushti",
          "Location": "Thane",
          "Status": "Ready to Move",
          "Transaction": "Resale",
          "Furnishing": "not mentioned",
          "Facing": "not mentioned",
          "Bathroom": 2,
          "Balcony": 1,
          "CarParking": open,
          "Ownership": "not mentioned",
          "CurrentFloor": "15",
          "TotalFloors": "not mentioned"
        }
        ```
        Lưu ý:
        + đối với car parking: nếu là 0 hãy để không, hoặc là covered hoặc open. trong trường hợp có đề cập đến số thì hãy thêm số vào, ví dụ như 1 open, 2 c
        sau đây là câu hỏi của người dùng: 
    """

    prompt += question
    response = LLM.generate_content(prompt)
    
    if response and response.text:
        return response.text.strip().split(", ")
    else:
        return []


In [8]:
user_input = """I’m looking for a 1 BHK Ready to Occupy Flat for sale in Virat, Resale flat in Thane with 2 bathrooms, unfurnished, and at least one open car parking spot. The flat should be on a higher floor in a building with more than 10 floors."""
print(extract_entities(user_input))

['```json\n{\n  "Title": "1 BHK Ready to Occupy Flat for sale in Virat",\n  "Location": "Thane",\n  "Status": "Ready to Move",\n  "Transaction": "Resale",\n  "Furnishing": "Unfurnished",\n  "Facing": "not mentioned",\n  "Bathroom": 2,\n  "Balcony": "not mentioned",\n  "CarParking": "1 open",\n  "Ownership": "not mentioned",\n  "CurrentFloor": "higher floor",\n  "TotalFloors": "more than 10"\n}\n```']


In [9]:
def solve_extracted_json(extracted_json):
    # Nếu dữ liệu là list, lấy phần tử đầu tiên
    if isinstance(extracted_json, list) and len(extracted_json) > 0:
        extracted_json = extracted_json[0]

    # Kiểm tra nếu vẫn không phải là string, cần xử lý
    if not isinstance(extracted_json, str):
        raise ValueError("extract_entities() phải trả về một chuỗi JSON hợp lệ.")

    # Loại bỏ Markdown ```json ... ```
    cleaned_json = re.sub(r'```json\n|\n```', '', extracted_json)

    # Chuyển đổi thành dictionary
    data = json.loads(cleaned_json)

    # Chuẩn hóa dữ liệu
    def normalize_value(value):
        if isinstance(value, str):
            if value.lower() == "not mentioned":
                return None
            if value.isdigit():
                return int(value)
        return value

    data = {key: normalize_value(value) for key, value in data.items()}

    return data

# Gọi hàm
extracted_json = extract_entities(user_input)  # Hàm này cần đảm bảo trả về một chuỗi hoặc danh sách chứa chuỗi JSON

cleaned_data = solve_extracted_json(extracted_json)
print(json.dumps(cleaned_data, indent=2))

{
  "Title": "1 BHK Ready to Occupy Flat for sale in Virat",
  "Location": "Thane",
  "Status": "Ready to Move",
  "Transaction": "Resale",
  "Furnishing": "Unfurnished",
  "Facing": null,
  "Bathroom": 2,
  "Balcony": null,
  "CarParking": "1 open",
  "Ownership": null,
  "CurrentFloor": "higher floor",
  "TotalFloors": "10+"
}


In [10]:
def get_entity_embedding(extracted_entities, model, G, house_weight=2 ):
    """
    Tạo vector embedding cho truy vấn bằng cách gộp embedding của các thực thể.
    Tăng trọng số cho tên căn nhà bằng cách nhân hệ số house_weight.
    """
    entity_vectors = []
    
    for key, value in extracted_entities.items():
        if value and value in model.wv:
            vector = model.wv[value]
            
            # Nếu thực thể là tên căn nhà, nhân trọng số
            if key == "house":
                vector *= house_weight
            
            entity_vectors.append(vector)
    
    if len(entity_vectors) == 0:
        return None
    
    return np.mean(entity_vectors, axis=0)  # Lấy trung bình các vector

In [11]:
from scipy.spatial.distance import cosine

def find_similar_houses(query_vector, house_embeddings, house_entities, top_k=10):
    """
    Tìm các căn nhà có embedding gần nhất với query_vector.
    Trả về thông tin chi tiết của top_k căn nhà phù hợp.
    """
    similarity_scores = []

    for house, house_vector in house_embeddings.items():
        similarity = 1 - cosine(query_vector, house_vector)  # Tính cosine similarity
        similarity_scores.append((house, similarity))

    # Sắp xếp theo độ tương đồng giảm dần
    similarity_scores.sort(key=lambda x: x[1], reverse=True)
    
    # Lấy danh sách top_k căn nhà
    top_houses = similarity_scores[:top_k]

    # Trả về danh sách kèm thông tin chi tiết
    result = []
    for house, score in top_houses:
        if house in house_entities:
            house_data = house_entities[house]
            result.append({
                "house": house,
                "similarity": score * 100,  # Chuyển thành phần trăm
                "description": house_data.get("description", "N/A"),
                "price": house_data.get("price", "N/A"),
                "amount": house_data.get("amount", "N/A"),
                "entities": house_data.get("entities", [])
            })
    
    return result

In [12]:
def process_input(user_input, model, G, house_weight=2, top_k=5):
    """
    Xử lý đầu vào: trích xuất thực thể, tính vector embedding và tìm nhà tương đồng.
    """
    extracted_entities = solve_extracted_json(extract_entities(user_input))
    if extracted_entities is None:
        print("❌ JSON đầu vào bị lỗi, không thể parse!")
        return None, None
    
    query_vector = get_entity_embedding(extracted_entities, model, G, house_weight)
    if query_vector is None:
        print("❌ Không tìm thấy thực thể phù hợp trong đồ thị!")
        return None, None

    similar_houses = find_similar_houses(query_vector, house_embeddings, house_entities, top_k)
    return query_vector, similar_houses

In [13]:
def generate_few_shot_prompt(user_input, top_houses):
    """
    Tạo prompt Few-shot Learning từ top_houses để gửi vào LLM.
    """
    prompt = ["### Context:\nBạn là một chuyên gia bất động sản đang tư vấn giá nhà."]
    prompt.append("Dưới đây là một số mẫu nhà đã bán trước đó:\n")

    for idx, house in enumerate(top_houses):
        house_info = [
            f"🔹 **Mẫu {idx+1}:**",
            f"🏠 **Tên nhà**: {house['house']}",
            f"📖 **Mô tả**: {house['description']}",
            f"💰 **Giá niêm yết**: {house['price']} rupees",
            f"📊 **Giá trị thực tế**: {house['amount']} INR",
            "📌 **Thông tin thêm:**"
        ]
        house_info.extend(
            [f"  - {entity['type']}: {entity['name']} ({entity['relationship']})" for entity in house["entities"]]
        )
        prompt.append("\n".join(house_info))

    prompt.append(f"\n### Query:\n🏡 **Căn nhà cần dự đoán:** {user_input}")
    prompt.append("💬 **Dự đoán giá hợp lý nhất cho căn nhà này là bao nhiêu INR?**")
    
    return "\n".join(prompt)

In [14]:
def house_predict(user_input, model, G, house_weight=1.5, top_k=5):
    """
    Dự đoán giá nhà bằng Few-shot Learning.
    """
    query_vector, similar_houses = process_input(user_input, model, G, house_weight, top_k)
    if query_vector is None or not similar_houses:
        return  # Dừng nếu không có dữ liệu hợp lệ
    
    # ✨ Tạo Prompt Few-shot Learning
    few_shot_prompt = generate_few_shot_prompt(user_input, similar_houses)

    # 🚀 Gửi vào LLM (Gemini) để dự đoán giá nhà
    response = LLM.generate_content(few_shot_prompt).text

    print("\n📌 **Dự đoán giá từ Few-shot Learning:**")
    print(f"💰 **Giá dự đoán:** {response} INR")

In [15]:
# 📌 **Chạy chương trình**
user_input = """2 BHK Ready to Occupy Flat for sale Badlapur West, Resale flat in Thane with 2 bathrooms and 2 balconies, unfurnished, and at least one open car parking spot. The flat should be on floor 7"""
house_predict(user_input, model, G, house_weight=2)


📌 **Dự đoán giá từ Few-shot Learning:**
💰 **Giá dự đoán:** Dựa trên các mẫu nhà đã bán trước đó và thông tin về căn nhà cần dự đoán, tôi sẽ đưa ra mức giá hợp lý nhất:

**Phân tích:**

*   **Vị trí:** Tất cả các căn hộ mẫu đều nằm ở Thane, điều này cho thấy khu vực này có ảnh hưởng lớn đến giá. Căn nhà cần dự đoán cũng nằm ở Thane (Badlapur West), nên sẽ có mức giá tương đồng với các mẫu.
*   **Loại hình:** Căn nhà cần dự đoán là căn hộ 2 BHK (2 phòng ngủ, 1 phòng khách), đã sẵn sàng để ở (Ready to Occupy) và giao dịch mua bán lại (Resale).
*   **Tiện nghi:** Căn hộ có 2 phòng tắm, 2 ban công, không có đồ đạc (Unfurnished) và có ít nhất 1 chỗ đậu xe ô tô.
*   **Vị trí tầng:** Căn hộ ở tầng 7.

**So sánh với các mẫu:**

*   **Mẫu 1:** Tương đồng nhất về vị trí (Badlapur West), loại hình (2 BHK, Ready to Occupy, Resale), số phòng tắm và số ban công. Tuy nhiên, không rõ về vị trí tầng. Giá trị thực tế là 3,000,000 INR.
*   **Mẫu 3:** Tương đồng về số phòng ngủ và phòng tắm, nhưng vị trí 