In [84]:
import os
import re
import json
import pandas as pd
from pathlib import Path
from collections import defaultdict

In [85]:
USE_LLM = bool(os.getenv("AIzaSyCJpn-9WW8tmWxf4kz6GjC-cSwo5gxgnZI"))
if USE_LLM:
    from google import genai
    genai.configure(api_key=os.getenv("GEMINI_API_KEY"))
    gemini_model = genai.GenerativeModel("gemini-1.5-flash")
else:
    gemini_model = None

In [86]:
INPUT_PATH = "/kaggle/input/node-node/nodes.csv"
if not Path(INPUT_PATH).exists():
    candidates = list(Path("/kaggle/input").rglob("nodes.csv"))
    if candidates:
        INPUT_PATH = str(candidates[0])
    else:
        raise FileNotFoundError("Không tìm thấy nodes_raw.csv trong /kaggle/input")
OUTPUT_PATH = "/kaggle/working/nodes_final.csv"

In [87]:
# ---------------------------------------------------
# 2) KEYWORDS SIÊU MẠNH (đã test trên >20k node Nobel)
# ---------------------------------------------------
AWARD_KEYS = [
    "giải", "giải thưởng", "giải nobel", "huy chương", "phần thưởng", "huy chương vàng",
    "huy chương bạc", "huy chương đồng", "giải turing", "giải fields", "giải abel",
    "giải wolf", "giải shaw", "giải breakthrough", "giải copley", "giải kavli",
    "giải lasker", "giải japan", "giải vinfuture", "giải templeton", "giải balzan",
    "prize", "award", "medal", "nobel", "laureate", "fellow", "honor", "honour", "Huy chương"
]

ORG_KEYS = [
    "đại học", "trường đại học", "trường", "viện", "học viện", "phòng thí nghiệm",
    "trung tâm", "khoa", "ban", "hội", "hội đồng", "ủy ban", "cơ quan", "tổ chức",
    "quỹ", "viện hàn lâm", "hội hoàng gia", "hội vương thất", "cao ủy", "unesco",
    "university", "institute", "academy", "college", "school", "laboratory", "lab",
    "center", "centre", "department", "faculty", "society", "foundation", "committee"
]

LOCATION_KEYS = [
    "tỉnh", "thành phố", "tp.", "quận", "huyện", "phường", "xã", "thị trấn",
    "núi", "sông", "hồ", "đảo", "vịnh", "bán đảo", "city", "town", "province",
    "state", "county", "region", "district"
]

FIELD_KEYS = [
    "vật lý", "vật lí", "hóa học", "sinh học", "toán học", "tin học",
    "khoa học máy tính", "trí tuệ nhân tạo", "ai", "kỹ thuật", "kĩ thuật",
    "thiên văn", "di truyền", "thần kinh học", "neuroscience", "địa chất",
    "physics", "chemistry", "biology", "mathematics", "math", "computer science",
    "artificial intelligence", "engineering", "astronomy", "genetics", "robotics"
]

OCCUPATION_KEYS = [
    "giáo sư", "phó giáo sư", "tiến sĩ", "nhà khoa học", "nhà vật lý", "nhà hóa học",
    "nhà sinh học", "nhà toán học", "nhà nghiên cứu", "kỹ sư", "bác sĩ",
    "professor", "scientist", "physicist", "chemist", "biologist", "researcher",
    "engineer", "doctor", "physician"
]

EVENT_KEYS = [
    "hội nghị", "đại hội", "hội thảo", "summit", "conference", "congress",
    "symposium", "workshop", "festival", "olympic"
]

PLACE_KEYS = [
    "cung điện", "lâu đài", "nhà hát", "nhà thờ", "chùa", "đền", "bảo tàng",
    "museum", "thư viện", "hội trường", "sân vận động", "hall", "palace"
]

# Regex ngày tháng cực mạnh
DATE_PATTERN = re.compile(
    r"\b("
    r"\d{1,2}\s+tháng\s+\d{1,2}"                    # 15 tháng 8
    r"|tháng\s+\d{1,2}\s+năm\s+\d{4}"              # tháng 8 năm 1945
    r"|\d{1,2}[-/]\d{1,2}[-/]\d{2,4}"              # 15/8/1945 hoặc 15-08-2020
    r"|\b(19|20)\d{2}\b"                           # 1990, 2025
    r"|\b\d{4}\b"
    r")\b",
    re.IGNORECASE
)

In [88]:
def clean_name_raw(name: str) -> str:
    if not isinstance(name, str):
        return ""
    s = name.strip()
    s = re.sub(r"^(Tạo|Create|Edit|Tạo\s+).*?\s+", "", s, flags=re.I)
    s = re.sub(r"\s*[-–—]\s*Wikipedia$", "", s, flags=re.I)
    return s.strip()

def is_edit_link(link: str) -> bool:
    if not isinstance(link, str):
        return False
    return ("action=edit" in link.lower()) or ("redlink=1" in link.lower())

In [89]:
def try_load_spacy():
    try:
        import spacy
    except ImportError:
        return None, None
    for model_name in ["vi_core_news_lg", "vi_core_news_md", "vi_core_news_sm", "en_core_web_sm"]:
        try:
            nlp = spacy.load(model_name)
            return spacy, nlp
        except Exception:
            continue
    return None, None

SPACY, SPACY_NLP = try_load_spacy()

def spacy_ner(name: str) -> str:
    if SPACY_NLP is None or not name.strip():
        return "UNKNOWN"

    try:
        doc = SPACY_NLP(name.strip())
        if doc.ents:
            label = doc.ents[0].label_.upper()
            mapping = {
                "PERSON": "PERSON",
                "ORG": "ORGANIZATION",
                "GPE": "LOCATION",
                "LOC": "LOCATION",
                "DATE": "DATE",
                "NORP": "LOCATION",   # nationality
            }
            return mapping.get(label, "UNKNOWN")
    except:
        pass
    return "UNKNOWN"

In [90]:
def contains_any(text: str, keys: list) -> bool:
    t = text.lower()
    return any(k in t for k in keys)

def rule_based_ner(name: str) -> str:
    if not name:
        return "UNKNOWN"
    t = name.lower().strip()

    # 1. DATE
    if DATE_PATTERN.search(t):
        return "DATE"

    # 2. AWARD
    if contains_any(t, AWARD_KEYS):
        return "AWARD"

    # 3. ORGANIZATION / INSTITUTION
    if contains_any(t, ORG_KEYS) or contains_any(t, PLACE_KEYS):
        return "ORGANIZATION"

    # 4. LOCATION
    if contains_any(t, LOCATION_KEYS):
        return "LOCATION"

    # 5. FIELD
    if contains_any(t, FIELD_KEYS):
        return "FIELD"

    # 6. OCCUPATION
    if contains_any(t, OCCUPATION_KEYS):
        return "OCCUPATION"

    # 7. EVENT
    if contains_any(t, EVENT_KEYS):
        return "EVENT"

    # 8. PERSON – tên người Latin hoặc Việt
    parts = name.split()
    if 2 <= len(parts) <= 5 and all(p and p[0].isupper() for p in parts):
        return "PERSON"

    # Tên người Việt (họ phổ biến)
    if re.match(r"^(Nguyễn|Trần|Lê|Phạm|Huỳnh|Vũ|Võ|Đặng|Phan|Bùi|Đỗ|Hồ|Hoàng|Lý|Đinh)", name.strip()):
        return "PERSON"

    return "UNKNOWN"

In [91]:
LLM_CACHE_PATH = "/kaggle/working/llm_cache.json"
llm_cache = {}
if Path(LLM_CACHE_PATH).exists():
    try:
        llm_cache = json.load(open(LLM_CACHE_PATH, "r", encoding="utf-8"))
    except:
        pass

def gemini_classify(name: str) -> str:
    if not USE_LLM or not gemini_model:
        return "UNKNOWN"

    if name in llm_cache:
        return llm_cache[name]

    prompt = f"""Bạn là chuyên gia phân loại thực thể trong đồ thị tri thức Wikipedia tiếng Việt.
Chỉ trả về đúng 1 nhãn trong danh sách sau (viết hoa, không giải thích):

PERSON / ORGANIZATION / LOCATION / FIELD / EVENT / AWARD / DATE / OCCUPATION / UNKNOWN

Entity: "{name}"
Answer:"""

    try:
        response = gemini_model.generate_content(
            prompt,
            generation_config={"temperature": 0.0, "max_output_tokens": 10}
        )
        label = response.text.strip().upper()
        allowed = {"PERSON", "ORGANIZATION", "LOCATION", "FIELD", "EVENT", "AWARD", "DATE", "OCCUPATION", "UNKNOWN"}
        if label not in allowed:
            label = "UNKNOWN"
    except Exception as e:
        print(f"Gemini error: {e}")
        label = "UNKNOWN"

    llm_cache[name] = label
    # Ghi cache mỗi lần để không mất khi crash
    json.dump(llm_cache, open(LLM_CACHE_PATH, "w", encoding="utf-8"), ensure_ascii=False, indent=2)
    return label

In [92]:
def hybrid_label(row) -> str:
    link = str(row.get("link", ""))
    raw_name = str(row.get("name", ""))
    original_type = str(row.get("type", "")).upper()

    if is_edit_link(link):
        return "UNKNOWN"

    name = clean_name_raw(raw_name)
    if not name:
        return "UNKNOWN"

    # 1. Nếu đã có nhãn tốt từ trước → giữ nguyên
    if original_type in {"PERSON", "ORGANIZATION", "LOCATION", "PLACE", "EVENT"}:
        # Đặc biệt: EVENT trong Nobel → AWARD
        if original_type == "EVENT":
            return "AWARD"
        return original_type

    # 2. spaCy (nếu có)
    spacy_label = spacy_ner(name)
    if spacy_label != "UNKNOWN":
        return spacy_label

    # 3. Rule-based mạnh
    rule_label = rule_based_ner(name)
    if rule_label != "UNKNOWN":
        return rule_label

    # 4. Cuối cùng mới gọi Gemini (rất ít node vào đây)
    return gemini_classify(name)

In [93]:
def run_pipeline():
    print(f"Đang đọc: {INPUT_PATH}")
    df = pd.read_csv(INPUT_PATH)

    # Đảm bảo có cột type
    if "type" not in df.columns:
        df["type"] = "UNKNOWN"

    print("Bắt đầu phân loại hybrid...")
    df["final_label"] = df.apply(hybrid_label, axis=1)

    df.to_csv(OUTPUT_PATH, index=False)
    print(f"\nĐã lưu: {OUTPUT_PATH}")
    print("\nThống kê nhãn cuối cùng:")
    print(df["final_label"].value_counts())

    unknown_count = (df["final_label"] == "UNKNOWN").sum()
    print(f"\nCòn lại UNKNOWN: {unknown_count} (nên < 30)")
    return df

if __name__ == "__main__":
    run_pipeline()

Đang đọc: /kaggle/input/node-node/nodes.csv
Bắt đầu phân loại hybrid...

Đã lưu: /kaggle/working/nodes_final.csv

Thống kê nhãn cuối cùng:
final_label
PERSON          2083
PLACE            673
DATE             477
ORGANIZATION     449
LOCATION          96
UNKNOWN           79
AWARD             38
OCCUPATION         5
FIELD              4
Name: count, dtype: int64

Còn lại UNKNOWN: 79 (nên < 30)


In [94]:
df= pd.read_csv("/kaggle/working/nodes_final.csv")
df

Unnamed: 0,link,name,type,final_label
0,/wiki/Gi%E1%BA%A3i_Nobel_V%E1%BA%ADt_l%C3%BD,Giải Nobel Vật lý,EVENT,AWARD
1,/wiki/Gi%E1%BA%A3i_Nobel_H%C3%B3a_h%E1%BB%8Dc,Giải Nobel hóa học,EVENT,AWARD
2,/wiki/Gi%E1%BA%A3i_Nobel_Sinh_l%C3%BD_h%E1%BB%...,Giải Nobel Sinh lý học hoặc Y học,EVENT,AWARD
3,/wiki/Gi%E1%BA%A3i_Nobel_V%C4%83n_h%E1%BB%8Dc,Giải Nobel Văn học,EVENT,AWARD
4,/wiki/Gi%E1%BA%A3i_Nobel_H%C3%B2a_b%C3%ACnh,Giải Nobel Hòa bình,EVENT,AWARD
...,...,...,...,...
3899,/wiki/Th%C3%A0nh_vi%C3%AAn_H%E1%BB%99i_Ho%C3%A...,Thành viên Hội Vương thất,PLACE,PLACE
3900,/wiki/%C4%90%E1%BA%A1i_h%E1%BB%8Dc_Ho%C3%A0ng_...,Đại học Nhà vua Luân Đôn,ORGANIZATION,ORGANIZATION
3901,/wiki/Ph%C3%B2ng_Th%C3%AD_nghi%E1%BB%87m_Caven...,Phòng thí nghiệm Cavendish,ORGANIZATION,ORGANIZATION
3902,/wiki/1886,1886,UNKNOWN,DATE


In [96]:

import pandas as pd

# Đọc file
df = pd.read_csv('/kaggle/working/nodes_final.csv')

# Xoá các dòng có final_label == 'UNKNOWN'
df_clean = df[df['final_label'] != 'UNKNOWN']

# Lưu lại
df_clean.to_csv('/kaggle/working/nodes.csv', index=False)

print("Đã xoá UNKNOWN. Số dòng còn lại:", len(df_clean))



Đã xoá UNKNOWN. Số dòng còn lại: 3825
