In [4]:
#pip install google-generativeai pandas python-dotenv

In [1]:
GEMINI_API_KEY='AIzaSyAN1S0TJStjexLRM_tsp5I3yhEqRnBz-fU'

In [2]:
from dotenv import load_dotenv
import os
load_dotenv()
print(os.getenv("GEMINI_API_KEY"))

None


In [3]:
# -*- coding: utf-8 -*-
import os, time, json, random
import pandas as pd
from dotenv import load_dotenv

# ============ CONFIG PATHS ============
BASE_RAW  = "/Users/thanwaratkeratipasuwat/Desktop/dsi314/Raw data"
IN_FILE   = os.path.join(BASE_RAW, "species_factors_merged.csv")   # มี match_type + factors
OUT_FILE  = os.path.join(BASE_RAW, "species_factors_llm_enriched.csv")  # ไฟล์ผลลัพธ์ใหม่

# ============ GEMINI SETUP ============
load_dotenv()
GEMINI_API_KEY = os.getenv("GEMINI_API_KEY")

if not GEMINI_API_KEY:
    raise SystemExit("❌ ไม่พบ GEMINI_API_KEY ใน .env โปรดตั้งค่าก่อน")

import google.generativeai as genai
genai.configure(api_key=GEMINI_API_KEY)

# รุ่นที่แนะนำ (ปรับได้)
MODEL_NAME = "gemini-1.5-pro"

# ============ PROMPT ============
SYSTEM_GUIDE = """\
คุณเป็นผู้ช่วยด้านพฤกษศาสตร์และนิเวศวิทยา ทำงานแบบอนุรักษ์นิยม ไม่เดาข้อมูลที่ไม่มีหลักฐาน
จงสรุป “ปัญหาสิ่งแวดล้อมที่เกี่ยวข้องกับชนิดพืช” ในประเทศไทย/ภูมิภาค ตามข้อมูลที่ให้ โดยยึดโยงกับหลักฐานจริง
ต้องใส่แหล่งอ้างอิง (เช่น IUCN Red List, FAO Ecocrop, POWO/Kew, WFO,งานวิชาการ) เป็น URL หรือชื่อองค์กร/ฐานข้อมูล
ห้ามแต่ง/สมมติแหล่งอ้างอิง
ตอบกลับเป็น JSON เท่านั้น ห้ามมีข้อความอื่น
สโคปปัญหา (เลือกเท่าที่มีหลักฐาน): 
- การเสื่อมถอยถิ่นอาศัย/ป่าถูกแบ่งแยก (habitat loss/fragmentation)
- การรุกรานของชนิดพันธุ์ต่างถิ่น (invasive species) (ถ้าเป็นชนิดนั้นเองที่ invasive ให้ระบุด้วยความระมัดระวัง)
- ความแห้งแล้ง/ชื้นแล้งผิดปกติ/น้ำท่วมซ้ำซาก ที่กระทบการอยู่รอด/เพาะปลูก
- ความเค็ม/ดินเสื่อมโทรม/การชะล้างพังทลายของดิน
- โรค-แมลงสำคัญ (เฉพาะที่มีหลักฐาน)
- การเก็บหาประโยชน์มากเกิน/การค้าผิดกฎหมาย
- สถานะการคุกคาม (ถ้ามี: IUCN ฯลฯ)

รูปแบบ JSON:
{
  "species": "<scientific name>",
  "environmental_issues": [
     {"issue": "<ชื่อปัญหา>", "detail": "<สรุปสั้น>", "confidence": "<high|medium|low>"}
  ],
  "notes": "<ข้อสังเกตสั้นๆ>",
  "sources": ["<URL หรือชื่อฐานข้อมูลที่ตรวจสอบได้>", "..."]
}
ถ้าไม่มีหลักฐานที่น่าเชื่อถือ ให้คืน:
{
  "species": "<scientific name>",
  "environmental_issues": [],
  "notes": "insufficient-evidence",
  "sources": []
}
"""

def build_user_prompt(row):
    # เลือกฟิลด์ช่วยป้อนโมเดล (มีอะไรก็ส่งไปเท่านั้น)
    fields = {
        "species_scientific_name": row.get("species_scientific_name", ""),
        "wfo_id": row.get("wfo_id", ""),
        "thailand": row.get("thailand", ""),
        "distribution": row.get("distribution", ""),
        "ecology": row.get("ecology", ""),
        "match_type": row.get("match_type", "")
    }
    # แปลงเป็นข้อความสั้นอ่านง่าย
    lines = []
    for k, v in fields.items():
        if pd.notna(v) and str(v).strip():
            lines.append(f"- {k}: {str(v).strip()}")
    context_txt = "\n".join(lines)
    return f"""\
ข้อมูลชนิดพืช:
{context_txt}

จงสรุปตาม SYSTEM GUIDELINES ข้างต้น
ตอบเป็น JSON เท่านั้น ตาม schema ที่กำหนด
"""

def call_gemini(prompt):
    model = genai.GenerativeModel(MODEL_NAME)
    # บังคับ JSON: ใช้ generation_config ให้เหมาะ (ยังคงตรวจ JSON อีกชั้น)
    resp = model.generate_content(
        [ {"role":"system","parts":[SYSTEM_GUIDE]},
          {"role":"user","parts":[prompt]} ],
        generation_config=genai.types.GenerationConfig(
            temperature=0.2,
            top_p=0.9,
            candidate_count=1,
            max_output_tokens=800
        )
    )
    txt = resp.text or ""
    # บางครั้ง LLM จะใส่ ```json ... ``` ให้ลอกคราบออก
    txt = txt.strip()
    if txt.startswith("```"):
        txt = txt.strip("`")
        # ตัด label 'json' ถ้ามี
        if txt.lower().startswith("json"):
            txt = txt[4:].strip()
    # parse JSON
    try:
        data = json.loads(txt)
        return data, None
    except Exception as e:
        return None, f"parse_error: {e}; raw={txt[:300]}..."

def backoff_sleep(attempt):
    time.sleep(1.0 + min(4, attempt) + random.random())

# ============ LOAD ============
df = pd.read_csv(IN_FILE)

# คัดเฉพาะ 335 แถวที่ match (ตามที่คุณสรุปได้)
df_match = df[df["match_type"].isin(["A_full_exact","B_core_exact"])].copy()

# เลือกคอลัมน์ปลายทาง
for col in ["environmental_issues", "llm_notes", "llm_sources"]:
    if col not in df_match.columns:
        df_match[col] = ""

# ============ RUN LLM ============
rows = []
for i, row in df_match.iterrows():
    user_prompt = build_user_prompt(row)
    data, err = None, None
    for attempt in range(3):  # retry สูงสุด 3 ครั้ง
        data, err = call_gemini(user_prompt)
        if data is not None:
            break
        backoff_sleep(attempt)

    if data is None:
        # ใส่ placeholder ถ้าเรียกไม่สำเร็จ
        rows.append({
            "environmental_issues": "",
            "llm_notes": f"error: {err}",
            "llm_sources": ""
        })
        continue

    # ตรวจ schema แบบหยาบ
    species = data.get("species", "")
    issues  = data.get("environmental_issues", [])
    notes   = data.get("notes", "")
    sources = data.get("sources", [])

    # เฝ้าระวัง: ถ้าไม่มีแหล่งอ้างอิง ให้ถือว่า unreliable
    if not isinstance(sources, list):
        sources = []
    # ทำให้เป็นสตริงเก็บใน CSV
    issues_str  = json.dumps(issues, ensure_ascii=False)
    sources_str = json.dumps(sources, ensure_ascii=False)

    rows.append({
        "environmental_issues": issues_str,
        "llm_notes": str(notes),
        "llm_sources": sources_str
    })

# ผนวกผล
df_match = df_match.reset_index(drop=True)
df_llm = pd.DataFrame(rows)
df_out = pd.concat([df_match, df_llm], axis=1)

# กรองความเสี่ยง: ไม่ยอมรับแถวที่ไม่มีแหล่งอ้างอิง
def has_sources(s):
    try:
        arr = json.loads(s) if isinstance(s, str) else (s or [])
        return isinstance(arr, list) and len(arr) > 0
    except Exception:
        return False

df_out["llm_has_sources"] = df_out["llm_sources"].map(has_sources)

# คุณอาจเลือก “เก็บไว้เฉพาะแถวที่มีแหล่งอ้างอิง”
# df_out_confident = df_out[df_out["llm_has_sources"]].copy()

# ============ SAVE ============
df_out.to_csv(OUT_FILE, index=False)
print(f"✅ Saved LLM-enriched file → {OUT_FILE}")
print(f"แถวที่มีแหล่งอ้างอิงจาก LLM: {int(df_out['llm_has_sources'].sum())} / {len(df_out)}")
print("ตัวอย่าง 2 แถวแรกของคอลัมน์ใหม่:")
print(df_out[["species_scientific_name","environmental_issues","llm_sources"]].head(2))

SystemExit: ❌ ไม่พบ GEMINI_API_KEY ใน .env โปรดตั้งค่าก่อน

  warn("To exit: use 'exit', 'quit', or Ctrl-D.", stacklevel=1)
