In [36]:
import pandas as pd
import requests
import math
from thefuzz import fuzz
import csv
import os
import re
import time
from dotenv import load_dotenv

load_dotenv()

True

In [37]:
API_KEY = os.getenv("GOOGLE_API_KEY")
if(API_KEY is None):
    raise ValueError("No API key found. Please set the GOOGLE_API_KEY environment variable.")
print("Using API Key:", API_KEY)
#  ตั้งค่าว่าจะใช้ข้อมูลจริงจาก API หรือข้อมูลจำลอง
#    - True:  จะเรียก API จริง (ต้องใส่ API_KEY และมีอินเทอร์เน็ต)
#    - False: จะใช้ข้อมูลจำลองในโค้ด (สำหรับทดสอบโดยไม่ใช้ API Key)
USE_REAL_API = True
# -----------------------------

# เกณฑ์คะแนน
SCORE_THRESHOLD_OK = 9      # ≥9 = เชื่อว่าถูก (ตรง)
SCORE_THRESHOLD_REVIEW = 7  # 7-8 = ต้องตรวจซ้ำ (ไม่แน่ใจ)

Using API Key: AIzaSyCzHeJ4ed7vQBAoPpgQVFyFx0IEAeEKds0


In [38]:
def get_place_details_real(query, api_key):
    """ฟังก์ชันสำหรับเรียก Google Places API จริง"""
    time.sleep(0.2)  # หน่วงเวลา 200ms เพื่อหลีกเลี่ยงการเรียก API รวดเร็วเกินไป
    url = "https://places.googleapis.com/v1/places:searchText"
    headers = {
        'Content-Type': 'application/json',
        'X-Goog-Api-Key': api_key,
        'X-Goog-FieldMask': 'places.id,places.displayName,places.formattedAddress,places.types,places.location,places.rating,places.userRatingCount,places.googleMapsUri'
    }
    data = {
        "textQuery": query, 
        "languageCode": "th",
        "regionCode": "TH",
        }
    try:
        response = requests.post(url, json=data, headers=headers)
        response.raise_for_status()
        return response.json().get('places', [])
    except requests.exceptions.RequestException as e:
        print(f"เกิดข้อผิดพลาดในการเรียก API สำหรับคำค้น '{query}': {e}")
        return []

In [39]:
def get_place_details_mock(query):
    """ฟังก์ชันสำหรับข้อมูลจำลอง (Mock Data) เพื่อการทดสอบ"""
    mock_responses = {
        "เสาหินบะซอลต์ นางรอง บุรีรัมย์ ประเทศไทย": [{
            "id": "ChIJ-e2a_wBwXDARWp999999999", 
            "types": ["tourist_attraction", "point_of_interest"],
            "formattedAddress": "บ้านโคกมะค่าโหรน หมู่ 12 ต.สะเดา อ.นางรอง จ.บุรีรัมย์",
            "location": {"latitude": 14.58313, "longitude": 102.80535}, 
            "rating": 4.5,
            "googleMapsUri": "https://maps.google.com/?cid=12345", 
            "userRatingCount": 150,
            "displayName": {"text": "เสาหินบะซอลต์ ภูเขาไฟ", "languageCode": "th"}
        }],
        "วัดเจริญสุขารามวรวิหาร บางคนที สมุทรสงคราม ประเทศไทย": [{
            "id": "ChIJH-mplqGR4jARs-Vf9-Vf9-V", 
            "types": ["tourist_attraction", "place_of_worship"],
            "formattedAddress": "ต.บางนกแขวก อ.บางคนที จ.สมุทรสงคราม 75120",
            "location": {"latitude": 13.50111, "longitude": 99.92706},
            "rating": 4.6,
            "googleMapsUri": "https://maps.google.com/?cid=67890",
            "userRatingCount": 500,
            "displayName": {"text": "วัดเจริญสุขารามวรวิหาร", "languageCode": "th"}
        }]
    }
    return mock_responses.get(query, [])

In [40]:
def thai_digits_to_arabic(s: str) -> str:
    """แปลงเลขไทยในสตริงเป็นเลขอารบิก"""
    if not isinstance(s, str): return s
    map_dict = {"๐": "0", "๑": "1", "๒": "2", "๓": "3", "๔": "4", "๕": "5", "๖": "6", "๗": "7", "๘": "8", "๙": "9"}
    return s.translate(str.maketrans(map_dict))

def normalize_name(s: str) -> str:
    """ทำความสะอาดและทำให้ชื่อเป็นมาตรฐานสำหรับการเปรียบเทียบ"""
    if not isinstance(s, str): return ""
    text = thai_digits_to_arabic(s.lower().strip())
    text = re.sub(r'[()【】\[\]{}]', ' ', text)
    # ตัดคำบ่งชี้การปกครอง/คำก่อกวนทั่วไป
    admin_terms = r'\b(จังหวัด|จ\.|อำเภอ|อ\.|ตำบล|ต\.|เทศบาล|เขต|แขวง|สาขา|จุดชมวิว)\b'
    text = re.sub(admin_terms, '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    return text

In [41]:
KEYWORD_TYPE_RULES = [
    (re.compile(r'\b(อุทยาน|วนอุทยาน|อช\.|อช|อุทยานแห่งชาติ|ดอย|ภู|เขา|ถ้ำ|น้ำตก|บ่อน้ำพุร้อน|บ่อน้ำพุ)', re.IGNORECASE), "park"),
    (re.compile(r'\b(พิพิธภัณฑ์|พิพิธภัณฑ์สัตว์น้ำ)', re.IGNORECASE), "museum"),
    (re.compile(r'\b(พิพิธภัณฑ์สัตว์น้ำ|อควาเรียม|aquarium)', re.IGNORECASE), "aquarium"),
    (re.compile(r'\b(สวนสัตว์|ซู)', re.IGNORECASE), "zoo"),
    (re.compile(r'\b(ห้าง|มอลล์|พลาซ่า|plaza|mall|shopping)', re.IGNORECASE), "shopping_mall"),
    (re.compile(r'\b(ตลาด)', re.IGNORECASE), "market"),
    (re.compile(r'\b(วัด|เจดีย์|เจติยสถาน|สำนักสงฆ์|พระธาตุ)', re.IGNORECASE), "place_of_worship"),
    (re.compile(r'\b(มัสยิด)\b', re.IGNORECASE), "mosque"),
    (re.compile(r'\b(โบสถ์|คริสตจักร)\b', re.IGNORECASE), "church"),
    (re.compile(r'\b(ที่พัก|รีสอร์ท|โรงแรม|โฮสเทล|โฮมสเตย์|homestay|resort|hotel|hostel)', re.IGNORECASE), "lodging"),
    (re.compile(r'\b(ร้านอาหาร|อาหาร|restaurant)', re.IGNORECASE), "restaurant"),
    (re.compile(r'\b(คาเฟ่|กาแฟ|cafe|coffee)', re.IGNORECASE), "cafe"),
]
def pick_included_type(text: str, default_type="tourist_attraction") -> str:
    """เลือกประเภทของสถานที่จาก Keyword ในชื่อ"""
    if not isinstance(text, str): return default_type
    for pattern, type_name in KEYWORD_TYPE_RULES:
        if pattern.search(text):
            return type_name
    return default_type

In [42]:
def haversine_meters(lat1, lon1, lat2, lon2):
    """คำนวณระยะทางเป็น 'เมตร'"""
    R = 6371000  # รัศมีโลกในหน่วยเมตร
    if any(v is None for v in [lat1, lon1, lat2, lon2]): return float('inf')
    to_rad = lambda d: d * math.pi / 180
    d_lat, d_lng = to_rad(lat2 - lat1), to_rad(lon2 - lon1)
    la1, la2 = to_rad(lat1), to_rad(lat2)
    a = math.sin(d_lat/2)**2 + math.cos(la1) * math.cos(la2) * math.sin(d_lng/2)**2
    return 2 * R * math.asin(math.sqrt(a))

In [43]:
def score_candidate(src_row, cand_place):
    """ให้คะแนนสถานที่ที่ได้จาก API เทียบกับข้อมูลตั้งต้น"""
    score = 0
    reasons = []

    # --- ให้คะแนนจากระยะทาง ---
    distance = haversine_meters(src_row['latitude'], src_row['longitude'], cand_place['location']['latitude'], cand_place['location']['longitude'])
    if distance < 200:
        score += 5
        reasons.append(f"distance<200m (+5)")
    elif distance < 500:
        score += 4
        reasons.append(f"distance<500m (+4)")
    elif distance < 1000:
        score += 3
        reasons.append(f"distance<1km (+3)")
    elif distance < 5000:
        score += 2
        reasons.append(f"distance<5km (+2)")
    elif distance < 10000:
        score += 1
        reasons.append(f"distance<10km (+1)")
    else:
        reasons.append(f"distance>=10km (+0)")

    # --- ให้คะแนนจากความคล้ายของชื่อ ---
    # ใช้ thefuzz ซึ่งแม่นยำกว่า token overlap
    norm_src_name = normalize_name(src_row['name'])
    norm_cand_name = normalize_name(cand_place['displayName']['text'])
    sim = fuzz.ratio(norm_src_name, norm_cand_name) / 100.0  # similarity 0..1
    
    if sim >= 0.92:
        score += 4
        reasons.append(f"name_sim>0.92 (+4)")
    elif sim >= 0.85:
        score += 3
        reasons.append(f"name_sim>0.85 (+3)")
    elif sim >= 0.75:
        score += 2
        reasons.append(f"name_sim>0.75 (+2)")
    elif sim >= 0.6:
        score += 1
        reasons.append(f"name_sim>0.6 (+1)")
    else:
        reasons.append(f"name_sim<=0.6 (+0)")

    # --- ให้คะแนนจากอำเภอที่ตรงกัน ---
    # หมายเหตุ: Google API ไม่ได้คืนค่าอำเภอมาตรงๆ เราอาจต้องดึงจาก formattedAddress
    src_district = src_row.get('district')
    cand_address = cand_place.get('formattedAddress', '')
    if src_district and src_district in cand_address:
        score += 2
        reasons.append(f"district_match (+2)")

    # --- (Optional) ให้คะแนนจากประเภทที่ตรงกัน ---
    expected_type = pick_included_type(src_row['name'])
    if expected_type != "tourist_attraction" and expected_type in cand_place.get('types', []):
        score += 2
        reasons.append(f"type_match:'{expected_type}' (+2)")

    return {"score": score, "reasons": ", ".join(reasons), "distance_m": distance}

In [44]:
def best_match_for_row(src_row, places):
    """เลือกผลลัพธ์ที่ดีที่สุดจากรายการสถานที่ที่ได้จาก API"""
    best_score = -1
    best_place = None
    best_reasons = ""
    best_distance = float('inf')

    for place in places:
        result = score_candidate(src_row, place)
        if result['score'] > best_score or (result['score'] == best_score and result['distance_m'] < best_distance):
            best_score = result['score']
            best_place = place
            best_reasons = result['reasons']
            best_distance = result['distance_m']

    return best_place, best_score, best_reasons, best_distance

In [None]:
def main():
    input_filename = 'prePlacesData.csv'
    output_filename = 'postPlacesFetch.csv'

    try:
        df_pre = pd.read_csv(input_filename)
    except FileNotFoundError:
        print(f"ข้อผิดพลาด: ไม่พบไฟล์ '{input_filename}'")
        return

    fieldnames = [
        'original_index', 'match_result', 'score', 'score_reasons', 'distance_m',
        'textQuery', 'expected_type', 'api_name', 'api_formattedAddress',
        'api_location', 'api_rating', 'api_userRatingCount', 'api_types',
        'api_placeId', 'api_URI', 'original_detail'
    ]

    with open(output_filename, 'w', newline='', encoding='utf-8-sig') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
        writer.writeheader()

        for index, row in df_pre.iterrows():
            print(f"กำลังประมวลผล index {row['idx']}: {row['name']}...")
            
            if USE_REAL_API:
                places_found = get_place_details_real(row['textQuery'], API_KEY)
            else:
                places_found = get_place_details_mock(row['textQuery'])
            
              
            if places_found:
                top_result, top_score, top_reasons, top_distance = best_match_for_row(row, places_found)
            
            
            # ตัดสินผลลัพธ์จากคะแนน
            if top_score >= SCORE_THRESHOLD_OK:
                match_result = "ตรง"
            elif top_score >= SCORE_THRESHOLD_REVIEW:
                match_result = "ไม่แน่ใจ (ต้องตรวจซ้ำ)"
            else:
                match_result = "ไม่ตรง"

            result_row = {
                'original_index': row['idx'],
                'match_result': match_result,
                'score': top_score,
                'score_reasons': top_reasons,
                'distance_m': round(top_distance, 2),
                'textQuery': row['textQuery'],
                'expected_type': pick_included_type(row['name']),
                'api_name': top_result.get('displayName', {}).get('text'),
                'api_formattedAddress': top_result.get('formattedAddress'),
                'api_location': top_result.get('location'),
                'api_rating': top_result.get('rating'),
                'api_userRatingCount': top_result.get('userRatingCount'),
                'api_URI': top_result.get('googleMapsUri'),
                'api_types': ", ".join(top_result.get('types', [])),
                'api_placeId': top_result.get('id'),
                'original_detail': row.get('detail', '')
            }
            writer.writerow(result_row)

    print(f"\nประมวลผลเสร็จสิ้น! บันทึกผลลัพธ์ลงในไฟล์ '{output_filename}'")
    if os.path.exists(output_filename):
        print("\nตัวอย่างข้อมูลจากไฟล์ผลลัพธ์:")
        print(pd.read_csv(output_filename).head())

In [46]:
if __name__ == '__main__':
    main()

กำลังประมวลผล index 0: เสาหินบะซอลต์...
กำลังประมวลผล index 1: อ่างเก็บน้ำลำพอก...
กำลังประมวลผล index 3: กลุ่มสตรีทอผ้าบ้านท่ากระจาย...
กำลังประมวลผล index 4: องค์ศรีสุขคเณศ...
กำลังประมวลผล index 5: พัทยา ดอลฟินาเรียม...
กำลังประมวลผล index 6: เกาะนกเภา...
กำลังประมวลผล index 7: สวนภูทิพย์ธารา...
กำลังประมวลผล index 8: ผาเหนือเมฆ...
กำลังประมวลผล index 9:  ตลาดต้าน้ำโบราณบ้านต้นตาล...
กำลังประมวลผล index 10: Miracle of Natural...
กำลังประมวลผล index 11: ศูนย์การเรียนรู้ภูเพียงโมเดล   รักษ์ป่าน่าน...
กำลังประมวลผล index 12: เกาะกวาง...
กำลังประมวลผล index 13: เมืองเก่ากันตัง...
กำลังประมวลผล index 14: ตลาดลงเล...
กำลังประมวลผล index 15: วัดหน้าวัว ...
กำลังประมวลผล index 16: พิพิธภัณฑ์สถานแห่งพระพุทธบาท...
กำลังประมวลผล index 17: โป่งแยง จังเกิ้ล โคสเตอร์ ซิปไลน์...
กำลังประมวลผล index 18: น้ำตกตรอกนอง...
กำลังประมวลผล index 19: Central Phitsanulok...
กำลังประมวลผล index 20: วัดถ้ำตับเตา...
กำลังประมวลผล index 21: วัดแสงแก้วโพธิญาณ...
กำลังประมวลผล index 22: วัดเวียง...
กำลังประมวลผล 