In [9]:
import pandas as pd 
import google.generativeai as genai
import json
import time
import re

In [5]:
df_disaster = pd.read_csv('/kaggle/input/mass-disasters-in-vietnam-from-1900-to-2024/disaster_in_vietnam.csv')

In [10]:
def get_economic_regions(locations):
    prompt = f"""
    Dựa trên danh sách các vùng kinh tế của Việt Nam sau đây:
    {regions_context}

    Nhiệm vụ: Phân loại danh sách các địa điểm (Location) sau vào đúng vùng kinh tế.
    
    Quy tắc:
    - Nếu địa điểm thuộc một tỉnh/thành phố trong danh sách, trả về đúng tên vùng.
    - Nếu là địa danh nhỏ (huyện/quận), hãy xác định nó thuộc tỉnh nào rồi suy ra vùng.
    - Nếu là nhiều địa danh và thuộc về nhiều vùng, hãy trả về list các vùng đó
    - Nếu không thể xác đinh được hoặc giá trị nan, trả về "Ngoại lệ".
    - Trả về kết quả DUY NHẤT ở định dạng JSON array của các object với hai trường: "Location" và "economic_region".
    - Không thêm bất kỳ văn bản nào khác.
    - Không markdown.
    Danh sách Location:
    {locations}
    """

    response = model.generate_content(prompt)
    
    # Làm sạch code block JSON nếu có
    text_response = response.text.replace('```json', '').replace('```', '').strip()
    if not text_response:
        raise ValueError("Model trả về rỗng")
    match = re.search(r'\[.*\]', text_response, re.S)
    if not match:
        raise ValueError("Không tìm thấy JSON array")

    json_text = match.group()
    print("RAW RESPONSE:",text_response)

    return json.loads(text_response)

In [11]:
# 1. Cấu hình API Key của bạn
genai.configure(api_key="AIzaSyDzC772ZbPTrsr5_JSl0NRLRVE5PtME684")
model = genai.GenerativeModel('gemini-2.5-flash')

# 2. Định nghĩa danh sách các vùng kinh tế (Context)
regions_context = """
- Vùng trung du và miền núi phía Bắc, gồm 14 tỉnh: Hà Giang, Cao Bằng, Lạng Sơn, Bắc Giang, Phú Thọ, Thái Nguyên, Bắc Kạn, Tuyên Quang, Lào Cai, Yên Bái, Lai Châu, Sơn La, Điện Biên và Hoà Bình.
- Vùng đồng bằng sông Hồng, gồm 11 tỉnh, thành phố trực thuôc trung ương: Hà Nội, Hải Phòng, Hải Dương, Hưng Yên, Vĩnh Phúc, Bắc Ninh, Thái Bình, Nam Định, Hà Nam, Ninh Bình và Quảng Ninh.
- Vùng Bắc Trung Bộ và duyên hải miền Trung, gồm 14 tỉnh, thành phố trực thuộc trung ương: Thanh Hoá, Nghệ An, Hà Tĩnh, Quảng Bình, Quảng Trị, Thừa Thiên Huế, Đà Nẵng, Quảng Nam, Quảng Ngãi, Bình Định, Phú Yên, Khánh Hoà, Ninh Thuận và Bình Thuận.
- Vùng Tây Nguyên, gồm 5 tỉnh: Kon Tum, Gia Lai, Đắk Lắk, Đắk Nông và Lâm Đồng
- Vùng Đông Nam Bộ, gồm 6 tỉnh, thành phố trực thuôc trung ương: Thành phố Hồ Chí Minh, Đồng Nai, Bà Rịa - Vũng Tàu, Bình Dương, Bình Phước và Tây Ninh.
- Vùng đồng bằng sông Cửu Long, gồm 13 tỉnh, thành phố trực thuôc trung ương: Cần Thơ, Long An, Tiền Giang, Bến Tre, Trà Vinh, Vĩnh Long, An Giang, Đồng Tháp, Kiên Giang, Hậu Giang, Sóc Trăng, Bạc Liêu và Cà Mau;
"""

# 3. Chia Batch (50 dòng mỗi đợt)
batch_size = 100
all_processed_data = []
request_count = 0
for i in range(0, len(df_disaster), batch_size):
    batch = df_disaster['Location'].iloc[i:i + batch_size].tolist()
    print(f"--- Đang xử lý đợt: {i} đến {min(i + batch_size, len(df_disaster))} ---")
    
    try:
        results = get_economic_regions(batch)
        request_count+=1
        print(f'request thứ {request_count}')
        all_processed_data.extend(results)
        time.sleep(180)

    except Exception as e:
        if "429" in str(e):
            print(f"Lỗi tại đợt {i}: {e}")
            print("Dính quota, dừng")
            break    
        print(f'lỗi{e}')
        break



--- Đang xử lý đợt: 0 đến 100 ---
RAW RESPONSE: [
    {
        "Location": "Southern coast",
        "economic_region": "Ngoại lệ"
    },
    {
        "Location": null,
        "economic_region": "Ngoại lệ"
    },
    {
        "Location": "Saigon, Mekong delta",
        "economic_region": [
            "Vùng Đông Nam Bộ",
            "Vùng đồng bằng sông Cửu Long"
        ]
    },
    {
        "Location": "China sea coast",
        "economic_region": "Ngoại lệ"
    },
    {
        "Location": null,
        "economic_region": "Ngoại lệ"
    },
    {
        "Location": "Near Cambodia border",
        "economic_region": "Ngoại lệ"
    },
    {
        "Location": "Saigon, Khanh Hoa",
        "economic_region": [
            "Vùng Bắc Trung Bộ và duyên hải miền Trung",
            "Vùng Đông Nam Bộ"
        ]
    },
    {
        "Location": "North",
        "economic_region": [
            "Vùng đồng bằng sông Hồng",
            "Vùng trung du và miền núi phía Bắc"
        ]
    },


In [15]:
df_final = pd.DataFrame(all_processed_data)

In [16]:
df_final

Unnamed: 0,Location,economic_region
0,Southern coast,Ngoại lệ
1,,Ngoại lệ
2,"Saigon, Mekong delta","[Vùng Đông Nam Bộ, Vùng đồng bằng sông Cửu Long]"
3,China sea coast,Ngoại lệ
4,,Ngoại lệ
...,...,...
330,"Quang Nam, Quang Tri, Phu Yen, Phu Loc distric...",Vùng Bắc Trung Bộ và duyên hải miền Trung
331,Kien Giang Province,Vùng đồng bằng sông Cửu Long
332,Lai Chau and Dien Bien Provinces,Vùng trung du và miền núi phía Bắc
333,Hanoi,Vùng đồng bằng sông Hồng


In [17]:
final_df = pd.concat([df_disaster,df_final['economic_region']],axis=1)

In [19]:
final_df.to_csv('final_data.csv')