In [7]:
import json
import os
from typing import List, Dict
import google.generativeai as genai
from datetime import datetime, timedelta
from collections import deque
import time

In [8]:
# Cấu hình API key cho Gemini
genai.configure(api_key='AIzaSyAY76hftIXFHe9zxXPR00FYePmoZQ1TLZg')
model = genai.GenerativeModel('gemini-2.0-flash')

In [9]:
class RateLimiter:
    def __init__(self, max_requests=15, time_window=70, cooldown=70):
        self.max_requests = max_requests
        self.time_window = time_window
        self.cooldown = cooldown
        self.requests = deque()
    
    def wait_if_needed(self):
        now = datetime.now()
        
        # Xóa các request cũ hơn time_window
        while self.requests and (now - self.requests[0]).total_seconds() > self.time_window:
            self.requests.popleft()
        
        # Nếu đã đạt giới hạn request
        if len(self.requests) >= self.max_requests:
            oldest_request = self.requests[0]
            wait_time = self.time_window - (now - oldest_request).total_seconds()
            
            if wait_time > 0:
                print(f"\nĐã đạt giới hạn {self.max_requests} requests trong {self.time_window}s.")
                print(f"Nghỉ {self.cooldown}s trước khi tiếp tục...")
                time.sleep(self.cooldown)
                self.requests.clear()
                
        self.requests.append(now)

In [10]:
def detect_abbreviations(text: str) -> List[str]:
    """
    Gọi Gemini API để nhận diện các từ viết tắt trong văn bản.
    Trả về danh sách các từ viết tắt, loại bỏ trùng lặp.
    """
    max_retries = 5
    
    for attempt in range(max_retries):
        try:
            prompt = f"""
            Phân tích văn bản tiếng Việt sau và liệt kê các từ viết tắt hoặc ký hiệu không rõ ràng về ngữ nghĩa (ví dụ: từ rút gọn, viết tắt phổ biến như 'ad', 'ib', 'tt', 'rep', ...). 
            Chỉ trả về danh sách các từ viết tắt, không giải thích. Nếu không có từ viết tắt, trả về danh sách rỗng.
            Văn bản: {text}
            """
            response = model.generate_content(prompt)
            abbreviations = response.text.strip().split("\n")
            # Loại bỏ các dòng trống và trùng lặp
            abbreviations = list(set([abbr.strip() for abbr in abbreviations if abbr.strip()]))
            return abbreviations if abbreviations else []
            
        except Exception as e:
            if attempt < max_retries - 1:
                print(f"Lỗi trong lần thử {attempt + 1}, thử lại...")
                time.sleep(5)
            else:
                print(f"Lỗi khi gọi API cho văn bản: {text[:50]}... - {e}")
                return []

In [11]:
def process_json_file(input_file: str, output_file: str):
    """
    Đọc file JSON, xử lý từng post để tìm từ viết tắt và lưu kết quả.
    """
    # Khởi tạo rate limiter
    rate_limiter = RateLimiter(max_requests=15, time_window=60, cooldown=10)
    
    try:
        # Đọc file JSON đầu vào
        with open(input_file, 'r', encoding='utf-8') as f:
            data = json.load(f)
        
        results = []
        total_posts = len(data)
        
        for idx, post in enumerate(data, 1):
            # Kiểm tra rate limit
            rate_limiter.wait_if_needed()
            
            post_text = str(post.get("Post Text", ""))
            if not post_text:
                continue
                
            print(f"\nXử lý {idx}/{total_posts}: {post_text[:100]}...")
            
            # Tìm từ viết tắt
            abbreviations = detect_abbreviations(post_text)
            print(f"Xử lý hoàn tất [{post_text[:50]}...] - Tìm thấy: {abbreviations}")
            
            # Tạo kết quả cho post
            result = {
                "index": post.get("index", ""),
                "Page URL": post.get("Page URL", ""),
                "Page Name": post.get("Page Name", ""),
                "Post URL": post.get("Post URL", ""),
                "Post Text": post_text,
                "Abbreviations": abbreviations
            }
            results.append(result)
            
        # Lưu kết quả vào file JSON
        with open(output_file, 'w', encoding='utf-8') as f:
            json.dump(results, f, ensure_ascii=False, indent=2)
            
        print(f"\nĐã xử lý xong {total_posts} posts và lưu kết quả vào {output_file}")
        
    except Exception as e:
        print(f"Lỗi khi xử lý file: {e}")

In [12]:
if __name__ == "__main__":
    # Đường dẫn file đầu vào và đầu ra
    input_file = "../../Facebook Page Posts Scraping/Clean Data/output/Confessions of HNMU.json"
    
    # Tạo thư mục output trong thư mục hiện tại
    output_dir = "output"
    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    # Đường dẫn file kết quả trong thư mục output
    output_file = os.path.join(output_dir, "abbreviations_result.json")
    
    print(f"Bắt đầu xử lý file: {input_file}")
    print(f"Kết quả sẽ được lưu vào: {output_file}")
    
    process_json_file(input_file, output_file)

Bắt đầu xử lý file: ../../Facebook Page Posts Scraping/Clean Data/output/Confessions of HNMU.json
Kết quả sẽ được lưu vào: output\abbreviations_result.json

Xử lý 1/2641: ['8149: Mình được các cô ở phòng CTQLHSSV nhắc là báo với các bạn dù đã, sắp và chưa tốt nghiệp thì ...
Xử lý hoàn tất [['8149: Mình được các cô ở phòng CTQLHSSV nhắc là ...] - Tìm thấy: ["['CTQLHSSV', 'NĐ']"]

Xử lý 2/2641: ['8147: Mn ơi cho e hỏi bao giờ trường xét vb2 ạ']...
Lỗi trong lần thử 1, thử lại...
Lỗi trong lần thử 2, thử lại...
Lỗi trong lần thử 3, thử lại...
Lỗi trong lần thử 4, thử lại...
Lỗi khi gọi API cho văn bản: ['8147: Mn ơi cho e hỏi bao giờ trường xét vb2 ạ']... - 429 You exceeded your current quota, please check your plan and billing details. For more information on this error, head to: https://ai.google.dev/gemini-api/docs/rate-limits. [violations {
}
, links {
  description: "Learn more about Gemini API quotas"
  url: "https://ai.google.dev/gemini-api/docs/rate-limits"
}
, retry_delay {
  sec

KeyboardInterrupt: 