In [1]:
import pandas as pd 

In [None]:
danang = pd.read_csv('spa_reviews_Đà Nẵng.csv')
hanoi = pd.read_csv('spa_reviews_Hà Nội.csv')
hcm = pd.read_csv('spa_reviews_Thành phố Hồ Chí Minh.csv')
haiphong = pd.read_csv('spa_reviews_Hải Phòng.csv')
phuquoc = pd.read_csv('spa_reviews_Phú Quốc.csv')

In [7]:
#Merge all data
df = pd.concat([danang, hanoi, hcm, haiphong], axis=0)
df = df.drop_duplicates(subset='text', keep='first')
df.to_csv('spa_reviews.csv', index=False)
print(df.shape)

(21854, 2)


In [None]:
import google.generativeai as genai
import pandas as pd
import time
from tqdm import tqdm
import json
from datetime import datetime

def setup_gemini():
    """Khởi tạo và cấu hình Gemini API"""
    try:
        genai.configure(api_key="AIzaSyAawYBTvTr4e0v0ic0KfxSVOtuvGlWBi-A")
        safety_settings = {
            "HARM_CATEGORY_SEXUALLY_EXPLICIT": "BLOCK_NONE",
            "HARM_CATEGORY_HATE_SPEECH": "BLOCK_NONE",
            "HARM_CATEGORY_HARASSMENT": "BLOCK_NONE",
            "HARM_CATEGORY_DANGEROUS_CONTENT": "BLOCK_NONE"
        }
        model = genai.GenerativeModel("gemini-pro", 
                                    safety_settings=safety_settings)
        return model
    except Exception as e:
        print(f"Lỗi khởi tạo Gemini: {e}")
        return None

def process_with_rate_limit(df, model, start_index=0, batch_size=5):
    """Xử lý với rate limit control tốt hơn"""
    results = []
    
    # Đọc kết quả đã có nếu tồn tại
    try:
        existing_results = pd.read_csv('temp_results.csv')
        results = existing_results.to_dict('records')
        start_index = len(results)
        print(f"Tiếp tục từ index {start_index}")
    except:
        print("Bắt đầu xử lý mới")
    
    try:
        for i in tqdm(range(start_index, len(df), batch_size)):
            batch = df.iloc[i:i+batch_size]
            
            for _, row in batch.iterrows():
                try:
                    # Tạo prompt
                    prompt = f"""
                    Phân tích review sau và chỉ trả về một từ: POSITIVE hoặc NEUTRAL hoặc NEGATIVE.
                    Review: {row['text']}
                    Trả lời:
                    """
                    
                    # Thử phân loại với retry
                    max_retries = 5
                    for attempt in range(max_retries):
                        try:
                            response = model.generate_content(prompt)
                            sentiment = response.text.strip().upper()
                            if sentiment in ['POSITIVE', 'NEUTRAL', 'NEGATIVE']:
                                break
                            sentiment = 'NEUTRAL'
                        except Exception as e:
                            print(f"\nLỗi attempt {attempt + 1}/{max_retries}: {e}")
                            if "429" in str(e):
                                wait_time = 10 * (attempt + 1)  # Tăng thời gian chờ theo số lần retry
                                print(f"Quota exceeded. Đợi {wait_time} giây...")
                                time.sleep(wait_time)
                            else:
                                time.sleep(5)
                            sentiment = 'NEUTRAL'
                    
                    # Lưu kết quả
                    results.append({
                        'text': row['text'],
                        'rating': row.get('rating', None),
                        'sentiment': sentiment,
                        'processed_time': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
                    })
                    
                except Exception as e:
                    print(f"Lỗi xử lý review: {e}")
                    results.append({
                        'text': row['text'],
                        'rating': row.get('rating', None),
                        'sentiment': 'NEUTRAL',
                        'processed_time': datetime.now().strftime('%Y-%m-%d %H:%M:%S')
                    })
                
                # Delay cố định giữa các requests
                time.sleep(1)
            
            # Lưu kết quả tạm sau mỗi batch
            pd.DataFrame(results).to_csv('temp_results.csv', index=False)
            
            # Delay giữa các batch
            # time.sleep(10)
            
    except KeyboardInterrupt:
        print("\nDừng xử lý. Lưu kết quả đã có...")
    
    return results

def main():
    try:
        # Khởi tạo model
        model = setup_gemini()
        if not model:
            return
            
        # Đọc dữ liệu
        print("Đọc dữ liệu...")
        df = pd.read_csv("reviews_processed.csv")
        print(f"Đã đọc {len(df)} reviews")
        
        # Xử lý với rate limit
        results = process_with_rate_limit(df, model)
        
        # Tạo DataFrame kết quả
        results_df = pd.DataFrame(results)
        
        # In thống kê
        print("\nPhân bố sentiment:")
        print(results_df['sentiment'].value_counts())
        
        # Lưu kết quả cuối cùng
        final_filename = f'reviews_labeled_{datetime.now().strftime("%Y%m%d_%H%M")}.csv'
        results_df.to_csv(final_filename, index=False)
        print(f"\nĐã lưu kết quả vào {final_filename}")
        
    except Exception as e:
        print(f"Lỗi chính: {e}")

if __name__ == "__main__":
    main()

Đọc dữ liệu...
Đã đọc 26855 reviews
Tiếp tục từ index 20


  3%|▎         | 180/5367 [1:45:36<50:43:29, 35.21s/it]


Dừng xử lý. Lưu kết quả đã có...

Phân bố sentiment:
sentiment
POSITIVE    836
NEGATIVE     59
NEUTRAL      28
Name: count, dtype: int64

Đã lưu kết quả vào reviews_labeled_20250219_0136.csv



