In [1]:
# !pip install --upgrade openai python-dotenv
import openai
import csv
import os
import time
from dotenv import load_dotenv
import requests

load_dotenv()  
openai.api_key = 'Điền vào đây'

def check_internet():
    """
    Kiểm tra kết nối Internet trước khi gọi API OpenAI.
    """
    try:
        requests.get("https://api.openai.com", timeout=5)
        return True
    except requests.ConnectionError:
        print("Không có kết nối Internet. Vui lòng kiểm tra mạng.")
        return False

def generate_labels(input_file, output_file, model="gpt-4o-mini", max_tokens=300, pause_seconds=10):
    # Kiểm tra kết nối Internet
    if not check_internet():
        return

    try:
        with open(input_file, 'r', encoding='utf-8') as infile, \
             open(output_file, 'w', encoding='utf-8', newline='') as outfile:
            
            reader = csv.reader(infile, delimiter='\t')
            writer = csv.writer(outfile, delimiter='\t')
            
            # Giả sử file đầu vào có tiêu đề, thêm tiêu đề cho file đầu ra
            headers = next(reader, None)
            if headers:
                writer.writerow(headers + ['Labels'])
            else:
                writer.writerow(['Content', 'Labels'])
            
            for idx, row in enumerate(reader, 1):
                if not row or len(row) < 1:
                    writer.writerow(["Không xác định"])
                    continue  # Bỏ qua dòng trống
                
                text = row[0].strip()  # Giả sử cột đầu tiên là nội dung văn bản
                
                if not text:
                    writer.writerow([row[0], "Không xác định"])
                    continue
                
                # Thiết kế prompt
                prompt = f"""Bạn là một mô hình trí tuệ nhân tạo chuyên về phân loại văn bản. Với đoạn văn bản dưới đây, hãy tự động tạo ra các nhãn (keywords) phản ánh nội dung chính của đoạn văn bản. Các nhãn phải được viết bằng tiếng Việt, ngắn gọn (tối đa 3 từ), chính xác và được tách nhau bằng dấu phẩy. Tránh các nhãn quá chung chung hoặc không liên quan.
    
    ### Ví dụ 1:
**Văn bản:** "Bước vào trận đấu, Barcelona nhanh chóng tràn lên tấn công nhưng vấp phải sự kháng cự quyết liệt của Sevilla. 
Bước ngoặt đến ở phút 22, Raphinha bị phạm lỗi trong vòng cấm và trọng tài đã cho Barcelona hưởng quả phạt đền. Trên chấm 11m,
Lewandowski đã ghi bàn mở tỷ số cho Barcelona. Đến phút 28, Pedri đã có bàn nhân đôi cách biệt cho đội chủ nhà trước khi 
Lewandowski hoàn tất cú đúp cho riêng mình ở phút 39. Hiệp 1 khép lại với tỉ số 3-0 nghiêng về Barcelona. Sang hiệp 2,
các chân sút của Barcelona liên tiếp bắn phá khung thành của Sevilla nhưng rất tiếc đều rơi vào thế việt vị. Tuy nhiên,
chỉ trong vòng ít phút từ phút 82 đến 88, các khán giả có mặt trên sân Olimpic Lluis Companys đã được chứng kiến tới 
3 bàn thắng. Cầu thủ vào sân thay người bên phía Barcelona là Torre lập cú đúp, xen giữa là bàn thắng danh dự của Idumbo 
bên phía Sevilla. Chung cuộc, Barca thắng Sevilla với tỷ số 5-1. Như vậy, đoàn quân của HLV Hansi Flick củng cố vị trí 
dẫn đầu trên bảng xếp hạng La Liga, duy trì khoảng cách 3 điểm với đại kình địch Real Madrid."
**Nhãn:** La Liga, Sevilla, Olimpic Lluis Companys, đè bẹp, Lewandowski, Barcelona, Raphinha, Pedri, Hansi Flick, tiếp đón, primera, củng cố vị trí, kháng cự, bắn phá, vào sân thay người, nhân đôi cách biệt, tỏa sáng, xen, sân nhà, chấm 11m

### Ví dụ 2:
**Văn bản:** "Willian đi vào lịch sử bóng đá xứ samba. Với 1 bàn thắng và 1 pha kiến tạo trong chiến thắng 5-3 của Palmeiras
trước Juventude ở vòng 30 Serie A 2024/25 hôm 21/10, Willian cán mốc 10 bàn và 8 kiến tạo ngay trong mùa giải đầu tiên chơi
ở hạng đấu cao nhất Brazil. Tài năng trẻ này trở thành cầu thủ U17 in dấu giày trực tiếp vào bàn thắng nhiều nhất trong một
mùa giải của Serie A. Kỷ lục trước đó của giải đấu được giữ bởi Neymar, khi cựu sao Santos ghi 10 bàn và có 6 kiến tạo trong
cả mùa giải 2008/09. Ở thời điểm đó, tài năng trẻ 17 tuổi mang tên Neymar khiến cả Brazil phát cuồng. Tuy nhiên, Willian hiện
có thông số tốt hơn Neymar khi cả hai cùng ở tuổi 17. Estevao ra mắt Serie A Brazil hồi đầu năm, nhưng nhanh chóng trở thành 
hiện tượng, khi chiếm suất đá chính tại đội đương kim vô địch Palmeiras. “Kể từ sau Neymar, Estevao Wilian là cầu thủ sinh 
ra ở Brazil hay nhất mà tôi từng thấy”, Branco, thành viên tuyển Brazil vô địch World Cup 1994 bình luận trên Wamo Cast. 
Ông tiếp tục: “Với tất cả sự tôn trọng dành cho những người khác, mọi thứ tôi nói hoàn toàn nghiêm túc". Ở tuổi 17, 
Willian khuấy đảo các hàng thủ tại giải VĐQG Brazil, điều hiếm thấy trong lịch sử. Chính Neymar cũng phải thừa nhận 
"Willian là tài năng đang nổi và tôi nghĩ cậu ấy sẽ trở thành một thiên tài”. Chelsea đang rất vui với phong độ hiện 
tại của Estevao Willian. "The Blues" hoàn tất thương vụ mua cầu thủ với giá 65 triệu euro hồi tháng trước. Tiền đạo 
người Brazil sẽ khoác áo Chelsea vào năm 2025, khi đủ 18 tuổi."
**Nhãn:** Estevao Willian, Neymar, giải VĐQG Brazil, Serie A 2024/25, Palmeiras, U17, Santos, kiến tạo, tuyển Brazil, World Cup 1994, Serie A Brazil, tôn trọng, tài năng trẻ

### Ví dụ 3:
**Văn bản:** "Chiều 21-10, tại thành phố Hồ Chí Minh, Tạp chí Gia đình Việt Nam phối hợp với Công đoàn Cục Báo chí - Bộ Thông
tin và Truyền thông, Hội Nhà báo Việt Nam tổ chức họp báo công bố Giải bóng đá các cơ quan báo chí toàn quốc - Press Cup 2024
khu vực phía Nam. Phát biểu tại họp báo, nhà báo Trần Trọng Dũng, Phó Chủ tịch Hội Nhà báo Việt Nam phụ trách khu vực phía Nam
, Trưởng ban chỉ đạo Giải cho biết, Giải Bóng đá các Cơ quan Báo chí toàn quốc Press Cup lần thứ 8 năm 2024 khu vực phía Nam sẽ
chính thức khai mạc lúc 7h30 ngày 23-10 tại Sân vận động Tao Đàn (Số 1 Huyền Trân Công Chúa, quận 1, thành phố Hồ Chí Minh). 
Theo Ban tổ chức, ngoài các đội bóng đến từ các cơ quan báo chí đóng trên địa bàn thành phố Hồ Chí Minh như: Báo Sài Gòn Giải
Phóng, Người Lao Động, Đài tiếng nói Nhân dân thành phố Hồ Chí Minh VOH, Đài truyền hình thành phố, Trung tâm truyền hình Việt Nam tại thành phố Hồ Chí Minh (VTV9)…, năm nay có sự tham dự của đội bóng đến từ Đài Phát thanh và Truyền hình Tây Ninh.
12 đội bóng sẽ chia thành 3 bảng và thi đấu các lượt trận ở vòng bảng để tìm ra 2 đội mạnh nhất tham dự vòng chung kết toàn
quốc sẽ diễn ra tại tỉnh Thái Nguyên vào tháng 11 tới. Theo Ban tổ chức, Giải đấu có ý nghĩa đẩy mạnh phong trào rèn luyện
thể dục thể thao trong cán bộ, nhân viên, phóng viên, biên tập viên, nhà báo tại các cơ quan báo chí từ Trung ương đến
địa phương. Qua đó, Giải tạo sân chơi, nâng cao thể chất, đời sống văn hóa tinh thần, tăng cường sự giao lưu, học
hỏi giữa cán bộ, nhân viên, phóng viên, biên tập viên, các nhà báo trong mỗi cơ quan báo chí và giữa các cơ quan báo
chí với nhau. Cơ cấu giải thưởng mùa giải Press Cup 2024: 1/ Giải Nhất: Cúp, huy chương vàng, cờ, 15 triệu đồng 
2/ Giải Nhì: Huy chương bạc, cờ, 8 triệu đồng 3/ Giải Ba: Huy chương đồng, cờ và 5 triệu đồng 4/ Cầu thủ ghi nhiều 
bàn thắng nhất giải: Cờ, 2 triệu đồng 5/ Thủ môn xuất sắc nhất: Cờ, 2 triệu đồng 6/ Tổ trọng tài xuất sắc: Cờ,
2 triệu đồng 7/ Giải phong cách: Cờ, 2 triệu đồng 	
**Nhãn:** Press Cup 2024, giải bóng đá, cơ quan báo chí, TP Hồ Chí Minh, Công đoàn Cục Báo chí, Trần Trọng Dũng, sân vận động Tao Đàn, khai mạc, vòng loại, toàn quốc, Hội Nhà báo Việt Nam, phía Nam, Huyền Trân, VTV9, bốc thăm chia bảng, giải đấu, nhà báo, biên tập viên, từ Trung ương đến địa phương

### Văn bản cần phân loại:
{text}
**Nhãn:**"""
    
                try:
                    # Gửi yêu cầu đến OpenAI API
                    completion = openai.ChatCompletion.create(
                        model=model,
                        messages=[
                            {"role": "system", "content": "Bạn là trợ lý AI chuyên phân loại và gán nhãn văn bản."},
                            {"role": "user", "content": prompt}
                        ],
                        max_tokens=max_tokens,
                        temperature=0.3
                    )
                    
                    # Xử lý phản hồi từ API
                    response = completion['choices'][0]['message']['content'].strip()
                    response = response.replace("\n", "").replace("\r", "").rstrip('.').strip()
                    
                    # Ghi nhãn vào file đầu ra
                    writer.writerow([response])
                    print(f"Bài báo {idx} hoàn thành. Nhãn: {response}")
                    
                    # Giới hạn tốc độ để tránh vượt quá rate limit
                    time.sleep(pause_seconds) 
                
                except openai.error.RateLimitError:
                    print("Vượt giới hạn tốc độ. Đợi 10 giây trước khi tiếp tục...")
                    time.sleep(10)
                    writer.writerow(row + ["Rate limit error"])
                except openai.error.OpenAIError as api_error:
                    print(f"Lỗi API: {api_error}")
                    writer.writerow(["API error"])
                except Exception as e:
                    print(f"Lỗi không xác định: {e}")
                    writer.writerow(row + ["Unknown error"])
        
        print(f"Gán nhãn hoàn tất. Kết quả được lưu tại {output_file}")

    except FileNotFoundError:
        print(f"Không tìm thấy file đầu vào: {input_file}")
    except Exception as e:
        print(f"Lỗi khi xử lý file: {e}")

if __name__ == "__main__":
    input_path = "C:/Users/admin/Desktop/articles_training/GPT/test.tsv"  # Đường dẫn file đầu vào
    output_path = "C:/Users/admin/Desktop/articles_training/GPT/result.tsv"  # Đường dẫn file đầu ra
    
    generate_labels(input_path, output_path)


Bài báo 1 hoàn thành. Nhãn: Barcelona, Sevilla, La Liga, Raphinha, Lewandowski, Pedri, cú đúp, Olimpic Lluis Companys, HLV Hansi Flick, bắn phá, quả phạt đền, nhân đôi cách biệt, thắng trận, tỷ số 5-1, kháng cự, thế việt vị, Torre, bàn thắng danh dự, Real Madrid, dẫn đầu
Bài báo 2 hoàn thành. Nhãn: taekwondo, Gia Lai, Châu Tuyết Vân, HCV, TPHCM, Nguyễn Thiên Phụng, quyền đôi nam-nữ, quyền sáng tạo, Hồ Thanh Ân, Nguyễn Xuân Thành, đồng đội nam, Vĩnh Long, giải vô địch quốc gia, 2024, HCB, vị trí số 1, Bình Thuận, An Giang
Bài báo 3 hoàn thành. Nhãn: Akram Afif, Cầu thủ hay nhất châu Á 2023, Titan Sports, Son Heung-min, giải thưởng, Saudi Pro League, Al Sadd, vua phá lưới, Asian Cup 2024, Qatari Stars League, bóng đá Qatar, cú hat trick, thống trị, giải thưởng đặc biệt, chuyên gia bóng đá, cựu cầu thủ, HLV, nhà báo
Bài báo 4 hoàn thành. Nhãn: Hưng Yên, huy chương, Nguyễn Thị Thảo, đối kháng, biểu diễn quyền đôi, Pencak Silat, tuyển chọn, đội tuyển quốc gia, khu vực, quốc tế
Bài báo 5 hoà