# 2. DATA ANNOTATION

## A. Data Annotation Documentation

### 1. Introduction
Data annotation is the process of labeling data to make it usable for machine learning models. In this project, we focus on annotating images by generating descriptive captions automatically.

### 2. Code to Automatically Generate Captions for Images

#### 2.1. Image Processing
- The system reads images from a specified folder.
- Each image is converted to a Base64 format before sending it to the OpenAI API.

#### 2.2. Caption Generation
- Uses GPT-4-Vision model (gpt-4o-mini) to generate captions.
- The model is prompted to create five distinct captions per image.
- Captions include references to actions, athletes (if present), context, and sports.
- The output format follows:
  ```
  [image_filename], [caption 1]
  [image_filename], [caption 2]
  [image_filename], [caption 3]
  [image_filename], [caption 4]
  [image_filename], [caption 5]
  ```

#### 2.3. Batch Processing
- The script loops through all images in a folder.
- Captions are generated for each image and saved into a `captions.txt` file.
- Any unnecessary whitespace is removed to maintain clean formatting.

### 3. Running the Annotation Script
1. Place all images into a folder.
2. Run the script to process the images.
3. Captions are stored in `captions.txt`.

### 4. Conclusion
This annotation system efficiently generates structured captions for images, aiding in dataset preparation for machine learning tasks. Future improvements may include multi-language support and enhanced prompt engineering for better descriptions.



## B. Code implementation
### 1. Enter your YOUR OPENAI API KEY

In [None]:
apikey = "YOUR_OPENAI_API_KEY"

### 2. Code to Automatically Generate Captions for Images

In [None]:
import openai
import base64
import os
# Thiết lập API key
client = openai.OpenAI(api_key=apikey)


def image_to_base64(image_path):
    """Chuyển ảnh thành base64 để gửi đến OpenAI API."""
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode("utf-8")

def generate_caption(image_path):
    """Gửi ảnh đến GPT-4-Vision để tạo caption."""
    base64_image = image_to_base64(image_path)
    file_name = image_path.split("/")[-1] 

    prompt_text = f"""
    Hãy tạo ra 5 mô tả ngắn gọn về bức ảnh sau, mỗi mô tả có độ dài **tự nhiên** trong khoảng **12-20 từ**.
    Không cần quá cứng nhắc về độ dài—hãy tạo ra câu **có câu khoảng 12 từ, có câu gần 20 từ** để tránh lặp lại.
    
    📌 **Yêu cầu nội dung**:
    - Phải đề cập đến **hành động**, **vận động viên (nếu có)**, **bối cảnh**, và **môn thể thao**.
    - Sử dụng **ngôn từ kịch tính, cuốn hút**, giống như một **bình luận viên bóng đá** đang bình luận trực tiếp.
    - Viết bằng **tiếng Việt**, chỉ giữ nguyên **tên đội bóng** hoặc **giải đấu** nếu có.
    
    📌 **Format kết quả** (tuân thủ chặt chẽ):
    [{file_name}], [caption 1]
    [{file_name}], [caption 2]
    [{file_name}], [caption 3]
    [{file_name}], [caption 4]
    [{file_name}], [caption 5]
    
    Dưới đây là ảnh cần mô tả:
    """


    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[
                    {"role": "system", "content": "Bạn là một AI bình luận viên chuyên mô tả hình ảnh hoạt động thể thao."},
                    {"role": "user", "content": [
                        {"type": "text", "text": prompt_text},
                        {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{base64_image}"}}
                    ]}
                ],
        max_tokens=200  # Tăng max_tokens để tránh bị cắt câu trả lời
    )

    return response.choices[0].message.content

def process_folder(folder_path, output_file="captions.txt"):
    """Duyệt qua thư mục, tạo caption cho từng ảnh và lưu vào file."""
    image_extensions = {".jpg", ".jpeg", ".png"}
    image_files = [f for f in os.listdir(folder_path) if os.path.splitext(f)[1].lower() in image_extensions]

    with open(output_file, "w", encoding="utf-8") as f_out:
        for image_file in image_files:
            image_path = os.path.join(folder_path, image_file)
            try:
                print(f"📷 Đang xử lý ảnh: {image_file} ...")
                captions = generate_caption(image_path)
                f_out.write(captions + "\n")
                print(f"✅ Caption đã lưu cho {image_file}\n")
            except Exception as e:
                print(f"❌ Lỗi khi xử lý {image_file}: {e}")

# Thay đổi đường dẫn thư mục ảnh của bạn
folder_path = "/kaggle/input/loc-caption/L"
process_folder(folder_path, "captions.txt")

print("🎉 Hoàn thành! Captions đã được lưu trong captions.txt")


📷 Đang xử lý ảnh: Rugby_Sevens_10.jpg ...
✅ Caption đã lưu cho Rugby_Sevens_10.jpg

📷 Đang xử lý ảnh: Water_Polo_12.jpg ...
✅ Caption đã lưu cho Water_Polo_12.jpg

📷 Đang xử lý ảnh: Wrestling_32.jpg ...
✅ Caption đã lưu cho Wrestling_32.jpg

📷 Đang xử lý ảnh: Rugby_Sevens_6.jpg ...
✅ Caption đã lưu cho Rugby_Sevens_6.jpg

📷 Đang xử lý ảnh: Wrestling_12.jpg ...
✅ Caption đã lưu cho Wrestling_12.jpg

📷 Đang xử lý ảnh: Table_Tennis_36.jpg ...
✅ Caption đã lưu cho Table_Tennis_36.jpg

📷 Đang xử lý ảnh: Volleyball_8.jpg ...
✅ Caption đã lưu cho Volleyball_8.jpg

📷 Đang xử lý ảnh: Synchronized_Swimming_2.jpg ...
✅ Caption đã lưu cho Synchronized_Swimming_2.jpg

📷 Đang xử lý ảnh: Sailing_14.jpg ...
✅ Caption đã lưu cho Sailing_14.jpg

📷 Đang xử lý ảnh: Tennis_10.jpg ...
✅ Caption đã lưu cho Tennis_10.jpg

📷 Đang xử lý ảnh: Sailing_4.jpg ...
✅ Caption đã lưu cho Sailing_4.jpg

📷 Đang xử lý ảnh: Equestrian_34.jpg ...
✅ Caption đã lưu cho Equestrian_34.jpg

📷 Đang xử lý ảnh: Skiing_35.jpg ...
✅ 

### 3. Clean the captions.txt file

In [None]:
input_file = "/kaggle/working/captions.txt"
output_file = "/kaggle/working/captions_cleaned.txt"

with open(input_file, "r", encoding="utf-8") as f:
    lines = f.readlines()

cleaned_lines = [line.strip() for line in lines if line.strip()]

with open(output_file, "w", encoding="utf-8") as f:
    f.write("\n".join(cleaned_lines))

print(f"Đã làm sạch file, lưu tại: {output_file}")


Đã làm sạch file, lưu tại: /kaggle/working/captions_cleaned.txt


### 4. Create the final annotation file by combining all files in data/annotations folder

In [7]:
import os

folder_path = "../../data/annotations"

txt_files = [f for f in os.listdir(folder_path) if f.endswith(".txt")]

with open(os.path.join(folder_path, "captions.txt"), "w", encoding="utf-8") as outfile:
    for fname in txt_files:
        file_path = os.path.join(folder_path, fname)
        with open(file_path, "r", encoding="utf-8") as infile:
            outfile.write(infile.read())  # Ghi nội dung file
            outfile.write("\n")  # Thêm dòng trống giữa các file

print(f"Gộp {len(txt_files)} file thành công! File đầu ra: {folder_path}/captions.txt")


Gộp 4 file thành công! File đầu ra: ../../data/annotations/captions.txt


In [8]:
import re

captions_file = '../../data/annotations/captions.txt'
# Đọc nội dung file captions.txt
with open(captions_file, "r", encoding="utf-8") as file:
    lines = file.readlines()

cleaned_lines = [re.sub(r"\[|\]", "", line) for line in lines]

with open(captions_file, "w", encoding="utf-8") as file:
    file.writelines(cleaned_lines)

print("Đã xoá dấu [ ] thành công trong captions.txt!")


Đã xoá dấu [ ] thành công trong captions.txt!
