In [236]:
import json
import re 
import pandas as pd
import os

In [237]:
# Load data
data_path = '../data/raw/train/train.json'

# Check if file exists
if not os.path.exists(data_path):
    print(f"Warning: {data_path} not found. checking current directory...")
    data_path = 'data/raw/train/train.json'

with open(data_path, 'r', encoding='utf-8') as f:
    raw_data = json.load(f)

items = raw_data['data']
print(f"Loaded {len(items)} items.")

Loaded 1490 items.


In [238]:
# Define keywords
keywords_dict = {
    "làn đường": ['làn', 'đường', 'vạch', 'dải'],
    "biển báo": ['biển', 'chỉ dẫn', 'hướng', 'di chuyển', 'quẹo', 'rẽ', 'tốc độ', 'giới hạn', 'khoảng cách', 'cự ly', 'địa điểm', 'được phép', 'cấm', 'có thể', 'quy định', 'khung giờ', 'thời gian', 'tên', 'mét', r'cách \d+(km|m)', r'\d+h'],
    "đèn giao thông": ['đèn'],
}

def get_category(question):
    if not question:
        return "Khác"
        
    question_lower = question.lower()
    found_keywords = []
    for kw in keywords_dict:
        # Use re.search to support regex patterns
        if any(re.search(k, question_lower) for k in keywords_dict[kw]):
            found_keywords.append(kw)
    
    found_keywords = list(set(found_keywords))
    
    if not found_keywords:
        return "Khác"
    return ", ".join(found_keywords)

In [239]:
# Process data
results = []
for item in items:
    item_id = item.get('id', 'unknown')
    question = item.get('question', '')
    category = get_category(question)
    
    results.append({
        'id': item_id,
        'question': question,
        'category': category
    })

df = pd.DataFrame(results)

df.head(20)

Unnamed: 0,id,question,category
0,train_0001,Nếu xe ô tô đang chạy ở làn ngoài cùng bên phả...,"biển báo, làn đường"
1,train_0002,Phần đường trong video cho phép các phương tiệ...,"biển báo, làn đường"
2,train_0003,Biển chỉ dẫn 3 hướng di chuyển chính tiếp theo...,biển báo
3,train_0004,"Theo biển báo trong video, muốn đi đến đường L...","biển báo, làn đường"
4,train_0005,Làn đường di chuyển hiện tại có được rẽ phải k...,"biển báo, làn đường"
5,train_0006,Làn đường xe đang chạy có được phép rẽ trái ha...,"biển báo, làn đường"
6,train_0007,Trong video muốn đi Cầu Rạch Chiếc thì cần rẽ ...,biển báo
7,train_0008,"Trong video, nếu xe oto đang ở làn bên phải tr...","biển báo, làn đường"
8,train_0009,"Trong video, hướng đi Cầu Rạch Chiếc là hướng ...",biển báo
9,train_0010,Nếu sẽ ô tô ở làn ngoài cùng bên trái thì có đ...,"biển báo, làn đường"


In [None]:
# Save results for checking
output_csv_path = './outputs/question_categories.csv'
df.to_csv(output_csv_path, index=False, encoding='utf-8-sig')
print(f"Saved results to {output_csv_path}")

print(df['category'].value_counts())

Saved results to question_categories.csv
category
biển báo                               949
biển báo, làn đường                    395
làn đường                              104
đèn giao thông                          13
Khác                                    12
biển báo, đèn giao thông                 9
làn đường, đèn giao thông                4
biển báo, làn đường, đèn giao thông      4
Name: count, dtype: int64
