In [3]:
from collections import Counter
import json

file_path = "/kaggle/input/crawl-data/train_vi_en.jsonl"

data = []
with open(file_path, "r", encoding="utf-8") as f:
    for line_num, line in enumerate(f, start=1):
        try:
            data.append(json.loads(line))
        except json.JSONDecodeError as e:
            print(f"❌ JSONDecodeError at line {line_num}: {e}")


# Đếm số lượng positive và negative cho mỗi query theo độ dài list
pos_vi_counts = Counter(len(item["vi_pos"]) for item in data if "vi_pos" in item)
neg_vi_counts = Counter(len(item["vi_neg"]) for item in data if "vi_neg" in item)
pos_en_counts = Counter(len(item["en_pos"]) for item in data if "en_pos" in item)
neg_en_counts = Counter(len(item["en_neg"]) for item in data if "en_neg" in item)

print("🇻🇳 📊 Thống kê số lượng POSITIVE tiếng Việt per query:")
for k, v in sorted(pos_vi_counts.items()):
    print(f"{k} positive(s): {v} queries")

print("\n🇻🇳 📊 Thống kê số lượng NEGATIVE tiếng Việt per query:")
for k, v in sorted(neg_vi_counts.items()):
    print(f"{k} negative(s): {v} queries")

print("\n🇬🇧 📊 Thống kê số lượng POSITIVE tiếng Anh per query:")
for k, v in sorted(pos_en_counts.items()):
    print(f"{k} positive(s): {v} queries")

print("\n🇬🇧 📊 Thống kê số lượng NEGATIVE tiếng Anh per query:")
for k, v in sorted(neg_en_counts.items()):
    print(f"{k} negative(s): {v} queries")


❌ JSONDecodeError at line 8642: Expecting ',' delimiter: line 1 column 5152 (char 5151)
🇻🇳 📊 Thống kê số lượng POSITIVE tiếng Việt per query:
1 positive(s): 5727 queries
2 positive(s): 1746 queries
3 positive(s): 660 queries
4 positive(s): 263 queries
5 positive(s): 117 queries
6 positive(s): 53 queries
7 positive(s): 26 queries
8 positive(s): 20 queries
9 positive(s): 12 queries
10 positive(s): 5 queries
11 positive(s): 4 queries
12 positive(s): 5 queries
15 positive(s): 1 queries
16 positive(s): 1 queries
17 positive(s): 1 queries

🇻🇳 📊 Thống kê số lượng NEGATIVE tiếng Việt per query:
4 negative(s): 8641 queries

🇬🇧 📊 Thống kê số lượng POSITIVE tiếng Anh per query:
1 positive(s): 5727 queries
2 positive(s): 1746 queries
3 positive(s): 660 queries
4 positive(s): 263 queries
5 positive(s): 117 queries
6 positive(s): 53 queries
7 positive(s): 26 queries
8 positive(s): 20 queries
9 positive(s): 12 queries
10 positive(s): 5 queries
11 positive(s): 4 queries
12 positive(s): 5 queries
15 po

In [8]:
duplicates = []
for idx, item in enumerate(data):
    if "pos" in item and "neg" in item:
        pos_set = set(item["pos"])
        neg_set = set(item["neg"])
        overlap = pos_set.intersection(neg_set)
        if overlap:
            duplicates.append((idx, list(overlap)))

print(f"🔎 Tổng số query có neg trùng với pos: {len(duplicates)}")

# In chi tiết nếu cần
for idx, overlap in duplicates[:10]:  # chỉ in 10 dòng đầu
    print(f"Query {idx} có trùng: {overlap}")


🔎 Tổng số query có neg trùng với pos: 0


In [9]:
import json
import random

input_path = "train_vi_en_v2.jsonl"

with open(input_path, "r", encoding="utf-8") as f:
    data = [json.loads(line) for line in f]

# Shuffle để đảm bảo phân phối ngẫu nhiên
random.shuffle(data)

# Chia dữ liệu
train_data = data[:4000]
eval_data = data[4000:4500]
test_data = data[4500:5500]  # vì bạn có 5727 dòng

# Hàm lưu dữ liệu ra file JSONL
def save_jsonl(filename, data):
    with open(filename, "w", encoding="utf-8") as f:
        for item in data:
            f.write(json.dumps(item, ensure_ascii=False) + "\n")

# Lưu file
save_jsonl("train_crosslingual.jsonl", train_data)
save_jsonl("eval_crosslingual.jsonl", eval_data)
save_jsonl("test_crosslingual.jsonl", test_data)

print("✅ Đã chia và lưu:")
print(f"- Train: {len(train_data)} dòng -> train.jsonl")
print(f"- Eval: {len(eval_data)} dòng -> eval.jsonl")
print(f"- Test: {len(test_data)} dòng -> test.jsonl")


✅ Đã chia và lưu:
- Train: 4000 dòng -> train.jsonl
- Eval: 500 dòng -> eval.jsonl
- Test: 1000 dòng -> test.jsonl


In [10]:
import json

input_path = "train_vi_en_v2.jsonl"

with open(input_path, "r", encoding="utf-8") as f:
    data = [json.loads(line) for line in f]

# Hiển thị 10 vi_pos đầu tiên
print("🔍 10 `vi_pos` đầu tiên:")
for i, item in enumerate(data[:10], 1):
    print(f"{i}. {item['vi_pos']}")


🔍 10 `vi_pos` đầu tiên:
1. ['Các anh, chị của chị nói đúng, chị phải chờ hết thời hạn thỏa thuận mới được chia tài sản chung. Theo khoản 1 Điều 224 Bộ luật Dân sự, việc phân chia tài sản thuộc hình thức sở hữu chung như sau: Trong trường hợp sở hữu chung có thể phân chia thì mỗi chủ sở hữu chung đều có quyền yêu cầu chia tài sản chung.\n Nếu các chủ sở hữu chung đã thỏa thuận không phân chia tài sản chung trong một thời hạn thì mỗi chủ sở hữu chung chỉ có quyền yêu cầu chia tài sản chung khi hết thời hạn đó. Khi tài sản chung không thể chia được bằng hiện vật thì được trị giá thành tiền để chia.']
2. ['Thực tế có ba hình thức phổ biến dưới đây được xem là cá độ bóng đá. Thứ nhất, đó là trực tiếp thỏa thuận gá bạc/đặt cược không thông qua người tổ chức mà ăn thua bằng tiền giữa các chủ thể tham gia khi cùng xem trực tiếp một trận bóng. Thứ hai, tham gia cá cược bằng tiền thông qua người môi giới do người tổ chức cá cược chỉ định mà có xác nhận nội dung giá trị

In [6]:
import json

input_path = "/kaggle/input/crawl-data/train.jsonl"
output_path = "train_v2.jsonl"

cleaned = []

with open(input_path, "r", encoding="utf-8") as f:
    for line in f:
        item = json.loads(line)
        if "pos" in item and "neg" in item:
            pos_set = set(item["pos"])
            neg_set = set(item["neg"])
            if pos_set.intersection(neg_set):
                continue  # bỏ qua dòng này vì có trùng
        cleaned.append(item)

# Ghi lại các dòng hợp lệ
with open(output_path, "w", encoding="utf-8") as f:
    for item in cleaned:
        json.dump(item, f, ensure_ascii=False)
        f.write("\n")

print(f"✅ Đã tạo {output_path} với {len(cleaned)} query hợp lệ (không trùng pos/neg).")


✅ Đã tạo train_v2.jsonl với 9123 query hợp lệ (không trùng pos/neg).


In [7]:
import json

file_path = "train_v2.jsonl"
duplicates = []

with open(file_path, "r", encoding="utf-8") as f:
    for idx, line in enumerate(f):
        item = json.loads(line)
        if "pos" in item and "neg" in item:
            pos_set = set(item["pos"])
            neg_set = set(item["neg"])
            overlap = pos_set.intersection(neg_set)
            if overlap:
                duplicates.append((idx, list(overlap)))

print(f"🔎 Sau khi lọc, còn {len(duplicates)} query có neg trùng với pos.")

if duplicates:
    for idx, overlap in duplicates[:5]:  # In 5 dòng đầu nếu còn lỗi
        print(f"❌ Query {idx} có trùng: {overlap}")
else:
    print("✅ Không còn query nào có neg trùng với pos.")


🔎 Sau khi lọc, còn 0 query có neg trùng với pos.
✅ Không còn query nào có neg trùng với pos.


In [2]:
import json

input_file = "/kaggle/input/crawl-data/train_v2.jsonl"
output_file = "test.jsonl"
start_idx = 8000
end_idx = 9000  # không bao gồm dòng 9000

subset = []

with open(input_file, "r", encoding="utf-8") as f:
    lines = f.readlines()
    subset = lines[start_idx:end_idx]

with open(output_file, "w", encoding="utf-8") as f:
    for line in subset:
        f.write(line)

print(f"✅ Đã tạo {output_file} gồm {len(subset)} dòng từ chỉ số {start_idx} đến {end_idx - 1}.")


✅ Đã tạo test.jsonl gồm 1000 dòng từ chỉ số 8000 đến 8999.


In [3]:
from collections import Counter
import json



with open(output_file, "r", encoding="utf-8") as f:
    data = [json.loads(line) for line in f]


pos_counts = Counter(len(item["pos"]) for item in data if "pos" in item)
neg_counts = Counter(len(item["neg"]) for item in data if "neg" in item)

print("📊 Thống kê số lượng positive per query:")
for k, v in sorted(pos_counts.items()):
    print(f"{k} positive(s): {v} queries")
print("📊 Thống kê số lượng negative per query:")
for k, v in sorted(neg_counts.items()):
    print(f"{k} negative(s): {v} queries")


📊 Thống kê số lượng positive per query:
1 positive(s): 815 queries
2 positive(s): 126 queries
3 positive(s): 23 queries
4 positive(s): 23 queries
5 positive(s): 10 queries
7 positive(s): 2 queries
10 positive(s): 1 queries
📊 Thống kê số lượng negative per query:
4 negative(s): 1000 queries
