In [None]:
import pandas as pd
import json
from collections import Counter
import os

# Bước 1: Đọc dữ liệu từ file train.jsonl
train_file = '/kaggle/input/otto-recommender-system/train.jsonl'
test_file = '/kaggle/input/otto-recommender-system/train.jsonl'

# Khởi tạo Counter để đếm tần suất cho từng loại hành động
clicks_count = Counter()
carts_count = Counter()
orders_count = Counter()

# Đọc file train.jsonl và đếm tần suất sản phẩm cho từng loại hành động
print("Đang đọc và xử lý file train.jsonl...")
with open(train_file, 'r') as file:
    for line in file:
        data = json.loads(line)
        events = data['events']
        for event in events:
            aid = event['aid']
            event_type = event['type']
            if event_type == 'clicks':
                clicks_count[aid] += 1
            elif event_type == 'carts':
                carts_count[aid] += 1
            elif event_type == 'orders':
                orders_count[aid] += 1

# Bước 2: Lấy top 20 sản phẩm phổ biến nhất cho mỗi loại hành động
top_20_clicks = [item[0] for item in clicks_count.most_common(20)]
top_20_carts = [item[0] for item in carts_count.most_common(20)]
top_20_orders = [item[0] for item in orders_count.most_common(20)]

print("Top 20 sản phẩm cho clicks:", top_20_clicks)
print("Top 20 sản phẩm cho carts:", top_20_carts)
print("Top 20 sản phẩm cho orders:", top_20_orders)

# Bước 3: Đọc dữ liệu từ file test.jsonl và dự đoán
predictions = []
print("Đang đọc và xử lý file test.jsonl...")

with open(test_file, 'r') as file:
    for line in file:
        data = json.loads(line)
        session_id = data['session']
        
        # Tạo dự đoán cho từng loại hành động
        predictions.append(f"{session_id}_clicks," + " ".join(map(str, top_20_clicks)))
        predictions.append(f"{session_id}_carts," + " ".join(map(str, top_20_carts)))
        predictions.append(f"{session_id}_orders," + " ".join(map(str, top_20_orders)))

# Bước 4: Ghi kết quả ra file submission.csv
output_file = '/kaggle/working/submission.csv'
print(f"Đang ghi kết quả ra file {output_file}...")

with open(output_file, 'w') as f:
    f.write("session_type,labels\n")
    for line in predictions:
        f.write(line + "\n")

print("Dự đoán hoàn tất! File submission.csv đã được tạo.")

# Kiểm tra file submission
submission = pd.read_csv(output_file)
print(submission.head())
print("File submission.csv đã sẵn sàng để nộp!")


Đang đọc và xử lý file train.jsonl...
Top 20 sản phẩm cho clicks: [1460571, 108125, 29735, 485256, 1733943, 184976, 832192, 1502122, 554660, 1603001, 986164, 166037, 322370, 1236775, 231487, 959208, 332654, 1196256, 95488, 620545]
Top 20 sản phẩm cho carts: [485256, 152547, 33343, 166037, 1733943, 231487, 29735, 1022566, 832192, 544144, 554660, 322370, 1562705, 986164, 1083665, 332654, 1629608, 1236775, 756588, 613493]
Top 20 sản phẩm cho orders: [231487, 166037, 1733943, 1445562, 1022566, 801774, 1629608, 756588, 332654, 1603001, 409620, 1257293, 1125638, 986164, 1083665, 450505, 544144, 1025795, 125278, 29735]
Đang đọc và xử lý file test.jsonl...


Đang đọc và xử lý file train.jsonl...
Top 20 sản phẩm cho clicks: [1460571, 108125, 29735, 485256, 1733943, 184976, 832192, 1502122, 554660, 1603001, 986164, 166037, 322370, 1236775, 231487, 959208, 332654, 1196256, 95488, 620545]
Top 20 sản phẩm cho carts: [485256, 152547, 33343, 166037, 1733943, 231487, 29735, 1022566, 832192, 544144, 554660, 322370, 1562705, 986164, 1083665, 332654, 1629608, 1236775, 756588, 613493]
Top 20 sản phẩm cho orders: [231487, 166037, 1733943, 1445562, 1022566, 801774, 1629608, 756588, 332654, 1603001, 409620, 1257293, 1125638, 986164, 1083665, 450505, 544144, 1025795, 125278, 29735]