In [None]:
import pandas as pd
import json
from collections import Counter

# File paths
train_file = '/kaggle/input/otto-recommender-system/train.jsonl'
test_file = '/kaggle/input/otto-recommender-system/test.jsonl'
output_file = '/kaggle/working/submission.csv'

# Step 1: Count frequencies in the train dataset
clicks_count = Counter()
carts_count = Counter()
orders_count = Counter()

print("Reading and processing train.jsonl...")
with open(train_file, 'r') as file:
    for line in file:
        data = json.loads(line)
        for event in data['events']:
            aid = event['aid']
            event_type = event['type']
            if event_type == 'clicks':
                clicks_count[aid] += 1
            elif event_type == 'carts':
                carts_count[aid] += 1
            elif event_type == 'orders':
                orders_count[aid] += 1

# Get top 20 items for each type
top_20_clicks = [item[0] for item in clicks_count.most_common(20)]
top_20_carts = [item[0] for item in carts_count.most_common(20)]
top_20_orders = [item[0] for item in orders_count.most_common(20)]

print("Top 20 items for clicks:", top_20_clicks)
print("Top 20 items for carts:", top_20_carts)
print("Top 20 items for orders:", top_20_orders)

# Step 2: Create predictions based on test.jsonl
predictions = []
print("Reading and processing test.jsonl...")
with open(test_file, 'r') as file:
    for line in file:
        data = json.loads(line)
        session_id = data['session']

        # Create predictions for each session
        predictions.append(f"{session_id}_clicks," + " ".join(map(str, top_20_clicks[:5])))
        predictions.append(f"{session_id}_carts," + " ".join(map(str, top_20_carts[:5])))
        predictions.append(f"{session_id}_orders," + " ".join(map(str, top_20_orders[:5])))

# Step 3: Write predictions to submission.csv
print(f"Writing predictions to {output_file}...")
with open(output_file, 'w') as f:
    f.write("session_type,labels\n")
    for line in predictions:
        f.write(line + "\n")

# Step 4: Validate submission file
submission = pd.read_csv(output_file)
expected_rows = len(predictions)
actual_rows = submission.shape[0]

if actual_rows != expected_rows:
    print(f"Error: Submission file has {actual_rows} rows, but {expected_rows} rows are expected.")
else:
    print(f"Submission file is valid with {actual_rows} rows.")

print("Sample rows from submission:")
print(submission.head())


Kết quả: 0.00252 (5)  - 0.00702(20)

In [None]:
import pandas as pd
import json
from collections import Counter
import os

# Bước 1: Đọc dữ liệu từ file train.jsonl
train_file = '/kaggle/input/otto-recommender-system/train.jsonl'
test_file = '/kaggle/input/otto-recommender-system/test.jsonl'

# Khởi tạo Counter để đếm tần suất cho từng loại hành động
clicks_count = Counter()
carts_count = Counter()
orders_count = Counter()

# Đọc file train.jsonl và đếm tần suất sản phẩm cho từng loại hành động
print("Đang đọc và xử lý file train.jsonl...")
with open(train_file, 'r') as file:
    for line in file:
        data = json.loads(line)
        events = data['events']
        for event in events:
            aid = event['aid']
            event_type = event['type']
            if event_type == 'clicks':
                clicks_count[aid] += 1
            elif event_type == 'carts':
                carts_count[aid] += 1
            elif event_type == 'orders':
                orders_count[aid] += 1

# Bước 2: Lấy top 20 sản phẩm phổ biến nhất cho mỗi loại hành động
top_20_clicks = [item[0] for item in clicks_count.most_common(20)]
top_20_carts = [item[0] for item in carts_count.most_common(20)]
top_20_orders = [item[0] for item in orders_count.most_common(20)]

print("Top 20 sản phẩm cho clicks:", top_20_clicks)
print("Top 20 sản phẩm cho carts:", top_20_carts)
print("Top 20 sản phẩm cho orders:", top_20_orders)

# Bước 3: Đọc dữ liệu từ file test.jsonl và dự đoán
predictions = []
print("Đang đọc và xử lý file test.jsonl...")

with open(test_file, 'r') as file:
    for line in file:
        data = json.loads(line)
        session_id = data['session']
        
        # Tạo dự đoán cho từng loại hành động
        predictions.append(f"{session_id}_clicks," + " ".join(map(str, top_20_clicks)))
        predictions.append(f"{session_id}_carts," + " ".join(map(str, top_20_carts)))
        predictions.append(f"{session_id}_orders," + " ".join(map(str, top_20_orders)))

# Bước 4: Ghi kết quả ra file submission.csv
output_file = '/kaggle/working/submission.csv'
print(f"Đang ghi kết quả ra file {output_file}...")

with open(output_file, 'w') as f:
    f.write("session_type,labels\n")
    for line in predictions:
        f.write(line + "\n")

print("Dự đoán hoàn tất! File submission.csv đã được tạo.")

# Kiểm tra file submission
submission = pd.read_csv(output_file)
print(submission.head())
print("File submission.csv đã sẵn sàng để nộp!")


Đang đọc và xử lý file train.jsonl...
Top 20 sản phẩm cho clicks: [1460571, 108125, 29735, 485256, 1733943, 184976, 832192, 1502122, 554660, 1603001, 986164, 166037, 322370, 1236775, 231487, 959208, 332654, 1196256, 95488, 620545]
Top 20 sản phẩm cho carts: [485256, 152547, 33343, 166037, 1733943, 231487, 29735, 1022566, 832192, 544144, 554660, 322370, 1562705, 986164, 1083665, 332654, 1629608, 1236775, 756588, 613493]
Top 20 sản phẩm cho orders: [231487, 166037, 1733943, 1445562, 1022566, 801774, 1629608, 756588, 332654, 1603001, 409620, 1257293, 1125638, 986164, 1083665, 450505, 544144, 1025795, 125278, 29735]
Đang đọc và xử lý file test.jsonl...


Đang đọc và xử lý file train.jsonl...
Top 20 sản phẩm cho clicks: [1460571, 108125, 29735, 485256, 1733943, 184976, 832192, 1502122, 554660, 1603001, 986164, 166037, 322370, 1236775, 231487, 959208, 332654, 1196256, 95488, 620545]
Top 20 sản phẩm cho carts: [485256, 152547, 33343, 166037, 1733943, 231487, 29735, 1022566, 832192, 544144, 554660, 322370, 1562705, 986164, 1083665, 332654, 1629608, 1236775, 756588, 613493]
Top 20 sản phẩm cho orders: [231487, 166037, 1733943, 1445562, 1022566, 801774, 1629608, 756588, 332654, 1603001, 409620, 1257293, 1125638, 986164, 1083665, 450505, 544144, 1025795, 125278, 29735]

### Nhận xét

### Giải thích cách triển khai (dành cho học sinh cấp 2):

Chương trình này làm việc với **hệ thống gợi ý sản phẩm trực tuyến** và thực hiện các bước sau:

---

### **1. Đọc dữ liệu:**
- **Dữ liệu đầu vào** nằm trong hai tệp:
  - `train.jsonl`: Dùng để học cách gợi ý sản phẩm từ lịch sử hoạt động.
  - `test.jsonl`: Dùng để dự đoán sản phẩm người dùng quan tâm.
- Mỗi dòng trong tệp là một đoạn dữ liệu chứa:
  - **Session (phiên):** Người dùng lướt web trong một khoảng thời gian.
  - **Events (sự kiện):** Các hành động của người dùng, gồm:
    - **clicks**: Nhấn vào sản phẩm.
    - **carts**: Thêm sản phẩm vào giỏ hàng.
    - **orders**: Đặt mua sản phẩm.

---

### **2. Đếm tần suất sản phẩm:**
- Mỗi sản phẩm được đánh dấu bằng một mã số (**aid**).
- Chương trình dùng **Counter** (công cụ đếm):
  - Để xem sản phẩm nào được **click**, **thêm vào giỏ hàng**, hoặc **đặt hàng** nhiều nhất.
- **Mục tiêu:** Tìm ra **top 20 sản phẩm phổ biến nhất** cho từng loại hành động.

---

### **3. Dự đoán sản phẩm:**
- Với mỗi **phiên** trong `test.jsonl`:
  - Chương trình sẽ dự đoán:
    - 20 sản phẩm được click nhiều nhất.
    - 20 sản phẩm được thêm vào giỏ hàng nhiều nhất.
    - 20 sản phẩm được đặt hàng nhiều nhất.
- **Lý do chọn top 20:** Dự đoán rằng người dùng sẽ quan tâm nhiều hơn đến những sản phẩm phổ biến.

---

### **4. Ghi kết quả:**
- **Output:** File `submission.csv` chứa các dự đoán.
- Cấu trúc file:
  - **session_type:** Tên phiên + hành động (clicks, carts, orders).
  - **labels:** Danh sách 20 sản phẩm được dự đoán.

---

### **Lý do chương trình hoạt động tốt:**
- **Đơn giản nhưng hiệu quả:** Dựa trên dữ liệu lịch sử để chọn sản phẩm phổ biến.
- **Nhanh chóng:** Chỉ cần đếm và sắp xếp.
- **Phù hợp cho bài toán lớn:** Vì không cần tính toán phức tạp.

---

### **Ví dụ minh họa:**

1. **Dữ liệu mẫu trong `train.jsonl`:**
   ```json
   {"session": "A", "events": [{"aid": 101, "type": "clicks"}, {"aid": 102, "type": "carts"}]}
   {"session": "B", "events": [{"aid": 103, "type": "clicks"}, {"aid": 101, "type": "orders"}]}
   ```

2. **Kết quả đếm tần suất:**
   - **clicks:** {101: 1, 103: 1}
   - **carts:** {102: 1}
   - **orders:** {101: 1}

3. **Dự đoán mẫu cho `test.jsonl`:**
   ```json
   {"session": "C", "events": []}
   ```

   **Dự đoán:**
   ```
   C_clicks,101 103
   C_carts,102
   C_orders,101
   ```

4. **File output (`submission.csv`):**
   ```csv
   session_type,labels
   C_clicks,101 103
   C_carts,102
   C_orders,101
   ```

---

Chương trình này giống như việc đoán món ăn phổ biến nhất ở căn tin: **xem ai thích món gì nhất** để phục vụ đúng nhu cầu! 🎓