# Task 1

In [11]:
import pandas as pd
import numpy as np
import joblib
import sys

### 1.File path

In [12]:
MODEL_FILE = 'Model/anti_cheat_model_V1'
TEST_DATA_FILE = 'Dataset/task1/test.csv'
OUTPUT_FILE = 'sample_submission.csv'

### 2.Load Model

In [13]:
print(f"Loading model from '{MODEL_FILE}'...")
try:
    # The loaded_model is the complete pipeline (imputer + lgb)
    loaded_model = joblib.load(MODEL_FILE)
except FileNotFoundError:
    print(f"Error: Model file '{MODEL_FILE}' not found.")
    print("Please run the training script first to create this file.")
    sys.exit()

print("Model loaded successfully.")

Loading model from 'Model/anti_cheat_model_V1'...
Model loaded successfully.


### 3.Load dataset

In [14]:
print(f"Loading test data from '{TEST_DATA_FILE}'...")
try:
    test_df = pd.read_csv(TEST_DATA_FILE)
except FileNotFoundError:
    print(f"Error: Test data file '{TEST_DATA_FILE}' not found.")
    sys.exit()

print("Test data loaded successfully.")

Loading test data from 'Dataset/task1/test.csv'...
Test data loaded successfully.


### 4.Prepare test features

In [15]:
try:
    features = [col for col in test_df.columns if col not in ['id', 'player_id']]
    X_test = test_df[features]
    test_ids = test_df['id']
except KeyError as e:
    print(f"Error: Missing expected columns in test data: {e}")
    sys.exit()

print(f"Preparing {len(features)} features for prediction...")
print(f"Test data shape: {X_test.shape}")

Preparing 31 features for prediction...
Test data shape: (25889, 31)


### 5.Make Predictions

In [16]:
print("Making predictions on the test dataset...")
# The pipeline (loaded_model) will automatically handle
# missing value imputation before predicting.
try:
    task1_predictions = loaded_model.predict(X_test)
except Exception as e:
    print(f"Error during prediction: {e}")
    print("This might be a mismatch between the model and the test data columns.")
    sys.exit()

print("Predictions complete.")

Making predictions on the test dataset...
Predictions complete.




# Task 2

### Add prediction to sample_submission.csv

In [17]:
# --- ค่าคงที่ตามเอกสารโครงการ ---
NUM_ROWS = 25889  # จำนวนแถวทั้งหมด [cite: 756, 757]
FILENAME = "sample_submission.csv"
COLUMNS = ["id", "task1", "task2", "task3", "task4", "task5"] # 

# --- 1. สร้างคอลัมน์ 'id' ---
# รูปแบบคือ ANS ตามด้วยตัวเลข 5 หลัก (เช่น 00001)
ids = [f"ANS{i:05d}" for i in range(1, NUM_ROWS + 1)]

# --- 2. สร้าง DataFrame พร้อมข้อมูลตัวอย่าง (Placeholder) ---
# เราจะใช้ค่าจากตัวอย่างแถวแรกในเอกสาร  เป็นค่าเริ่มต้น
data = {
    "id": ids,
    "task1": task1_predictions,
    "task2": [1] * NUM_ROWS,
    "task3": [0.0] * NUM_ROWS,
    "task4": [1] * NUM_ROWS,
    "task5": [1] * NUM_ROWS
}

# สร้าง DataFrame
df = pd.DataFrame(data)

# จัดลำดับคอลัมน์ให้ตรงตามเอกสาร (เผื่อไว้)
df = df[COLUMNS]

# --- 3. บันทึกเป็นไฟล์ CSV ---
# index=False เป็นสิ่งสำคัญมากสำหรับการส่ง Kaggle 
# เพื่อไม่ให้มีคอลัมน์ index เพิ่มเข้ามา
df.to_csv(FILENAME, index=False)

print(f"ไฟล์ '{FILENAME}' ถูกสร้างเรียบร้อยแล้ว มี {NUM_ROWS} แถว")
print("นี่คือตัวอย่าง 5 แถวแรก:")
print(df.head())

ไฟล์ 'sample_submission.csv' ถูกสร้างเรียบร้อยแล้ว มี 25889 แถว
นี่คือตัวอย่าง 5 แถวแรก:
         id  task1  task2  task3  task4  task5
0  ANS00001    1.0      1    0.0      1      1
1  ANS00002    0.0      1    0.0      1      1
2  ANS00003    1.0      1    0.0      1      1
3  ANS00004    0.0      1    0.0      1      1
4  ANS00005    0.0      1    0.0      1      1
