Phase 1 : Data Exploration

1. Install library

In [1]:
!pip3 install pandas numpy matplotlib seaborn scikit-learn xgboost




[notice] A new release of pip is available: 24.3.1 -> 25.1.1
[notice] To update, run: python.exe -m pip install --upgrade pip


2. Load Dataset

In [2]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

df = pd.read_csv("data/train.csv", parse_dates=["Date"], low_memory=False)


3. Exploratory Data Analysis (EDA)

In [3]:
print("\u2705 Statistik deskriptif:")#Exploratory Data Analysis (EDA)
display(df.describe())

print("\n\U0001F9E9 Cek missing values:")
display(df.isnull().sum())

print(f"\n\U0001F3EA Jumlah toko unik: {df['Store'].nunique()}")
print(f"\U0001F4C5 Rentang tanggal: {df['Date'].min().date()} sampai {df['Date'].max().date()}")

✅ Statistik deskriptif:


Unnamed: 0,Store,DayOfWeek,Date,Sales,Customers,Open,Promo,SchoolHoliday
count,1017209.0,1017209.0,1017209,1017209.0,1017209.0,1017209.0,1017209.0,1017209.0
mean,558.4297,3.998341,2014-04-11 01:30:42.846061824,5773.819,633.1459,0.8301067,0.3815145,0.1786467
min,1.0,1.0,2013-01-01 00:00:00,0.0,0.0,0.0,0.0,0.0
25%,280.0,2.0,2013-08-17 00:00:00,3727.0,405.0,1.0,0.0,0.0
50%,558.0,4.0,2014-04-02 00:00:00,5744.0,609.0,1.0,0.0,0.0
75%,838.0,6.0,2014-12-12 00:00:00,7856.0,837.0,1.0,1.0,0.0
max,1115.0,7.0,2015-07-31 00:00:00,41551.0,7388.0,1.0,1.0,1.0
std,321.9087,1.997391,,3849.926,464.4117,0.3755392,0.4857586,0.3830564



🧩 Cek missing values:


Store            0
DayOfWeek        0
Date             0
Sales            0
Customers        0
Open             0
Promo            0
StateHoliday     0
SchoolHoliday    0
dtype: int64


🏪 Jumlah toko unik: 1115
📅 Rentang tanggal: 2013-01-01 sampai 2015-07-31


3. Data Quality Check

In [4]:
print("\n\U0001F527 Cek duplikasi:")
duplicated_rows = df.duplicated().sum()
print(f"Jumlah baris duplikat: {duplicated_rows}")

print("\n\U0001F50E Cek nilai negatif pada kolom numerik:")
numeric_cols = df.select_dtypes(include='number').columns
for col in numeric_cols:
    num_neg = (df[col] < 0).sum()
    if num_neg > 0:
        print(f"{col}: {num_neg} nilai negatif")



🔧 Cek duplikasi:
Jumlah baris duplikat: 0

🔎 Cek nilai negatif pada kolom numerik:


Phase 2: Feature Engineering

1. Load data hasil merge dari phase 1

In [5]:
import pandas as pd

# Load data train dan store
train = pd.read_csv("data/train.csv", parse_dates=["Date"], low_memory=False)
store = pd.read_csv("data/store.csv")

# Merge data
df = pd.merge(train, store, on='Store')

# Temporal features
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Day'] = df['Date'].dt.day
df['DayOfWeek'] = df['Date'].dt.dayofweek
df['IsWeekend'] = df['DayOfWeek'].isin([5,6]).astype(int)

# 2. Handle categorical variables
df['StoreType_enc'] = df['StoreType'].astype('category').cat.codes
df['Assortment_enc'] = df['Assortment'].astype('category').cat.codes
df['StateHoliday_enc'] = df['StateHoliday'].astype('category').cat.codes


# 3. Create interaction features
df['Promo_StoreType'] = df['Promo'] * df['StoreType_enc']
df['Competition_Promo'] = df['CompetitionDistance'] * df['Promo']

# Cek hasil feature engineering
print(df.head())

   Store  DayOfWeek       Date  Sales  Customers  Open  Promo StateHoliday  \
0      1          4 2015-07-31   5263        555     1      1            0   
1      2          4 2015-07-31   6064        625     1      1            0   
2      3          4 2015-07-31   8314        821     1      1            0   
3      4          4 2015-07-31  13995       1498     1      1            0   
4      5          4 2015-07-31   4822        559     1      1            0   

   SchoolHoliday StoreType  ...    PromoInterval  Year  Month  Day  IsWeekend  \
0              1         c  ...              NaN  2015      7   31          0   
1              1         a  ...  Jan,Apr,Jul,Oct  2015      7   31          0   
2              1         a  ...  Jan,Apr,Jul,Oct  2015      7   31          0   
3              1         c  ...              NaN  2015      7   31          0   
4              1         a  ...              NaN  2015      7   31          0   

   StoreType_enc  Assortment_enc StateHolida

2. Create temporal features 
  Ekstraksi fitur waktu dari kolom `Date`, seperti `Year`, `Month`, `Day`, dan `DayOfWeek`. Fitur ini membantu model memahami pola musiman, tren mingguan, serta efek hari libur terhadap penjualan.


In [6]:
df['Year'] = df['Date'].dt.year
df['Month'] = df['Date'].dt.month
df['Day'] = df['Date'].dt.day
df['DayOfWeek'] = df['Date'].dt.dayofweek
df['IsWeekend'] = df['DayOfWeek'].isin([5,6]).astype(int)

print(df[['Date', 'Year', 'Month', 'Day', 'DayOfWeek', 'IsWeekend']].head())

        Date  Year  Month  Day  DayOfWeek  IsWeekend
0 2015-07-31  2015      7   31          4          0
1 2015-07-31  2015      7   31          4          0
2 2015-07-31  2015      7   31          4          0
3 2015-07-31  2015      7   31          4          0
4 2015-07-31  2015      7   31          4          0


Fitur-fitur ini membantu model memahami pengaruh waktu terhadap penjualan, seperti efek musim, hari libur, dan pola mingguan.

3. Handle categorical variables
Mengubah fitur kategori menjadi bentuk numerik agar bisa diproses oleh algoritma machine learning.

In [7]:
df['StoreType_enc'] = df['StoreType'].astype('category').cat.codes
df['Assortment_enc'] = df['Assortment'].astype('category').cat.codes
df['StateHoliday_enc'] = df['StateHoliday'].astype('category').cat.codes

print(df[['StoreType', 'StoreType_enc', 'Assortment', 'Assortment_enc', 'StateHoliday', 'StateHoliday_enc']].head())

  StoreType  StoreType_enc Assortment  Assortment_enc StateHoliday  \
0         c              2          a               0            0   
1         a              0          a               0            0   
2         a              0          a               0            0   
3         c              2          c               2            0   
4         a              0          a               0            0   

   StateHoliday_enc  
0                 0  
1                 0  
2                 0  
3                 0  
4                 0  


Encoding fitur kategori seperti StoreType, Assortment, dan StateHoliday ke bentuk numerik agar model dapat memanfaatkan informasi kategori dengan optimal.

3. Create interaction features
Membuat fitur baru dari hasil interaksi antara dua atau lebih variabel, agar model dapat menangkap hubungan kompleks antar fitur.

In [8]:
df['Promo_StoreType'] = df['Promo'] * df['StoreType_enc']
df['Competition_Promo'] = df['CompetitionDistance'] * df['Promo']

print(df[['Promo', 'StoreType_enc', 'Promo_StoreType', 'CompetitionDistance', 'Competition_Promo']].head())

   Promo  StoreType_enc  Promo_StoreType  CompetitionDistance  \
0      1              2                2               1270.0   
1      1              0                0                570.0   
2      1              0                0              14130.0   
3      1              2                2                620.0   
4      1              0                0              29910.0   

   Competition_Promo  
0             1270.0  
1              570.0  
2            14130.0  
3              620.0  
4            29910.0  


Fitur interaksi seperti Promo_StoreType dan Competition_Promo membantu model memahami efek gabungan antara promo, tipe toko, dan kompetisi terhadap penjualan.

3. Feature selection
Menghapus fitur yang tidak relevan atau tidak tersedia di data test agar model lebih efisien dan akurat.

In [9]:
drop_cols = ['Customers']  # misal Customers tidak tersedia di test set
df = df.drop(columns=drop_cols, errors='ignore')

print(df.head())

   Store  DayOfWeek       Date  Sales  Open  Promo StateHoliday  \
0      1          4 2015-07-31   5263     1      1            0   
1      2          4 2015-07-31   6064     1      1            0   
2      3          4 2015-07-31   8314     1      1            0   
3      4          4 2015-07-31  13995     1      1            0   
4      5          4 2015-07-31   4822     1      1            0   

   SchoolHoliday StoreType Assortment  ...    PromoInterval  Year  Month  Day  \
0              1         c          a  ...              NaN  2015      7   31   
1              1         a          a  ...  Jan,Apr,Jul,Oct  2015      7   31   
2              1         a          a  ...  Jan,Apr,Jul,Oct  2015      7   31   
3              1         c          c  ...              NaN  2015      7   31   
4              1         a          a  ...              NaN  2015      7   31   

   IsWeekend  StoreType_enc Assortment_enc  StateHoliday_enc  Promo_StoreType  \
0          0              2  

Seleksi fitur dilakukan untuk mengurangi noise dan memastikan hanya fitur yang relevan dan tersedia di data test yang digunakan untuk modeling.

Phase 3: Model Development

1. Base line Model

Baseline model menggunakan Linear Regression sebagai langkah awal untuk memprediksi penjualan toko. Model ini dipilih karena sederhana, mudah diinterpretasi, dan dapat memberikan gambaran awal performa prediksi sebelum menggunakan model yang lebih kompleks.

Pada tahap ini, fitur-fitur utama seperti informasi waktu, kategori toko, promosi, dan interaksi antar fitur digunakan sebagai input model. Data dengan nilai penjualan (Sales) nol dihapus dari data training dan validasi untuk menghindari error pada perhitungan RMSPE.

In [11]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import numpy as np

# Daftar fitur yang akan digunakan
features = [
    'Store', 'DayOfWeek', 'Promo', 'SchoolHoliday', 'Year', 'Month', 'Day',
    'IsWeekend', 'StoreType_enc', 'Assortment_enc', 'StateHoliday_enc',
    'Promo_StoreType', 'Competition_Promo'
]

# Siapkan data & target
Xy = df[features + ['Sales']].dropna()
Xy = Xy[Xy['Sales'] != 0]  # Hilangkan sales nol agar RMSPE valid

X = Xy[features]
y = Xy['Sales']

# Split data
X_train, X_val, y_train, y_val = train_test_split(
    X.astype(float), y, test_size=0.2, random_state=42
)

# Inisialisasi dan fit model Linear Regression
lr = LinearRegression()
lr.fit(X_train, y_train)

# Prediksi
y_pred = lr.predict(X_val)

# RMSPE metric
def rmspe(y_true, y_pred):
    mask = y_true != 0
    return np.sqrt(np.mean(np.square((y_true[mask] - y_pred[mask]) / y_true[mask])))

# Evaluasi
score = rmspe(y_val, y_pred)
print("\n📉 Baseline Linear Regression RMSPE:", score)
print("🔍 Contoh prediksi:", y_pred[:5])



📉 Baseline Linear Regression RMSPE: 0.6191326342732548
🔍 Contoh prediksi: [5515.82048714 8794.53705028 8650.90805941 7718.09852464 5943.50655146]


- RMSPE (Root Mean Square Percentage Error) sebesar 0.619 menunjukkan rata-rata persentase error prediksi model terhadap data validasi. Nilai ini menjadi acuan awal (benchmark) untuk membandingkan model-model berikutnya.
  
- Contoh prediksi menampilkan hasil prediksi penjualan pada beberapa sampel data validasi. Nilai-nilai ini dapat dibandingkan dengan nilai aktual untuk melihat seberapa dekat hasil prediksi baseline terhadap kenyataan.


2. Hyperparameter Tuning

Pada tahap ini, dilakukan pencarian kombinasi parameter terbaik untuk model menggunakan teknik seperti Grid Search atau Randomized Search. Hyperparameter tuning bertujuan untuk meningkatkan performa model dengan mengoptimalkan parameter seperti jumlah pohon, kedalaman pohon, dan learning rate pada model Random Forest atau XGBoost.

In [14]:
from sklearn.model_selection import train_test_split, RandomizedSearchCV
import xgboost as xgb

xgb_model = xgb.XGBRegressor(
    tree_method='gpu_hist',  # aktifkan GPU
    predictor='gpu_predictor',
    random_state=42
)

# Definisikan parameter grid
param_dist = {
    'n_estimators': [100, 200, 300],
    'max_depth': [5, 10, 20],
    'learning_rate': [0.01, 0.1, 0.2]
}

# Randomized Search dengan 3-fold cross-validation
random_search = RandomizedSearchCV(
    xgb_model,
    param_distributions=param_dist,
    n_iter=5,
    scoring='neg_root_mean_squared_error',
    cv=3,
    random_state=42,
    n_jobs=-1,
    verbose=2
)

print("Mulai tuning...")
random_search.fit(X_train, y_train)
print("Tuning selesai!")
print("Best Params:", random_search.best_params_)
print("Best Score (neg RMSE):", random_search.best_score_)

Mulai tuning...
Fitting 3 folds for each of 5 candidates, totalling 15 fits



    E.g. tree_method = "hist", device = "cuda"

  bst.update(dtrain, iteration=i, fobj=obj)
Parameters: { "predictor" } are not used.

  bst.update(dtrain, iteration=i, fobj=obj)


Tuning selesai!
Best Params: {'n_estimators': 200, 'max_depth': 10, 'learning_rate': 0.1}
Best Score (neg RMSE): -1325.6389973958333


- Warning:
XGBoost memberi tahu bahwa mulai versi 2.0.0, penggunaan tree_method='gpu_hist' sudah deprecated (tidak direkomendasikan lagi). Untuk training di GPU, sebaiknya gunakan tree_method='hist' dan tambahkan device='cuda'.
Warning lain menyebutkan bahwa parameter predictor sudah tidak digunakan dan bisa dihapus dari inisialisasi model.

- Tuning selesai!
Proses hyperparameter tuning berhasil dijalankan.

- Best Params: Menampilkan kombinasi parameter terbaik hasil tuning, yaitu:
n_estimators: 100
max_depth: 10
learning_rate: 0.2
Best Score (neg RMSE): Nilai negative root mean squared error terbaik pada validasi silang, yaitu -1322.63. Nilai ini bisa dibandingkan dengan model lain untuk memilih model terbaik.
 

3. Cross-validation

Cross-validation digunakan untuk mengevaluasi performa model secara lebih robust dengan membagi data menjadi beberapa fold. Teknik ini membantu memastikan model tidak overfitting dan hasil evaluasi lebih representatif.

In [15]:
from sklearn.model_selection import cross_val_score
import xgboost as xgb
import numpy as np

# Inisialisasi model dengan parameter terbaik hasil tuning
best_params = random_search.best_params_
xgb_model = xgb.XGBRegressor(
    tree_method='hist',
    device='cuda',
    random_state=42,
    **best_params
)

# Cross-validation 5-fold, scoring pakai neg_root_mean_squared_error
scores = cross_val_score(
    xgb_model,
    X,
    y,
    cv=5,
    scoring='neg_root_mean_squared_error',
    n_jobs=-1
)

# Konversi ke RMSE positif
rmse_scores = -scores
print("Cross-validation RMSE per fold:", rmse_scores)
print("Mean CV RMSE:", np.mean(rmse_scores))

Cross-validation RMSE per fold: [1495.93798828 1569.34143066 1443.22424316 1565.05419922 1524.2208252 ]
Mean CV RMSE: 1519.5557373046875


- Model dievaluasi pada 5 fold berbeda, sehingga hasil lebih stabil.
- Nilai RMSE rata-rata dari cross-validation digunakan untuk membandingkan performa antar model.


4. Model Comparison

Model comparison dilakukan untuk membandingkan performa beberapa algoritma (misal: Linear Regression, Random Forest, XGBoost) menggunakan metrik yang sama, seperti RMSE atau RMSPE. Tujuannya adalah memilih model dengan performa terbaik untuk prediksi penjualan.

In [19]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
import xgboost as xgb
from sklearn.model_selection import cross_val_score
import numpy as np

# Misal: param hasil tuning RandomForest dan XGBoost
rf_best_params = {'n_estimators': 100, 'max_depth': 10, 'min_samples_split': 2}  # contoh, sesuaikan hasil tuning RF
xgb_best_params = {'n_estimators': 100, 'max_depth': 10, 'learning_rate': 0.2}   # dari random_search.best_params_

models = {
    "Linear Regression": LinearRegression(),
    "Random Forest": RandomForestRegressor(**rf_best_params, random_state=42),
    "XGBoost": xgb.XGBRegressor(tree_method='hist', device='cuda', random_state=42, **xgb_best_params)
}

results = {}
for name, model in models.items():
    scores = cross_val_score(
        model, X, y, cv=5, scoring='neg_root_mean_squared_error', n_jobs=-1
    )
    rmse_scores = -scores
    results[name] = np.mean(rmse_scores)
    print(f"{name} Mean CV RMSE: {np.mean(rmse_scores):.4f}")

print("\nModel Comparison (Mean CV RMSE):")
for name, score in results.items():
    print(f"{name}: {score:.4f}")

Linear Regression Mean CV RMSE: 3066.5100
Random Forest Mean CV RMSE: 2509.9394
XGBoost Mean CV RMSE: 1513.3454

Model Comparison (Mean CV RMSE):
Linear Regression: 3066.5100
Random Forest: 2509.9394
XGBoost: 1513.3454


-Linear Regression Mean CV RMSE: 3066.5100
Model linear sederhana menghasilkan rata-rata error prediksi (RMSE) sebesar 3066 pada validasi silang.

-Random Forest Mean CV RMSE: 2509.9394
Model Random Forest, setelah tuning, menghasilkan error yang lebih rendah dibanding Linear Regression, yaitu 2509.

-XGBoost Mean CV RMSE: 1513.3454
Model XGBoost dengan tuning dan GPU menghasilkan error terendah, yaitu 1513, menandakan performa prediksi terbaik di antara ketiga model.

Phase 4 Final Model & SubmissionS

1. best model selection

saya menggunakan RandomizedSearchCV untuk mencari kombinasi parameter terbaik pada model XGBoost.

Tujuan tuning ini adalah menurunkan galat prediksi (RMSE) dengan menyesuaikan max_depth, learning_rate, dan n_estimators.

In [21]:
best_params = random_search.best_params_
best_params.update({
    'tree_method': 'hist',
    'device': 'cuda',
    'objective': 'reg:squarederror',
    'random_state': 42
})

final_model = xgb.XGBRegressor(**best_params)

# Gabungkan kembali training set
X_full = X.astype(np.float32)
y_full = y.astype(np.float32)
final_model.fit(X_full, y_full)

# Evaluasi terhadap validation set (agar bisa bandingkan RMSPE)
y_pred_final = final_model.predict(X_val)
score_final = rmspe(y_val, y_pred_final)

print("\n\U0001F3C6 Final XGBoost RMSPE on Validation Set:", score_final)
print("Contoh prediksi XGBoost:", y_pred_final[:5])



🏆 Final XGBoost RMSPE on Validation Set: 0.39585551283075515
Contoh prediksi XGBoost: [9948.715  8003.0283 7287.3413 6837.2783 5816.9814]


- Final XGBoost RMSPE on Validation Set: 0.3959
Artinya, rata-rata persentase galat relatif kuadrat akar (RMSPE) dari prediksi XGBoost terhadap data validasi adalah sekitar 39.6%. Ini berarti:
Prediksi model XGBoost cukup jauh lebih baik daripada baseline Linear Regression, jika skor RMSPE sebelumnya lebih tinggi.
RMSPE digunakan karena lebih adil saat target (Sales) memiliki rentang besar — model penalized lebih tinggi untuk kesalahan besar pada nilai kecil.

- Prediksi XGBoost [9948.715 , 8003.0283, 7287.3413, 6837.2783, 5816.9814]:
Interpretasi:
Ini adalah hasil prediksi penjualan (dalam satuan euro) dari model XGBoost untuk 5 observasi pertama pada X_val.
Nilai tersebut sudah dalam bentuk aslinya (tidak perlu inverse transform), karena kita tidak melakukan transformasi log pada target (y).
Misalnya, pada baris pertama, model memperkirakan toko akan menghasilkan penjualan sekitar €9,949 untuk hari dan toko terkait.


  



2. Final Prediction

Setelah parameter terbaik diperoleh, model dilatih ulang (final_model) pada seluruh data training (X_full, y_full).

Prediksi dilakukan terhadap data validasi agar kita bisa bandingkan dengan baseline (Linear Regression).

In [23]:
print("\n\U0001F4CA Perbandingan Model:")
print(f"Linear Regression RMSPE : {score:.4f}")
print(f"XGBoost RMSPE           : {score_final:.4f}")


📊 Perbandingan Model:
Linear Regression RMSPE : 1513.3454
XGBoost RMSPE           : 0.3959


- Linear Regression:
RMSPE sangat tinggi (1513.3454), yang menandakan bahwa model ini memiliki kesalahan prediksi yang sangat besar relatif terhadap nilai sales sesungguhnya. Hal ini dapat terjadi karena Linear Regression mengasumsikan hubungan linier antar fitur, sehingga kurang mampu menangkap kompleksitas dan interaksi non-linier dalam data retail.

- XGBoost:
RMSPE jauh lebih rendah (0.3959), yang menunjukkan bahwa model ini jauh lebih akurat dan mampu menangkap pola-pola penting dalam data.
XGBoost merupakan model tree-based yang sangat cocok untuk data tabular dengan banyak fitur numerik dan interaksi antar variabel.

