In [3]:
import pandas as pd
from typing import List, Tuple
from sklearn.metrics import mean_absolute_error
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.arima.model import ARIMA
import matplotlib.pyplot as plt
from IPython.core.pylabtools import figsize
from sklearn.cluster import KMeans
import plotly.express as px

ModuleNotFoundError: No module named 'sklearn'

 <font color=blue>0. Kumpulan Fungsi-fungsi utilitas</font>

In [None]:
def print_jumlah_null(name_list:List[str],df_list:List[pd.DataFrame])->None:
  for name,df in zip(name_list,df_list):
    print(f"Dataframe : {name}")
    print(df.isna().sum())

def check_3_times_sd(df:pd.DataFrame, col:str) -> pd.DataFrame:
    stats = df.describe()[col]
    mean = stats.loc["mean"]
    std = stats.loc["std"]
    mask = ((df[col] > (mean+3*std)) | (df[col]<(mean-3*std)))
    print(f"Check Values which are more than 3 times standard deviation")
    print(f"thresholds are {mean-3*std} and {mean-3*std}")
    print(f"number of outliers are {len(df[mask])}")
    return df.loc[~mask]

def IQR_check(df:pd.DataFrame,col:str) -> pd.DataFrame:
    stats = df.describe()[col]
    q1 = stats.loc["25%"]
    q3 = stats.loc["75%"]
    IQR = q3-q1
    top_tresh = q3 + 1.5*IQR
    low_tresh = q1 - 1.5*IQR
    mask = (df[col] > top_tresh) | (df[col] < low_tresh)
    print(f"Check values which are outside the range of  1.5 times IQR ")
    print(f"Tresholds are {low_tresh} and {top_tresh}")
    print(f"number of outliers are {len(df[mask])}")
    return df.loc[~mask]


def remove_outliers(df:pd.DataFrame,col:str, iqr:bool = True)->pd.DataFrame:
  """ remove outliers dengan menggunakan salah satu dari  2 metode , yaitu
  diatas maupun dibawah 3 kali SD atau juga yang melebih 1.5*IQR. Gunakan iqr = True untuk menghitung batas outlier berdasarkan IQR
  dan IQR = False untuk menghitung berdasarkan 3 kali standard deviasi. Default adalah IQR """
  if iqr:
    return IQR_check(df,col)
  else :
    return check_3_times_sd(df,col)




1. Load ke dalam panda dataframe

In [None]:
customer_df  = pd.read_csv('./data/customer.csv', delimiter=";")
store_df = pd.read_csv('./data/store.csv', delimiter=";")
product_df = pd.read_csv('./data/product.csv', delimiter=";")
transaction_df = pd.read_csv('./data/transactions.csv', delimiter=";", parse_dates=True)

2. Cek Info dari dataframe ( terutama data type)

In [None]:
print(customer_df.info())
print(store_df.info())
print(product_df.info())
print(transaction_df.info())

3. Cek jumlah data null pada setiap kolom

In [None]:
print_jumlah_null(name_list=['Customer','Store','Product','Transaction'],df_list=[customer_df,store_df,product_df,transaction_df])

pada kolom transaksi tidak ada data null, sehingga kita masuk ke tahap berikutnya. Adapun data null pada customer ( marital status ) tidak berpengaruh pada time series analysis yang akan dilakukan

4. Isi kolom N/A pada marital status dengan "Secret"

In [None]:
customer_df["Marital Status"].fillna("Secret", inplace=True)

In [None]:
# transaction_df = remove_outliers(transaction_df,col="Qty",iqr=True)

5. Melakukan Merge tabel ( request pada tugas )

In [None]:
merged_df = transaction_df.join(customer_df,how="left",on="CustomerID",rsuffix="right").join(store_df,how="left",on="StoreID",rsuffix="right")

In [None]:
merged_df_2 = pd.merge(merged_df,product_df) # kolom ini menggunakan pandas.merge karena ada kolom yang bertipe data objek, tidak bisa di handle oleh join

In [None]:
merged_df_2.head()

### <font color=red> TIME SERIES ANALYSIS </font>

1. Mengambil kolom2 yang dibutuhkan dalam analisa time series, yaitu Date dan Qty

In [None]:
ts_df = merged_df_2[["Date","Qty"]]

2. Melakukan group by date untuk mendapatkan data harian . Check stationarity secara sederhana melalui visualisasi plot garis.

In [None]:
ts_df

In [None]:
ts_df_2 = ts_df.groupby("Date").sum()
print(ts_df_2)

3. Remove Outliers

In [None]:
ts_df_2 = remove_outliers(ts_df_2,col="Qty",iqr=True)

In [None]:
ts_df_2.plot() # check plot , datanya terlihat random

4. Split menjadi train dan test ( 10 % test ), pembagian dilakukan secara berurutan ( tidak diacak )  karena ini adalah time seris

In [None]:
q_90 = int(len(ts_df_2)*0.9) # ambil 10 % data terakhir untuk pemisah Train dan test nya
train_df = ts_df_2.iloc[:q_90]
test_df = ts_df_2.iloc[q_90:]






5. Membuat Baseline model ( untuk nanti membandingkan MAE nya dengan ARIMA )

In [None]:
train_df_mean = train_df.mean()
pred_df_baseline = [train_df_mean]*len(train_df)

baseline_MAE = mean_absolute_error(train_df,pred_df_baseline)


print(f"BaseLine MAE = {baseline_MAE}")

6. Membuat plot acf dan pacf

In [None]:
# membuat plot acf dan pacf dalam 1 figure
fig, ax = plt.subplots(figsize=(15, 6))
plot_acf(train_df,ax=ax)
plt.xlabel("Lag [hours]")
plt.ylabel("Correlation Coefficient");

In [None]:
fig, ax = plt.subplots(figsize=(15, 6))
plot_pacf(train_df,ax=ax)
plt.xlabel("Lag [hours]")
plt.ylabel("Correlation Coefficient");

#### <font color=blue> Kesimpulan : Dari Plot ACF dan PACF, terlihat bahwa tidak ada korelasi yang signifikan bahkan pada lag pertama, sehingga kemungkinan bahwa pattern dari data adalah whitenoise ( Arima(0,0,0)) , sehingga tidak bisa di prediksi menggunakan model time series ( mungkin perlu melakukan pre-processing step lain untuk membuat datanya stasioner dan tidak behave seperti whitenoise ). Oleh sebab itu, ketika hendak memprediksi nilai penjualan hari berikutnya, maka bisa menggunakan rataan dari data tersebut secara langsung  </font>

### <font color=red> CLUSTERING </font>

In [None]:
# dimulai dari data gabungan merge_df_2 dan diambil customerID,  transactionID, qty, total_amount

clus_df = merged_df_2.copy()


In [None]:
clus_df.info()

1. Group data by CustomerID

In [None]:
clus_df_2 = clus_df[["CustomerID","TransactionID","Qty","TotalAmount"]]
clus_df_3 = clus_df_2.groupby("CustomerID").agg({'TransactionID':'count','Qty':'sum','TotalAmount':'sum'})

In [None]:
clus_df_3

2. Cari jumlah cluster optimum

In [None]:
wcss = [] # within cluster sum of square
for i in range(1,10):
  model = KMeans(n_clusters=i)
  model.fit(clus_df_3)
  wcss.append(model.inertia_)

In [None]:
plt.plot(range(1,10),wcss)

<font color=blue>Jumlah cluster yang optimal adalah 5</font>

3. Membuat model dengan jumlah cluster sesuai dengan point 5

In [None]:
model_final = KMeans(n_clusters=5)
model_final.fit(clus_df_3)
final_cluster_df = clus_df_3.copy()
final_cluster_df["cluster"] = model_final.labels_
print(final_cluster_df.head())

4. Visualisasi dengan menggunakan plot 3d dari plotly express

In [None]:
px.scatter_3d(final_cluster_df,x="TransactionID",y="Qty",z="TotalAmount",color="cluster")

#### <font color=blue> Kesimpulan : Berdasarkan hasil clustering 3d, tampak bahwa customer yang banyak melakukan transaksi, banyak membeli dalam jumlah besar, dan juga menghabiskan uang dalam jumlah besar terkumpul menjadi satu di cluster berwana pink(cluster no 2) sementara sebaliknya yang paling sedikit dari 3 parameter tadi, berkumpul di cluster kuning ( cluster no 4)  </font>