## Notes

In [None]:
# Distribusi Jumlah Quantity
plt.figure(figsize=(10, 6))
sns.histplot(data=daily_combined, x='quantity', bins=30, kde=True)
plt.title('Distribution of Daily Quantity')
plt.xlabel('Quantity')
plt.ylabel('Frequency')
plt.show()

# Tren Waktu
plt.figure(figsize=(12, 6))
sns.lineplot(x='date', y='quantity', data=daily_combined.groupby('date')['quantity'].sum().reset_index())
plt.title('Total Daily Quantity Over Time')
plt.xlabel('Date')
plt.ylabel('Total Quantity')
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Korelasi antara Quantity dengan Harga (contoh, jika ada data harga)
merged_data = pd.merge(daily_combined, price_data, on=['date', 'product_id'], how='left')
plt.figure(figsize=(10, 6))
sns.scatterplot(x='price', y='quantity', data=merged_data)
plt.title('Correlation between Quantity and Price')
plt.xlabel('Price')
plt.ylabel('Quantity')
plt.show()

# Decompose Time Series
from statsmodels.tsa.seasonal import seasonal_decompose
decomposition = seasonal_decompose(daily_combined.groupby('date')['quantity'].sum(), period=30)  # Misalnya, periode musiman 30 hari
fig = decomposition.plot()
fig.set_size_inches(12, 6)
plt.show()


Tentu, setelah melakukan visualisasi dari jumlah qty setiap product ID, langkah selanjutnya dalam Exploratory Data Analysis (EDA) bisa mencakup beberapa aspek tambahan seperti:

- Distribusi Jumlah Quantity: Melihat distribusi jumlah quantity secara keseluruhan atau per product ID. Ini bisa dilakukan dengan histogram atau density plot.
- Tren Waktu: Selain melihat jumlah quantity per harian, kita bisa mengidentifikasi tren waktu, pola harian, mingguan, atau bulanan.
- Outlier: Identifikasi adanya outlier yang mungkin mempengaruhi analisis kita.
- Korelasi: Mengecek apakah ada korelasi antara tanggal atau periode tertentu dengan jumlah quantity.
- Musimality: Apakah terdapat pola musiman dalam data?
- Analisis Lag: Apakah jumlah quantity hari ini berkaitan dengan jumlah quantity beberapa hari sebelumnya?
- Bandingkan dengan Data Lain: Apakah ada faktor eksternal seperti promo, liburan, atau event tertentu yang dapat mempengaruhi jumlah quantity?
- Deskripsi Statistik Tambahan: Mendapatkan informasi statistik seperti rata-rata, median, dll. bisa memberikan wawasan tambahan tentang data.
- Korelasi dengan Variabel Lain: Jika ada data tambahan seperti harga produk, dapat dilihat apakah adanya korelasi antara harga dan jumlah quantity.
- Decompose Time Series: Melakukan decompose pada time series menjadi komponen-komponen seperti tren, musim, dan residu.
- Analisis Keterlambatan: Apakah ada keterlambatan antara perubahan jumlah quantity dengan event-event tertentu?

In [None]:
# Set Index
# df = df.set_index('Date')
# df.index = pd.to_datetime(df.index, format="%d/%m/%Y")
# df = df.sort_index()

In [None]:
# Visualisasi data waktu
plt.figure(figsize=(10, 6))
sns.lineplot(x='Date', y='Qty', data=df, marker='o')
plt.xlabel('Date')
plt.ylabel('Quantity')
plt.title('Quantity Sold Over Time')
plt.xticks(rotation=45)
plt.show()

In [None]:
# Distribusi jumlah produk terjual
plt.figure(figsize=(8, 5))
sns.histplot(df['Qty'], kde=True)
plt.xlabel('Quantity')
plt.ylabel('Density')
plt.title('Distribution of Quantity Sold')
plt.show()

In [None]:
# Korelasi antara quantity dan product_id
plt.figure(figsize=(8, 6))
sns.boxplot(x='ProductID', y='Qty', data=df)
plt.xlabel('Product ID')
plt.ylabel('Quantity')
plt.title('Quantity Distribution by Product')
plt.show()

In [None]:
# Menampilkan total baris dan kolom
print(f'Total baris pada datset : {df.shape[0]}')
print(f'Total kolom pada datset : {df.shape[1]}')

In [None]:
# Menampilkan informasi kolom
df.info()

In [None]:
# Melihat 5 data teratas
df.head()

In [None]:
# Mengecek missing value
df.isnull().sum()

In [None]:
# Menghapus missing value
df = df.dropna()

In [None]:
# Menghapus data duplicate
df = df.drop_duplicates()

In [None]:
for i, row in df.iterrows(): 
    if i == i-1:
        print(row['Date'])
        print(row['ProductID'])
        print(row['Qty'])

In [None]:
df.head()

In [None]:
# Menampilkan grafik dataset
df['Qty'].plot(style='.',
        figsize=(15, 5),
        title='Total Quantity Harian')
plt.show()