# **Supply Chain Analysis**

In [2]:
import pandas as pd
import numpy as np

df=pd.read_csv('supply_chain_raw_data.csv')
print(df.head())

   Order_ID Product_Category      Supplier_Name Warehouse_Location  \
0  ORD-1000          Fashion  Pinnacle Supplies           Makassar   
1  ORD-1001           Health         EcoFreight              Medan   
2  ORD-1002       Automotive        Express Way              Medan   
3  ORD-1003          Fashion        Express Way           Semarang   
4  ORD-1004       Automotive  Pinnacle Supplies           Surabaya   

   Product_Price  Order_Quantity  Order_Date  Lead_Time_Days   Ship_Date  \
0         480.76               1  2024-05-19              13  2024-06-01   
1         251.79              30  2024-04-30               3  2024-05-03   
2         100.09              39  2024-09-18               7  2024-09-25   
3         486.92              26  2024-12-31               9  2025-01-09   
4         369.19              45  2024-03-21              11  2024-04-01   

   Shipping_Cost Inventory_Status  
0          14.88        Low Stock  
1          10.99     Out of Stock  
2          53.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   Order_ID            1000 non-null   object 
 1   Product_Category    1000 non-null   object 
 2   Supplier_Name       1000 non-null   object 
 3   Warehouse_Location  1000 non-null   object 
 4   Product_Price       1000 non-null   float64
 5   Order_Quantity      1000 non-null   int64  
 6   Order_Date          1000 non-null   object 
 7   Lead_Time_Days      1000 non-null   int64  
 8   Ship_Date           1000 non-null   object 
 9   Shipping_Cost       951 non-null    float64
 10  Inventory_Status    1000 non-null   object 
dtypes: float64(2), int64(2), object(7)
memory usage: 86.1+ KB


## **Mengoreksi tipe data**

In [4]:
# Index 1: Product_Category
df['Product_Category'] = df['Product_Category'].astype('category')

# Index 3: Warehouse_Location
df['Warehouse_Location'] = df['Warehouse_Location'].astype('category')

# Index 6: Order_Date (Gunakan format='mixed' agar fleksibel dengan tanda pemisah)
df['Order_Date'] = pd.to_datetime(df['Order_Date'], format='mixed')

# Index 8: Ship_Date (Gunakan format='mixed' agar fleksibel dengan tanda pemisah)
df['Ship_Date'] = pd.to_datetime(df['Ship_Date'], format='mixed')

# Index 9: Inventory_Status
df['Inventory_Status'] = df['Inventory_Status'].astype('category')

# Cek hasil
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Order_ID            1000 non-null   object        
 1   Product_Category    1000 non-null   category      
 2   Supplier_Name       1000 non-null   object        
 3   Warehouse_Location  1000 non-null   category      
 4   Product_Price       1000 non-null   float64       
 5   Order_Quantity      1000 non-null   int64         
 6   Order_Date          1000 non-null   datetime64[ns]
 7   Lead_Time_Days      1000 non-null   int64         
 8   Ship_Date           1000 non-null   datetime64[ns]
 9   Shipping_Cost       951 non-null    float64       
 10  Inventory_Status    1000 non-null   category      
dtypes: category(3), datetime64[ns](2), float64(2), int64(2), object(2)
memory usage: 66.1+ KB


## **Mengisi data null dengan Median**

In [5]:
# Index 10: Shipping_Cost, isi nilai yang hilang dengan median karena hanya sedikit nilai yang hilang
df['Shipping_Cost'] = df['Shipping_Cost'].fillna(df['Shipping_Cost'].median())
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 11 columns):
 #   Column              Non-Null Count  Dtype         
---  ------              --------------  -----         
 0   Order_ID            1000 non-null   object        
 1   Product_Category    1000 non-null   category      
 2   Supplier_Name       1000 non-null   object        
 3   Warehouse_Location  1000 non-null   category      
 4   Product_Price       1000 non-null   float64       
 5   Order_Quantity      1000 non-null   int64         
 6   Order_Date          1000 non-null   datetime64[ns]
 7   Lead_Time_Days      1000 non-null   int64         
 8   Ship_Date           1000 non-null   datetime64[ns]
 9   Shipping_Cost       1000 non-null   float64       
 10  Inventory_Status    1000 non-null   category      
dtypes: category(3), datetime64[ns](2), float64(2), int64(2), object(2)
memory usage: 66.1+ KB


## Melakukan pengecekan secara logika

In [6]:
# Descriptive statistics untuk semua kolom
df.describe(include='all')

Unnamed: 0,Order_ID,Product_Category,Supplier_Name,Warehouse_Location,Product_Price,Order_Quantity,Order_Date,Lead_Time_Days,Ship_Date,Shipping_Cost,Inventory_Status
count,1000,1000,1000,1000,1000.0,1000.0,1000,1000.0,1000,1000.0,1000
unique,1000,5,5,5,,,,,,,3
top,ORD-1000,Home Decor,Pinnacle Supplies,Semarang,,,,,,,Low Stock
freq,1,210,211,218,,,,,,,339
mean,,,,,256.57699,25.411,2024-06-30 18:25:55.200000,8.602,2024-07-09 04:46:33.600000,52.94449,
min,,,,,11.26,1.0,2024-01-01 00:00:00,2.0,2024-01-06 00:00:00,5.08,
25%,,,,,130.08,13.0,2024-04-01 18:00:00,5.0,2024-04-08 00:00:00,29.7325,
50%,,,,,258.255,25.0,2024-06-30 00:00:00,8.0,2024-07-08 00:00:00,53.51,
75%,,,,,381.625,38.0,2024-10-01 00:00:00,11.0,2024-10-12 06:00:00,75.56,
max,,,,,499.38,50.0,2024-12-31 00:00:00,100.0,2025-01-31 00:00:00,99.83,


### Ditemukan anomali pada lamanya waktu pengiriman, mencapai 100 hari

## Mencari tahu ada berapa banyak data anomali tersebut

In [7]:
df[df['Lead_Time_Days']>=30]

Unnamed: 0,Order_ID,Product_Category,Supplier_Name,Warehouse_Location,Product_Price,Order_Quantity,Order_Date,Lead_Time_Days,Ship_Date,Shipping_Cost,Inventory_Status
48,ORD-1048,Health,EcoFreight,Jakarta,193.49,2,2024-01-18,100,2024-04-27,38.11,Low Stock
74,ORD-1074,Home Decor,EcoFreight,Medan,44.97,38,2024-03-25,72,2024-06-05,18.18,Out of Stock
185,ORD-1185,Fashion,Pinnacle Supplies,Surabaya,351.63,1,2024-09-22,50,2024-11-11,47.78,In Stock
317,ORD-1317,Home Decor,Express Way,Surabaya,314.88,42,2024-05-08,67,2024-07-14,30.82,In Stock
380,ORD-1380,Health,EcoFreight,Jakarta,450.22,43,2024-09-15,67,2024-11-21,49.72,Low Stock
447,ORD-1447,Home Decor,Global Logistics Co,Surabaya,439.25,28,2024-10-03,79,2024-12-21,49.15,Out of Stock
488,ORD-1488,Electronics,FastShip Inc,Semarang,276.63,36,2024-10-27,55,2024-12-21,50.31,Out of Stock
657,ORD-1657,Automotive,EcoFreight,Medan,172.22,23,2024-01-08,98,2024-04-15,53.51,Out of Stock
904,ORD-1904,Health,FastShip Inc,Jakarta,167.74,21,2024-11-28,64,2025-01-31,43.65,Out of Stock
952,ORD-1952,Home Decor,FastShip Inc,Medan,249.76,3,2024-09-19,68,2024-11-26,18.77,Out of Stock


### Ditemukan 10 pengiriman yang memiliki waktu kirim yang terlalu lama

## Memastikan sekali lagi dengan tabel yang lebih terfokus

In [8]:
df['Lead_Time_Days'].describe()

count    1000.000000
mean        8.602000
std         7.517187
min         2.000000
25%         5.000000
50%         8.000000
75%        11.000000
max       100.000000
Name: Lead_Time_Days, dtype: float64

### Dapat dilihat rata rata waktu pengirimannya hanya mencapai 8-9 hari, namun memiliki batas atas yang sangat lama dari rata-rata, mencapai 100 hari

## Melakukan pengecekan apakah datanya ril atau salah input

In [9]:
# 1. Hitung selisih asli berdasarkan tanggal order dan kirim
df['Actual_Diff'] = (df['Ship_Date'] - df['Order_Date']).dt.days

# 2. Ambil sampel data yang Lead_Time_Days-nya >= 20
# Kita bandingkan kolom bawaan dengan hitungan manual kita
cek_data = df[df['Lead_Time_Days'] >= 20][['Order_Date', 'Ship_Date', 'Lead_Time_Days', 'Actual_Diff']]
print(cek_data)

    Order_Date  Ship_Date  Lead_Time_Days  Actual_Diff
48  2024-01-18 2024-04-27             100          100
74  2024-03-25 2024-06-05              72           72
185 2024-09-22 2024-11-11              50           50
317 2024-05-08 2024-07-14              67           67
380 2024-09-15 2024-11-21              67           67
447 2024-10-03 2024-12-21              79           79
488 2024-10-27 2024-12-21              55           55
657 2024-01-08 2024-04-15              98           98
904 2024-11-28 2025-01-31              64           64
952 2024-09-19 2024-11-26              68           68


### Datanya ril karena tidak ditemukan ketidakcocokan antara waktu pengiriman dengan data yang tercatat di sistem, alias bukan hasil dari kesalahan input

## Membuat profil singkat dari outliers

In [10]:
# Membuat profil singkat dari 10 data terlama
outliers = df[df['Lead_Time_Days'] >= 20]

print("--- Lokasi Gudang Terlama ---")
print(outliers['Warehouse_Location'].value_counts())

print("\n--- Kategori Produk Terlama ---")
print(outliers['Product_Category'].value_counts())

print("\n--- Status Stok Saat Itu ---")
print(outliers['Inventory_Status'].value_counts())

--- Lokasi Gudang Terlama ---
Warehouse_Location
Jakarta     3
Medan       3
Surabaya    3
Semarang    1
Makassar    0
Name: count, dtype: int64

--- Kategori Produk Terlama ---
Product_Category
Home Decor     4
Health         3
Automotive     1
Fashion        1
Electronics    1
Name: count, dtype: int64

--- Status Stok Saat Itu ---
Inventory_Status
Out of Stock    6
In Stock        2
Low Stock       2
Name: count, dtype: int64


### Analisa sementara Penyebab keterlambatan berdasarkan profil yang didapat
* Dapat dilihat bahwa data outliersnya tidak berasal dari 1 gudang saja, melainkan tersebar hampir merata ke 4 dari 5 gudang yang ada. 

* Kategori Home Decor dan Health menjadi data terbanyak penyumbang outliers

* Dari 10 pengiriman itu, 6 diantaranya diakibatkan oleh kehabisan stock, yang mana mungkin diperlukan waktu tambahan untuk memesan barang tersebut

Dari 3 profil ini, bisa disimpulkan penyebab utama outliers bukanlah akibat dari kesalahan sistem gudang, dikarenakan hal ini terjadi di 4 dari 5 gudang yang ada. Suspect terkuat dari masalah ini adalah terdapat pada masalah ketersediaan yang membuat pengiriman jadi tertunda dikarenakan harus menunggu terlebih dahulu stocknya tersedia.



## Membandingkan rata rata waktu kirim antara outliers vs normal

In [11]:
# Membandingkan rata-rata waktu kirim outliers berdasarkan status stok
print("--- Rata-rata Pengiriman outliers per Kategori ---")
outliers.groupby('Inventory_Status')['Lead_Time_Days'].mean()

--- Rata-rata Pengiriman outliers per Kategori ---


  outliers.groupby('Inventory_Status')['Lead_Time_Days'].mean()


Inventory_Status
In Stock        58.500000
Low Stock       83.500000
Out of Stock    72.666667
Name: Lead_Time_Days, dtype: float64

In [12]:
# Membandingkan rata-rata waktu kirim berdasarkan status stok
print("--- Rata-rata Pengiriman Normal per Kategori ---")
df_normal = df[df['Lead_Time_Days'] < 20]
df_normal.groupby('Inventory_Status')['Lead_Time_Days'].mean()


--- Rata-rata Pengiriman Normal per Kategori ---


  df_normal.groupby('Inventory_Status')['Lead_Time_Days'].mean()


Inventory_Status
In Stock        7.912387
Low Stock       7.931751
Out of Stock    8.043478
Name: Lead_Time_Days, dtype: float64

In [13]:
total_kategori = df['Product_Category'].nunique()
print(f"Total ada {total_kategori} kategori produk.")

Total ada 5 kategori produk.


### Analisa waktu pengiriman

* Data outliers menunjukkan waktu rata rata pengiriman di masing masing status ketersediaannya
* Data normal menunjukkan waktu rata rata pengiriman yg merata di semua status ketersediaannya

Dapat dilihat bahwa data normal dan outliers memiliki irisan pada kategori yang terletak di semua kategori. 
Yang artinya masalah tidak terletak di gudang maupun di jenis kategorinya
Perlu dilakukan pengecekan profil dan perbandingan antara keduanya

## Perbandingan profil outliers vs normal

In [14]:
# 1. Cek di Data Normal (Yang pengirimannya < 50 hari)
print("--- Analisis Out of Stock di Data Normal ---")
oos_normal_pivot = df_normal[df_normal['Inventory_Status'] == 'Out of Stock'].pivot_table(
    index='Product_Category', 
    values='Lead_Time_Days', 
    aggfunc=['count', 'mean']
)
print(oos_normal_pivot)

print("\n" + "="*50 + "\n")

# 2. Cek di Data Outliers (Yang pengirimannya >= 50 hari)
print("--- Analisis Out of Stock di Data Outliers ---")
oos_anomali_pivot = outliers[outliers['Inventory_Status'] == 'Out of Stock'].pivot_table(
    index='Product_Category', 
    values='Lead_Time_Days', 
    aggfunc=['count', 'mean']
)
print(oos_anomali_pivot)

--- Analisis Out of Stock di Data Normal ---
                          count           mean
                 Lead_Time_Days Lead_Time_Days
Product_Category                              
Automotive                   74       8.175676
Electronics                  60       8.000000
Fashion                      56       7.660714
Health                       58       7.965517
Home Decor                   74       8.297297


--- Analisis Out of Stock di Data Outliers ---
                          count           mean
                 Lead_Time_Days Lead_Time_Days
Product_Category                              
Automotive                    1           98.0
Electronics                   1           55.0
Fashion                       0            NaN
Health                        1           64.0
Home Decor                    3           73.0


  oos_normal_pivot = df_normal[df_normal['Inventory_Status'] == 'Out of Stock'].pivot_table(
  oos_normal_pivot = df_normal[df_normal['Inventory_Status'] == 'Out of Stock'].pivot_table(
  oos_anomali_pivot = outliers[outliers['Inventory_Status'] == 'Out of Stock'].pivot_table(
  oos_anomali_pivot = outliers[outliers['Inventory_Status'] == 'Out of Stock'].pivot_table(


### Analisa perbandingan profil

Ditemukan 4 dari 5 kategori mengalami keterlambatan namun dengan qty yang sedikit dibandingkan dengan yang tidak mengalami keterlambatan


In [15]:
# Cek korelasi antara biaya kirim dan lama kirim
print(df[['Shipping_Cost', 'Lead_Time_Days']].corr())

                Shipping_Cost  Lead_Time_Days
Shipping_Cost        1.000000       -0.011181
Lead_Time_Days      -0.011181        1.000000


### **Analisa** : 

Ditemukan anomali yang tidak logis secara bisnis, dimana tidak adanya korelasi shipping cost dengan lead time days atau lama waktu kirim. Seharusnya masih bisa di analisa lebih lanjut apabila dataset yang digunakan adalah dataset based on real bussiness, bukan dataset sintetis. Seperti :
* masalah medan
* masalah special handling
* atau bahkan masalah monopoli bisnis

## **Kesimpulan & Batasan Analisis (Analysis Limitations)**

Jika dicari penyebabnya dari data lain pun akan memiliki sebaran yang merata, mengacu pada df.describe di awal. 

Hal ini bisa terjadi diakibatkan oleh dataset yang digunakan.

Analisis ini dilakukan pada dataset sintetis yang dihasilkan secara terprogram. Karena data ini tidak merepresentasikan logika bisnis riil atau pola transaksi dunia nyata, terdapat batasan dalam menentukan akar penyebab (root cause) dari anomali yang ditemukan secara definitif.



# Visualisasi di power BI

In [18]:
# Ekspor data yang sudah bersih (df_normal)
df_normal.to_csv('supply_chain_cleaned_final.csv', index=False)

# (Opsional) Ekspor data outlier-nya juga buat perbandingan kalau perlu
outliers.to_csv('supply_chain_outliers.csv', index=False)

print("Data telah di export ke file CSV.")

Data telah di export ke file CSV.
