# Proyek Analisis Data: [E-Commerce Public Dataset]
- **Nama:** [Aulaa Mustika]
- **Email:** [aulaamustika0364@student.uns.ac.id]
- **ID Dicoding:** [MC312D5X2481]

## Menentukan Pertanyaan Bisnis


- Bagaimana karakteristik pelanggan dalam berbelanja dan memberikan pendapatan bagi bisnis?
- Wilayah mana yang perlu ditingkatkan pemasaran dan diperbaiki layanan pengirimannya?
- Produk apa yang memberikan kontribusi terbesar dan terkecil terhadap pendapatan bisnis?
- Bagaimana pola permintaan pelanggan sepanjang tahun dan apakah ada tren musiman yang dapat dimanfaatkan?
- Berapa persentase masing-masing status pesanan?

## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import datetime

: 

## Data Wrangling

### Gathering Data

In [None]:
#Load Tabel orders
orders_df = pd.read_csv("/content/orders_dataset.csv",delimiter=",")
orders_df.head()


: 

In [None]:
#Load Tabel order_items
order_items_df = pd.read_csv("/content/order_items_dataset.csv",delimiter=",")
order_items_df.head()

: 

In [None]:
#Load Tabel customers
customers_df = pd.read_csv("/content/customers_dataset.csv",delimiter=",")
customers_df.head()

: 

In [None]:
#Load Tabel products
products_df = pd.read_csv("/content/products_dataset.csv",delimiter=",")
products_df.head()

: 

In [None]:
#Load Tabel product_category_translation
product_category_translation_df = pd.read_csv("/content/product_category_name_translation.csv",delimiter=",")
product_category_translation_df.head()

: 

**Insight:**
Terdapat 4 Tabel yang digunakan, yaitu:
- **Tabel orders** : berisi informasi mengenai pesanan dengan pelanggan, seperti order_id,	customer_id,order_status,	order_purchase_timestamp,	order_approved_at,	order_delivered_carrier_date,	order_delivered_customer_date, dan	order_estimated_delivery_date
- **Tabel order_items** : berisi detail barang yang dibeli dalam setiap pesanan, seperti order_id,	order_item_id,	product_id,	seller_id,	shipping_limit_date, dan	price	freight_value
- **Tabel customers** : berisi data pelanggan, seperti customer_id,	customer_unique_id,	customer_zip_code_prefix,	customer_city,	dan customer_state
- **Tabel products** : berisi data produk, seperti product_id,	product_category_name,	product_name_lenght,	product_description_lenght,	product_photos_qty,	product_weight_g,	product_length_cm,	product_height_cm,	dan product_width_cm
- **Tabel product_category_translation** : terjemahan kategori produk, seperti product_category_name dan	product_category_name_english



### Assessing Data

In [None]:
#Menilai Data orders_df
orders_df.info()

orders_df.isna().sum()

: 

In [None]:
#Memastikan missing value
orders_df[orders_df.order_approved_at.isna()]

: 

In [None]:
orders_df.loc[orders_df["order_status"] == "canceled",
              ["order_approved_at", "order_delivered_carrier_date", "order_delivered_customer_date"]].isna().all()

: 

In [None]:
#mengecek Duplikasi
print("Jumlah duplikasi: ", orders_df.duplicated().sum())

: 

In [None]:
#Menilai Data order_items_df
order_items_df.info()

order_items_df.isna().sum()

: 

In [None]:
print("Jumlah duplikasi: ", order_items_df.duplicated().sum())

order_items_df.describe()

: 

In [None]:
#Menilai Data customers_df
customers_df.info()

customers_df.isna().sum()

: 

In [None]:
print("Jumlah duplikasi: ", customers_df.duplicated().sum())

customers_df.describe()

: 

In [None]:
#Menilai Data products_df
products_df.info()

products_df.isna().sum()

: 

In [None]:
print("Jumlah duplikasi: ", products_df.duplicated().sum())

products_df.describe()

: 

In [None]:
#Menilai Data product_category_translation_df
product_category_translation_df.info()

product_category_translation_df.isna().sum()

: 

In [None]:
print("Jumlah duplikasi: ", product_category_translation_df.duplicated().sum())

: 

**Insight:**


📌 Data `orders_df`
- ⚠ Kesalahan tipe data untuk kolom berikut (seharusnya `datetime`, bukan `object`):
  - `order_purchase_timestamp`
  - `order_approved_at`
  - `order_delivered_carrier_date`
  - `order_delivered_customer_date`
  - `order_estimated_delivery_date`
- kolom `order_approved_at`, `order_delivered_carrier_date`, dan `order_delivered_customer_date` terdapat missing value, namun tidak perlu diatasi. Hal itu karena setelah dilihat ternyata tiga kolom tersebut tidak memiliki nilai saat `order_status` nya canceled (dibatalkan). Sehingga make sense jika tidak ada nilainya. Kemudian setelah dipastikan lagi, ternyata ketiga kolom mengembalikan nilai False yang berarti ada status order Canceled pada tiga kolom tersebut yang memiliki tanggal. Jadi, mungkin saja bahwa pesanan dibatalkan saat sudah payment atau kondisi lainnya.

📌 Data `order_items_df`
- ⚠ Kesalahan tipe data untuk kolom `shipping_limit_date` (seharusnya `datetime`, bukan `object`)

📌 Data `products_df`
- 🔴 inaccurate value  pada nilai minimum kolom `product_weight_g` karena tidak mungkin beratnya 0 gram.
- ❌ 610 missing value pada kolom:
  - `product_category_name`
  - `product_name_lenght`
  - `product_description_lenght`
  - `product_photos_qty`
- ❌ 2 missing value pada kolom:
  - `product_weight_g`
  - `product_length_cm`
  - `product_height_cm`
  - `product_width_cm`
- Karena kategori produknya sendiri sangat beragam jenis, sehingga jika terdapat berat, panjang, maupun tinggi produk yang kontras dengan yang lain itu mungkin saja.

### Cleaning Data

In [None]:
#Membersihkan Data orders_df

#Mengatasi Kesalahan Tipe Data
datetime_columns = ["order_purchase_timestamp", "order_approved_at",
    "order_delivered_carrier_date", "order_delivered_customer_date",
    "order_estimated_delivery_date"
]

for column in datetime_columns:
  orders_df[column] = pd.to_datetime(orders_df[column])

orders_df.info()

: 

In [None]:
orders_df[orders_df.order_approved_at.isna()]

: 

In [None]:
#Membersihkan Data order_items_df

#Mengatasi Kesalahan Tipe Data
datetime_columns = ["shipping_limit_date"]

for column in datetime_columns:
  order_items_df[column] = pd.to_datetime(order_items_df[column])

order_items_df.info()

: 

In [None]:
#Membersihkan Data products_df

#Mengatasi Inaccurate Value
products_df[products_df['product_weight_g'] == 0]

: 

In [None]:
#Imputation dengan nilai median
median_weight = products_df.loc[products_df['product_weight_g'] > 0, 'product_weight_g'].median()
products_df.loc[products_df['product_weight_g'] == 0, 'product_weight_g'] = median_weight

products_df.describe()

: 

In [None]:
#Mengatasi Missing Value
#Data Kategorik
kategori_dominan = products_df["product_category_name"].mode()[0]
products_df["product_category_name"] = products_df["product_category_name"].fillna(kategori_dominan)

#Data Numerik
numerical_cols = [
    "product_name_lenght", "product_description_lenght", "product_photos_qty",
    "product_weight_g", "product_length_cm", "product_height_cm", "product_width_cm"
]
for col in numerical_cols:
    median_value = products_df[col].median()
    products_df[col] = products_df[col].fillna(median_value)

products_df.isnull().sum()
products_df.info()

: 

**Insight:**

📌 Data `orders_df`
- ⚠  Kesalahan tipe data = tipe sudah sesuai menjadi datetime.

📌 Data `order_items_df`
- ⚠ Kesalahan tipe data = tipe sudah sesuai menjadi datetime

📌 Data `products_df`
- 🔴 Inaccurate value = terdapat 4 produk yang sama dan memiliki berat 0 gram. Karena numerik, maka diatasi dengan imputasi dengan nilai median.
- ❌ Missing value = data kategorik diatasi dengan imputasi menggunakan kategori yang paling dominan dan untuk data numerik diatasi dengan imputasi menggunakan nilai median yang lebih tahan terhadap pencilan.


## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
#Menggabungkan Data products_df dan product_category_translation_df
products_df = pd.merge(
    left=products_df,
    right=product_category_translation_df,
    how="left",
    left_on="product_category_name",
    right_on="product_category_name"
)

products_df

: 

In [None]:
#Menggabungkan Data orders_df, order_items_df, dan customers_df
orders_items_customers_df = orders_df.merge(order_items_df, on="order_id").merge(customers_df, on="customer_id")
orders_items_customers_df

: 

In [None]:
#Menggabungkan Data orders_items_customers_df dengan products_df
orders_items_customers_products_df = orders_items_customers_df.merge(products_df, on="product_id")
orders_items_customers_products_df

: 

In [None]:
#Menghitung jumlah pesanan per pelanggan
order_counts_df = orders_items_customers_products_df.groupby("customer_unique_id")["order_id"].nunique()
order_counts_df

: 

In [None]:
#Menghitung total belanja per pelanggan
total_spent_df = orders_items_customers_products_df.groupby("customer_unique_id")["price"].sum()
total_spent_df

: 

In [None]:
# Menentukan tanggal referensi (misalnya, tanggal terakhir dalam dataset)
reference_date = orders_df["order_purchase_timestamp"].max()

# Menghitung Recency (jumlah hari sejak pembelian terakhir)
rfm_df = orders_items_customers_products_df.groupby("customer_unique_id").agg({
    "order_purchase_timestamp": lambda x: (reference_date - x.max()).days,
    "order_id": "nunique",  # Frequency: jumlah pesanan unik
    "price": "sum"  # Monetary: total uang yang dihabiskan
}).reset_index()

# Ubah nama kolom
rfm_df.columns = ["customer_unique_id", "Recency", "Frequency", "Monetary"]

# Melihat distribusi pelanggan
print(rfm_df.describe())

: 

In [None]:
# Distribusi status pesanan per wilayah
status_by_state_df = orders_items_customers_df.groupby(["customer_state", "order_status"]).size().unstack(fill_value=0)
status_by_state_df

: 

In [None]:
#Menghitung jumlah pesanan per bulan
orders_df["month_year"] = orders_df["order_purchase_timestamp"].dt.to_period("M")
monthly_orders_df = orders_df.groupby("month_year")["order_id"].count()

monthly_orders_df

: 

In [None]:
#Total revenue per produk
product_revenue_df = orders_items_customers_products_df.groupby("product_category_name_english")["price"].sum().reset_index()
product_revenue_df

: 

**Insight:**
- Nama kategori produk sudah ada versi inggrisnya sehingga lebih mudah di mengerti dan analisis.
- Mayoritas pelanggan sudah lama tidak melakukan pembelian
- Mayoritas pelanggan hanya membeli sekali, namun tetap ada pelanggan loyal yang membeli sampai 16 kali
- Pelanggan dengan total belanja tinggi cenderung melakukan pembelian lebih dari satu kali
- Beberapa wilayah memiliki volume pesanan lebih tinggi dari yang lain
- Kategori produk tertentu mendominasi total pendapatan bisnis
- Jumlah pesanan setiap bulan sangat fluktuatif dan bervariasi


## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana karakteristik pelanggan dalam berbelanja dan memberikan pendapatan bagi bisnis?


In [None]:
#Pelanggan dengan belanja tertinggi
top_customers_df = total_spent_df.sort_values(ascending=False).head(10)

: 

In [None]:
plt.figure(figsize=(10, 5))
sns.barplot(x=top_customers_df.values, y=top_customers_df.index, palette="coolwarm")
plt.xlabel("Total Belanja (Rp)")
plt.ylabel("Customer ID")
plt.title("Top 10 Pelanggan dengan Total Belanja Tertinggi")
plt.show()

: 

### Pertanyaan 2: Wilayah mana yang perlu ditingkatkan pemasaran dan diperbaiki layanan pengirimannya?

In [None]:
orders_by_state_df = orders_items_customers_products_df[orders_items_customers_products_df["order_status"] == "canceled"].groupby("customer_state")["order_id"].count().reset_index()
orders_by_state_df = orders_by_state_df.rename(columns={"order_id": "canceled"})
orders_by_state_df = orders_by_state_df.sort_values(by="canceled", ascending=False)

orders_by_state_df

: 

In [None]:
orders_by_state_df = orders_by_state_df.sort_values(by="canceled", ascending=False)

colors = ["lightblue"] * len(orders_by_state_df)
colors[0] = "darkblue"


plt.figure(figsize=(10, 5))
bars = plt.bar(orders_by_state_df["customer_state"], orders_by_state_df["canceled"], color=colors)


for bar in bars:
    plt.text(bar.get_x() + bar.get_width()/2, bar.get_height(), str(bar.get_height()),
             ha="center", va="bottom", fontsize=10)

plt.xlabel("Wilayah", fontsize=10)
plt.ylabel("Jumlah Pembatalan", fontsize=10)

plt.title("Jumlah Pembatalan Pesanan per Wilayah")
plt.xticks(rotation=0)
plt.show()

: 

### Pertanyaan 3: Produk apa yang memberikan kontribusi terbesar dan terkecil terhadap pendapatan bisnis?


In [None]:
#Produk yang memiliki kontribusi terkecil
bottom_products_df = product_revenue_df.sort_values("price", ascending=True).head(10)
print(bottom_products_df)

: 

In [None]:
#Produk yang memiliki kontribusi terbesar
top_products_df = product_revenue_df.sort_values("price", ascending=False).head(10)
print(top_products_df)

: 

In [None]:
#Visualisasi kategori produk dengan pendapatan tertinggi
colors = ["lightskyblue"] * len(top_products_df)
top_products_df_reset = top_products_df.reset_index()
max_price_index = top_products_df_reset["price"].idxmax()
colors[max_price_index] = "royalblue"


plt.figure(figsize=(10, 5))
ax = sns.barplot(data=top_products_df, x="product_category_name_english", y="price",
                 palette=colors)

for p in ax.patches:
    ax.annotate(f"{p.get_height():,.0f}",
                (p.get_x() + p.get_width() / 2., p.get_height()),
                ha='center', va='bottom', fontsize=10, fontweight='bold')

plt.title(f"Top 10 Product Categories by Revenue (Rp)")

plt.xticks(rotation=45, ha="right")

plt.xlabel("")
plt.ylabel("")

plt.show()

: 

### Pertanyaan 4: Bagaimana pola permintaan pelanggan sepanjang tahun dan apakah ada tren musiman yang dapat dimanfaatkan?

In [None]:
# Visualisasi tren pesanan bulanan
plt.figure(figsize=(12,5))
monthly_orders_df.plot(marker="o")
plt.title("Tren Jumlah Pesanan Bulanan")
plt.xlabel("Bulan")
plt.ylabel("Jumlah Pesanan")
plt.xticks(rotation=45)
plt.show()

: 

### Pertanyaan 5: Berapa persentase masing-masing status pesanan?

In [None]:
# Menghitung jumlah masing-masing status pesanan
status_counts_df =  orders_df['order_status'].value_counts()

# Menghitung persentase masing-masing status
status_percentage_df = (status_counts_df / status_counts_df.sum()) * 100

: 

In [None]:
#Visualisasi
plt.figure(figsize=(11, 6))
ax = sns.barplot(x=status_percentage_df.index, y=status_percentage_df.values, palette="pastel")

for p in ax.patches:
    ax.annotate(f"{p.get_height():.2f}%",
                (p.get_x() + p.get_width() / 2, p.get_height()),
                ha="center", va="bottom", fontsize=12, fontweight="bold")

plt.xlabel("Order Status")
plt.ylabel("Percentage (%)")
plt.title("Persentase Masing-Masing Status Pesanan")
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)

plt.show()

: 

**Insight:**

**Pertanyaan 1**
- Sebagian besar pelanggan hanya melakukan 1-2 kali transaksi, namun tetap ada pelanggan yang sering berbelanja dan memberi pendapatan besar
- Terdapat satu top pelanggan yang menyumbang pendapatan tertinggi terhadap bisnis dan memiliki selisih yang cukup jauh dengan pelanggan yang lain
- Top pelanggan memiliki total belanja yang jauh lebih tinggi jika dibandingkan dengan rata-rata.


**Pertanyaan 2**
- Wilayah SP merupakan wilayah dengan pembatalan pesanan terbanyak sehingga menjadi salah satu wilayah yang perlu diperhatikan untuk memperbaiki layanan


**Pertanyaan 3**
- Health beauty menjadi produk dengan revenue tertinggi dan diikuti oleh produk bed bath table dan watches gift, yang mana mereka bertiga memiliki selisih yang sedikit.
- Beberapa kategori produk mendominasi pendapatan, sedangkan beberapa kategori lainnya memiliki kontribusi yang sangat kecil.


**Pertanyaan 4**
- Jumlah pemesanan tiap bulannya sangat fluktuatif dan terlihat terdapat tren naik sampai sekitar awal tahun 2018.
- Jumlah pemesanan tertinggi terjadi pada bulan November 2017
- Namun, terjadi penurunan ekstrim dari bulan Juni ke Agustus 2018.


**Pertanyaan 5**
- Status pemesanan delivered mendominasi dibandingkan status yang lain. Hal tersebut artinya sebagian besar pesanan sukses

## Analisis Lanjutan (Opsional)

##ANALISIS RFM

Analisis RFM (Recency, Frequency, Monetary) adalah metode segmentasi pelanggan yang digunakan untuk memahami perilaku pembelian pelanggan berdasarkan tiga metrik utama, yaitu:
1. Recency (Jumlah hari sejak transaksi terakhir pelanggan)

Bertujuan untuk mengukur seberapa baru interaksi terakhir pelanggan dengan toko/bisnis. Semakin kecil nilainya, maka semakin aktif pelanggan tersebut.
2. Frequency (Jumlah pesanan unik yang dilakukan pelanggan)

Bertujuan untuk mengukur seberapa sering pelanggan berbelanja. Pelanggan yang memiliki frekuensi tinggi maka dia loyal.
3. Monetary(Total nilai belanja pelanggan)

Bertujuan mengukur berapa banyak uang yang sudah dihabiskan oleh pelanggan. Dengan ini, bisa mengetahui pelanggan siapa yang paling berkontribusi banyak terhadap pendapatan. 


Dengan menggunakan RFM, kita bisa membuat strategi dan solusi yang tepat sasaran dalam dunia bisnis.

## Conclusion

-  Karakteristik pelanggan dalam berbelanja dan memberikan pendapatan bagi bisnis yaitu :    

  1. Mayoritas pelanggan hanya belanja satu kali dengan nominal bervariasi
  2. Banyak pelanggan yang sudah lama tidak berbelanja
  3. Terdapat pelanggan loyal dan berkontribusi besar ke revenue
  4. Sebagian pelanggan memiliki monetary cukup rendah

  Saran dan solusi:
  1. Email marketing
  2. Diskon dan cashback untuk repeat order
  3. Strategi Loyalty program
  4. Terdapat Gratis Ongkir di atas nominal tertentu

- Perlu meningkatkan pemasaran dan memperbaiki layanan pengiriman di wilayah SP. Selain itu, wilayah dengan volume pesanan tinggi beresiko lebih besar terlambat dalam pengiriman.

  Saran dan Solusi:
  1. Bekerja sama dengan banyak penyedia layanan pengiriman di wilayah pembatalan tinggi yaitu SP
  2. Analisis lebih lanjut penyebab pembatalan pesanan


-  Produk health beauty memberikan kontribusi terbesar sedangkan  security and services memberikan kontribusi terkecil terhadap pendapatan bisnis

  Saran dan solusi:
  1. Meningkatkan stok dan strategi pemasaran pada produk dengan kontribusi pendapatan tinggi
  2. Evaluasi strategi harga dan promosi pada produk yang berkontribusi rendah

- Pola permintaan pelanggan sepanjang tahun sangat fluktuatif dan menunjukkan adanya tren.

  Saran dan solusi : Prediksi dan siapkan stok produk lebih awal dalam menghadapi lonjakan permintaan dibulan tertentu

- Status pesanan didominasi oleh delivered yang mencapai 97,02% dan sisanya yaitu 1,11% shipped, 0,63% canceled, 0,61% unavailable, 0,32% invoiced, 0,3% processing, dan 0,01% created.

  Saran dan solusi: Mengoptimalkan proses konfirmasi dan validasi pesanan untuk mengurangi pembatalan.


