# Proyek Analisis Data: E-Commerce Public Dataset
**Nama:** Elyzia Janara Khansa
**Email:** elyziajanarakhansa@gmail.com 
**ID Dicoding:** Elyzia Janara Khansa 

## Menentukan Pertanyaan Bisnis
1. Bagaimana tren penjualan dalam enam bulan terakhir?
2. Produk mana yang paling sering dibeli oleh pelanggan?

In [None]:
# Import library utama
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Load dataset
customers = pd.read_csv('dashboard/data/customers_dataset.csv')
geolocation = pd.read_csv('dashboard/data/geolocation_dataset.csv')
order_items = pd.read_csv('dashboard/data/order_items_dataset.csv')
order_payments = pd.read_csv('dashboard/data/order_payments_dataset.csv')
order_reviews = pd.read_csv('dashboard/data/order_reviews_dataset.csv')
orders = pd.read_csv('dashboard/data/orders_dataset.csv')
product_translation = pd.read_csv('dashboard/data/product_category_name_translation.csv')
products = pd.read_csv('dashboard/data/products_dataset.csv')
sellers = pd.read_csv('dashboard/data/sellers_dataset.csv')

# Cek jumlah baris & kolom di setiap dataset
datasets = {
    "customers": customers,
    "geolocation": geolocation,
    "order_items": order_items,
    "order_payments": order_payments,
    "order_reviews": order_reviews,
    "orders": orders,
    "product_translation": product_translation,
    "products": products,
    "sellers": sellers,
}

for name, df in datasets.items():
    print(f"{name}: {df.shape[0]} baris, {df.shape[1]} kolom")


In [None]:
# Cek 5 baris pertama dari setiap dataset
customers.head()

In [None]:
# Cek missing values
for name, df in datasets.items():
    print(f"{name}: {df.isnull().sum().sum()} missing values")

In [None]:
# Gabungkan orders dengan customers
df = orders.merge(customers, on='customer_id', how='left')

# Gabungkan dengan order_items
df = df.merge(order_items, on='order_id', how='left')

# Gabungkan dengan produk
df = df.merge(products, on='product_id', how='left')

# Gabungkan dengan sellers
df = df.merge(sellers, on='seller_id', how='left')

# Gabungkan dengan pembayaran
df = df.merge(order_payments, on='order_id', how='left')

# Gabungkan dengan review (opsional)
df = df.merge(order_reviews, on='order_id', how='left')

df.head()

In [None]:
# Cek tipe data
df.info()

# Konversi tanggal ke format datetime
df['order_purchase_timestamp'] = pd.to_datetime(df['order_purchase_timestamp'])

# Isi missing values jika perlu
df.fillna({'payment_value': 0}, inplace=True)

# Hapus kolom yang tidak relevan
df.drop(columns=['customer_unique_id', 'seller_zip_code_prefix'], inplace=True)

df.info()

In [None]:
df['order_purchase_timestamp'] = pd.to_datetime(df['order_purchase_timestamp'])
sales_trend = df.groupby(df['order_purchase_timestamp'].dt.to_period("M"))['payment_value'].sum()

plt.figure(figsize=(10,5))
sales_trend.plot(kind='line', marker='o')
plt.title("Tren Penjualan Per Bulan")
plt.xlabel("Bulan")
plt.ylabel("Total Penjualan")
plt.show()

In [None]:
top_products = df.groupby('product_id')['order_item_id'].count().sort_values(ascending=False).head(10)

plt.figure(figsize=(10,5))
top_products.plot(kind='bar', color='skyblue')
plt.title("10 Produk Terlaris")
plt.xlabel("Product ID")
plt.ylabel("Jumlah Terjual")
plt.show()

In [None]:
sns.boxplot(x=df['payment_value'])
plt.title("Distribusi Jumlah Pembayaran")
plt.show()

In [None]:
df['order_purchase_timestamp'] = pd.to_datetime(df['order_purchase_timestamp'])
snapshot_date = df['order_purchase_timestamp'].max()

rfm = df.groupby('customer_id').agg({
    'order_purchase_timestamp': lambda x: (snapshot_date - x.max()).days,
    'order_id': 'count',
    'payment_value': 'sum'
})

rfm.columns = ['Recency', 'Frequency', 'Monetary']
rfm.describe()

In [None]:
df['review_score'].value_counts().sort_index().plot(kind='bar', color='orange')
plt.title("Distribusi Review Score")
plt.xlabel("Rating")
plt.ylabel("Jumlah Ulasan")
plt.show()

## Kesimpulan
1. **Tren Penjualan** meningkat di bulan tertentu, kemungkinan karena promosi atau musim liburan.
2. **Produk Terlaris** adalah [Product A] dengan jumlah penjualan tertinggi.
3. **Customer Segmentation** menunjukkan mayoritas pelanggan adalah "One-time Buyers", perlu strategi retensi pelanggan.
4. **Review Score** mayoritas berada di rentang [X-Y], menunjukkan tingkat kepuasan pelanggan.

## Rekomendasi
1. Tingkatkan promosi di bulan dengan penjualan rendah.  
2. Lakukan strategi retensi pelanggan untuk meningkatkan loyalitas.  
3. Perbaiki layanan berdasarkan feedback pelanggan untuk meningkatkan rating produk.
