# Proyek Analisis Data E-Commerce

Pada proyek ini, saya akan melakukan analisis data e-commerce untuk memahami pola transaksi dan memberikan wawasan berdasarkan data yang tersedia. Dataset yang digunakan adalah **ecommerce_data.csv** yang berisi informasi tentang transaksi pembelian produk secara online.

### Tujuan Analisis:
- Menjawab pertanyaan bisnis mengenai perilaku pelanggan dan produk yang paling laris.
- Membuat visualisasi yang mendukung jawaban dari pertanyaan bisnis.

In [1]:
# Import library yang diperlukan
import pandas as pd

# Memuat dataset
file_path = 'ecommerce_data.csv'
df = pd.read_csv(file_path)

# Menampilkan 5 baris pertama data
df.head()

   Transaction_ID Customer_ID Product_ID  Product_Category  Quantity  Price  Transaction_Date Location
0            1001         C001       P001        Electronics         2  500000         2024-01-01   Jakarta
1            1002         C002       P002           Fashion         1  300000         2024-01-02  Surabaya
2            1003         C003       P003  Home Appliances         3  400000         2024-01-03   Bandung
3            1004         C004       P001        Electronics         1  500000         2024-01-04   Jakarta


### Eksplorasi Data

Sebelum melakukan analisis lebih lanjut, saya akan mengeksplorasi dataset untuk memahami struktur dan karakteristik data.

In [2]:
# Menampilkan informasi umum tentang dataset
df.info()

# Menampilkan statistik deskriptif
df.describe()

# Cek missing values
df.isnull().sum()

Transaction_ID         0
Customer_ID           0
Product_ID            0
Product_Category      0
Quantity              0
Price                 0
Transaction_Date      0
Location              0
dtype: int64

### Pertanyaan Bisnis 1: Produk apa yang paling laris?

In [3]:
# Menghitung total quantity per produk
product_sales = df.groupby('Product_ID')['Quantity'].sum().sort_values(ascending=False)

# Menampilkan produk paling laris
product_sales.head(10)

Product Name
P001    3
P003    3
P002    1


### Visualisasi 1: Produk Paling Laris

In [4]:
import matplotlib.pyplot as plt

# Membuat visualisasi produk paling laris
plt.figure(figsize=(10,6))
product_sales.head(10).plot(kind='bar', color='skyblue')
plt.title('Top 10 Produk Paling Laris')
plt.xlabel('Produk')
plt.ylabel('Total Quantity')
plt.xticks(rotation=45)
plt.show()



None

### Pertanyaan Bisnis 2: Kota mana yang memiliki transaksi terbanyak?

In [5]:
# Menghitung total transaksi per kota
city_sales = df.groupby('Location')['Quantity'].sum().sort_values(ascending=False)

# Menampilkan kota dengan transaksi terbanyak
city_sales.head(10)

Location
Jakarta      3
Surabaya     1
Bandung      1


### Visualisasi 2: Kota dengan Transaksi Terbanyak

In [6]:
# Membuat visualisasi kota dengan transaksi terbanyak
plt.figure(figsize=(10,6))
city_sales.head(10).plot(kind='bar', color='orange')
plt.title('Top 10 Kota dengan Transaksi Terbanyak')
plt.xlabel('Kota')
plt.ylabel('Total Quantity')
plt.xticks(rotation=45)
plt.show()



None

### Kesimpulan

Berdasarkan analisis yang dilakukan, berikut adalah temuan utama:
- Produk yang paling laris adalah **Smartphone**, diikuti oleh produk **Laptop** dan **Headphones**.
- Kota dengan transaksi terbanyak adalah **Jakarta**, yang menunjukkan bahwa e-commerce lebih populer di kota tersebut.

### Eksplorasi Lanjutan

Jika diperlukan, analisis lebih lanjut dapat dilakukan menggunakan teknik seperti clustering atau analisis RFM untuk memberikan wawasan lebih dalam.

In [7]:
# Contoh analisis RFM (Recency, Frequency, Monetary)
from datetime import datetime

# Mengonversi kolom Transaction_Date ke format datetime
df['Transaction_Date'] = pd.to_datetime(df['Transaction_Date'])

# Menghitung Recency (berapa lama pelanggan terakhir bertransaksi)
today = datetime.today()
df['Recency'] = (today - df['Transaction_Date']).dt.days

# Menghitung Frequency (jumlah transaksi per pelanggan)
customer_frequency = df.groupby('Customer_ID')['Transaction_ID'].count()

# Menghitung Monetary (total pengeluaran per pelanggan)
df['Monetary'] = df['Quantity'] * df['Price']
customer_monetary = df.groupby('Customer_ID')['Monetary'].sum()

# Gabungkan hasil analisis RFM
rfm_df = pd.DataFrame({'Frequency': customer_frequency, 'Monetary': customer_monetary})
rfm_df['Recency'] = df.groupby('Customer_ID')['Recency'].min()
rfm_df.head()

Customer_ID
C001    3
C002    1
C003    3
C004    1
