# **Proyek Analisis Data E-Commerce**

- **Nama: Fahmi Abdul Salaam Luhtari**
- **Email: fahmi3737@smk.belajar.id** 
- **Cohort ID: MS058D5Y0561** 

## **Menentukan Pertanyaan Bisnis**

1. **Bagaimana performa penjualan dan revenue perusahaan dalam beberapa bulan terakhir?**
2. **Bagaimana tingkat kepuasan pelanggan terhadap produk dalam beberapa bulan terakhir?**
3. **Bagaimana demografi pelanggan perusahaan, seperti usia, jenis kelamin, dan lokasi geografis?**

## **Install Semua Packages / Library Yang Akan Digunakan**

```bash
# Install dependency yang akan digunakan secara manual
pip install numpy pandas matplotlib seaborn scipy streamlit

# Install dependency yang akan digunakan melalui requirements.txt
pip install -r requirements.txt

## **Import Dependency Yang Akan Digunakan**


In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import matplotlib.ticker as mtc
import seaborn as sns

## **Data Wrangling**

Pada tahap ini kita akan melakukan beberapa langkah, yaitu:
1. **Mengumpulkan Data (Gathering Data)**
2. **Menilai Data (Assessing Data)**
3. **Membersihkan Data (Cleaning Data)**

### **1. Gathering Data**
Pada tahap ini kita akan mengumpulkan data yang diperlukan untuk proyek analisis data. Pada proyek kali ini data yang saya gunakan adalah data E-Commerce, yang memiliki total 9 dataset berformat CSV. Kode dibawah ini akan memuat dataset tersebut ke dalam dataframe pandas.

In [None]:
# Customers DataFrame
customers_df = pd.read_csv("./data/customers_dataset.csv")
customers_df.head()

In [None]:
# Geolocation DataFrame
geolocation_df = pd.read_csv("./data/geolocation_dataset.csv")
geolocation_df.head()

In [None]:
# Order Items DataFrame
order_items_df = pd.read_csv("./data/order_items_dataset.csv")
order_items_df.head()

In [None]:
# Order Payments DataFrame
order_payments_df = pd.read_csv("./data/order_payments_dataset.csv")
order_payments_df.head()

In [None]:
# Order Reviews DataFrame
order_reviews_df = pd.read_csv("./data/order_reviews_dataset.csv")
order_reviews_df.head()

In [None]:
# Orders DataFrame
orders_df = pd.read_csv("./data/orders_dataset.csv")
orders_df.head()

In [None]:
# Product Category Name Translation Dataframe
product_category_name_translation_df = pd.read_csv("./data/product_category_name_translation.csv")
product_category_name_translation_df.head()

In [None]:
# Products DataFrame
products_df = pd.read_csv("./data/products_dataset.csv")
products_df.head()

In [None]:
# Sellers DataFrame
sellers_df = pd.read_csv("./data/sellers_dataset.csv")
sellers_df.head()

**Insight:**
- Pada langkah ini dapat diketahui bahwa Data E-Commerce ini adalah data yang menggunakan Bahasa Latin / Brazil, bisa dilihat dari dataset **geolocation_dataset** terdapat nama kota yang menggunakan Bahasa Latin / Brazil seperti **São Paulo**, **Rio de Janeiro**, dll.

### **2. Assessing Data**
Pada tahap ini kita akan melakukan penilaian terhadap data yang telah dikumpulkan. Penilaian ini bertujuan untuk mengetahui apakah data yang dikumpulkan sudah sesuai dengan kebutuhan analisis data. Ada beberapa langkah yang bisa dilakukan, seperti:
- Melihat informasi dasar dataset.
- Mengecek apakah ada missing value atau tidak.
- Melihat statistik deskriptif dataset.
- Mengecek apakah ada duplikasi data tau tidak.

In [None]:
# Customers DataFrame

customers_df.info()
print("Jumlah duplikasi data: ", customers_df.duplicated().sum())
customers_df.describe(include='all')

# Aman

In [None]:
# Geolocation DataFrame

geolocation_df.info()
print("Jumlah duplikasi data: ", geolocation_df.duplicated().sum())
print(geolocation_df[geolocation_df.duplicated()])
geolocation_df.describe(include='all')

# Aman


In [None]:
# Order Items DataFrame

order_items_df.info()
print("Jumlah duplikasi data: ", order_items_df.duplicated().sum())
order_items_df.describe(include='all')

# Perlu perubahan terhadap tipe data kolom shipping_limit_date, dari object menjadi datetime

In [None]:
# Order Payments DataFrame

order_payments_df.info()
print("Jumlah duplikasi data: ", order_payments_df.duplicated().sum())
order_payments_df.describe(include='all')

# Aman

In [None]:
# Order Reviews DataFrame

order_reviews_df.info()
print("Jumlah duplikasi data: ", order_reviews_df.duplicated().sum())
order_reviews_df.describe(include='all')

# Perlu perubahan terhadap tipe data kolom review_creation_date & reveiw_answer_timestamp, dari object menjadi datetime

In [None]:
# Orders DataFrame

orders_df.info()
print("Jumlah duplikasi data: ", orders_df.duplicated().sum())
orders_df.describe(include='all')

# Perlu perubahan terhadap tipe data kolom order_purchase_timestamp, order_approved_at, order_delivered_carrier_date, order_delivered_customer_date, order_estimated_delivery_date, dari object menjadi datetime
# Menghapus 1 data yang tidak valid karena statusnya delivered tetapi tidak memiliki tanggal pengiriman dan tanggal penerimaan

In [None]:
# Product Category Name Translation

product_category_name_translation_df.info()
print("Jumlah duplikasi data: ", product_category_name_translation_df.duplicated().sum())
product_category_name_translation_df.describe(include='all')

# Aman

In [None]:
# Product DataFrame

products_df.info()
print("Jumlah duplikasi data: ", products_df.duplicated().sum())
products_df.describe(include='all')

# Menangani missing value
# Mengecek outlier
# Menyesuaikan tipe data agar lebih sesuai

In [None]:
# Sellers DataFrame

sellers_df.info()
print("Jumlah duplikasi data: ", sellers_df.duplicated().sum())
sellers_df.describe(include='all')

# Aman

**Insight:**
- Customer DataFrame: Aman
- Geolocation DataFrame: Aman
- Order Items DataFrame: 
    - Perlu perubahan terhadap tipe data kolom shipping_limit_date, dari object menjadi datetime
- Order Payments DataFrame: Aman
- Order Reviews DataFrame: 
    - Perlu perubahan terhadap tipe data kolom review_creation_date & reveiw_answer_timestamp, dari object menjadi datetime
- Order DataFrame: 
    - Perlu perubahan terhadap tipe data kolom order_purchase_timestamp, order_approved_at, order_delivered_carrier_date, order_delivered_customer_date, order_estimated_delivery_date, dari object menjadi datetime
    - Menghapus 1 data yang tidak valid karena statusnya delivered tetapi tidak memiliki tanggal pengiriman dan tanggal penerimaan
- Product Category Name Translation DataFrame: Aman
- Product DataFrame: 
    - Menangani missing value
    - Menyesuaikan tipe data agar lebih sesuai
- Sellers DataFrame: Aman

### **3. Cleaning Data**
Pada tahap ini, kita akan melakukan pembersihan data untuk memastikan kualitas data sebelum melakukan analisis lebih lanjut. Ada beberapa langkah yang bisa dilakukan, seperti:
- Menangani missing value.
- Merubah tipe data kolom agar lebih sesuai.

In [None]:
# Order Items DataFrame

order_items_df['shipping_limit_date'] = pd.to_datetime(order_items_df['shipping_limit_date'])
order_items_df.info()

In [None]:
# Order Reviews DataFrame

order_reviews_df['review_creation_date'] = pd.to_datetime(order_reviews_df['review_creation_date'])
order_reviews_df['review_answer_timestamp'] = pd.to_datetime(order_reviews_df['review_answer_timestamp'])
order_reviews_df.info()

In [None]:
# Orders DataFrame

orders_df['order_purchase_timestamp'] = pd.to_datetime(orders_df['order_purchase_timestamp'])
orders_df['order_approved_at'] = pd.to_datetime(orders_df['order_approved_at'])
orders_df['order_delivered_carrier_date'] = pd.to_datetime(orders_df['order_delivered_carrier_date'])
orders_df['order_delivered_customer_date'] = pd.to_datetime(orders_df['order_delivered_customer_date'])
orders_df['order_estimated_delivery_date'] = pd.to_datetime(orders_df['order_estimated_delivery_date'])

orders_df = orders_df.drop(orders_df[(orders_df['order_status'] == 'delivered') & (orders_df['order_delivered_customer_date'].isna())].index)
print(orders_df['order_status'].value_counts())

orders_df.info()

In [None]:
# Product DataFrame

products_df['product_category_name'].fillna('unknows', inplace=True)
num_cols = ['product_name_lenght', 'product_description_lenght', 'product_photos_qty', 'product_weight_g', 'product_length_cm', 'product_height_cm', 'product_width_cm']
for col in num_cols:
    products_df[col].fillna(products_df[col].median(), inplace=True)

print(products_df.isna().sum())

cols_to_int = ['product_name_lenght', 'product_description_lenght', 'product_photos_qty']
for col in cols_to_int:
    products_df[col] = products_df[col].astype('int64')
    
print(products_df.dtypes)

**Insight:**
- Order Items DataFrame: 
    - Perubahan terhadap tipe data kolom shipping_limit_date, yang awalnya bertipe object menjadi datetime, hal ini perlu dilakukan supaya data tetap baik dan konsisten
- Order Reviews DataFrame: 
    - Perubahan terhadap tipe data kolom review_creation_date & reveiw_answer_timestamp, yang awalnya bertipe object menjadi datetime, hal ini perlu dilakukan supaya data tetap baik dan konsisten
- Order DataFrame: 
    - Perubahan terhadap tipe data kolom order_purchase_timestamp, order_approved_at, order_delivered_carrier_date, order_delivered_customer_date, order_estimated_delivery_date, dari object menjadi datetime
    - Menghapus 1 data yang tidak valid karena statusnya delivered tetapi tidak memiliki tanggal pengiriman dan tanggal penerimaan
- Product DataFrame: 
    - Menangani missing value dengan cara: 
        - mengisi missing value menggunakan median agar data tetap realistis
        - mengisi missing value pada product_category_name dengan unknown
    - Menyesuaikan tipe data agar data lebih sesuai dan konsisten

## **Exploratory Data Analysis (EDA)**

Pada tahap ini kita akan melakukan Exploratory Data Analysis (EDA) untuk menggali lebih dalam pola, tren, dan hubungan antar variabel dalam dataset E-Commerce. Pada tahap EDA, kita akan fokus untuk menjawab tiga pertanyaan bisnis yang telah ditentukan:
1. **Bagaimana performa penjualan dan revenue perusahaan dalam beberapa bulan terakhir?**
2. **Bagaimana tingkat kepuasan pelanggan terhadap produk dan layanan dalam beberapa bulan terakhir?**
3. **Bagaimana demografi pelanggan perusahaan, seperti lokasi state dan lokasi kota?**

Untuk masing-masing pertanyaan, kita akan melakukan analisis terperinci menggunakan visualisasi data dan statistik deskriptif.

### **1. Bagaimana performa penjualan dan revenue perusahaan dalam beberapa bulan terakhir?**
**Tujuan:**<br>
Menganalisis tren jumlah pesanan dan pendapatan dalam beberapa bulan terakhir

**Langkah Analisis:**<br>
- Agregasi jumlah pesanan dan total revenue per bulan
- Visualisasi tren penjualan dan revenue
- Identifikasi bulan dengan performa terbaik dan terburuk

In [None]:
orders_delivered = orders_df[orders_df['order_status'] == 'delivered']

orders_delivered['order_month'] = orders_delivered['order_purchase_timestamp'].dt.to_period('M')

sales_per_month = orders_delivered.groupby('order_month').size().reset_index(name='total_orders')
print(sales_per_month)

revenue_df = orders_delivered.merge(order_payments_df, on='order_id', how='left')

revenue_per_month = revenue_df.groupby('order_month')['payment_value'].sum().reset_index()
print(revenue_per_month)

In [None]:
product_sales = order_items_df.groupby('product_id')['order_id'].count().reset_index()
product_sales = product_sales.rename(columns={'order_id': 'total_sold'})
product_sales = product_sales.sort_values(by='total_sold', ascending=False)

most_sold_product = product_sales.iloc[0]

product_sales = product_sales.merge(products_df[['product_id', 'product_category_name']], on='product_id', how='left')

product_sales = product_sales.merge(product_category_name_translation_df, on='product_category_name', how='left')
print(product_sales)


**Insight:**<br>
Bisa dilihat pada line chart yang dihasilkan di atas, bahwa jumlah penjualan semakin naik seiring berjalannya waktu, meskipun pada beberapa waktu mengalami penurunan yang tidak terlalu signifikan kemudian menjadi stabil kembali. Jumlah Pembelian terbanyak terjadi pada bulan November 2017. Begitu pula dengan jumlah pendapatan terbanyak terjadi pada bulan November 2017. Serta kategori product yang paling banyak terjual adalah kategori Furniture Decor.

### **2. Bagaimana tingkat kepuasan pelanggan terhadap produk dalam beberapa bulan terakhir?**
**Tujuan:**<br>
Menilai kepuasan pelanggan berdasarkan rating review produk

**Langkah Analisis:**<br>
- Analisis rata-rata review_score per bulan
- Distribusi skor review (berapa banyak bintang 1, 2, 3, dst.)
- Cek korelasi antara review_score dan keterlambatan pengiriman (apakah keterlambatan memengaruhi rating?)
- Visualisasi tren kepuasan pelanggan

In [None]:
order_reviews_df.info()

review_distribution = order_reviews_df['review_score'].value_counts().sort_index()
print(review_distribution)

print(order_reviews_df['review_creation_date'].min(), order_reviews_df['review_creation_date'].max())

order_reviews_df['review_month'] = order_reviews_df['review_creation_date'].dt.to_period('M')

avg_rating_per_month = order_reviews_df.groupby('review_month')['review_score'].mean().reset_index()
print(avg_rating_per_month.head())

order_reviews_df[order_reviews_df['review_score'] == 1]['review_comment_message'].dropna().sample(50)


**Insight:**<br>
Bisa dilihat pada bar chart yang dihasilkan di atas, mayoritas pelanggan memberikan rating yang memuaskan. Ini menunjukkan bahwa produk atau layanan yang ditawarkan sudah cukup baik dan memuaskan kebanyakan pelanggan. Berdasarkan grafik rata-rata rating per bulan, menunjukkan bahwa rata-rata rating selama kurang lebih 1 tahun stabil di sekitar 4,5. Namun, perlu diperhatikan bahwa ada beberapa pelanggan yang memberikan rating kurang memuaskan, yaitu sekitar 15.000 orang, sehingga sangat perlu diperhatikan untuk meningkatkan kualitas produk atau layanan.

### **3. Bagaimana demografi pelanggan perusahaan, seperti lokasi state dan lokasi kota?**
**Tujuan:**<br>
Menilai kepuasan pelanggan berdasarkan rating review produk

**Langkah Analisis:**<br>
- Analisis persebaran lokasi pelanggan berdasarkan state dan city
- Visualisasi dalam bentuk bar chart / pie chart

In [None]:
customer_per_state = customers_df['customer_state'].value_counts()
print(customer_per_state)

customer_per_city = customers_df['customer_city'].value_counts().head(10)
print(customer_per_city)

revenue_per_state = orders_df.merge(order_payments_df, on='order_id').merge(customers_df, on='customer_id') \
    .groupby('customer_state')['payment_value'].sum().sort_values(ascending=False)

print(revenue_per_state)

**Insight:**<br>
Bisa dilihat pada bar chart yang dihasilkan di atas, bahwa state dan kota yang memiliki jumlah pelanggan paling banyak beturut-turut adalah State of Sao Paulo (SP) dan kota Sao Paulo. Dengan hal ini pendapatan terbanyak berasal dari State of Sao Paulo (SP), khususnya kota Sao Paulo.

## **Data Visualization & Explanatory Analysis**

Pada tahap ini kita akan menyajikan visualisasi yang lebih mendalam serta menganalisis temuan utama dari tahap EDA. Analisis ini bertujuan untuk Menampilkan hasil analisis dengan visualisasi yang mudah dipahami, supaya audeiens atau stakeholder(pemangku kepentingan) dapat memahami insight yang ditemukan.

### **1. Bagaimana performa penjualan dan revenue perusahaan dalam beberapa bulan terakhir?**

In [None]:
plt.figure(figsize=(12,5))
plt.plot(sales_per_month['order_month'].astype(str), sales_per_month['total_orders'], marker='o', linestyle='-')
plt.xticks(rotation=45)
plt.title('Tren Jumlah Penjualan Per Bulan')
plt.xlabel('Bulan')
plt.ylabel('Total Orders')
plt.grid()
plt.show()

plt.figure(figsize=(12,5))
plt.plot(sales_per_month['order_month'].astype(str), revenue_per_month['payment_value'], marker='o', linestyle='-', color='red')
plt.xticks(rotation=45)
plt.title('Tren Revenue Per Bulan Dalam Brazilian Real (BRL)')
plt.xlabel('Bulan')
plt.ylabel('Total Revenue')
plt.grid()
plt.gca().yaxis.set_major_formatter(mtc.FuncFormatter(lambda x, _: f'{x:,.0f}'))
plt.show()

plt.figure(figsize=(12, 5))
sns.barplot(x='total_sold', y='product_category_name_english', data=product_sales.head(10), palette='Blues_r')
plt.xlabel("Jumlah Terjual")
plt.ylabel("Kategori Produk")
plt.title("10 Kategori Produk Terlaris")
plt.show()

**Insight:**<br>
- Jumlah penjualan terbanyak adalah pada bulan November 2017, dengan 7288 penjualan. Ini menunjukkan bahwa beberapa produk sangat populer di bulan tersebut
- Jumlah penjualan terendah adalah pada bulan September dan Desember 2016, dengan hanya 1 penjualan.
- Jumlah pendapatan terbanyak tentunya adalah pada bulan November 2017, dengan total 1.153.393.22 BRL pada bulan tersebut
- Kategori produk yang paling banyak terjual adalah furniture decor

### **2. Bagaimana tingkat kepuasan pelanggan terhadap produk dan layanan dalam beberapa bulan terakhir?**

In [None]:
plt.figure(figsize=(8,5))
sns.barplot(x=review_distribution.index, y=review_distribution.values, palette='coolwarm')
plt.xlabel('Review Score')
plt.ylabel('Jumlah Ulasan')
plt.title('Distribusi Rating Pelanggan')
plt.grid()
plt.show()

plt.figure(figsize=(12,5))
plt.bar(avg_rating_per_month['review_month'].astype(str), avg_rating_per_month['review_score'], color='blue', alpha=0.7)
plt.xticks(rotation=45)
plt.xlabel('Bulan')
plt.ylabel('Rata-rata Rating')
plt.title('Tren Rata-rata Rating Per Bulan')
plt.grid(axis='y')
plt.show()

**Insight:**<br>
- Sebanyak 57328 pengguna memberikan rating yang sempurna (5)
- Rata-rata penilaian selama kurang lebih 1 tahun stabil berada di angka sekitar 4.5

### **3. Bagaimana demografi pelanggan perusahaan, seperti lokasi state dan lokasi kota?**

In [None]:
plt.figure(figsize=(12, 6))
sns.barplot(x=customer_per_state.index, y=customer_per_state.values, palette="viridis")
plt.xticks(rotation=45)
plt.title('Sebaran Pelanggan Berdasarkan State')
plt.xlabel('State')
plt.ylabel('Jumlah Pelanggan')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

plt.figure(figsize=(12, 6))
sns.barplot(x=customer_per_state.index, y=revenue_per_state.values)
plt.xticks(rotation=45)
plt.title('Performa Penjualan Berdasarkan State Dalam Brazilian Real (BRL)')
plt.xlabel('State')
plt.ylabel('Jumlah Pendapatan')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.gca().yaxis.set_major_formatter(mtc.FuncFormatter(lambda x, _: f'{x:,.0f}'))
plt.show()

plt.figure(figsize=(12, 6))
sns.barplot(x=customer_per_city.index, y=customer_per_city.values, palette="coolwarm")
plt.xticks(rotation=45)
plt.title('Top 10 Kota dengan Pelanggan Terbanyak')
plt.xlabel('Kota')
plt.ylabel('Jumlah Pelanggan')
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

**Insight:**<br>
- Pendapatan terbanyak berasal dari State of Sao Paulo, dengan total pendapatan 5.997.042.04 BRL
- State dengan pelanggan terbanyak adalahState of São Paulo, dengan total 41746 pengguna
- Kota dengan pelanggan terbanyak adalah Kota São Paulo, dengan total 15540 pengguna

## **Conclusion dari Analisis Data E-Commerce**

1. **Performa Penjualan & Revenue Perusahaan**
    - Bulan November 2017 mencatat jumlah penjualan tertinggi, yaitu 7288 penjualan. Ini menunjukkan adanya lonjakan permintaan, kemungkinan akibat promosi atau event tertentu
    - Sebaliknya, bulan September dan Desember 2016 memiliki penjualan terendah, hanya 1 transaksi, yang bisa mengindikasikan bahwa platform ini baru mulai beroperasi saat itu
    - Pendapatan tertinggi juga terjadi pada bulan November 2017, dengan total pendapatan sebesar 1.153.393,22 BRL, yang sejalan dengan tingginya jumlah transaksi pada bulan tersebut
    - Produk dalam kategori "furniture decor" adalah yang paling banyak terjual, yang bisa menunjukkan bahwa pelanggan e-commerce ini lebih cenderung membeli produk dekorasi rumah dibanding kategori lainnya

2. **Kepuasan Pelanggan & Review Produk**
    - Sebanyak 57.328 pengguna memberikan rating 5, yang berarti mayoritas pelanggan merasa puas dengan pengalaman belanja mereka
    - Rata-rata rating selama satu tahun cukup stabil di angka sekitar 4.5, menunjukkan bahwa kualitas layanan dan produk secara umum cukup baik

3. **Demografi Pelanggan & Wilayah Penjualan**
    - Pendapatan terbanyak berasal dari State of São Paulo, dengan total pendapatan sebesar 5.997.042,04 BRL, menjadikannya wilayah dengan kontribusi terbesar terhadap revenue perusahaan
    - State of São Paulo juga memiliki jumlah pelanggan terbanyak, dengan 41.746 pengguna
    - Kota dengan pelanggan terbanyak adalah São Paulo, dengan 15.540 pengguna, yang menegaskan bahwa pusat aktivitas e-commerce ini berada di kota besar tersebut

## **Kesimpulan Akhir & Rekomendasi Bisnis**
- **Optimalisasi Penjualan di Bulan November**
    - Mengingat bulan November memiliki penjualan dan pendapatan tertinggi, perusahaan bisa mengulang strategi promosi atau campaign yang sukses di bulan tersebut untuk meningkatkan penjualan pada bulan lainnya
    
- **Fokus pada Produk yang Laris**
    - Karena kategori "furniture decor" paling laris, strategi pemasaran bisa difokuskan lebih banyak pada kategori ini untuk meningkatkan pendapatan lebih lanjut

- **Menjaga Kepuasan Pelanggan**
    - Dengan rating rata-rata stabil di 4.5, perusahaan perlu tetap mempertahankan layanan yang baik, kualitas produk yang tinggi, serta pengiriman yang tepat waktu untuk menjaga kepuasan pelanggan

- **Memanfaatkan Wilayah dengan Permintaan Tinggi**
    - State dan Kota São Paulo merupakan state dengan jumlah palanggan terbanyak, sehingga perusahaan bisa mempertimbangkan strategi pengiriman lebih cepat, gudang lokal, atau penawaran eksklusif bagi pelanggan di wilayah tersebut untuk meningkatkan loyalitas pelanggan