# Proyek Analisis Data: E-Commerce Public Dataset
- **Nama:** Faaris Muda Dwi Nugraha
- **Email:** faarismudadwinugraha@gmail.com / faarismudawork@gmail.com
- **ID Dicoding:** faarismuda

## Menentukan Pertanyaan Bisnis

**1. "Bagaimana performa rata-rata waktu pengiriman di tiap kota pada tahun 2017, dan apakah ada kota dengan waktu pengiriman lebih dari 10 hari yang dapat memperburuk kepuasan pelanggan?"**

- **Specific**: Fokus pada analisis waktu pengiriman di tiap kota pada tahun 2017.
- **Measurable**: Mengukur rata-rata waktu pengiriman dan identifikasi kota dengan waktu pengiriman lebih dari 10 hari.
- **Action-oriented**: Dapat digunakan untuk mengidentifikasi area yang memerlukan perbaikan dalam hal logistik dan pengiriman.
- **Relevant**: Mengoptimalkan waktu pengiriman untuk meningkatkan pengalaman pelanggan dan kepuasan.
- **Time-bound**: Membatasi analisis pada tahun 2017.

**Teknik Analisis Lanjutan**:
- **Geospatial Analysis**: Menganalisis lokasi dan waktu pengiriman menggunakan data dari `orders_dataset.csv` dan `geolocation_dataset.csv`.
    - Membuat **heatmap** untuk menunjukkan waktu pengiriman di setiap kota.
    - Menghitung **rata-rata waktu pengiriman** per kota dan mengidentifikasi **outlier**.


**2. "Apa hubungan antara frekuensi pembelian pelanggan dan total pengeluaran mereka di tahun 2017, dan bagaimana pola ini memengaruhi segmentasi pelanggan yang paling menguntungkan?"**

- **Specific**: Fokus pada analisis frekuensi pembelian dan total pengeluaran pelanggan di tahun 2017.
- **Measurable**: Menghitung frekuensi pembelian dan total pengeluaran pelanggan.
- **Action-oriented**: Membantu dalam membuat strategi pemasaran yang ditujukan untuk segmen pelanggan yang menguntungkan.
- **Relevant**: Penting untuk strategi retensi pelanggan dan peningkatan pendapatan.
- **Time-bound**: Fokus pada data tahun 2017.

**Teknik Analisis Lanjutan**:
- **RFM Analysis**: Mengukur **recency**, **frequency**, dan **monetary** untuk memahami segmentasi pelanggan berdasarkan perilaku pembelian.
    - Menganalisis data `orders_dataset.csv` dan `order_items_dataset.csv` untuk menghitung **frekuensi** dan **total pengeluaran**.
    - Segmentasi pelanggan berdasarkan frekuensi pembelian dan total pengeluaran untuk mengidentifikasi kelompok yang paling menguntungkan.


**3. "Produk kategori mana yang memberikan kontribusi terbesar terhadap pendapatan perusahaan selama Q1 2017, dan apakah ada kategori dengan tingkat pengembalian produk (return rate) yang lebih tinggi?"**

- **Specific**: Fokus pada kontribusi pendapatan berdasarkan kategori produk selama Q1 2017.
- **Measurable**: Menghitung kontribusi pendapatan dari tiap kategori produk dan mengukur tingkat pengembalian produk.
- **Action-oriented**: Menyediakan informasi untuk perbaikan manajemen inventaris dan pengelolaan kategori produk.
- **Relevant**: Membantu dalam memprioritaskan kategori produk untuk strategi pemasaran dan pengelolaan produk.
- **Time-bound**: Fokus pada periode Q1 2017.

**Teknik Analisis Lanjutan**:
- **Clustering**: Mengelompokkan produk berdasarkan kategori dan kontribusi pendapatan untuk melihat pola kategori yang lebih menguntungkan.
    - Menganalisis data `products_dataset.csv` dan `order_items_dataset.csv` untuk menghitung kontribusi pendapatan berdasarkan kategori produk.
    - Mengukur **tingkat pengembalian produk** dan mengidentifikasi kategori dengan **return rate** tinggi.


**4. "Bagaimana ulasan pelanggan terhadap produk kesehatan dan kecantikan pada tahun 2017, dan apakah ada kategori produk dengan skor ulasan rata-rata di bawah 3 yang perlu diperbaiki?"**

- **Specific**: Fokus pada analisis ulasan pelanggan untuk produk kategori kesehatan dan kecantikan pada tahun 2017.
- **Measurable**: Menghitung skor ulasan rata-rata untuk produk di kategori kesehatan dan kecantikan.
- **Action-oriented**: Memberikan wawasan untuk memperbaiki kualitas produk atau pelayanan di kategori yang memiliki skor rendah.
- **Relevant**: Mengoptimalkan produk di kategori penting untuk meningkatkan kepuasan pelanggan.
- **Time-bound**: Analisis terbatas pada tahun 2017.

**Teknik Analisis Lanjutan**:
- **Sentiment Analysis**: Menganalisis sentimen ulasan pelanggan dengan data dari `order_reviews_dataset.csv` dan `products_dataset.csv` untuk produk kesehatan dan kecantikan.
    - Menghitung skor ulasan rata-rata dan mengidentifikasi produk dengan skor ulasan rendah (di bawah 3).
    - Menganalisis sentimen positif/negatif untuk memberikan rekomendasi perbaikan pada produk.


**5. "Bagaimana pengaruh metode pembayaran terhadap waktu pengiriman pesanan, dan apakah ada metode pembayaran yang berhubungan dengan waktu pengiriman lebih lama dari rata-rata?"**

- **Specific**: Fokus pada pengaruh metode pembayaran terhadap waktu pengiriman.
- **Measurable**: Mengukur hubungan antara metode pembayaran dan waktu pengiriman.
- **Action-oriented**: Menyediakan informasi untuk menyesuaikan metode pembayaran dengan efisiensi pengiriman.
- **Relevant**: Membantu dalam pengelolaan proses pengiriman dan pengalaman pelanggan.
- **Time-bound**: Fokus pada data tahun 2017.

**Teknik Analisis Lanjutan**:
- **Cross-tabulation Analysis**: Menganalisis hubungan antara metode pembayaran dan waktu pengiriman menggunakan data dari `order_payments_dataset.csv` dan `orders_dataset.csv`.
    - Menghitung **waktu pengiriman rata-rata** untuk setiap metode pembayaran.
    - Mengidentifikasi pola yang mengindikasikan metode pembayaran yang berhubungan dengan pengiriman lebih lama.

## Import Semua Packages/Library yang Digunakan

In [8]:
import pandas as pd
import os

## Data Wrangling

### Gathering Data

In [22]:
# Fungsi untuk membaca file CSV, jika tidak ditemukan di direktori utama, cari di folder "Dataset"
def read_csv_with_fallback(filename):
    try:
        # Mencoba membaca file dari direktori utama
        return pd.read_csv(filename)
    except FileNotFoundError:
        # Jika file tidak ditemukan, mencoba di folder "Dataset"
        if os.path.exists("Dataset"):
            try:
                return pd.read_csv(os.path.join("Dataset", filename))
            except FileNotFoundError:
                print(f"Error: File '{filename}' tidak ditemukan di folder 'Dataset'.")
                return None
        else:
            print("Error: Folder 'Dataset' tidak ditemukan.")
            return None

# Baca data dari file CSV
customers_df = read_csv_with_fallback("customers_dataset.csv")
geolocation_df = read_csv_with_fallback("geolocation_dataset.csv")
order_items_df = read_csv_with_fallback("order_items_dataset.csv")
order_payments_df = read_csv_with_fallback("order_payments_dataset.csv")
order_reviews_df = read_csv_with_fallback("order_reviews_dataset.csv")
orders_df = read_csv_with_fallback("orders_dataset.csv")
product_category_name_translation_df = read_csv_with_fallback("product_category_name_translation.csv")
products_df = read_csv_with_fallback("products_dataset.csv")
sellers_df = read_csv_with_fallback("sellers_dataset.csv")

In [23]:
# --- Pertanyaan 1: Performa Waktu Pengiriman di Tiap Kota ---
# Gabungkan orders dengan customers (left join)
delivery_time_df = pd.merge(orders_df, customers_df, on='customer_id', how='left')

In [24]:
# --- Pertanyaan 2: Hubungan Frekuensi Pembelian dan Total Pengeluaran ---
# Gabungkan orders dengan order_items (inner join)
customer_spending_df = pd.merge(orders_df, order_items_df, on='order_id', how='inner')

# Gabungkan dengan customers (inner join)
customer_spending_df = pd.merge(customer_spending_df, customers_df, on='customer_id', how='inner')

In [25]:
# --- Pertanyaan 3: Kontribusi Kategori Produk dan Return Rate ---
# Gabungkan order_items dengan products (inner join)
product_revenue_df = pd.merge(order_items_df, products_df, on='product_id', how='inner')

# Gabungkan dengan orders (left join) untuk mendapatkan informasi order_status
product_revenue_df = pd.merge(product_revenue_df, orders_df, on='order_id', how='left')

In [26]:
# --- Pertanyaan 4: Ulasan Produk Kesehatan dan Kecantikan ---
# Gabungkan order_reviews dengan orders (inner join)
health_beauty_reviews_df = pd.merge(order_reviews_df, orders_df, on='order_id', how='inner')

# Gabungkan dengan order_items (inner join)
health_beauty_reviews_df = pd.merge(health_beauty_reviews_df, order_items_df, on='order_id', how='inner')

# Gabungkan dengan products (inner join)
health_beauty_reviews_df = pd.merge(health_beauty_reviews_df, products_df, on='product_id', how='inner')

# Gabungkan dengan product_category_name_translation (inner join)

In [27]:
# --- Pertanyaan 5: Pengaruh Metode Pembayaran terhadap Waktu Pengiriman ---
# Gabungkan orders dengan order_payments (outer join)
payment_delivery_df = pd.merge(orders_df, order_payments_df, on='order_id', how='outer')

In [13]:
# Mengonversi kolom tanggal menjadi format datetime
orders_df['order_purchase_timestamp'] = pd.to_datetime(orders_df['order_purchase_timestamp'])
orders_df['order_delivered_customer_date'] = pd.to_datetime(orders_df['order_delivered_customer_date'])

# Menghitung waktu pengiriman
orders_df['delivery_time_days'] = (orders_df['order_delivered_customer_date'] - orders_df['order_purchase_timestamp']).dt.days

# Menggabungkan data orders dengan customers berdasarkan customer_id
merged_df = pd.merge(orders_df, customers_df, on='customer_id', how='inner')

# Filter data untuk tahun 2017
merged_df['order_purchase_timestamp'] = pd.to_datetime(merged_df['order_purchase_timestamp'])
merged_2017_df = merged_df[merged_df['order_purchase_timestamp'].dt.year == 2017]

# Menghitung rata-rata waktu pengiriman per kota
avg_delivery_time_per_city = merged_2017_df.groupby('customer_city')['delivery_time_days'].mean().reset_index()

# Menampilkan kota dengan waktu pengiriman lebih dari 10 hari
long_delivery_cities = avg_delivery_time_per_city[avg_delivery_time_per_city['delivery_time_days'] > 10]
print(long_delivery_cities)

      customer_city  delivery_time_days
2        abaetetuba           28.000000
3           abaiara           25.000000
4             abare           15.000000
5            abatia           18.500000
6     abdon batista           14.000000
...             ...                 ...
3285       xinguara           20.250000
3286    xique-xique           15.000000
3287       zacarias           14.500000
3288        ze doca           30.666667
3289         zortea           12.000000

[2557 rows x 2 columns]


In [15]:
# Menggabungkan orders_df dengan order_payments_df berdasarkan order_id
orders_payments_df = pd.merge(orders_df, order_payments_df, on='order_id', how='inner')

# Mengonversi kolom tanggal
orders_payments_df['order_purchase_timestamp'] = pd.to_datetime(orders_payments_df['order_purchase_timestamp'])

# Filter data untuk tahun 2017
orders_payments_2017_df = orders_payments_df[orders_payments_df['order_purchase_timestamp'].dt.year == 2017]

# Menghitung total pengeluaran per pelanggan
total_spending_per_customer = orders_payments_2017_df.groupby('customer_id')['payment_value'].sum().reset_index()

# Menghitung frekuensi pembelian per pelanggan
purchase_frequency_per_customer = orders_payments_2017_df.groupby('customer_id')['order_id'].count().reset_index()

# Menggabungkan frekuensi pembelian dan total pengeluaran
customer_spending_freq_df = pd.merge(total_spending_per_customer, purchase_frequency_per_customer, on='customer_id', how='inner')

# Menampilkan hasil
print(customer_spending_freq_df)


                            customer_id  payment_value  order_id
0      00012a2ce6f8dcda20d059ce98491703         114.74         1
1      000161a058600d5901f007fab4c27140          67.41         1
2      0001fd6190edaaf884bcaf3d49edf079         195.42         1
3      0002414f95344307404f0ace7a26f1d5         179.35         1
4      0004164d20a9e969af783496f3408652          71.80         1
...                                 ...            ...       ...
45096  fff89c8ed4fcf69a823c1d149e429a0b          44.10         1
45097  fffa0238b217e18a8adeeda0669923a3          43.72         1
45098  fffc22669ca576ae3f654ea64c8f36be         101.56         1
45099  ffffa3172527f765de70084a7e53aae8          45.50         1
45100  ffffe8b65bbe3087b653a978c870db99          18.37         1

[45101 rows x 3 columns]


In [17]:
# Menggabungkan order_items_df dengan orders_df berdasarkan order_id
order_items_orders_df = pd.merge(order_items_df, orders_df, on='order_id', how='inner')

# Menggabungkan dengan products_df berdasarkan product_id
order_items_products_df = pd.merge(order_items_orders_df, products_df, on='product_id', how='inner')

# Mengonversi kolom tanggal
order_items_products_df['order_purchase_timestamp'] = pd.to_datetime(order_items_products_df['order_purchase_timestamp'])

# Filter data untuk Q1 2017
order_items_q1_2017_df = order_items_products_df[order_items_products_df['order_purchase_timestamp'].dt.year == 2017]
order_items_q1_2017_df = order_items_q1_2017_df[order_items_q1_2017_df['order_purchase_timestamp'].dt.month <= 3]

# Menghitung total pendapatan per kategori produk
order_items_q1_2017_df['revenue'] = order_items_q1_2017_df['price'] * order_items_q1_2017_df['order_item_id']  # Mengasumsikan harga per item
revenue_per_category = order_items_q1_2017_df.groupby('product_category_name')['revenue'].sum().reset_index()

# Menampilkan kategori produk dengan pendapatan tertinggi
print(revenue_per_category.sort_values(by='revenue', ascending=False))


                             product_category_name   revenue
43                                moveis_decoracao  70604.68
8                                     beleza_saude  63598.38
26                                   esporte_lazer  59328.10
33                              ferramentas_jardim  56443.34
10                                 cama_mesa_banho  53883.97
35                          informatica_acessorios  49407.05
52                              relogios_presentes  47295.07
20                                      cool_stuff  43925.82
5                                       automotivo  37389.70
50                                      perfumaria  33608.59
58                           utilidades_domesticas  33490.78
44                               moveis_escritorio  31023.47
9                                       brinquedos  27366.12
16                                  consoles_games  21222.08
25                                 eletroportateis  20411.31
56                      

In [18]:
# Menggabungkan order_reviews_df dengan orders_df untuk mendapatkan order_id
order_reviews_orders_df = pd.merge(order_reviews_df, orders_df, on='order_id', how='inner')

# Mengonversi kolom tanggal
order_reviews_orders_df['review_creation_date'] = pd.to_datetime(order_reviews_orders_df['review_creation_date'])

# Filter data untuk tahun 2017
order_reviews_2017_df = order_reviews_orders_df[order_reviews_orders_df['review_creation_date'].dt.year == 2017]

# Menggabungkan dengan products_df untuk mendapatkan kategori produk
order_reviews_products_df = pd.merge(order_reviews_2017_df, products_df, on='product_id', how='inner')

# Menghitung rata-rata skor ulasan per kategori produk
avg_review_score_per_category = order_reviews_products_df.groupby('product_category_name')['review_score'].mean().reset_index()

# Menampilkan kategori produk dengan skor ulasan rata-rata di bawah 3
low_score_categories = avg_review_score_per_category[avg_review_score_per_category['review_score'] < 3]
print(low_score_categories)


KeyError: 'product_id'

In [19]:
# Menggabungkan orders_df dengan order_payments_df berdasarkan order_id
orders_payments_df = pd.merge(orders_df, order_payments_df, on='order_id', how='inner')

# Menghitung waktu pengiriman
orders_payments_df['delivery_time_days'] = (orders_payments_df['order_delivered_customer_date'] - orders_payments_df['order_purchase_timestamp']).dt.days

# Menghitung rata-rata waktu pengiriman per metode pembayaran
avg_delivery_time_per_payment_method = orders_payments_df.groupby('payment_type')['delivery_time_days'].mean().reset_index()

# Menampilkan metode pembayaran dengan waktu pengiriman lebih lama dari rata-rata
average_delivery_time = orders_payments_df['delivery_time_days'].mean()
long_delivery_payment_methods = avg_delivery_time_per_payment_method[avg_delivery_time_per_payment_method['delivery_time_days'] > average_delivery_time]
print(long_delivery_payment_methods)


  payment_type  delivery_time_days
0       boleto           13.040071
4      voucher           12.208265


**Insight:**
- xxx
- xxx

### Assessing Data

**Insight:**
- xxx
- xxx

### Cleaning Data

**Insight:**
- xxx
- xxx

## Exploratory Data Analysis (EDA)

### Explore ...

**Insight:**
- xxx
- xxx

## Visualization & Explanatory Analysis

### Pertanyaan 1:

### Pertanyaan 2:

**Insight:**
- xxx
- xxx

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1
- Conclution pertanyaan 2