# Proyek Analisis Data: E-Commerce Public Dataset
- **Nama:** Faaris Muda Dwi Nugraha
- **Email:** faarismudadwinugraha@gmail.com / faarismudawork@gmail.com
- **ID Dicoding:** faarismuda

## Menentukan Pertanyaan Bisnis

- ***Bagaimana distribusi penjualan produk berdasarkan kategori dan lokasi geografis (kota) selama tahun 2017?***
    - **Specific**: Fokus pada penjualan produk, kategori produk, dan lokasi geografis (kota).
    - **Measurable**: Dapat diukur dengan menghitung jumlah penjualan atau revenue per kategori produk di setiap kota.
    - **Action-oriented**: Membantu dalam mengidentifikasi kategori produk yang populer di setiap kota dan merencanakan strategi penjualan yang lebih terarah, misalnya dengan menyesuaikan stok barang atau promosi di setiap wilayah.
    - **Relevant**: Relevan untuk memahami performa penjualan dan potensi pasar di berbagai wilayah.
    - **Time-bound**: Difokuskan pada data penjualan selama tahun 2017.

- ***Berapa rata-rata waktu pengiriman produk dari penjual ke pelanggan, dan bagaimana pengaruh jarak geografis antara penjual dan pelanggan terhadap waktu pengiriman tersebut?***
    - **Specific**: Fokus pada waktu pengiriman produk dan pengaruh jarak geografis.
    - **Measurable**: Dapat diukur dengan menghitung rata-rata waktu pengiriman dan menganalisis korelasi antara jarak dan waktu pengiriman.
    - **Action-oriented**: Membantu dalam mengidentifikasi area dengan waktu pengiriman yang lama dan mengevaluasi efisiensi pengiriman. Dapat digunakan untuk mengoptimalkan strategi logistik, misalnya dengan mencari alternatif jasa pengiriman atau menempatkan gudang di lokasi yang strategis.
    - **Relevant**: Relevan untuk meningkatkan efisiensi operasional dan kepuasan pelanggan.
    - **Time-bound**: Data yang digunakan mencakup seluruh periode dalam dataset.

- ***Bagaimana skor ulasan produk berhubungan dengan harga produk dan kategori produk? Apakah produk dengan harga lebih tinggi cenderung mendapatkan skor ulasan yang lebih tinggi?***
    - **Specific**: Fokus pada hubungan antara skor ulasan, harga produk, dan kategori produk.
    - **Measurable**: Dapat diukur dengan menganalisis korelasi antara skor ulasan dan harga produk, serta membandingkan rata-rata skor ulasan untuk setiap kategori produk.
    - **Action-oriented**: Membantu dalam memahami faktor-faktor yang memengaruhi kepuasan pelanggan dan menentukan strategi penetapan harga yang tepat.
    - **Relevant**: Relevan untuk meningkatkan kualitas produk dan memaksimalkan kepuasan pelanggan.
    - **Time-bound**: Data yang digunakan mencakup seluruh periode dalam dataset.

- ***Bagaimana karakteristik pelanggan (lokasi, riwayat pembelian) yang memberikan ulasan positif dan ulasan negatif?***
    - **Specific**: Fokus pada karakteristik pelanggan yang memberikan ulasan positif dan negatif.
    - **Measurable**: Dapat diukur dengan menganalisis data demografi pelanggan, riwayat pembelian, dan skor ulasan.
    - **Action-oriented**: Membantu dalam mengidentifikasi segmen pelanggan yang puas dan tidak puas, serta merencanakan strategi untuk meningkatkan kepuasan pelanggan.
    - **Relevant**: Relevan untuk memahami kebutuhan dan preferensi pelanggan.
    - **Time-bound**: Data yang digunakan mencakup seluruh periode dalam dataset.


## Import Semua Packages/Library yang Digunakan

In [None]:
import pandas as pd

## Data Wrangling

### Gathering Data

In [None]:
# Baca data dari file CSV
customers_df = pd.read_csv("Dataset/customers_dataset.csv")
geolocation_df = pd.read_csv("Dataset/geolocation_dataset.csv")
order_items_df = pd.read_csv("Dataset/order_items_dataset.csv")
order_payments_df = pd.read_csv("Dataset/order_payments_dataset.csv")
order_reviews_df = pd.read_csv("Dataset/order_reviews_dataset.csv")
orders_df = pd.read_csv("Dataset/orders_dataset.csv")
product_category_name_translation_df = pd.read_csv("Dataset/product_category_name_translation.csv")
products_df = pd.read_csv("Dataset/products_dataset.csv")
sellers_df = pd.read_csv("Dataset/sellers_dataset.csv")

In [None]:
# --- Pertanyaan 1: Distribusi penjualan berdasarkan kategori dan lokasi ---
# Gabungkan order_items dengan products
sales_df = pd.merge(order_items_df, products_df, on='product_id')

# Gabungkan dengan orders
sales_df = pd.merge(sales_df, orders_df, on='order_id')

# Gabungkan dengan customers
sales_df = pd.merge(sales_df, customers_df, on='customer_id')


# --- Pertanyaan 2: Waktu pengiriman dan pengaruh jarak ---
# Gabungkan orders dengan order_items
delivery_df = pd.merge(orders_df, order_items_df, on='order_id')

# Gabungkan dengan sellers
delivery_df = pd.merge(delivery_df, sellers_df, on='seller_id')

# Gabungkan dengan customers
delivery_df = pd.merge(delivery_df, customers_df, on='customer_id')

# Gabungkan dengan geolocation (2 kali, untuk seller dan customer)
delivery_df = pd.merge(delivery_df, geolocation_df,
                       left_on='seller_zip_code_prefix', right_on='geolocation_zip_code_prefix',
                       suffixes=('_seller', '_customer'))

delivery_df = pd.merge(delivery_df, geolocation_df,
                       left_on='customer_zip_code_prefix', right_on='geolocation_zip_code_prefix',
                       suffixes=('_seller', '_customer'))


# --- Pertanyaan 3: Hubungan skor ulasan, harga, dan kategori produk ---
# Gabungkan order_reviews dengan order_items
reviews_df = pd.merge(order_reviews_df, order_items_df, on='order_id')

# Gabungkan dengan products
reviews_df = pd.merge(reviews_df, products_df, on='product_id')


# --- Pertanyaan 4: Karakteristik pelanggan dan ulasan ---
# Gabungkan order_reviews dengan orders
customer_reviews_df = pd.merge(order_reviews_df, orders_df, on='order_id')

# Gabungkan dengan customers
customer_reviews_df = pd.merge(customer_reviews_df, customers_df, on='customer_id')

In [None]:
# --- Tampilkan beberapa baris pertama dari setiap DataFrame ---
print("Sales DataFrame:")
print(sales_df.head())

print("\nDelivery DataFrame:")
print(delivery_df.head())

print("\nReviews DataFrame:")
print(reviews_df.head())

print("\nCustomer Reviews DataFrame:")
print(customer_reviews_df.head())

**Insight:**
- xxx
- xxx

### Assessing Data

**Insight:**
- xxx
- xxx

### Cleaning Data

**Insight:**
- xxx
- xxx

## Exploratory Data Analysis (EDA)

### Explore ...

**Insight:**
- xxx
- xxx

## Visualization & Explanatory Analysis

### Pertanyaan 1:

### Pertanyaan 2:

**Insight:**
- xxx
- xxx

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1
- Conclution pertanyaan 2