# Proyek Analisis Data: [Input Nama Dataset]
- **Nama:** Danang Agung Restu Aji
- **Email:** Danangrestuaji@gmail.com
- **ID Dicoding:** profdara

## Menentukan Pertanyaan Bisnis

- Produk apa yang paling banyak dibeli pelanggan?
- Kapan waktu penjualan tertinggi terjadi?
- Kota mana yang memiliki volume transaksi tertinggi?
- Berapa rata-rata waktu pengiriman dari pembelian ke penerimaan?
- Metode pembayaran apa yang paling sering digunakan?

## Import Semua Packages/Library yang Digunakan

In [None]:
import os
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

## Data Wrangling

### Gathering Data

In [None]:
# tempat file ZIP yang akan diekstrak
zip_path = "/content/E-commerce-public-dataset.zip"
extract_path = "/content/E-Commerce Public Dataset"

# code ekstrak file
with zipfile.ZipFile(zip_path, "r") as zip_ref:
    zip_ref.extractall(extract_path)
    extracted_files = zip_ref.namelist()

print("Ekstraksi selesai!")

# bagian daftar file yang telah diekstrak
print("Daftar file yang diekstrak:")
for file in extracted_files:
    print(file)


In [None]:
# untuk mengecek file zip diatas apakah bisa terbaca dan tidak eror
dataset_path = "/content/E-Commerce Public Dataset"
file_names = [
    "customers_dataset.csv",
    "geolocation_dataset.csv",
    "order_items_dataset.csv",
    "order_payments_dataset.csv",
    "order_reviews_dataset.csv",
    "orders_dataset.csv",
    "product_category_name_translation.csv",
    "products_dataset.csv",
    "sellers_dataset.csv"
]

# ini untuk bagian reviw semua dataset dan menampilkannya sekilas
datasets = {}
for file_name in file_names:
    file_path = os.path.join(dataset_path, file_name)
    df = pd.read_csv(file_path)
    datasets[file_name] = df
    print(f"\n===== {file_name} =====")
    print(df.head(), "\n")  # Menampilkan 5 baris pertama dari setiap dataset

print("Pembacaan data selesai!")

In [None]:
# Menentukan lokasi file dataset pelanggan
customer_path = "/content/E-Commerce Public Dataset/customers_dataset.csv"

# memasukan dataset ke dalam variabel
customer = pd.read_csv(customer_path)

# bagian menampilkan dataset
customer

In [None]:
# Menentukan lokasi file dataset pelanggan
geolocation_path = "E-Commerce Public Dataset/geolocation_dataset.csv"

# memasukan dataset ke dalam variabel
geolocation = pd.read_csv(geolocation_path)

# bagian menampilkan dataset
geolocation

In [None]:
# Menentukan lokasi file dataset pelanggan
order_items_path = "E-Commerce Public Dataset/order_items_dataset.csv"

# Membaca dataset ke dalam variabel
order_items = pd.read_csv(order_items_path)

# bagian menampilkan dataset
order_items

In [None]:
# Menentukan lokasi file dataset order items
order_items_path = "E-Commerce Public Dataset/order_items_dataset.csv"

# Memasukkan dataset ke dalam variabel
order_items = pd.read_csv(order_items_path)

# Menampilkan dataset
order_items

In [None]:
# Menentukan lokasi file dataset order payments
order_payments_path = "E-Commerce Public Dataset/order_payments_dataset.csv"

# Memasukkan dataset ke dalam variabel
order_payments = pd.read_csv(order_payments_path)

# Menampilkan dataset
order_payments

In [None]:
# Menentukan lokasi file dataset order reviews
order_reviews_path = "E-Commerce Public Dataset/order_reviews_dataset.csv"

# Memasukkan dataset ke dalam variabel
order_reviews = pd.read_csv(order_reviews_path)

# Menampilkan dataset
order_reviews

In [None]:
# Menentukan lokasi file dataset orders
orders_path = "E-Commerce Public Dataset/orders_dataset.csv"

# Memasukkan dataset ke dalam variabel
orders = pd.read_csv(orders_path)

# Menampilkan dataset
orders

In [None]:
# Menentukan lokasi file dataset product category name translation
product_category_translation_path = "E-Commerce Public Dataset/product_category_name_translation.csv"

# Memasukkan dataset ke dalam variabel
product_category_translation = pd.read_csv(product_category_translation_path)

# Menampilkan dataset
product_category_translation

In [None]:
# Menentukan lokasi file dataset products
products_path = "E-Commerce Public Dataset/products_dataset.csv"

# Memasukkan dataset ke dalam variabel
products = pd.read_csv(products_path)

# Menampilkan dataset
products

In [None]:
# Menentukan lokasi file dataset sellers
sellers_path = "E-Commerce Public Dataset/sellers_dataset.csv"

# Memasukkan dataset ke dalam variabel
sellers = pd.read_csv(sellers_path)

# Menampilkan dataset
sellers

**Insight:**

customers_dataset.csv berisi Profil pelanggan.
- info pelanggan: ID unik, kota, dan provinsi. 
- customer_id bisa berulang untuk customer_unique_id, menandakan pelanggan bisa memiliki beberapa transaksi/order.
- Berguna untuk menganalisis distribusi pelanggan per lokasi (customer_city, customer_state).
- ID pelanggan tidak unik terhadap kota, berarti beberapa kota bisa memiliki banyak pelanggan. Dapat dianalisis distribusi pelanggan per kota dan negara bagian.


geolocation_dataset.csv berisi Koordinat lokasi (tidak hanya pelanggan).
- Berisi koordinat (latitude, longitude) per kode pos.
- Bukan hanya untuk pelanggan, tapi semua entitas (penjual juga bisa muncul).
- Bisa digunakan untuk menghitung jarak fisik antara penjual dan pembeli, atau memetakan distribusi geografis.
- Termasuk titik koordinat (lat/lng), digunakan untuk menghitung jarak penjual-pelanggan atau distribusi spasial.


order_items_dataset.csv berisi Detail item per order (multi-row per order).
- Setiap baris = satu produk dalam satu pesanan (1 pesanan bisa punya banyak baris).
- Memuat product_id, seller_id, harga (price) dan ongkir (freight_value), serta batas pengiriman (shipping_limit_date).
- Data penting untuk menghitung: total item per order, penjual paling aktif, dan nilai order.
- Beberapa order memiliki lebih dari 1 produk (order_id tidak unik). Dapat dianalisis keranjang rata-rata & produk populer.


order_payments_dataset.csv berisi Metode & jumlah pembayaran. Dapat menunjukkan metode pembayaran populer & distribusi jumlah pembayaran.
- Satu order bisa memiliki beberapa metode pembayaran (tapi biasanya 1).
- Menyediakan jenis pembayaran (payment_type), jumlah pembayaran, dan cicilan (payment_installments).
- Bisa digunakan untuk analisis preferensi pembayaran dan korelasi antara metode pembayaran dan nilai pembelian.

order_reviews_dataset.csv berisi Ulasan dan rating.
Rating (1-5), review headline dan komentar. 
- Review pelanggan: nilai rating (review_score) + komentar.
- Banyak nilai NaN pada review_comment_message, berarti tidak semua memberikan komentar tertulis.
- Cocok untuk analisis sentimen dan korelasi antara pengalaman dan keterlambatan pengiriman.

orders_dataset.csv berisi Status, tanggal order, pengiriman.
-Informasi lengkap alur transaksi: waktu beli, disetujui, dikirim, diterima.
-Lama pemrosesan (order_approved_at - order_purchase_timestamp)
- Lama pengiriman (order_delivered_customer_date - order_delivered_carrier_date)
- Keterlambatan (order_estimated_delivery_date vs order_delivered_customer_date)
- Bisa untuk analisis durasi pengiriman dan analisis keterlambatan.

product_category_name_translation.csv berisi Penerjemahan kategori produk.
- Kamus terjemahan dari product_category_name (Portugis) ke Inggris.
- Digunakan untuk interpretasi dan visualisasi kategori produk dengan lebih mudah.
- Konversi kategori produk dari Portugis ke Inggris. Penting untuk visualisasi dan interpretasi.


products_dataset.csv berisi Informasi produk, termasuk dimensi.
bisa digunakan untuk menghitung volume atau hubungan dengan biaya pengiriman.
- Info produk: dimensi, berat, jumlah foto.
- Analisis hubungan antara ukuran produk dan ongkir (freight_value)


sellers_dataset.csv berisi Data penjual dan lokasi.
- Info penjual: ID, kota, dan provinsi.
Bisa digunakan untuk melihat distribusi penjual secara geografis.

### Assessing Data

**Insight:**
- xxx
- xxx

### Cleaning Data

**Insight:**
- xxx
- xxx

## Exploratory Data Analysis (EDA)

### Explore ...

**Insight:**
- xxx
- xxx

## Visualization & Explanatory Analysis

### Pertanyaan 1:

### Pertanyaan 2:

**Insight:**
- xxx
- xxx

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1
- Conclution pertanyaan 2