# Proyek Analisis Data: E-commerce Public Dataset
- **Nama:** Abdillah Dwi Cahya
- **Email:** dwicahya.abdil69@gmail.com
- **ID Dicoding:** dwi_cahya12

## Menentukan Pertanyaan Bisnis

- Bagaimana performa penjualan dan *revenue* dalam beberapa bulan terakhir?
- Bagaimana demografi *customer* dan *seller* yang kita miliki?
- Kategori produk apa yang paling banyak terjual dan paling sedikit terjual?
- Kategori produk apa yang memiliki review terbaik dan terjelek?
- Seberapa sering pembelian produk tiap state dalam beberapa tahun terakhir?
- Berapa banyak uang yang dihabiskan tiap state dalam beberapa tahun terakhir?

## Import Semua Packages/Library yang Digunakan

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Data Wrangling

### Gathering Data

* Memuat file **customers_dataset**

In [None]:
customers_df = pd.read_csv("Dataset/customers_dataset.csv")
customers_df.head()

* Memuat file **sellers_dataset**

In [None]:
sellers_df = pd.read_csv("Dataset/sellers_dataset.csv")
sellers_df.head()

* Memuat file **orders_dataset**

In [None]:
orders_df = pd.read_csv("Dataset/orders_dataset.csv")
orders_df.head()

* Memuat file **order_items_dataset**

In [None]:
order_items_df = pd.read_csv("Dataset/order_items_dataset.csv")
order_items_df.head()

* Memuat file **order_payments_dataset**

In [None]:
order_payments_df = pd.read_csv("Dataset/order_payments_dataset.csv")
order_payments_df.head()

* Memuat file **order_reviews_dataset**

In [None]:
order_reviews_df = pd.read_csv("Dataset/order_reviews_dataset.csv")
order_reviews_df.head()

* Memuat file **product_category_name_translation**

In [None]:
product_category_trans_df = pd.read_csv("Dataset/product_category_name_translation.csv")
product_category_trans_df.head()

* Memuat file **products_dataset**

In [None]:
products_df = pd.read_csv("Dataset/products_dataset.csv")
products_df.head()

### Assessing Data

Menilai data ***customers_df***

* Periksa tipe data dan parameter statistik tiap kolom

In [None]:
customers_df.info()

In [None]:
customers_df.describe(include="all")

* Periksa duplikasi data

In [None]:
print("Jumlah duplikasi : ", customers_df.duplicated().sum())

Menilai data ***sellers_df***

* Periksa tipe data dan parameter statistik tiap kolom

In [None]:
sellers_df.info()

In [None]:
sellers_df.describe(include="all")

* Periksa duplikasi data

In [None]:
print("Jumlah duplikasi : ", sellers_df.duplicated().sum())

Menilai data ***orders_df***

* Periksa tipe data dan parameter statistik tiap kolom

In [None]:
orders_df.info()

In [None]:
orders_df.describe(include="all")

* Periksa *missing value*

In [None]:
orders_df.isna().sum()

* Periksa duplikasi data

In [None]:
print("Jumlah duplikasi : ", orders_df.duplicated().sum())

*Kolom **order_purchase_timestamp**, **order_approved_at**, **order_delivered_carrier_date**, **order_delivered_customer_date**, dan **order_estimated_delivery_date** seharusnya memiliki tipe data **datetime***

Menilai data ***order_items_df***

* Periksa tipe data dan parameter statistik tiap kolom

In [None]:
order_items_df.info()

In [None]:
order_items_df.describe(include="all")

* Periksa *missing value*

In [None]:
order_items_df.isna().sum()

* Periksa duplikasi data *order_id*

In [None]:
print("Jumlah duplikasi 'order_id' : ", order_items_df.duplicated('order_id').sum())

*Didapat data **order_id** duplikat sebanyak **13.984**. Selain itu, kolom **shipping_limit_date** seharusnya memiliki tipe data **datetime***

Menilai data ***order_payments_df***

* Periksa tipe data dan parameter statistik tiap kolom

In [None]:
order_payments_df.info()

In [None]:
order_payments_df.describe(include="all")

* Periksa *missing_value*

In [None]:
order_payments_df.isna().sum()

* Periksa duplikasi data *order_id*

In [None]:
print("Jumlah duplikasi 'order_id' : ", order_payments_df.duplicated('order_id').sum())

*Terdapat **4.446** data **order_id** duplikasi.*

Menilai data ***order_reviews_df***

* Periksa tipe data dan parameter statistik tiap kolom

In [None]:
order_reviews_df.info()

In [None]:
order_reviews_df.describe(include="all")

* Periksa *missing_value*

In [None]:
order_reviews_df.isna().sum()

* Periksa duplikasi data *order_id* dan *review_id*

In [None]:
print("Jumlah duplikasi 'order_id' : ", order_reviews_df.duplicated('order_id').sum())
print("Jumlah duplikasi 'review_id' : ", order_reviews_df.duplicated('review_id').sum())

*Terdapat **551** data duplikasi pada kolom **order_id** dan **814** data duplikasi pada kolom **review_id**. Selain itu, kolom **review_creation_date** dan **review_answer_timestamp** seharusnya memiliki tipe data **datetime**.*

Menilai data ***product_category_trans_df***

* Periksa tipe data dan parameter statistik tiap kolom

In [None]:
product_category_trans_df.info()

In [None]:
product_category_trans_df.describe(include="all")

* Periksa *missing value*

In [None]:
product_category_trans_df.isna().sum()

* Periksa duplikasi data

In [None]:
print("Jumlah duplikasi : ", product_category_trans_df.duplicated().sum())

Menilai data ***products_df***

* Periksa tipe data dan parameter statistik tiap kolom

In [None]:
products_df.info()

In [None]:
products_df.describe(include="all")

* Periksa *missing value*

In [None]:
products_df.isna().sum()

* Periksa duplikasi data

In [None]:
print("Jumlah duplikasi : ", products_df.duplicated('product_id').sum())

*Hampir semua kolom memiliki data missing. Kolom **product_name_lenght**, **product_description_lenght**, dan **product_photos_qty** seharusnya memiliki tipe data **integer**. Terdapat typo pada **product_name_lenght** seharusnya **product_name_length** dan **product_description_lenght** seharusnya **product_description_length***.

### Cleaning Data

Membersihkan data ***orders_df***

* Mengganti tipe data menjadi *datetime*

In [None]:
datetime_columns = ["order_purchase_timestamp", "order_approved_at", "order_delivered_carrier_date", "order_delivered_customer_date", "order_estimated_delivery_date"]

for column in datetime_columns:
    orders_df[column] = pd.to_datetime(orders_df[column])

# Periksa kembali tipe data
orders_df.info()

Membersihkan data ***order_items_df***

* Menghapus duplikasi data

In [None]:
order_items_df.drop_duplicates(subset='order_id', keep='last', inplace=True)

# Periksa kembali duplikasi data
print("Jumlah duplikasi : ", order_items_df.duplicated('order_id').sum())

* Mengubah tipe data menjadi *datetime*

In [None]:
datetime_columns = ["shipping_limit_date"]

for column in datetime_columns:
    order_items_df[column] = pd.to_datetime(order_items_df[column])

# Periksa kembali
order_items_df.info()

Membersihkan data ***order_payments_df***

* Menghapus duplikasi data

In [None]:
order_payments_df.drop_duplicates(subset='order_id', inplace=True)

# Periksa kembali duplikasi data
print("Jumlah duplikasi : ", order_payments_df.duplicated('order_id').sum())

Membersihkan data ***order_reviews_df***

* Menghapus duplikasi data

In [None]:
order_reviews_df.drop_duplicates(subset='order_id', inplace=True)
order_reviews_df.drop_duplicates(subset='review_id', inplace=True)

# Periksa kembali
print("Jumlah duplikasi 'order_id' : ", order_reviews_df.duplicated("order_id").sum())
print("Jumlah duplikasi 'review_id' : ", order_reviews_df.duplicated("review_id").sum())

* Mengubah tipe data menjadi *datetime*

In [None]:
datetime_columns = ["review_creation_date", "review_answer_timestamp"]

for column in datetime_columns:
    order_reviews_df[column] = pd.to_datetime(order_reviews_df[column])

# Periksa kembali
order_reviews_df.info()

Membersihkan data ***products_df***

* Mengganti nama kolom

In [None]:
products_df.rename(columns={
    "product_name_lenght" : "product_name_length",
    "product_description_lenght" : "product_description_length"
}, inplace=True)

* Mengisi *missing value*

***Imputation** missing value* pada kolom **product_weight_g**, **product_length_cm**, **product_height_cm**, dan **product_width_cm** dimana mengisi data yang *missing* dengan mean masing-masing kolom.

In [None]:
imputation_columns = ["product_weight_g", "product_length_cm", "product_height_cm", "product_width_cm"]

for column in imputation_columns:
    products_df[column].fillna(value=products_df[column].mean(), inplace=True)

# Periksa kembali data missing
products_df.isna().sum()

***Imputation** missing value pada kolom **product_name_length**, **product_description_length**, dan **product_photos_qty** dengan nilai **0**.*

In [None]:
imputation_columns = ["product_name_length", "product_description_length", "product_photos_qty"]

for column in imputation_columns:
    products_df[column].fillna(value=0, inplace=True)

# Periksa kembali data missing
products_df.isna().sum()

***Interpolate** missing value* pada kolom **product_category_name** dengan metode **'ffill'**

In [None]:
products_df['product_category_name'].interpolate(method='ffill', inplace=True)

# Periksa kembali
products_df.isna().sum()

* Mengganti tipe data menjadi *integer*

In [None]:
integer_column = ["product_name_length", "product_description_length", "product_photos_qty"]

for column in integer_column:
    products_df[column] = products_df[column].apply(np.int64)

# Periksa kembali
products_df.info()

## Exploratory Data Analysis (EDA)

### Explore ***customers_df*** dan ***orders_df***

* Menggabungkan DataFrame ***customers_df*** dan ***orders_df*** menjadi ***order_customer_df***

In [None]:
order_customer_df = pd.merge(
    left=customers_df,
    right=orders_df,
    how='right',
    left_on="customer_id",
    right_on="customer_id"
)
order_customer_df.head()

In [None]:
# Memeriksa parameter statistik
order_customer_df.describe(include="all")

* Menghitung banyaknya customer tiap *city* dan *state*

In [None]:
order_customer_df.groupby(by="customer_city").customer_id.nunique().sort_values(ascending=False)

In [None]:
order_customer_df.groupby(by="customer_state").customer_id.nunique().sort_values(ascending=False)

*Diperoleh jumlah customer terbanyak berada di city **sao paulo** sebanyak **15.540** customer dan state **SP** sebanyak **41.746** customer*

* Menghitung ***delivery_time*** dengan **selisih** antara **order_purchased_timestamp** dan **order_delivered_customer_date**.

In [None]:
delivery_time = (order_customer_df["order_delivered_customer_date"] - order_customer_df["order_purchase_timestamp"]).apply(lambda x : x.total_seconds())
order_customer_df["delivery_time"] = round(delivery_time/86400)

# Periksa parameter statistik
order_customer_df.describe(include='all')

*Didapat rata-rata pengiriman adalah **12-13 hari** dengan **minimumnya 1 hari** dan **maksimumnya 210 hari***

* Memeriksa kolom **order_status**

In [None]:
order_customer_df.groupby(by="order_status").order_id.nunique().sort_values(ascending=False)

*Terlihat terdapat **625 orderan** yang berstatus **canceled**. Data ini nantinya tidak akan digunakan ketika menghitung performa penjualan dan revenue*.

### Explore ***sellers_df***

* Mengitung banyak seller tiap *city* dan *state*

In [None]:
sellers_df.groupby(by="seller_city").seller_id.nunique().sort_values(ascending=False)

In [None]:
sellers_df.groupby(by="seller_state").seller_id.nunique().sort_values(ascending=False)

*Diperoleh jumlah seller terbanyak berada di city **sao paulo** sebanyak **694** seller dan state **SP** sebanyak **1849** seller*

### Explore ***product_df***

* Menggabungkan DataFrame ***product_category_trans_df*** dan ***products_df*** menjadi ***product_category_df***

In [None]:
product_category_df = pd.merge(
    left=product_category_trans_df,
    right=products_df,
    how='right',
    left_on="product_category_name",
    right_on="product_category_name",
)
product_category_df.head()

In [None]:
# Periksa missing value
product_category_df.isna().sum()

Terdapat data *missing* pada **product_category_name_english**. Sehingga, data yang kosong akan diisi dengan **product_category_name** di baris yang sama.

In [None]:
product_category_df["product_category_name_english"].fillna(value=product_category_df["product_category_name"], inplace=True)

# Periksa kembali
product_category_df.isna().sum()

* Menghapus kolom **product_category_name** dan *rename* **product_category_name_english** menjadi **product_category_name**

In [None]:
# Menghapus kolom 'product_category_name'
product_category_df.drop(["product_category_name"], axis=1, inplace=True)

In [None]:
# Rename kolom 'product_category_name_english' menjadi 'product_category_name'
product_category_df.rename(columns={
    "product_category_name_english" : "product_category_name"
}, inplace=True)
product_category_df.head()

### Explore ***order_items_df***, ***order_payments_df***, dan ***order_reviews_df***

* Menggabungkan DataFrame ketiganya menjadi ***all_orders_df***

In [None]:
all_orders_df = order_items_df.merge(order_payments_df, how='left', on="order_id").merge(order_reviews_df, how='left', on="order_id")

# Rename nama kolom
all_orders_df.rename(columns={
    "order_item_id" : "quantity",
    "payment_value" : "total_price"
}, inplace=True)

all_orders_df.head()

In [None]:
# Periksa parameter statistik
all_orders_df.describe(include="all")

In [None]:
# Periksa missing value
all_orders_df.isna().sum()

Terdapat *missing value* pada **payment_sequential**, **payment_type**, **payment_installments**, dan **total_price**.

Pada **payment_sequential**, **payment_installments**, dan **total_price**, data missing diisi dengan mean masing-masing kolom. Sedangkan **payment_type** akan diisi dengan data yang sering muncul

In [None]:
all_orders_df["payment_sequential"].fillna(value=all_orders_df["payment_sequential"].mean(), inplace=True)
all_orders_df["payment_type"].fillna(value="credit_card", inplace=True)
all_orders_df["payment_installments"].fillna(value=all_orders_df["payment_installments"].mean(), inplace=True)
all_orders_df["total_price"].fillna(value=all_orders_df["total_price"].mean(), inplace=True)

# Periksa kembali
all_orders_df.isna().sum()

* Menggabungkan DataFrame ***product_category_df***, ***sellers_df***, dan ***all_orders_df*** menjadi ***product_descriptions_df***

In [None]:
product_descriptions_df = pd.merge(
    left=product_category_df,
    right=pd.merge(
        left=sellers_df,
        right=all_orders_df,
        how='right',
        left_on="seller_id",
        right_on="seller_id"
    ),
    how='right',
    left_on="product_id",
    right_on="product_id"
)

product_descriptions_df.head()

In [None]:
# Periksa parameter statistik
product_descriptions_df.describe(include="all")

* Memeriksa kategori produk yang mendapatkan review terbagus dan terjelek

In [None]:
product_descriptions_df.groupby(by="product_category_name").agg({
    "review_score" : "mean"
}).sort_values(by="review_score", ascending=False)

*Terlihat bahwa kategori produk dengan **review terbagus** adalah **cds_dvds_musicals** dan **review terjelek** adalah **security_and_services***

### Explore ***all_df***

* Menggabungkan semua DataFrames menjadi satu dalam DataFrames ***all_df***

In [None]:
all_df = pd.merge(
    left = order_customer_df,
    right = product_descriptions_df,
    how = 'left',
    left_on="order_id",
    right_on="order_id"
)

all_df.head()

In [None]:
# Memeriksa parameter statistik
all_df.describe(include="all")

In [None]:
# Memeriksa missing value
all_df.isna().sum()

Terdapat data *missing* pada beberapa kolom. Hal ini kemungkinan mengartikan bahwa **stok produk kosong**. Selanjutnya akan diperiksa 'order_status' yang tidak memiliki 'product_id'

In [None]:
all_df[all_df["product_id"].isna()].groupby(by="order_status").order_id.nunique().sort_values(ascending=False)

Terdapat beberapa 'order_status' yang tidak memiliki 'product_id', dengan didominasi status **unavailable** sebanyak **603 orderan**. Data analis mengansumsikan hal ini dimungkinkan karena **kesalahan sistem** yang menyebabkan **order dapat dibuat sementara stok produk habis**.

* Memeriksa kategori produk yang terjual paling banyak dan paling sedikit

In [None]:
all_df.query("order_status != 'canceled'").groupby(by="product_category_name").agg({
    "order_id" : "nunique",
    "quantity" : "sum",
    "total_price" : "sum"
}).sort_values(by="quantity", ascending=False)

*Diperoleh kategori produk dengan **penjualan tertinggi** adalah **bed_bath_table** dengan terjual **11.247 produk** dan total revenue **1.238.802**. Sedangkan kategori produk dengan **penjualan terendah** adalah **security_and_services** dengan terjual **2 produk** dan total revenue **324***.

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana performa penjualan dan *revenue* dalam beberapa bulan terakhir?

* Membuat DataFrame untuk penjualan per bulan

In [None]:
monthly_orders_df = all_df.query("order_status != 'canceled'").resample(rule='M', on="order_purchase_timestamp").agg({
    "order_id" : "nunique",
    "total_price" : "sum"
})
monthly_orders_df.index = monthly_orders_df.index.strftime('%Y-%m')
monthly_orders_df = monthly_orders_df.reset_index()
monthly_orders_df.rename(columns={
    "order_id" : "order_count",
    "total_price" : "revenue"
}, inplace=True)
monthly_orders_df.sort_values("order_purchase_timestamp", ascending=False)[:13]

* Visualisasi data dengan **line chart**

Data yang akan divisualisasikan adalah penjualan pada **satu tahun terakhir (September 2017 - Agustus 2018)**.

In [None]:
# Visualisasi data performa penjualan
plt.figure(figsize=(10,5))
plt.plot(
    monthly_orders_df["order_purchase_timestamp"][-13:-1],
    monthly_orders_df["order_count"][-13:-1],
    marker='o',
    linewidth=2,
    color="#0277BD"
)
plt.title("Number of Orders per Month in the Past Year", fontsize=20)
plt.xticks(fontsize=9)
plt.yticks(fontsize=10)
plt.show()

*Terlihat bahwa **puncak performa penjualan** berada di bulan **November 2017**. Selain itu, **performa mengalami penurunan** pada bulan **Desember 2017**, **Februari 2018**, **April 2018** dan **Juni 2018***

In [None]:
# Visualisasi data revenue penjualan
plt.figure(figsize=(10,5))
plt.plot(
    monthly_orders_df["order_purchase_timestamp"][-13:-1],
    monthly_orders_df["revenue"][-13:-1],
    marker='o',
    linewidth=2,
    color="#0277BD"
)
plt.title("Revenue per Month in the Past Year (BRL)", fontsize=20)
plt.xticks(fontsize=9)
plt.ylabel("(in Million)")
plt.yticks(fontsize=10)
plt.show()

*Diperoleh bahwa **puncak revenue** berada di bulan **November 2017**, serta penurunan revenue pada bulan **Desember 2017**, **Februari 2018**, **Juni 2018**, dan **Agustus 2018***.

### Pertanyaan 2: Bagaimana demografi *customer* dan *seller* yang kita miliki?

Visualisasi data yang digunakan adalah **Bar Chart**

#### Demografi Customer

* Berdasarkan **City**

Data yang divisualisasikan adalah **10 besar customer terbanyak berdasarkan *city***

In [None]:
# DataFrame customer_city
customer_city_df = all_df.groupby("customer_city").customer_id.nunique().reset_index()
customer_city_df.rename(columns={
    "customer_id" : "customer_count"
}, inplace=True)

# DataFrame 10 besar
top10_customer_city_df = customer_city_df.sort_values(by="customer_count", ascending=False).head(10)

# Visualisasi data
colors = ["#0277BD", "#ACB7BD", "#ACB7BD", "#ACB7BD", "#ACB7BD", "#ACB7BD", "#ACB7BD", "#ACB7BD", "#ACB7BD", "#ACB7BD"]

plt.figure(figsize=(10,5))
sns.barplot(
    x = "customer_count",
    y = "customer_city",
    data = top10_customer_city_df,
    palette=colors
)
plt.title("Top 10 with the Most Customers by City", loc="center", fontsize=15)
plt.xlabel(None)
plt.ylabel(None)
plt.tick_params(axis='y', labelsize=12)
plt.show()

* Berdasarkan **State**

Data yang divisualisasikan adalah **10 besar customer terbanyak berdasarkan *state***

In [None]:
# DataFrame customer_state
customer_state_df = all_df.groupby("customer_state").customer_id.nunique().reset_index()
customer_state_df.rename(columns={
    "customer_id" : "customer_count"
}, inplace=True)

# DataFrame 10 besar
top10_customer_state_df = customer_state_df.sort_values(by="customer_count", ascending=False).head(10)

# Visualisasi data
plt.figure(figsize=(10,5))
sns.barplot(
    x = "customer_count",
    y = "customer_state",
    data = top10_customer_state_df,
    palette=colors
)
plt.title("Top 10 with the Most Customers by State", loc="center", fontsize=15)
plt.xlabel(None)
plt.ylabel(None)
plt.tick_params(axis='y', labelsize=12)
plt.show()

*Didapat bahwa customer terbanyak berada di **Kota Sao Paulo** dan **State SP***.

#### Demografi Seller

* Berdasarkan **City**

Data yang divisualisasikan adalah **10 besar seller terbanyak berdasarkan *city***

In [None]:
# DataFrame seller_city
seller_city_df = all_df.groupby("seller_city").seller_id.nunique().reset_index()
seller_city_df.rename(columns={
    "seller_id" : "seller_count"
}, inplace=True)

# DataFrame 10 besar
top10_seller_city_df = seller_city_df.sort_values(by="seller_count", ascending=False).head(10)

# Visualisasi data
plt.figure(figsize=(10,5))
sns.barplot(
    x = "seller_count",
    y = "seller_city",
    data = top10_seller_city_df,
    palette=colors
)
plt.title("Top 10 with the Most Sellers by City", loc="center", fontsize=15)
plt.xlabel(None)
plt.ylabel(None)
plt.tick_params(axis='y', labelsize=12)
plt.show()

* Berdasarkan **State**

Data yang divisualisasikan adalah **10 besar seller terbanyak berdasarkan state**.

In [None]:
# DataFrame seller_state
seller_state_df = all_df.groupby("seller_state").seller_id.nunique().reset_index()
seller_state_df.rename(columns={
    "seller_id" : "seller_count"
}, inplace=True)

# DataFrame 10 besar
top10_seller_state_df = seller_state_df.sort_values(by="seller_count", ascending=False).head(10)

# Visualisasi data
plt.figure(figsize=(10,5))
sns.barplot(
    x = "seller_count",
    y = "seller_state",
    data = top10_seller_state_df,
    palette=colors
)
plt.title("Top 10 with the Most sellers by State", loc="center", fontsize=15)
plt.xlabel(None)
plt.ylabel(None)
plt.tick_params(axis='y', labelsize=12)
plt.show()

*Sama seperti customer, diperoleh bahwa **Kota** dan **State** dengan **seller terbanyak** adalah **Sao Paulo** dan **SP***.

### Pertanyaan 3: Kategori produk apa yang paling banyak terjual dan paling sedikit terjual?

* Membuat DataFrames kategori produk berdasarkan jumlah penjualan

In [None]:
sum_order_items_df = all_df.query("order_status != 'canceled'").groupby(by="product_category_name").quantity.sum().sort_values(ascending=False).reset_index()
sum_order_items_df

* Visuaisasi data dalam bentuk **Bar Chart**

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(24, 6))
colors = ["#0277BD", "#ACB7BD", "#ACB7BD", "#ACB7BD", "#ACB7BD"]
colors_ = ["#FF2E1F", "#ACB7BD", "#ACB7BD", "#ACB7BD", "#ACB7BD"]

sns.barplot(
    x = "quantity",
    y = "product_category_name",
    data = sum_order_items_df.head(5),
    palette = colors,
    ax = ax[0]
)
ax[0].set_xlabel(None)
ax[0].set_ylabel(None)
ax[0].set_title("Best Performing Product Category", loc="center", fontsize=15)
ax[0].tick_params(axis ='y', labelsize=12)

sns.barplot(
    x = "quantity",
    y = "product_category_name",
    data = sum_order_items_df.sort_values(by="quantity", ascending=True).head(5),
    palette = colors_,
    ax = ax[1]
)
ax[1].set_xlabel(None)
ax[1].set_ylabel(None)
ax[1].invert_xaxis()
ax[1].yaxis.set_label_position("right")
ax[1].yaxis.tick_right()
ax[1].set_title("Worst Performing Product Category", loc="center", fontsize=15)
ax[1].tick_params(axis ='y', labelsize=12)

plt.suptitle("Best and Worst Performing Product Category by Number of Sales", fontsize=20)
plt.show()

*Diperoleh bahwa kategori produk dengan penjualan tertinggi adalah **bed_bath_table** dan penjualan terendah adalah **security_and_services***.

### Pertanyaan 4: Kategori produk apa yang memiliki review terbaik dan terjelek?

* Membuat DataFrame kategori produk berdasarkan review

In [None]:
all_review_df = all_df.query("order_status != 'canceled'").groupby(by="product_category_name").agg({
    "review_score" : "mean"
}).sort_values(by="review_score", ascending=False)
all_review_df.rename(columns={
    "review_score" : "review_average"
}, inplace=True)
all_review_df

* Visualisasi data dalam bentuk **Bar Chart**

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=2, figsize=(24, 6))
colors = ["#FFC91A", "#0277BD", "#0277BD", "#0277BD", "#0277BD"]
colors_ = ["#FF2E1F", "#0277BD", "#0277BD", "#0277BD", "#0277BD"]

sns.barplot(
    x = "review_average",
    y = "product_category_name",
    data = all_review_df.head(5),
    palette = colors,
    ax = ax[0]
)
ax[0].set_xlabel(None)
ax[0].set_ylabel(None)
ax[0].set_title("Best Average Rating Product Category", loc="center", fontsize=15)
ax[0].tick_params(axis ='y', labelsize=12)

sns.barplot(
    x = "review_average",
    y = "product_category_name",
    data = all_review_df.sort_values(by="review_average", ascending=True).head(5),
    palette = colors_,
    ax = ax[1]
)
ax[1].set_xlabel(None)
ax[1].set_ylabel(None)
ax[1].invert_xaxis()
ax[1].yaxis.set_label_position("right")
ax[1].yaxis.tick_right()
ax[1].set_title("Worst Average Rating Product Category", loc="center", fontsize=15)
ax[1].tick_params(axis ='y', labelsize=12)

plt.suptitle("Best and Worst Average Rating Product Category", fontsize=20)
plt.show()

*Diperoleh bahwa kategori produk dengan rata-rata skor review tertinggi adalah **cds_dvds_musicals** dan rata-rata skor review terendah adalah **security_and_services***.

### Pertanyaan 5 dan 6: Seberapa sering pembelian produk tiap state dalam beberapa tahun terakhir? Berapa banyak uang yang dihabiskan tiap state dalam beberapa tahun terakhir?

### RFM Analysis

RFM Analisis kali ini digunakan untuk menjawab pertanyaan 5 dan 6. Pada tahap ini akan dianalisis hanya bagian ***frequency*** dan ***monetary*** di tiap *state*.

* Membuat DataFrame ***rfm_df***

In [None]:
rfm_df = all_df.groupby(by="customer_state", as_index=False).agg({
    "order_purchase_timestamp": "max", # mengambil tanggal order terakhir
    "quantity": "sum", # menghitung jumlah order
    "total_price": "sum" # menghitung jumlah revenue yang dihasilkan
})
rfm_df.columns = ["state", "recent_order_timestamp", "frequency", "monetary"]

# menghitung kapan terakhir pelanggan melakukan transaksi (hari)
rfm_df["recent_order_timestamp"] = rfm_df["recent_order_timestamp"].dt.date
recent_date = all_df["order_purchase_timestamp"].dt.date.max()
rfm_df["recency"] = rfm_df["recent_order_timestamp"].apply(lambda x: (recent_date - x).days)

rfm_df.drop("recent_order_timestamp", axis=1, inplace=True)
rfm_df

* Visualisasi data dengan **Bar Chart**

In [None]:
fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(30, 15))
colors = ["#FFC91A", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD",
          "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD",
          "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD", "#0277BD"]

sns.barplot(
    x = "recency",
    y = "state",
    data = rfm_df.sort_values("recency", ascending=True),
    palette = colors,
    ax = ax[0]
)
ax[0].set_xlabel(None)
ax[0].set_ylabel(None)
ax[0].set_title("By Recency", loc="center", fontsize=15)
ax[0].tick_params(axis ='y', labelsize=14)

sns.barplot(
    x = "frequency",
    y = "state",
    data = rfm_df.sort_values("frequency", ascending=False),
    palette = colors,
    ax = ax[1]
)
ax[1].set_xlabel(None)
ax[1].set_ylabel(None)
ax[1].set_title("By Frequency", loc="center", fontsize=15)
ax[1].tick_params(axis ='y', labelsize=14)

sns.barplot(
    x = "monetary",
    y = "state",
    data = rfm_df.sort_values("monetary", ascending=False),
    palette = colors,
    ax = ax[2]
)
ax[2].set_xlabel(None)
ax[2].set_ylabel(None)
ax[2].set_title("By Monetary", loc="center", fontsize=15)
ax[2].tick_params(axis ='y', labelsize=14)

plt.suptitle("Best State Based on RFM Parameters", fontsize=20)
plt.show()

## Conclusion

- Conclusion pertanyaan 1

    Pada penjualan selama satu tahun terakhir (September 2017 - Agustus 2018), *diperoleh bahwa puncak performa penjualan berada di bulan **November 2017** dengan **7.507 orderan**, dan revenue tertinggi juga berada di bulan yang sama dengan **1.154.856 BRL**. Selain itu, performa mengalami penurunan pada bulan **Desember 2017**, **Februari 2018**, **April 2018** dan **Juni 2018** serta penurunan revenue pada bulan **Desember 2017**, **Februari 2018**, **Juni 2018**, dan **Agustus 2018**.*

- Conclusion pertanyaan 2

    Customer tersebar di **27 negara bagian (*state*)** dan **4.119 kota**, dengan jumlah customer terbanyak berada di kota **Sao Paulo** sebanyak **15.540** customer dan negara bagian **Sao Paulo (SP)** sebanyak **41.746** customer. Selain itu, terdapat pula seller yang tersebar di **23 negara bagian (*state*)** dan **611 kota**, dengan jumlah seller terbanyak berada di kota **Sao Paulo** sebanyak **691** seller dan negara bagian **Sao Paulo (SP)** sebanyak **1.843** seller.

- Conclusion pertanyaan 3

    *E-commerce* telah menjual **73 kategori produk**, dengan **penjualan tertinggi** sebanyak **11.247 produk** dari kategori **bed_bath_table**. Selain itu, kategori produk dengan **penjualan terendah** adalah **security_and_services** sebanyak **2 produk**.

- Conclusion pertanyaan 4

    Dari semua produk yang telah terjual, terdapat **97.431 review** dengan **rata-rata rating 4,1**. Diperoleh juga kategori produk dengan **rata-rata rating tertinggi** adalah **cds_dvds_musicals** dengan rating **4,7** dan rata-rata rating terendah adalah **security_and_services** dengan rating **2,5**.

* Conclusion pertanyaan 5

    Dalam beberapa tahun terakhir, rata-rata pembelian produk tiap state adalah **4.172** produk. Pembelian produk didominasi oleh negara bagian **Sao Paulo (SP)** dengan pembelian **47.449** produk, lalu diikuti dengan negara bagian **Rio de Janeiro (RJ)** dan **Minas Gerais (MG)** dengan pembelian masing-masing **14.579** produk dan **13.129** produk.

* Conclusion pertanyaan 6

    Rata-rata uang yang dihabiskan untuk pembelian produk tiap state dalam beberapa tahun terakhir adalah **577.232 BRL**. Negara bagian dengan *total revenue* tertinggi dipegang oleh **Sao Paulo (SP)** dengan *total revenue* **5.827.544 BRL**, kemudian diikuti dengan **Rio de Janeiro (RJ)** dan **Minas Gerais (MG)** dengan *total revenue* masing-masing **2.091.770 BRL** dan **1.828.647 BRL**.

## Ekstrak data ke CSV

In [None]:
all_df.to_csv("all_data.csv", index=False)