# Proyek Analisis Data: E-Commerce Public Dataset
- **Nama:** I Putu Yogi Artha
- **Email:** yogiartha77@gmail.com
- **ID Dicoding:** yogi_artha

## Menentukan Pertanyaan Bisnis

1. Pertanyaan 1: Bagaimana jumlah hasil penjualan dari setiap product category?
2. Pertanyaan 2: Bagaimana hasil tren dari penjualan (order) setiap tahun?

## Import Semua Packages/Library yang Digunakan

In [1]:
import pandas as pd
import numpy as np
import folium

import seaborn as sns
import matplotlib.pyplot as plt

from wordcloud import WordCloud, STOPWORDS

# Set color palette for Seaborn
colors = ["#26536f",  "#749ca8", "#c78a4d", "#854927", "#3b96b7",  "#b6a98d"]
sns.set_palette(colors)

## Data Wrangling

### Gathering Data
***
- Dataset yang digunakan bernama **E-Commerce Public Dataset** yang dapat diunduh melalui link berikut: <br>
    - https://drive.google.com/file/d/1MsAjPM7oKtVfJL_wRp1qmCajtSG1mdcK/view?usp=sharing
- Semua dataset memiliki format *.csv* yang bisa diload menggunakan _read_csv()_ dari pandas

In [2]:
# load semua file dari dataset
customers_df = pd.read_csv('./dataset/customers_dataset.csv')
geolocation_df = pd.read_csv('./dataset/geolocation_dataset.csv')
order_items_df = pd.read_csv('./dataset/order_items_dataset.csv')
order_payments_df = pd.read_csv('./dataset/order_payments_dataset.csv')
order_reviews_df = pd.read_csv('./dataset/order_reviews_dataset.csv')
orders_df = pd.read_csv('./dataset/orders_dataset.csv')
product_category_name_translation_df = pd.read_csv('./dataset/product_category_name_translation.csv')
products_df = pd.read_csv('./dataset/products_dataset.csv')
sellers_df = pd.read_csv('./dataset/sellers_dataset.csv')

FileNotFoundError: [Errno 2] No such file or directory: './dataset/customers_dataset.csv'

#### Customers Dataset

In [None]:
customers_df

**Insights**
***
1. Identifikasi kolom:
    - **customer_id**: primary key untuk setiap order yang dibuat suatu customer
    - **customer_unique_id**: primary key setiap customer
    - customer_zip_code_prefix, customer_city, dan customer_state berkaitan dengan geolocation dataset yang menunjukkan informasi wilayah geografis dari setiap customer
2. **Customers Dataset** berisi 99.441 baris data dengan 5 kolom

#### Geolocation Dataset

In [None]:
geolocation_df

**Insights**
***
1. Identifikasi kolom:
    - Semua kolom pada tabel ini berkaitan dengan informasi geografis yang nantinya bisa digunakan untuk berelasi dengan tabel **customers_df**, **sellers_df**, ataupun tabel-tabel lain yang memuat informasi geografis
    - Primary key *geolocation_zip_code_prefix* pada Tabel ini dapat digunakan untuk menggabungkan (join) tabel ini dengan tabel-tabel lain yang memiliki foreign key berupa *zip_code* yang sama dengan tabel ini
2. Jumlah data pada geolocation dataset yaitu 1.000.163 baris dengan 5 atribut

#### Order Items Dataset

In [None]:
order_items_df

In [None]:
order_items_df[
    order_items_df['order_id']=="ffb9a9cd00c74c11c24aa30b3d78e03b"
]

**Insights**
1. Identifikasi kolom:
    - _order_id_ berkaitan dengan primary key setiap order yang dibuat pada tabel **customers_df** kolom *customer_id*
    - *order_item_id*: berkaitan dengan primary key dari setiap item yang dipesan untuk suatu *order_id*. Nilai order_item_id dari setiap order dimulai dari indeks 1 (sequential number identifying number of items included in the same order.)
    - _product_id_ berkaitan dengan product yang dipesan yang kaitannya dengan tabel Products Dataset
    - _seller_id_ berkaitan dengan penjual dari product
    - *shipping_limit_date*: batas waktu kapan product tersebut mesti di shipping
    - *price*: harga product tersebut
    - *freight_value*: biaya pengiriman untuk product tersebut
2. Jumlah data pada order items dataset yaitu 112650 baris dengan 7 atribut

#### Order Payments Dataset

In [None]:
order_payments_df

**Insights** <br>
1. Identifikasi kolom:
    - *order_id*: primary key dari setiap order yang terbentuk
    - *payment_sequential*: Seorang pelanggan dapat membayar pesanan dengan lebih dari satu metode pembayaran. Jika dia melakukannya, urutan pembayaran akan dibuat untuk
    - *payment_type*: tipe pembayaran
    - *payment_installments*: jumlah angsuran yang dipilih oleh pelanggan.
    - *payment_value*: nilai transaksi yang dilakukan
2. Jumlah data pada order payments dataset yaitu 103886 baris dengan 5 atribut

#### Order Reviews Dataset

In [None]:
order_reviews_df

**Insights** <br>
1. Identifikasi kolom:
    - *review_id*: primary key dari setiap review yang diberikan untuk suatu order
    - *order_id*: primary key dari setiap order
    - *review_score*: skala review yang diberikan
    - *review_comment_title*: judul komentar review yang diberikan
    - *review_comment_message*: pesan review teks yang diberikan
    - *review_creation_date*: informasi tanggal dan waktu kapan review tersebut dibuat
    - *review_answer_timestamps*: informasi tanggal dan waktu kapan review tersebut dijawab
2. Jumlah data pada order reviews dataset yaitu 99224 baris dengan 7 atribut

#### Order Dataset

In [None]:
orders_df

**Insights** <br>
1. Identifikasi kolom
    - Kolom *order_id* memiliki relasi dengan order yang dilakukan oleh setiap customer dan merupakan primary key
    - Kolom *customer_id* memiliki relasi dengan tabel customer dataset
    - Kolom *order_status* status dari order yang dilakukan customer
    - Kolom-kolom seperti *order_purchase_timestamp*, *order_approved_at*, *order_delivered_carrier_date*, *order_delivered_customer_date*, *order_estimated_delivery_date* berkaitan dengan informasi date time mengenai status order mulai dari transaksi dibayarkan hingga sampai ke customer
2. Jumlah data pada order dataset yaitu 99441 baris dengan 8 atribut

#### Product Category Name Translation Dataset

In [None]:
product_category_name_translation_df

**Insights** <br>
1. Identifikasi kolom:
    - *product_category_name*: nama kategori produk (dalam bahasa Brasil) sesuai pada Tabel **products_df**
    - *product_category_name_english*: nama kategori produk dalam bahasa Inggris
2. Jumlah data pada product category name translation dataset yaitu 71 baris dengan 2 atribut

#### Products Dataset

In [None]:
products_df

**Insights** <br>
1. Identifikasi kolom:
    - *product_id*: primary key dari setiap product
    - *product_category_name*: category dari product
    - sisa kolom menunjukkan deskripsi mengenai product tersebut, mulai dari panjang nama, panjang deskripsi produk, banyak foto dari product tersebut, dimensi product, massa product
2. Jumlah data pada products dataset yaitu 32951 baris dengan 9 atribut

#### Sellers Dataset

In [None]:
sellers_df

**Insight:**
1. Identifikasi kolom:
    - *seller_id*: primary key untuk setiap penjual
    - *seller_zip_code_prefix*, *seller_city*, dan *seller_state* berkaitan dengan informasi geografis dari penjual
2. Jumlah data pada products dataset yaitu 3095 baris dengan 4 atribut

### Assessing Data

In [None]:
tables_df = {
    'Customer': customers_df,
    'Geolocation': geolocation_df,
    "Order Items": order_items_df,
    "Order Payments": order_payments_df,
    "Order Reviews": order_reviews_df,
    "Order": orders_df,
    "Product Category Name Translation": product_category_name_translation_df,
    "Product Dataset": products_df,
    "Seller": sellers_df,
}

#### Check missing values

In [None]:
def check_missing_values(df, table_title):
    print(f"\t\tMissing values pada tabel {table_title}")
    print(df.isnull().sum())
    print("="*30)

for table_title, df in tables_df.items():
    check_missing_values(df, table_title)

**Insights** <br>
- Dari hasil pengecekan missing values (**NaN**), terdapat beberapa tabel yang memuat missing values, diantaranya:
    - Order Reviews
    - Products

#### Check duplicate values

In [None]:
def check_duplicate_values(df, table_title):
    print(f"\t\tDuplicate values pada tabel {table_title}")
    print(f"Jumlah data duplikat: {df.duplicated().sum()}")
    print("="*30)

for table_title, df in tables_df.items():
    check_duplicate_values(df, table_title)

**Insights** <br>
- Terdapat data duplikat pada tabel **Geolocation**

#### Check invalid values

In [None]:
def check_data_types(df, table_title):
    print(f"\t\tData types pada tabel {table_title}")
    print(df.info())
    print("="*30)

for table_title, df in tables_df.items():
    check_data_types(df, table_title)

**Insights** <br>
- Hampir semua kolom pada setiap tabel memiliki format tipe data yang telah sesuai dengan nilai pada masing-masing kolom. Namun terdapat beberapa kolom dengan tipe data yang belum sesuai:
    - Kolom **review_creation_date** dan **review_answer_timestamp** pada Tabel **Order Reviews** seharusnya memiliki tipe data datetime, begitupun untuk kolom **shipping_limit_date** pada Tabel **Order Items** dan juga kolom **order_approved_at**, **order_delivered_carrier_date** dst pada Tabel Order

#### Check outliers

In [None]:
# Set the aesthetic style of the plots
sns.set(style="whitegrid")
def check_outliers(df, table_title, columns_to_show):
    # Create a figure with subplots for each numerical column
    plt.figure(figsize=(12, 8))
    # Create boxplots for each numerical column
    for i, column in enumerate(df[columns_to_show].columns):
        plt.subplot(3, 3, i + 1)  # Adjust the number of rows and columns based on your data
        sns.boxplot(x=df[column])
        plt.title(f'Boxplot of {column}')
        plt.xlabel(column)

    plt.suptitle(f"Outliers pada tabel {table_title}")

    plt.tight_layout()
    plt.show()
    print("="*30)

In [None]:
table_title_columns_df = {
    "Order Items": ['price', 'freight_value'],
    "Order Payments": ['payment_value', 'payment_installments'],
    "Order Reviews": ['review_score'],
    "Product Dataset": products_df.select_dtypes(include=['float64', 'int64']).columns,
}
for table_title, df in tables_df.items():
    if table_title in table_title_columns_df:
        check_outliers(df, table_title, table_title_columns_df[table_title])

**Insight:**
- Terlihat bahwa kolom numerik pada masing-masing tabel yang dicek terdapat outliers.
- Semua outliers pada kolom numerik pada masing-masing tabel tidak akan ditangani ataupun dihapus karena tujuan projek ini hanya analisis aja dan tidak membangun sebuah model prediksi dimana keberadaan outliers dapat mengganggu performa model.
- Ketika outliers itu dihapus akan mempengaruhi hasil analisis yang terjadi karena jumlah outliers pada masing-masing kolom cukup banyak (kepadatan titik hitam), sehingga jika nilai-nilai tersebut dihapus atau diubah maka mempengaruhi hasil analisis

### Cleaning Data

#### Change Data Types

In [None]:
# convert column to datetime data type
order_items_df['shipping_limit_date'] = pd.to_datetime(order_items_df['shipping_limit_date'])

order_reviews_df['review_creation_date'] = pd.to_datetime(
    order_reviews_df['review_creation_date'],
    format='%Y-%m-%d', errors='coerce'
)
order_reviews_df['review_answer_timestamp'] = pd.to_datetime(
    order_reviews_df['review_answer_timestamp'],
    format='%Y-%m-%d %H:%M:%S', errors='coerce'
)

orders_df['order_purchase_timestamp'] = pd.to_datetime(orders_df['order_purchase_timestamp'])
orders_df['order_approved_at'] = pd.to_datetime(orders_df['order_approved_at'])
orders_df['order_delivered_carrier_date'] = pd.to_datetime(orders_df['order_delivered_carrier_date'])
orders_df['order_delivered_customer_date'] = pd.to_datetime(orders_df['order_delivered_customer_date'])
orders_df['order_estimated_delivery_date'] = pd.to_datetime(orders_df['order_estimated_delivery_date'])

In [None]:
check_data_types(orders_df, 'Order')

In [None]:
check_data_types(order_reviews_df, 'Order Reviews')

In [None]:
check_data_types(order_items_df, 'Order Items')

**Insights** <br>
- Kolom-kolom pada ketiga tabel tersebut yang seharusnya bertipe datetime kini sudah memiliki tipe data datetime

#### Handling missing values

##### Inputing missing values on Products Table
***
**Descriptions** <br>
- Nilai missing values pada tabel product sebesar **612** data relatif lebih sedikit dibandingkan jumlah seluruh baris data pada tabel Product yaitu **32.951**. Dibandingkan membuat nilai missing values tersebut, pada projek kali ini akan dilakukan teknik **Imputation**
- Missing values yang terdapat pada tabel ini terletak pada kolom dengan categorical (product_category_name) dan numerical (product_name_lenght, product_description_length, product_photos_qty, product_weight_g, product_length_cm, product_height_cm, product_width_cm)
- Missing values pada kolom kategorikal akan diisi dengan nilai modus dari kolom tersebut dan missing value pada kolom numerikal akan diisi dengan teknik interpolation

In [None]:
products_categorical_columns = ['product_category_name']
products_numerical_columns = [
    'product_name_lenght',
    'product_description_lenght',
    'product_photos_qty',
    'product_weight_g',
    'product_length_cm',
    'product_height_cm', 'product_width_cm'
]

In [None]:
# imputation with mode
for cat_column in products_categorical_columns:
    products_df[cat_column].fillna(value=products_df[cat_column].mode().values[0], inplace=True)

In [None]:
# imputation with interpolation
for num_column in products_numerical_columns:
    products_df[num_column].interpolate(method='linear', limit_direction='forward', inplace=True)

In [None]:
check_missing_values(products_df, 'Products')

Sudah tidak ada missing values pada tabel **Products**

##### Missing values on Table Order Reviews
***
- Missing value pada tabel order reviews tidak dilakukan penanganan apa-apa karena mayoritas missing values terletak pada kolom **review_comment_title** dan **review_comment_message**. Apabila data tersebut dihapus cukup banyak informasi yang hilang.
- Yang terpenting adalah kolom **review_score** untuk sementara tidak terdapat missing values

In [None]:
order_reviews_df

#### Remove duplicate values
***
Proses ini hanya dilakukan untuk tabel **Geolocation** karena tabel tersebut saja yang mengandung data duplikat

In [None]:
geolocation_df.drop_duplicates(inplace=True)

In [None]:
check_duplicate_values(geolocation_df, 'Geolocation')

**Insight:**
- Dari proses tersebut sudah tidak ada data duplikat pada tabel **Geolocation**

#### Handling Outliers Values
***
- Outliers pada hasil pengecekan sebelumnya tidak akan ditangani apapun pada tahap ini karena tujuannya untuk mempertahankan keaslian data dan tidak mempengaruhi hasil analisis nantinya. Lagipula pada project kali ini belum diperuntukkan untuk membangun model prediksi berbasis machine learning dimana keberadaan outliers mungkin perlu diperhitungkan

## Exploratory Data Analysis (EDA)
***

### EDA on Customers

#### Quest: Customer paling banyak dan sedikit berasal dari city dan negara apa?

In [None]:
# karena customer_unique_id bisa melakukan beberapa kali transaksi (customer_id), maka data perlu digrup berdasarkan customer_unique_id juga
city_state_customer_counts = customers_df.groupby(['customer_unique_id','customer_city', 'customer_state'])[['customer_id']].count().reset_index()[
    ['customer_city', 'customer_state']
].value_counts()

In [None]:
# 10 city dan state dengan customer terbanyak
city_state_customer_counts.head(10)

Dari sini terlihat jelas bahwa *sao paulo (SP)*, *rio de janeiro (RJ)* dan seterusnya menjadi 10 city dan state dengan customer terbanyak

In [None]:
# 10 city dan state dengan customer paling sedikit
city_state_customer_counts.tail(10)

Dari sini terlihat jelas bahwa *santa maria (RN)*, *santa clara d'oeste (SP)* dan seterusnya menjadi 10 city dan state dengan customer paling sedikit

#### Quest: CustomerID siapa yang paling banyak melakukan order? Berasal dari mana dia?

In [None]:
customer_unique_id_with_most_transactions = customers_df.groupby('customer_unique_id')['customer_id'].count().reset_index().sort_values(by='customer_id', ascending=False).reset_index(drop=True).loc[0,'customer_unique_id']
customer_unique_id_with_most_transactions

In [None]:
# cari tahu city dan state dari customer tersebut
customers_df[
    customers_df['customer_unique_id']==customer_unique_id_with_most_transactions
]

Terlihat bahwa customer dengan ID = *8d50f5eadf50201ccdcedfb9e2ac8455* melakukan total transaksi sebanyak 17 kali berasal dari **Sao Paulo** dengan negara **SP**

### EDA on Geolocation

#### Quest: Berapa banyak data geologication (lat and lng) untuk setiap city dan state?

In [None]:
df = geolocation_df.groupby(['geolocation_city', 'geolocation_state'])['geolocation_zip_code_prefix'].count().reset_index()
df.columns = ['city', 'state', 'count of lat and lng']
df.sort_values(by='count of lat and lng', inplace=True, ascending=False)
df.reset_index(drop=True, inplace=True)

In [None]:
df

**Insights** <br>
- Total terdapat 8.463 kombinasi city dan state
- City bernama Sao Paulo (SP) memiliki data koordinat (lat and lng) paling banyak dari pada city dan state lainnya, yaitu sebesar **79.926** koordinat data

### EDA on Overall Order Tables
***
Semua tabel yang ada kaitannya dengan **Orders** maka akan dimerge (join) terlebih dahulu sebelum dilakukan analisis lebih jauh

#### Merge overall order tables

In [None]:
overall_order_tables = pd.merge(order_items_df, order_payments_df, on='order_id', how='inner')
overall_order_tables = pd.merge(overall_order_tables, order_reviews_df, on='order_id', how='inner')
overall_order_tables = pd.merge(overall_order_tables, orders_df, on='order_id', how='inner')
overall_order_tables = pd.merge(overall_order_tables, customers_df, on='customer_id', how='inner')

In [None]:
overall_order_tables

In [None]:
# simpan data order yang telah dimerge untuk digunakan pada dashboard
overall_order_tables.to_csv('./dashboard/merged_orders.csv', index=False)

**Insights** <br>
- Hasil penggabungan seluruh tabel orders (order_items, order_payments, order_reviews, orders) dan tabel customers dengan teknik **Inner Join** memiliki 117329 baris data dengan 28 atribut

#### Quest: Order dengan jumlah angsuran terbanyak

In [None]:
order_id_with_most_angsuran = overall_order_tables.groupby('order_id')[
    ['payment_sequential']
].count().sort_values(by='payment_sequential', ascending=False).iloc[0].name
order_id_with_most_angsuran

In [None]:
overall_order_tables[
    overall_order_tables['order_id']==order_id_with_most_angsuran
].sort_values(by='payment_sequential').shape

**Penjelasan** <br>
- Order id = **895ab968e7bb0d5659d16cd74cd1650c** memiliki jumlah angsuran sebesar 63 kali

#### Quest: Jenis/metode pembayaran yang paling banyak dilakukan

In [None]:
payment_types = overall_order_tables.groupby(['order_id', 'payment_type']).count().reset_index()['payment_type'].value_counts()

# Create a bar plot
plt.figure(figsize=(10, 6))
sns.barplot(x=payment_types.index, y=payment_types.values, palette='green')

# Add titles and labels
plt.title('Payment Type Distribution', fontsize=16)
plt.xlabel('Payment Type', fontsize=14)
plt.ylabel('Count', fontsize=14)

# Set y-axis to start at zero for accurate representation
plt.ylim(0, payment_types.max() * 1.1)  # Add some space above the highest bar

# Add value labels on top of each bar
for i in range(len(payment_types)):
    plt.text(i, payment_types.values[i] + 500, payment_types.values[i], ha='center', fontsize=12)

# Improve layout and remove gridlines for clarity
plt.grid(False)
plt.tight_layout()

# Show the plot
plt.show()

**Penjelasan** <br>
- Kartu kredit dan Boleto menjadi dua tipe pembayaran terbanyak masing-masing sebanyak 75.408 dan 19.471 transaksi
- Transaksi dengan kartu debit paling sedikit dilakukan

#### Quest: Top-10 order dengan nilai pembayaran tertinggi dan terendah
***

In [None]:
order_payments_with_most_payment_value = overall_order_tables.groupby(['order_id'])[['payment_value']].sum().reset_index().sort_values(by='payment_value', ascending=False)
order_payments_with_most_payment_value

##### Top 10 order detail dengan payment tertinggi

In [None]:
df = overall_order_tables[
    overall_order_tables['order_id'].isin(order_payments_with_most_payment_value['order_id'].head(10).values)
][['order_id', 'product_id', 'payment_value']+list(customers_df.columns)]
df = pd.merge(df, products_df, on='product_id', how='inner')

In [None]:
df

##### Top 10 order detail dengan payment terendah

In [None]:
df = overall_order_tables[
    overall_order_tables['order_id'].isin(order_payments_with_most_payment_value['order_id'].tail(10).values)
][['order_id', 'product_id', 'payment_value']+list(customers_df.columns)]
df = pd.merge(df, products_df, on='product_id', how='inner')

In [None]:
df

#### Quest: Bagaimana distribusi skor review dari seluruh order?

In [None]:
# Create a histogram with KDE for the numerical column
plt.figure(figsize=(10, 6))
sns.histplot(overall_order_tables['review_score'], kde=True, bins=5,
             color='green', edgecolor='black', alpha=0.7)

# Set title and labels
plt.title('Distribution of Review Scores', fontsize=16)
plt.xlabel('Value', fontsize=14)
plt.ylabel('Density', fontsize=14)

# Set y-axis to start at zero for accurate representation
plt.ylim(0)

# Improve layout and remove gridlines for clarity
plt.grid(False)
plt.tight_layout()

# Show the plot
plt.show()

**Insights** <br>
- Skor review memiliki distribusi left-skewed
- Sebagian besar customer memberikan skor review dalam rentang 4 sampai 5
- Beberapa customer (tidak cenderung banyak) memberikan skor review dalam rentang 1 sampai 2

### EDA on Products

#### Quest: Bagaimana distribusi dari setiap category product?
- Tampilkan top-20 category product yang paling banyak dan sedikit

In [None]:
product_category_distribution = products_df['product_category_name'].value_counts().head(20)
# Create a horizontal bar plot
plt.figure(figsize=(10, 8))
sns.barplot(x=product_category_distribution.values, y=product_category_distribution.index, palette='green')

# Add titles and labels
plt.title('Top 20 Product Categories Distribution', fontsize=16)
plt.xlabel('Count', fontsize=14)
plt.ylabel('Product Category', fontsize=14)

# Set x-axis to start at zero for accurate representation
plt.xlim(0, product_category_distribution.max() * 1.1)  # Add some space to the right of the highest bar

# Add value labels on the right side of each bar
for i in range(len(product_category_distribution)):
    plt.text(product_category_distribution.values[i] + 50, i, product_category_distribution.values[i],
             va='center', fontsize=12)

# Improve layout and remove gridlines for clarity
plt.grid(False)
plt.tight_layout()

# Show the plot
plt.show()

**Insights** <br>
- Dari tabel products, melalui gambar di atas dapat diketahui kategori produk terbanyak yang ditempati oleh **cama_mesa_banho** dengan 3.639 produk

In [None]:
# Select the last 20 entries
last_20_categories = products_df['product_category_name'].value_counts().tail(20)

# Create a horizontal bar plot
plt.figure(figsize=(10, 8))
sns.barplot(x=last_20_categories.values, y=last_20_categories.index, palette='green')

# Add titles and labels
plt.title('Bottom 20 Product Categories Distribution', fontsize=16)
plt.xlabel('Count', fontsize=14)
plt.ylabel('Product Category', fontsize=14)

# Set x-axis to start at zero for accurate representation
plt.xlim(0, last_20_categories.max() * 1.2)  # Add some space to the right of the highest bar

# Add value labels on the right side of each bar
for i in range(len(last_20_categories)):
    plt.text(last_20_categories.values[i], i, last_20_categories.values[i],
             va='center', fontsize=12)

# Improve layout and remove gridlines for clarity
plt.grid(False)
plt.tight_layout()

# Show the plot
plt.show()

**Insights** <br>
- Dari tabel products, melalui gambar di atas dapat diketahui kategori produk paling sedikit yang ditempati oleh **cds_dvds_musicais** dengan 1 produk

#### Quest: Bagaimana distribusi volume (length x width x height) dari setiap category product?

In [None]:
# buat atribut baru bernama volume yang merupakan hasil perkalian dari panjang, lebar, dan tinggi product
products_df['volume'] = products_df['product_length_cm'] * products_df['product_width_cm'] * products_df['product_height_cm']

In [None]:
# buat distribution dari numerical columns
numerical_columns = [
    'volume', 'product_length_cm', 'product_height_cm', 'product_width_cm'
]

fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(12, 10))
# Flatten the axes array for easy iteration
axes = axes.flatten()

# Create histograms with KDE for each numerical column
for i, col in enumerate(numerical_columns):
    sns.histplot(products_df[col], kde=True, ax=axes[i], bins=10,
                 color='green', edgecolor='black', alpha=0.7)

    # Set titles and labels
    axes[i].set_title(f'Distribution of {col} (cm)', fontsize=14)
    axes[i].set_xlabel(col, fontsize=12)
    axes[i].set_ylabel('Density', fontsize=12)

    # Set y-axis to start at zero for accurate representation
    axes[i].set_ylim(0)

# Improve layout and remove gridlines for clarity
plt.tight_layout()
plt.grid(False)

# Show the plot
plt.show()

**Insights** <br>
- Distribusi volume, panjang, lebar, dan tinggi suatu produk semuanya right-skewed atau tidak normal
- Distribusi volume produk paling banyak berada diantara rentang 0 - 5000 cm3
- Distribusi panjang produk paling banyak berada dalam rentang 20 - 30 cm
- Distribusi tinggi produk paling banyak berada dalam rentang 5 - 20 cm
- Distribusi lebar produk paling banyak berada dalam rentang 5 - 20 cm

#### Quest: Bagaimana distribusi dari berat product?

In [None]:
# Create a histogram with KDE for the numerical column
plt.figure(figsize=(10, 6))
sns.histplot(products_df['product_weight_g'], kde=True, bins=10,
             color='green', edgecolor='black', alpha=0.7)

# Set title and labels
plt.title('Distribution of Product Weight (g)', fontsize=16)
plt.xlabel('Value', fontsize=14)
plt.ylabel('Density', fontsize=14)

# Set y-axis to start at zero for accurate representation
plt.ylim(0)

# Improve layout and remove gridlines for clarity
plt.grid(False)
plt.tight_layout()

# Show the plot
plt.show()

**Insights** <br>
- Sama seperti distribusi dimensi produk, dimensi berat produk juga memiliki distribusi right-skewed (tidak normal). Artinya beberapa produk memiliki berat lebih dari 15000 (g)
- Mayoritas berat produk berada diantara rentang 0 - 5000 (g)

#### Quest: Top-5 category product dengan nama product terpanjang

In [None]:
products_df.sort_values(by='product_name_lenght', ascending=False).head(5)[['product_category_name', 'product_name_lenght']]

**Insights** <br>
1. Kategori produk *perfumaria*, *moveis_decoracao*, *beleza_saude*, *cama_mesa_banho*, dan *construcao_ferramentas_jardim* memiliki nama produk yang terpanjang

### EDA on Sellers

#### Quest: Penjual paling banyak berasal dari city dan state mana?

In [None]:
# Count the frequency of each city
city_counts = sellers_df['seller_city'].value_counts().head(20)

# Create a horizontal bar plot for city frequencies
plt.figure(figsize=(10, 6))
sns.barplot(y=city_counts.index, x=city_counts.values, palette='green')

# Add titles and labels
plt.title('Frequency of Cities from Sellers Data', fontsize=16)
plt.ylabel('City', fontsize=14)
plt.xlabel('Frequency', fontsize=14)

# Set x-axis to start at zero for accurate representation
plt.xlim(0, city_counts.max() * 1.1)  # Add some space to the right of the highest bar

# Add value labels on the right side of each bar
for i in range(len(city_counts)):
    plt.text(city_counts.values[i] + 0.1, i, city_counts.values[i],
             va='center', fontsize=12)

# Improve layout and remove gridlines for clarity
plt.grid(False)
plt.tight_layout()

# Show the plot
plt.show()

In [None]:
# Count the frequency of each state
state_counts = sellers_df['seller_state'].value_counts().head(20)

# Create a horizontal bar plot for city frequencies
plt.figure(figsize=(10, 6))
sns.barplot(y=state_counts.index, x=state_counts.values, palette='green')

# Add titles and labels
plt.title('Frequency of States from Sellers Data', fontsize=16)
plt.ylabel('State', fontsize=14)
plt.xlabel('Frequency', fontsize=14)

# Set x-axis to start at zero for accurate representation
plt.xlim(0, state_counts.max() * 1.1)  # Add some space to the right of the highest bar

# Add value labels on the right side of each bar
for i in range(len(state_counts)):
    plt.text(state_counts.values[i] + 0.1, i, state_counts.values[i],
             va='center', fontsize=12)

# Improve layout and remove gridlines for clarity
plt.grid(False)
plt.tight_layout()

# Show the plot
plt.show()

**Penjelasan** <br>
- Terlihat bahwa penjual paling banyak berasal dari **Sao Paulo** dan negara bagian **SP**

## Visualization & Explanatory Analysis

### Pertanyaan 1: Bagaimana jumlah hasil penjualan dari setiap product category?

In [None]:
product_orders = pd.merge(overall_order_tables, products_df, on='product_id', how='inner')

# simpan data products orders untuk digunakan di dashboard
product_orders.to_csv('./dashboard/product_orders.csv', index=False)

In [None]:
# karena kategori produk cukup banyak >30.000 kategori produk, maka ambil beberapa saja dan ganti kategori yang tidak termasuk kategori menjadi 'Others'
df = product_orders['product_category_name'].value_counts()

# filter kategori produk dengan nilai >2000 untuk ditampilkan selain itu beri simbol "Others"
filtered_categories = df[df >= 2000].index
product_orders['updated_product_category'] = product_orders['product_category_name'].where(product_orders['product_category_name'].isin(filtered_categories), 'Other')

In [None]:
# hitung total penjualan per produk kategori
df = product_orders.groupby('updated_product_category')['price'].sum().reset_index().sort_values(by='price', ascending=False)

# Create a horizontal bar plot for city frequencies
plt.figure(figsize=(10, 6))
sns.barplot(y='updated_product_category', x='price', data=df, palette='green')

# Add titles and labels
plt.title('Total Penjualan per Kategori Produk', fontsize=16)
plt.ylabel('Kategori Produk', fontsize=14)
plt.xlabel('Total Penjualan', fontsize=14)

# Set x-axis to start at zero for accurate representation
plt.xlim(0, df['price'].max() * 1.1)  # Add some space to the right of the highest bar

# Add value labels on the right side of each bar
for i in range(len(df)):
    plt.text(df['price'].values[i] + 0.1, i, df['price'].values[i],
             va='center', fontsize=12)

# Improve layout and remove gridlines for clarity
plt.grid(False)
plt.tight_layout()

# Show the plot
plt.show()

**Insights** <br>
- Karena kategori produk yang ditampilkan di atas merupakan hasil filter, maka kategori produk yang memiliki orders >=2000 pesanan dikategorikan menjadi **Others**
- Top-3 kategori produk selain **Others** dengan total penjualan tertinggi (price) yaitu *beleza_saude*, *cama_mesa_banho*, dan *relogios_presentes* masing-masing sebesar 1.290.883 dollar (asumsi dollar sebagai mata uang), 1.286.386 dollar, dan 1.245.783 dollar
- Produk fashion dan aksesoris (*fashion_bolsas_e_accessorios*) paling sedikit mendatangkan penjualan

### Pertanyaan 2: Bagaimana hasil tren dari penjualan (order) setiap tahun?

#### Tren penjualan per tahun

In [None]:
# cari tahu data (price) penjualan per Tahun
data_penjualan_tahunan = overall_order_tables.groupby(
    overall_order_tables['order_purchase_timestamp'].dt.to_period('Y')
).agg({'price': 'sum'}).reset_index()
data_penjualan_tahunan['order_purchase_timestamp'] = data_penjualan_tahunan['order_purchase_timestamp'].apply(lambda x: str(x))
data_penjualan_tahunan['Change'] = data_penjualan_tahunan['price'].diff().fillna(0)

# set ukuran kanvas
plt.figure(figsize=(15, 6))

# Plot the data with custom colors
plt.plot(
    data_penjualan_tahunan['order_purchase_timestamp'],
    data_penjualan_tahunan['price'],
    marker='o',
    linestyle='-',
    color='b', linewidth=2)

# Annotate each point with the price value and change
for i in range(len(data_penjualan_tahunan)):
    plt.text(
        data_penjualan_tahunan['order_purchase_timestamp'][i],
        data_penjualan_tahunan['price'][i] + 1000,
        f'{data_penjualan_tahunan["price"][i]}',
             ha='center', fontsize=14)
    if i > 0:  # Skip the first year for change annotation
        change = data_penjualan_tahunan['Change'][i]
        change_text = f'{"+" if change > 0 else ""}{float(change)}'
        plt.text(
            data_penjualan_tahunan['order_purchase_timestamp'][i],
            data_penjualan_tahunan['price'][i] + 500000,
            change_text,
            ha='center', fontsize=16, color='red')

# Adding titles and labels
plt.title('Tren Penjualan Tahunan', fontsize=18, fontweight='bold')
plt.xlabel('Tahun', fontsize=16)
plt.ylabel('Total Penjualan', fontsize=16)

# Customize the ticks
plt.xticks(fontsize=14)
plt.yticks(fontsize=14)

# Add gridlines for better readability
plt.grid(visible=True, linestyle='--', alpha=0.8)

# Show the plot
plt.tight_layout()
plt.show()

**Insights** <br>
- Secara keseluruhan per tahun tren penjualan yang dihasilkan mampu memberikan profit dari tahun-tahun sebelumnya, dimana peningkatan profit tertinggi terjadi dari 2016 ke 2017 dengan penambahan sebesar 6.406.070 dollar
- Peningkatan profit dari 2017 ke 2018 tidak setinggi tahun sebelumnya karena tren penjualan pada bulan 08-2018 ke 09-2018 mengalami penurunan omzet penjualan cukup tinggi yang menyebabkan total penjualan keseluruhan tidak termarkup

## Analisis Lanjutan (Opsional)

### RFM Analysis
***
**Pengertian** <br>
RFM analysis merupakan salah satu metode yang umum digunakan untuk melakukan segmentasi pelanggan (mengelompokkan pelanggan ke dalam beberapa kategori) berdasarkan tiga parameter, yaitu recency, frequency, dan monetary.

**Pertanyaan untuk RFM Analysis**
1. **Recency**: Kapan terakhir pelanggan melakukan transaksi?
2. **Frequency**: Seberapa sering seorang pelanggan melakukan pembelian dalam beberapa bulan terakhir?
3. **Monetary**: Berapa banyak uang yang dihabiskan pelanggan dalam beberapa bulan terakhir?

In [None]:
def create_rfm_df(unique_primary_key, name='customer'):
    # buat variabel untuk menampung hasil perhitungan RFM analysis
    rfm_df = overall_order_tables.groupby(unique_primary_key, as_index=False).agg({
        "order_purchase_timestamp": "max", # mengambil tanggal order terakhir
        "order_id": "nunique", # menghitung jumlah order unik
        "price": "sum" # menghitung jumlah revenue yang dihasilkan
    })
    rfm_df.columns = [name+"_id", "max_order_timestamp", "frequency", "monetary"]

    # menghitung kapan terakhir pelanggan melakukan transaksi (hari)
    rfm_df["max_order_timestamp"] = rfm_df["max_order_timestamp"].dt.date
    recent_date = overall_order_tables["order_purchase_timestamp"].dt.date.max()
    rfm_df["recency"] = rfm_df["max_order_timestamp"].apply(lambda x: (recent_date - x).days)

    rfm_df.drop("max_order_timestamp", axis=1, inplace=True)

    # buat mapping customer_id agar ID (ambil 3 kode string terakhir dari setiap id)
    rfm_df[name+'_id_mapping'] = rfm_df[name+'_id'].apply(lambda x: "ID-"+x[-3:])

    return rfm_df

In [None]:
def visualize_rfm_df(
    rfm_df,
    name='customer',
    name_id='customer_id_mapping',
    n_objects=10,
    recency_ascending=True,
    frequency_ascending=False,
    monetary_ascending=False,
):

    # identifikasi best customer berdasarkan parameter frequency, monetary, recency
    fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(20, 5))

    sns.barplot(y="recency", x=name_id, data=rfm_df.sort_values(by="recency", ascending=recency_ascending).head(n_objects), palette='green', ax=ax[0])
    ax[0].set_ylabel(None)
    ax[0].set_xlabel(None)
    ax[0].set_title("By Recency (days)", loc="center", fontsize=18)
    ax[0].tick_params(axis ='x', labelsize=15,rotation=45)

    sns.barplot(y="frequency", x=name_id, data=rfm_df.sort_values(by="frequency", ascending=frequency_ascending).head(n_objects), palette='green', ax=ax[1])
    ax[1].set_ylabel(None)
    ax[1].set_xlabel(None)
    ax[1].set_title("By Frequency", loc="center", fontsize=18)
    ax[1].tick_params(axis='x', labelsize=15, rotation=45)

    sns.barplot(y="monetary", x=name_id, data=rfm_df.sort_values(by="monetary", ascending=monetary_ascending).head(n_objects), palette='green', ax=ax[2])
    ax[2].set_ylabel(None)
    ax[2].set_xlabel(None)
    ax[2].set_title("By Monetary", loc="center", fontsize=18)
    ax[2].tick_params(axis='x', labelsize=15,rotation=45)

    plt.suptitle(f"Best {name.capitalize()} Based on RFM Parameters ({name_id})", fontsize=20)
    plt.show()

#### Customer RFM Analysis

In [None]:
customer_rfm_df = create_rfm_df('customer_unique_id')
customer_rfm_df

In [None]:
visualize_rfm_df(customer_rfm_df)

**Insights** <br>
1. **Recency**
    - Customer dengan ID-564 menjadi customer yang baru melakukan transaksi akhir-akhir ini dan sisanya baru melakukan transaksi 5 hari ke belakang
2. **Frequency**
    - Customer dengan ID-455 menjadi customer yang paling sering melakukan transkasi akhir-akhir ini dan sisanya melakukan transaksi dalam rentang 6 - 9 transaksi akhir-akhir ini
3. **Monetary**
    - Customer dengan ID-872 menyumbang total pembelian terbanyak +-13.970 dollar

### Geospatial Analysis
***
**Pengertian** <br>
Geospasial analisis bertujuan untuk menganalisis data berdasarkan lokasi geografis untuk mengidentifikasi tren atau pola tertentu di suatu wilayah. Package seperti *Folium* dapat digunakan untuk mendapatkan distribusi data berdasarkan lokasi

**Tujuan** <br>
- Tampilkan demografi top-100 user berdasarkan hasil RFM analysis (monetary tertinggi)

In [None]:
top_n_users = 100

#### Demografi Geolocation dari Top-10 user based on RFM Analysis

In [None]:
# gabungkan data rfm analysis, customer, dan geolocation
merge_customer_geo_rfm_df = pd.merge(customer_rfm_df, customers_df, left_on='customer_id', right_on='customer_unique_id', how='inner')
merge_customer_geo_rfm_df = pd.merge(merge_customer_geo_rfm_df, geolocation_df,
                                     left_on='customer_zip_code_prefix',
                                     right_on='geolocation_zip_code_prefix',
                                     how='inner')

In [None]:
# pertahankan hanya kolom-kolom yang penting saja untuk geospatial analysis
merge_customer_geo_rfm_df = merge_customer_geo_rfm_df[
    ['customer_id_mapping','frequency', 'monetary','recency','geolocation_lat',
     'geolocation_lng', 'geolocation_zip_code_prefix',
     'geolocation_city', 'geolocation_state'
    ]
].sort_values(by='monetary', ascending=False).head(top_n_users)

In [None]:
merge_customer_geo_rfm_df

In [None]:
# tampilkan demografi customer dengan folium
# Create a base map centered around the average location
map_center = [merge_customer_geo_rfm_df['geolocation_lat'].mean(), merge_customer_geo_rfm_df['geolocation_lng'].mean()]
customer_map = folium.Map(location=map_center, zoom_start=2)

# Add markers for each customer
for index, row in merge_customer_geo_rfm_df.iterrows():
    folium.Marker(
        location=[row['geolocation_lat'], row['geolocation_lng']],
        popup=f'Customer: {row["customer_id_mapping"]}',
        icon=folium.Icon(color='blue')
    ).add_to(customer_map)

# Display the map (in Jupyter Notebook or similar environments)
customer_map

### Clustering

#### Grouping
***
Pengelompokkan data menggunakan **.groupby()** sudah dilakukan pada langkah-langkah analisis sebelumnya

#### Binning
***
**Pengertian** <br>
Fungsi pandas.cut digunakan untuk melakukan segmentasi dan mengurutkan nilai data ke dalam kelompok atau interval yang terpisah. Fungsi ini sangat berguna ketika Anda ingin mengubah variabel kontinu menjadi variabel kategoris. Misalnya, Anda mungkin ingin mengkategorikan usia ke dalam kelompok seperti "anak-anak", "remaja", dan "dewasa".

**Tujuan**
Teknik ini umumnya digunakan untuk diskritisasi data kontinyu menjadi ke dalam interval atau kategori tertentu. Hal ini dapat dimanfaatkan untuk tujuan pembelajaran mesin berbasis data kategori seperti Naive Bayes dan Decision Tree

##### Binning RFM Analysis [frequency, monetary, recency] from Customer

In [None]:
customer_rfm_df['frequency_bin'] = pd.cut(customer_rfm_df['frequency'], bins=3, labels=['infrequent', 'middle', 'frequent'])
customer_rfm_df['monetary_bin'] = pd.cut(customer_rfm_df['monetary'], bins=3, labels=['low expense', 'middle', 'high expense'])
customer_rfm_df['recency_bin'] = pd.cut(customer_rfm_df['recency'], bins=3, labels=['long time', 'middle', 'recently'])
customer_rfm_df

In [None]:
# Count frequencies for each categorical column
frequency_counts = customer_rfm_df['frequency_bin'].value_counts()
monetary_counts = customer_rfm_df['monetary_bin'].value_counts()
recency_counts = customer_rfm_df['recency_bin'].value_counts()

# Create subplots
fig, axes = plt.subplots(nrows=1, ncols=3, figsize=(15, 5))
fig.suptitle('Distribution of Customer RFM Analysis Segments by Bins', fontsize=16)

# Frequency Bin Plot
axes[0].bar(frequency_counts.index, frequency_counts.values, color='g')
axes[0].set_title('Frequency Bin')
axes[0].set_xlabel('Categories')
axes[0].set_ylabel('Count')
# Add annotations on top of bars for Frequency Bin
for index, value in enumerate(frequency_counts.values):
    axes[0].text(index, value + 0.1, str(value), ha='center')

# Monetary Bin Plot
axes[1].bar(monetary_counts.index, monetary_counts.values, color='g')
axes[1].set_title('Monetary Bin')
axes[1].set_xlabel('Categories')
axes[1].set_ylabel('Count')
# Add annotations on top of bars for Monetary Bin
for index, value in enumerate(monetary_counts.values):
    axes[1].text(index, value + 0.1, str(value), ha='center')

# Recency Bin Plot
axes[2].bar(recency_counts.index, recency_counts.values, color='g')
axes[2].set_title('Recency Bin')
axes[2].set_xlabel('Categories')
axes[2].set_ylabel('Count')
# Add annotations on top of bars for Recency Bin
for index, value in enumerate(recency_counts.values):
    axes[2].text(index, value + 0.1, str(value), ha='center')

# Improve layout
plt.tight_layout()

# Show the plot
plt.show()

## Conclusion

1. Pertanyaan : Bagaimana jumlah hasil penjualan dari setiap product category?
**Jawaban**: <br>
- Karena kategori produk yang ditampilkan di atas merupakan hasil filter, maka kategori produk yang memiliki orders >=2000 pesanan dikategorikan menjadi Others
- Top-3 kategori produk selain Others dengan total penjualan tertinggi (price) yaitu beleza_saude, cama_mesa_banho, dan relogios_presentes masing-masing sebesar 1.290.883 dollar (asumsi dollar sebagai mata uang), 1.286.386 dollar, dan 1.245.783 dollar
- Produk fashion dan aksesoris (fashion_bolsas_e_accessorios) paling sedikit mendatangkan penjualan

2. Pertanyaan : Bagaimana hasil tren dari penjualan (order) setiap tahun?
**Jawaban**: <br>
- Secara keseluruhan per tahun tren penjualan yang dihasilkan mampu memberikan profit dari tahun-tahun sebelumnya, dimana peningkatan profit tertinggi terjadi dari 2016 ke 2017 dengan penambahan sebesar 6.406.070 dollar
- Peningkatan profit dari 2017 ke 2018 tidak setinggi tahun sebelumnya karena tren penjualan pada bulan 08-2018 ke 09-2018 mengalami penurunan omzet penjualan cukup tinggi yang menyebabkan total penjualan keseluruhan tidak termarkup