In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np

# 1. Business Understanding

## Business Objective

Tujuan bisnis dari proyek ini adalah untuk mendapatkan pemahaman yang lebih dalam tentang kebiasaan dan minat pembelian pelanggan dalam konteks e-commerce, dan lebih khusus lagi, perilaku pembelian bersama produk di Amazon. Kebiasaan ini berguna bagi bisnis e-commerce untuk meningkatkan beberapa proses bisnis, terutama pembuatan sistem rekomendasi dan strategi bundling produk. Dengan menganalisis pola pembelian produk yang dibeli bersama, proyek ini bertujuan untuk memperoleh *insights* yang dapat ditindaklanjuti yang dapat digunakan untuk meningkatkan kepuasan pelanggan, meningkatkan penjualan, dan membuat pembelian online menjadi lebih efisien. Pada akhirnya, pemahaman ini akan berkontribusi pada strategi ritel yang lebih efektif dan pengalaman pelanggan yang lebih personal di e-commerce.

## Assess Situation

Dalam era belanja online yang terus berubah, *insights* tentang perilaku pembelian pelanggan tidak lagi menjadi preferensi, tetapi sebuah keharusan untuk mengikuti persaingan. Pengalaman yang dipersonalisasi melalui algoritma rekomendasi yang canggih dan pengelompokan produk yang efektif adalah fondasi untuk meningkatkan kuantitas penjualan yang pada akhirnya akan membangun loyalitas merek. Baik sistem rekomendasi maupun pengelompokkan produk perlu memerhatikan hubungan antarproduk yang ingin disatukan agar pelanggan tertarik membeli barang-barang tersebut. Kurang optimalnya sistem rekomendasi dan pengelompokan produk saat ini dapat disebabkan oleh kurangnya informasi menyeluruh tentang hubungan pembelian produk bersama yang diakibatkan oleh kurangnya penggalian data yang lebih efektif. Hal ini menyebabkan hilangnya kesempatan untuk meningkatkan penjualan produk yang disebabkan oleh sistem rekomendasi yang kurang optimal menangkap hubungan antarproduk. Salah satu metode yang dapat digunakan digunakan untuk menangkap hubungan antarproduk adalah menganalisis data barang yang pernah dibeli pelanggan untuk mendapat pola dan preferensi belanja pelanggan. Metode standar biasanya hanya berfokus pada penggunaan data tabular sebagai bahan analisis, padahal metode tersebut kurang baik dalam hal menangkap keterhubungan antarproduk. Sedangkan, analisis pada data dalam bentuk graf akan berfokus pada keterhubungan antar data. Namun sumber data yang diberikan ini memiliki beban tersendiri, terutama kompleksitas yang terkait dengan data graf dan teknik analisis yang terlibat dalam memperoleh *insights* yang berguna darinya.

## Data Mining Goals

Tujuan utama penggalian data dari proyek ini adalah untuk secara komprehensif memeriksa dan menggali hubungan pembelian bersama yang kompleks pada data graf pembelian bersama Produk Amazon. Proyek ini lebih mengutamakan hubungan antar data dibandingkan mempelajari sifat masing-masing data, sehingga analisis difokuskan pada data graf untuk memahami secara menyeluruh hubungan antar produk dan mengidentifikasi pola penting yang mendasari perilaku konsumen. Proyek ini akan berupaya menjelaskan topologi jaringan pembelian bersama untuk mengetahui bagaimana produk saling terkait, menentukan hubungan produk yang berpengaruh dari setiap kategori produk, serta menemukan koleksi produk yang dibeli bersama. Selain itu, akan dicoba metode prediksi seperti teknik link prediction dan lain-lain. Sehingga dapat memberikan rekomendasi yang lebih relevan kepada pelanggan agar tercipta pengalaman pembelian yang lebih baik bagi konsumen. Keberhasilan proyek ini akan diukur dari seberapa baik hubungan antarproduk dapat dipahami dan seberapa signifikan peningkatan efektivitas sistem rekomendasi yang dibuat berdasarkan knowledge hubungan antarproduk.

## Produce Project Plan

Proyek ini dimulai dengan dengan fase **Business Understanding**, di mana tujuan bisnis proyek ini, yaitu memahami pola pembelian bersama dan preferensi pelanggan akan diterjemahkan menjadi tujuan penambangan data yang spesifik. Selanjutnya, eksplorasi awal dengan metode Exploratory Data Analysis (EDA) untuk memahami karakteristik data serta kompleksitas hubungan antar produk dalam bentuk graf, yang akan mengungkap pola keterhubungan dan kecenderungan pembelian bersama akan dilakukan pada fase **Data Understanding**. Secara paralel dengan fase **Data Understanding**, fase **Data Preparation** juga dilakukan yang berfokus pada pembersihan dan transformasi data, sehingga data siap digunakan dalam analisis mendalam untuk analisis graph mining. Pada fase Modeling, metode-metode analisis graf seperti community detection, pengukuran centrality, dan link prediction diterapkan untuk mengidentifikasi pola-pola penting serta memprediksi kemungkinan pembelian bersama di masa depan yang disesuaikan dengan knowledge dari fase **Data Understanding**. Fase evaluasi model selanjutnya dilakukan dengan merumuskan kriteria yang mengukur efektivitas dan akurasi dalam menangkap hubungan antar produk yang mendasari perilaku konsumen. Terakhir, meskipun fase **Deployment** hanya akan menguraikan rencana penerapan, rencana tersebut akan mendiskusikan bagaimana pembelajaran dari analisis dapat diterjemahkan ke dalam rekomendasi praktis untuk strategi pembelian online Amazon, terutama dalam meningkatkan sistem rekomendasi produk dan strategi pengelompokan produk. Proyek ini bersifat iteratif, dengan peninjauan dan pertemuan tim secara berkala untuk memastikan bahwa rencana dapat disesuaikan seiring ditemukannya knowledge baru dan untuk menjaga proyek tetap selaras dengan tujuan dan jadwal yang telah ditetapkan.

In [3]:
df_products = pd.read_csv('products.csv')

df_products.head()

Unnamed: 0,id,title,group,salesrank,review_cnt,downloads,rating
0,1,Patterns of Preaching: A Sermon Sampler,Book,396585.0,2,2,5.0
1,2,Candlemas: Feast of Flames,Book,168596.0,12,12,4.5
2,3,World War II Allied Fighter Planes Trading Cards,Book,1270652.0,1,1,5.0
3,4,Life Application Bible Commentary: 1 and 2 Tim...,Book,631289.0,1,1,4.0
4,5,Prayers That Avail Much for Business: Executive,Book,455160.0,0,0,0.0


In [4]:
df_copurchase = pd.read_csv('copurchase.csv')

df_copurchase.head()

Unnamed: 0,Source,Target
0,1,2
1,1,4
2,1,5
3,1,15
4,2,11


#### Check Duplicate value for products.csv

In [5]:
print("Total data duplikat adalah: " + str(df_products.duplicated().sum()) + " Data")

Total data duplikat adalah: 0 Data


#### Check Missing value for products.csv

In [6]:
df_products.isnull().sum()

id            0
title         0
group         0
salesrank     0
review_cnt    0
downloads     0
rating        0
dtype: int64

#### Check Missing value for copurchase.csv

In [7]:
df_copurchase.isnull().sum()

Source    0
Target    0
dtype: int64

#### Remove Copurchase that isn't in products.csv

In [8]:
set_source = set(df_copurchase['Source'])
set_target = set(df_copurchase['Target'])
set_products = set(df_products['id'])

target_not_in_products = set_target - set_products
source_not_in_products = set_source - set_products

print("Jumlah produk yang tidak ada di dalam data products.csv adalah: " + str(len(target_not_in_products) + len(source_not_in_products)) + " Data")

df_copurchase_filtered = df_copurchase[~df_copurchase['Source'].isin(source_not_in_products)]
df_copurchase_filtered = df_copurchase_filtered[~df_copurchase_filtered['Target'].isin(target_not_in_products)]

print("Jumlah data copurchase setelah di filter adalah: " + str(len(df_copurchase_filtered)) + " Data dari " + str(len(df_copurchase)) + " Data")

Jumlah produk yang tidak ada di dalam data products.csv adalah: 5843 Data
Jumlah data copurchase setelah di filter adalah: 1207337 Data dari 1234870 Data


#### Handle Self Loop and Multi Edge

In [9]:
df_copurchase_filtered = df_copurchase_filtered[df_copurchase_filtered['Source'] != df_copurchase_filtered['Target']]

duplicate_edges_sum = df_copurchase_filtered.duplicated(subset=['Source', 'Target']).sum()
duplicate_edges_sum

0

#### Clean Salesrank Value

In [10]:
print(df_products[df_products['salesrank'] < 1]['salesrank'].value_counts())

df_products = df_products.assign(
    salesrank=lambda df: df['salesrank'].apply(lambda x: np.nan if x < 1 else x)
)

median_ranks = df_products.groupby('group')['salesrank'].transform('median')
df_products = df_products.assign(
    salesrank=lambda df: df['salesrank'].fillna(median_ranks)
)

print("=============== After Cleaning ===============")
df_products[df_products['salesrank'] < 1]['salesrank'].value_counts()

salesrank
-1.0    226
Name: count, dtype: int64


Series([], Name: count, dtype: int64)

#### Export preprocessed data

In [11]:
df_products.to_csv('products_cleaned.csv', index=False)
df_copurchase_filtered.to_csv('copurchase_cleaned.csv', index=False)