In [32]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# 1. Business Understanding

## Business Objective

Tujuan bisnis dari proyek ini adalah untuk mendapatkan pemahaman yang lebih dalam tentang kebiasaan dan minat pembelian pelanggan dalam konteks e-commerce, dan lebih khusus lagi, perilaku pembelian bersama produk di Amazon. Kebiasaan ini berguna bagi bisnis e-commerce untuk meningkatkan beberapa proses bisnis, terutama pembuatan sistem rekomendasi dan strategi bundling produk. Dengan menganalisis pola pembelian produk yang dibeli bersama, proyek ini bertujuan untuk memperoleh intelijen yang dapat ditindaklanjuti yang dapat digunakan untuk meningkatkan kepuasan pelanggan, meningkatkan penjualan, dan membuat pembelian online menjadi lebih efisien. Pada akhirnya, pemahaman ini akan berkontribusi pada strategi ritel yang lebih efektif dan pengalaman pelanggan yang lebih personal di pasar online.

## Assess Situation

Dalam era belanja online yang terus berubah, e-commerce seperti Amazon, wawasan tentang perilaku pembelian pelanggan tidak lagi menjadi preferensi, tetapi sebuah keharusan untuk mengikuti persaingan. Pengalaman yang dipersonalisasi melalui algoritme rekomendasi tingkat tinggi yang canggih dan pengelompokan produk yang cerdas adalah pilar untuk membangun loyalitas merek dan kuantitas penjualan. Sementara metode standar biasanya hanya berfokus pada pemeriksaan data tabular, metodologi tersebut kurang dalam hal menangkap jaringan pengaruh antar-produk yang sebenarnya mendorong aktivitas pembelian bersama. Upaya ini menyadari kekurangan data tabular dan sebagai gantinya mengejar jawaban berbasis grafik dalam upaya untuk menemukan visi yang lebih mendalam dan berkembang tentang hubungan antar-produk. Masalah bisnis yang menarik adalah potensi kurang optimalnya aktivitas rekomendasi dan pengelompokan produk saat ini karena kurangnya wawasan menyeluruh tentang hubungan pembelian bersama. Hal ini menyebabkan hilangnya kesempatan untuk meningkatkan penjualan silang, penjualan naik, dan pada akhirnya pengalaman pelanggan yang lebih buruk. Namun sumber data yang diberikan ini memiliki beban tersendiri, terutama kompleksitas yang terkait dengan data grafik dan teknik analisis canggih yang terlibat dalam memperoleh wawasan yang berguna darinya.

## Data Mining Goals

Tujuan utama penggalian data dari proyek ini adalah untuk secara komprehensif memeriksa dan menyelidiki matriks hubungan pembelian bersama yang kompleks di Jaringan Pembelian Bersama Produk Amazon. Di luar batas-batas penyelidikan data berbasis tabel yang biasa, proyek saat ini menghargai hubungan pembelian bersama sebagai kepentingan utama untuk penyelidikan daripada berkonsentrasi pada setiap atribut item. Dengan memanfaatkan properti grafik dari kumpulan data, tujuannya adalah untuk mengungkapkan afinitas pembelian bersama yang kuat, mengidentifikasi pasangan bersama dan koleksi produk untuk tujuan menentukan pola tersembunyi dari pembelian pelanggan. Selain itu, proyek ini berupaya menjelaskan topologi jaringan pembelian bersama itu sendiri, menganalisis topologinya untuk mengetahui bagaimana produk saling terkait, menentukan produk hub yang berpengaruh yang melintasi kategori produk, dan menemukan koleksi produk yang dibeli bersama, yang mungkin mengindikasikan koleksi produk atau konteks penggunaan yang alami. Pada akhirnya, wawasan yang diperoleh melalui upaya penggalian data berbasis hubungan pembelian bersama seperti itu seharusnya memungkinkan pengembangan sistem rekomendasi berorientasi pola pembelian bersama yang mampu menciptakan pengalaman pembelian yang lebih kohesif dan terinformasi bagi pembeli ritel digital. Keberhasilannya akan diukur dari seberapa baik saling ketergantungan produk dipahami dan kemampuan aktual untuk menggunakan pengetahuan relasional ini ke dalam praktik untuk secara efektif mengubah praktik strategi toko online dengan cara yang nyata, terutama dalam merekomendasikan produk dan pengelompokan produk.

## Produce Project Plan

Proyek ini akan dimulai dengan fase Pemahaman Data, dengan fokus pada pemeriksaan menyeluruh terhadap kumpulan data Jaringan Pembelian Bersama Produk Amazon. Pengenalan data, pemeriksaan kualitas, dan visualisasi awal akan dilakukan pada langkah pertama untuk mendapatkan gambaran awal tentang properti jaringan dan tantangan potensial. Setelah pemahaman data, proyek akan masuk ke tahap Persiapan Data. Pada tahap ini, semua masalah kualitas data, yang telah ditemukan pada tahap sebelumnya, akan ditangani dan mungkin melibatkan prosedur preprocessing untuk mengubah data ke dalam bentuk yang tepat yang sesuai untuk analisis graph mining. Sebagian besar aktivitas analitik akan terjadi pada fase Pemodelan. Fase ini akan melibatkan pemilihan dan penerapan teknik-teknik graph mining yang sesuai, seperti sentralitas, metode deteksi komunitas, dan mungkin metode penyematan graf atau prediksi tautan. Pilihan metode yang sebenarnya akan dipandu oleh tujuan dan wawasan data mining selama fase pemahaman data. Setelah model telah dikembangkan dan hasil telah dihasilkan, tahap Evaluasi akan menjadi sangat penting. Tahap ini akan menganalisis secara kritis kualitas dan validitas hasil untuk memastikan bahwa informasi yang diperoleh berguna dan bermakna bagi tujuan bisnis. Langkah-langkah evaluasi yang sesuai untuk tugas-tugas graph mining akan digunakan untuk mengukur efektivitas metode yang dipilih. Terakhir, rencana proyek juga akan mempertimbangkan tahap Deployment, meskipun pada tahap ini, hanya akan menguraikan rencana penerapan. Hal ini akan melibatkan perdebatan tentang bagaimana pembelajaran dari analisis dapat diterjemahkan ke dalam rekomendasi praktis untuk strategi pembelian online Amazon, terutama dengan fokus pada peningkatan sistem rekomendasi produk dan strategi pengelompokan produk. Proyek ini akan bersifat berulang sehingga koreksi terhadap rencana dapat dilakukan seiring dengan ditemukannya pembelajaran baru di setiap langkah. Pertemuan dan tinjauan tim secara teratur akan diperlukan untuk melacak kemajuan, menyelesaikan masalah tepat waktu, dan untuk menjaga agar proyek tetap sesuai dengan tujuan dan jadwal.

In [33]:
df_products = pd.read_csv('products.csv')

df_products.head()

Unnamed: 0,id,title,group,salesrank,review_cnt,downloads,rating
0,1,Patterns of Preaching: A Sermon Sampler,Book,396585.0,2,2,5.0
1,2,Candlemas: Feast of Flames,Book,168596.0,12,12,4.5
2,3,World War II Allied Fighter Planes Trading Cards,Book,1270652.0,1,1,5.0
3,4,Life Application Bible Commentary: 1 and 2 Tim...,Book,631289.0,1,1,4.0
4,5,Prayers That Avail Much for Business: Executive,Book,455160.0,0,0,0.0


In [34]:
df_copurchase = pd.read_csv('copurchase.csv')

df_copurchase.head()

Unnamed: 0,Source,Target
0,1,2
1,1,4
2,1,5
3,1,15
4,2,11


#### Check Duplicate value for products.csv

In [35]:
print("Total data duplikat adalah: " + str(df_products.duplicated().sum()) + " Data")

Total data duplikat adalah: 0 Data


#### Check Missing value for products.csv

In [36]:
df_products.isnull().sum()

id            0
title         0
group         0
salesrank     0
review_cnt    0
downloads     0
rating        0
dtype: int64

#### Check Missing value for copurchase.csv

In [37]:
df_copurchase.isnull().sum()

Source    0
Target    0
dtype: int64