====================================================================================================================================

Program ini dibuat untuk menganalisa data dan menyelesaikan problem statement yang dibuat. Dalam program ini dilakukan data exploration, data cleaning dan data analysis. Dalam data exploration dilakukan eksplorasi mengenai kolom-kolom data, tipe data, dan isi data.  Dalam data cleaning dilakukan pemilihan kolom mana yang akan digunakan, mengubah format data kolom ke tipe yang sesuai, menghapus data duplikat dan handing missing value. Selanjutnya data dianalisa menggunakan data visualization, perhitungan statistika deskriptif, perhitungan statistika 
dan inferensial. Selanjutnya diambil kesimpulan dan rekomendasi dari hasil analisa yang sudah dilakukan. Setelah analisa dilakukan, data visualisasi dan gambaran analisa statistika juga dimuat ke dalam dashboard tableau.

Dataset:

https://www.kaggle.com/datasets/kartikeybartwal/ecommerce-product-recommendation-collaborative/data

Link Tableau:

https://public.tableau.com/views/DataVisualization_17249250434480/Dashboard1?:language=en-GB&publish=yes&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link


====================================================================================================================================

## Latar Belakang Masalah

Pendapatan beberapa bulan terakhir di toko tidak ada kenaikan atau penurunan yang signifikan. Sehingga harus mencari cara untuk meningkatkan pendapatan. Meskipun toko dapat mempertahankan pendapatan pada level yang sama, ketidakmampuan untuk meningkatkan pendapatan dapat mengindikasikan adanya masalah dalam strategi bisnis dan pemasaran. Menemukan strategi yang tepat adalah cara yang bisa dilakukan toko mengatasi stagnansi pendapatan dan mencapai pertumbuhan yang berkelanjutan.

## Problem Statement

**Specific:** Pendapatan toko bergerak stagnan, sehingga harus ditingkatkan

**Measurable:** Nilai GMV dari penjualan toko meningkat sebesar 30%

**Achievable:** Pendapatan GMV bisa ditingkatkan dengan meningkatkan nilai rata-rata belanja tiap customer di website

**Relevant:** Meningkatkan rata-rata nilai belanja tiap customer bisa meningkatkan nilai GMV dan berpengaruh dengan peningkatan pendapatan toko

**Timebond:** Target untuk meningkatkan nilai GMV sebesar 30% ditetapkan dengan target waktu selama 1 bulan


**Problem statement:**
Meningkatkan pendapatan toko dengan meningkatkan nilai GMV sebesar 30% selama 1 bulan kedepan. Cara yang bisa dilakukan untuk meningkatkan nilai GMV adalah meningkatkan rata-rata nilai belanja customer.

## Penjabaran Masalah

Berikut adalah penjabaran masalah yang akan dianalisa:
1. Bagaimana proporsi kategori produk pilihan user terhadap total revenue?
2. Lokasi mana yang memberikan revenue terbanyak?
3. Bagaimana proporsi gender terhadap total revenue?
4. Bagaimana proporsi kategori usia user berdasarkan total revenue?
5. Berapa jumlah user yang subscribe newsletter dan tidak subscribe? 
6. Apakah ada korelasi antara income user dengan average order value yang dibelanjakan oleh user?
7. Apakah ada korelasi antara total revenue dengan average order value yang dibelanjakan oleh user?
8. Apakah ada korelasi antara interest user dengan kategori produk?
9. Apakah ada korelasi antara kategori umur dengan kategori produk?
10. Apakah ada perbedaan frekuensi belanja antara user yang subscribe newsletter dan tidak subscribe?
11. Apakah ada perbedaan antara lamanya user terakhir login dari user yang subscribe newsletter dan tidak subscribe?
12. Apakah ada perbedaan nilai belanja rata-rata dari user yang subscribe newsletter dan tidak subscribe newlestter?

# **Data Loading**

Pada bagian ini akan dilakukan eksplorasi data sederhana. Dimulai dari mengimport library dan file CSV yang akan digunakan dalam eksplorasi data dan proses analisa. Pada bagian ini sumber data juga dicantumkan, kemudian dari data tersebut dilakukan pengecekan informasi jumlah kolom dan baris yang ada pada dataeset, ringkasan informasi pada dataset, nama-nama kolom serta penjelasannya, dan beberapa baris atas dan bawah dataset.

## Import Library dan File Data CSV

In [52]:
# import library pandas
import pandas as pd 

# mengimport library scipy dan plotly untuk kebutuhan analisa
from scipy import stats
import plotly.express as px

# memanggil file CSV yang berisi data yang akan dianalisa dan disimpan ke dalam variabel bernama data
data = pd.read_csv('user_personalized_features.csv')

## Jumlah Baris dan Kolom Pada Dataset

In [53]:
# menampilkan jumlah baris dan kolom dataset menggunakan fungsi .shape
data.shape

(1000, 15)

Dari fungsi diatas, didapatkan informasi ada 1000 baris dan 15 kolom pada dataset.

## Informasi Umum Pada Data

In [54]:
# menampilkan informasi summary dataset menggunakan fungsi .info()
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 15 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   Unnamed: 0                   1000 non-null   int64 
 1   User_ID                      1000 non-null   object
 2   Age                          1000 non-null   int64 
 3   Gender                       1000 non-null   object
 4   Location                     1000 non-null   object
 5   Income                       1000 non-null   int64 
 6   Interests                    1000 non-null   object
 7   Last_Login_Days_Ago          1000 non-null   int64 
 8   Purchase_Frequency           1000 non-null   int64 
 9   Average_Order_Value          1000 non-null   int64 
 10  Total_Spending               1000 non-null   int64 
 11  Product_Category_Preference  1000 non-null   object
 12  Time_Spent_on_Site_Minutes   1000 non-null   int64 
 13  Pages_Viewed                 1000 

**Insight:**
1. Kolom 'Unnamed: 0' tidak memiliki informasi yang penting
2. Tipe data kolom Income, Average_Order_Value, Total_Spending yang berisi data harga/nominal berformat integer, kolom User_ID bertipe object
3. Jumlah baris data ada 1000
4. Jumlah kolom ada 15 dan tidak ada duplikat (sama dengan unique value nama kolom)
5. Missing value tidak ditemukan jika dilihat dari kolom Non-Null Count

**Rekomendasi:**
1. Kolom 'Unnamed: 0' akan dihapus (solving insight 1)
2. Mengubah tipe data kolom Income, Average_Order_Value, Total_Spending menjadi tipe float, mengubah tipe data kolom User_ID menjadi tipe integer(solving insight 2)
3. Melakukan pengecekan apakah ada data yang terduplikat saat data cleaning (solving insight 3)

## Nama-nama Kolom

In [55]:
# menampilkan nama kolom
data.columns

Index(['Unnamed: 0', 'User_ID', 'Age', 'Gender', 'Location', 'Income',
       'Interests', 'Last_Login_Days_Ago', 'Purchase_Frequency',
       'Average_Order_Value', 'Total_Spending', 'Product_Category_Preference',
       'Time_Spent_on_Site_Minutes', 'Pages_Viewed',
       'Newsletter_Subscription'],
      dtype='object')

In [56]:
# menampilkan unique value dari nama kolom
data.columns.unique()

Index(['Unnamed: 0', 'User_ID', 'Age', 'Gender', 'Location', 'Income',
       'Interests', 'Last_Login_Days_Ago', 'Purchase_Frequency',
       'Average_Order_Value', 'Total_Spending', 'Product_Category_Preference',
       'Time_Spent_on_Site_Minutes', 'Pages_Viewed',
       'Newsletter_Subscription'],
      dtype='object')

Total ada 15 kolom yang berisi data yang akan dianalisa, dari nama kolom dan unique value nama kolom tidak ada perbedaan sehingga bisa didapatkan informasi bahwa tidak ada nama kolom yang terduplikat. Untuk kolom 'Unnamed: 0' kemungkinan itu adalah kolom index yang ikut terkonversi menjadi file CSV. Untuk kolom-kolom lain penjelasannya sebagai berikut:


| Nama kolom                     |                        Deskripsi                              |
|:------------------------------:|:-------------------------------------------------------------:|
| User_ID                        | Unique identifier untuk setiap user                           |
| Age                            | Umur dari user                                                |
| Gender                         | Gender customer                                               |
| Location                       | Asal lokasi user                                              |
| Income                         | Nilai pendapatan dari user                                    |
| Interest                       | Bidang ketertarikan user                                      |
| Last_Login_Days_Ago            | Berapa hari user terakhir login                               |
| Purchase_Frequency             | Frekuensi pembelian yang dilakukan oleh user                  |
| Average_Order_Value            | Rata-rata nilai yang dibayarkan user dalam satu transaksi     |
| Total_Spending                 | Total nilai dari transaksi user                               |
| Product_Category_Preference    | Kategori produk pilihan user                                  |
| Time_Spent_on_Site_Minutes     | Total durasi yang dihabiskan user diwebsite                   |
| Pages Viewed                   | Halaman yang dikunjungi oleh user di website                  |
| Newsletter_Subscription        | Informasi apakah user berlangganan newsletter toko atau tidak |

## Baris Data Teratas

In [57]:
# menampilkan 5 baris teratas data menggunakan fungsi .head()
data.head()

Unnamed: 0.1,Unnamed: 0,User_ID,Age,Gender,Location,Income,Interests,Last_Login_Days_Ago,Purchase_Frequency,Average_Order_Value,Total_Spending,Product_Category_Preference,Time_Spent_on_Site_Minutes,Pages_Viewed,Newsletter_Subscription
0,0,#1,56,Male,Suburban,38037,Sports,5,7,18,2546,Books,584,38,True
1,1,#2,46,Female,Rural,103986,Technology,15,7,118,320,Electronics,432,40,False
2,2,#3,32,Female,Suburban,101942,Sports,28,1,146,3766,Apparel,306,1,True
3,3,#4,60,Female,Suburban,71612,Fashion,18,3,163,4377,Apparel,527,29,False
4,4,#5,25,Male,Suburban,49725,Travel,2,5,141,4502,Health & Beauty,53,10,True


Insight:

Dari output diatas didapatkan:
- Informasi mengenai data demografik customer dari kolom Age, Gender, Location, Income
- Informasi mengenai kategori kesukaan dan produk pilihan dari customer dari kolom Interest dan Product_Category_Preference
- Informasi mengenai pendapatan customer dari kolom Income
- Informasi mengenai customer buying behavior dari kolom Purchase_Frequency, Average_Order_Value, Total_Spending
- Informasi mengenai engagement metrics dari kolom Last_Login_Days_Ago, Time_Spent_on_Site_Minutes, Pages_Viewed
- Informasi mengenai channel penawaran dari kolom Newsletter_Subscription
- Di kolom User_ID memiliki karakter '#' disetiap barisnya, sehingga nanti akan dihapus agar memudahkan proses analisa jika dibutuhkan

## Baris Data Terbawah

In [58]:
# menampilkan 5 baris terbawah data menggunakan fungsi .tail()
data.tail()

Unnamed: 0.1,Unnamed: 0,User_ID,Age,Gender,Location,Income,Interests,Last_Login_Days_Ago,Purchase_Frequency,Average_Order_Value,Total_Spending,Product_Category_Preference,Time_Spent_on_Site_Minutes,Pages_Viewed,Newsletter_Subscription
995,995,#996,22,Male,Urban,104162,Technology,18,7,83,607,Apparel,542,21,False
996,996,#997,40,Male,Urban,99003,Travel,16,3,180,431,Apparel,359,4,True
997,997,#998,27,Female,Urban,72395,Technology,8,8,130,650,Books,331,34,False
998,998,#999,61,Male,Rural,59758,Travel,1,3,152,1041,Electronics,427,28,True
999,999,#1000,19,Male,Rural,74312,Sports,12,7,175,827,Health & Beauty,497,38,True


Insight:

Dari baris data terbawah bisa didapatkan informasi bahwa susunan baris terisi dengan baik, tetapi nanti akan dicek kembali pada melakukan data cleaning apakah ada data duplikat atau missing value di tabel tersebut

# **Data Cleaning**

Pada bagian ini akan dilakukan data cleaning. Proses data cleaning yang dilakukan adalah cek data duplikat, cek missing value, drop kolom yang tidak dibutuhkan, menghapus karakter yang tidak dibutuhkan, dan mengubah beberapa tipe data kolom.

## Cek Data Duplikat

In [59]:
# melakukan pengecekan apakah ada nilai data yang terduplikat beserta jumlahnya menggunakan fungsi .duplicated().sum()
data.duplicated().sum()

0

Dari hasil output diatas didapatkan informasi bahwa tidak ada data yang terduplikat.

## Cek Missing Value

In [60]:
# melakukan pengecekan apakah ada nilai data yang hilang/kosong beserta jumlahnya menggunakan fungsi .isnull().sum()
data.isnull().sum()

Unnamed: 0                     0
User_ID                        0
Age                            0
Gender                         0
Location                       0
Income                         0
Interests                      0
Last_Login_Days_Ago            0
Purchase_Frequency             0
Average_Order_Value            0
Total_Spending                 0
Product_Category_Preference    0
Time_Spent_on_Site_Minutes     0
Pages_Viewed                   0
Newsletter_Subscription        0
dtype: int64

Dari hasil output diatas didapatkan informasi bahwa tidak ada baris pada tiap kolom yang nilainya kosong.

## Drop Kolom yang Tidak Dibutuhkan

Kolom 'Unnamed: 0' didrop karena tidak memiliki informasi yang penting.

Kolom 'Time_Spent_on_Site_Minutes' didrop karena tidak menggambarkan interaksi user sepenuhnya. Misalnya user meninggalkan device dengan posisi website sedang terbuka.

Kolom 'Pages_Viewed' didrop karena tidak sepenuhnya mencerminkan ketertarikan user. Misalnya hanya sengaja melihat-lihat kategori produk yang ada di website, atau akunnya digunakan oleh orang lain.


In [61]:
# menghapus kolom 'Unnamed: 0', 'Time_Spent_on_Site_minutes', dan 'Pages_Viewed' menggunakan fungsi .drop() dan menyimpan tabel baru ke dalam variabel c_data
data.drop(columns=['Unnamed: 0'], inplace=True)

## Menambah Kolom Kategori Usia

Untuk memudahkan proses analisa data usia, maka data usia user akan digrouping menjadi 5 kategori usia, yaitu usia dengan range 18-24 tahun, usia dengan range 25-34 tahun, usia dengan range 35-44 tahun, usia dengan range 45-54 tahun, dan usia dengan range 55-64 tahun. Setelah itu kolom baru akan dibuat dengan nama Age_Category yang berisi kategori usia dari user.

In [62]:
Age_Category = []

for umur in data['Age']:
    if 18 <= umur <= 24:
        Age_Category.append('18-24 Tahun')
    elif 25 <= umur <= 34:
        Age_Category.append('25-34 Tahun')
    elif 35 <= umur <= 44:
        Age_Category.append('35-44 Tahun')
    elif 45 <= umur <= 54:
        Age_Category.append('45-54 Tahun')
    elif 55 <= umur <= 64:
        Age_Category.append('55-64 Tahun')
    else:
        Age_Category.append('Diluar range')

data['Age_Category'] = Age_Category

## Eksport Dataframe ke File CSV untuk Digunakan di Tableau

Setelah data selesai dibersihkan, selanjutnya data dieksport ke file CSV untuk kebutuhan visualisasi di Tableau.

In [63]:
# eksport data ke file CSV menggunakan fungsi .to_csv() 
data.to_csv('cleaned_data.csv', index=False)

# **Analisis dan Perhitungan**

## Bagaimana proporsi kategori produk pilihan user terhadap total revenue?

Untuk melihat proporsi kategori produk terhadap total revenue, pertama dilakukan pengelompokkan kategori produk dan menghitung revenue yang dihasilkan berdasarkan masing-masing produk, lalu ditampilkan menggunakan diagram bar. Konstruksinya seperti dibawah ini:

In [64]:
# menjumlahkan revenue dari masing-masing kategori produk menggunakan fungsi .groupby() dan .sum() lalu diurutkan berdasarkan revenue tertinggi
cat_bar = data.groupby('Product_Category_Preference')['Total_Spending'].sum().reset_index()
cat_bar = cat_bar.sort_values('Total_Spending', ascending=False)

# menampilkan visualisasi diagram bar plotly menggunakan fungsi px.bar()
fig = px.bar(cat_bar, x='Product_Category_Preference', y='Total_Spending', 
             color='Product_Category_Preference',
             color_discrete_sequence=['green', 'blue', 'purple', 'brown', 'orange'],
             title='Total Revenue per Kategori Produk')

# mengubah judul axis x dan y dan beberapa layout menggunakan fungsi .update_layout()
fig.update_layout(
    xaxis_title= 'Kategori Produk',
    yaxis_title= 'Total Revenue (dalam $)',
    title_x = 0.5)

# menampilkan diagram
fig.show()


Insight:

Dari output yang didapatkan, kategori produk Apparel menjadi penghasil revenue terbanyak dan kategori Books menjadi penghasil revenue terendah. Lalu kategori Home & Kitchen dan kategori produk Electronics menjadi penghasil revenue yang hampir setara dengan selisih $14k.

## Lokasi mana yang memberikan revenue terbanyak?

Untuk melihat proporsi lokasi user terhadap total revenue, pertama dilakukan pengelompokkan lokasi user dan menghitung revenue yang dihasilkan berdasarkan masing-masing lokasi, lalu ditampilkan menggunakan diagram pie. Konstruksinya seperti dibawah ini:

In [65]:
# menjumlahkan revenue dari masing-masing lokasi menggunakan fungsi .groupby() dan .sum()
loc_pie = data.groupby('Location')['Total_Spending'].sum().reset_index()

# menampilkan visualisasi diagram pie plotly menggunakan fungsi px.pie()
fig = px.pie(loc_pie, values='Total_Spending', names='Location', title='Proporsi Lokasi User yang Menghasilkan Revenue Terbanyak')

# mengubah layout judul menggunakan fungsi .update_layout()
fig.update_layout(title_x = 0.5)

# menampilkan diagram
fig.show()

Insight:

User yang berasal dari lokasi Suburban dan Urban menjadi penghasil revenue terbanyak sebesar 35.2% . Sedangkan lokasi user yang berada di Rural menghasilkan revenue sebesar 29.6%.

## Bagaimana proporsi gender terhadap total revenue?

Untuk melihat proporsi lokasi gender terhadap total revenue, pertama dilakukan pengelompokkan data gender user dan menghitung revenue yang dihasilkan berdasarkan masing-masing gender, lalu ditampilkan menggunakan diagram pie. Konstruksinya seperti dibawah ini:

In [66]:
# menjumlahkan revenue dari masing-masing gender menggunakan fungsi .groupby() dan .sum() lalu diurutkan berdasarkan revenue tertinggi
gen_barh = data.groupby('Gender')['Total_Spending'].sum().reset_index()
gen_barh = gen_barh.sort_values('Total_Spending', ascending=False)

# menampilkan visualisasi diagram bar plotly menggunakan fungsi px.bar()
fig = px.bar(gen_barh, x='Total_Spending', y='Gender',
             color='Gender',
             color_discrete_sequence=['blue', 'magenta'],
             title='Proporsi Gender User dari Total_Spending',
             orientation='h')

# mengubah judul axis x dan beberapa layout menggunakan fungsi .update_layout()
fig.update_layout(
    xaxis_title='Total Revenue (dalam $)')
fig.update_layout(title_x = 0.5)

# menampilkan diagram
fig.show()

Insight:

User pria menjadi penghasil revenue terbanyak dibandingkan user wanita, tetapi perbedaannya tidak signifikan, sebesar 5,23%.

## Bagaimana proporsi kategori usia user berdasarkan total revenue?

Untuk melihat proporsi kategori usia user terhadap total revenue, pertama dilakukan pengelompokkan kategori usia dan menghitung revenue yang dihasilkan berdasarkan masing-masing kategori usia, lalu ditampilkan menggunakan diagram pie. Konstruksinya seperti dibawah ini:

In [67]:
# menjumlahkan revenue dari masing-masing kategori usia menggunakan fungsi .groupby() dan .sum()
age_pie = data.groupby('Age_Category')['Total_Spending'].sum().reset_index()

# menampilkan visualisasi diagram bar plotly menggunakan fungsi px.bar()
fig = px.pie(age_pie, values='Total_Spending', names='Age_Category', title='Proporsi Kategori Usia User dari Total Revenue')

# mengubah layout judul menggunakan fungsi .update_layout()
fig.update_layout(title_x = 0.5)

# menampilkan diagram
fig.show()

Insight:

- User dengan rentang usia 18-24 tahun menghasilkan revenue paling rendah, asumsinya usia tersebut masih dalam usia pendidikan
- User dengan rentang usia 25-34 tahun dan 55-64 tahun menghasilkan revenue yang hampir sama, asumsinya usia tersebut merupakan usia yang belum terlalu stabil secara finansial atau sudah tidak produktif lagi
- User dengan rentnag usia 35-44 tahun dan 45-54 tahun memberikan porsi terbanyak dalam total revenue, asumsinya user dalam rentang usia tersebut sudah stabil secara finansial

## Berapa jumlah user yang subscribe newsletter dan tidak subscribe? 

In [68]:
# menjumlahkan jumlah user dari masing-masing status newsletter subscription menggunakan fungsi .groupby() dan .sum() lalu diurutkan berdasarkan status newsletter yang tertinggi
nl_bar = data.groupby('Newsletter_Subscription')['User_ID'].count().reset_index()
nl_bar = nl_bar.sort_values('User_ID', ascending=False)

# menampilkan visualisasi diagram bar plotly menggunakan fungsi px.bar()
fig = px.bar(nl_bar, x='User_ID', y='Newsletter_Subscription',
             color='Newsletter_Subscription',
             color_discrete_sequence=['green', 'red'],
             title='Proporsi Status Newsletter Subscription User')

# mengubah judul axis x dan y menggunakan fungsi .update_layout()
fig.update_layout(
    xaxis_title= 'Jumlah User',
    yaxis_title= 'Status Subscription Newsletter')

# menampilkan diagram
fig.show()

Insight:

Jumlah user yang subscribe newsletter lebih banyak 2.83% dari jumlah user yang tidak subscribe newsletter.

## Apakah ada korelasi antara income user dengan average order value yang dibelanjakan oleh user?

Uji korelasi antara data income user (numerik-kontinu) dan average order value (numerik-kontinu) dilakukan menggunakan uji korelasi spearman. Untuk perumusan hipotesisnya menjadi:

H0: Tidak ada korelasi antara income dan average order value user

H1: Ada korelasi antara income dan average order value user

Untuk perhitungannya seperti dibawah ini:

In [69]:
# menggunakan rumus uji korelasi spearman
corr_rho, pval_s = stats.spearmanr(data['Income'], data['Average_Order_Value'])

# menampilkan hasil uji korelasi spearman dan nilai p-value
print(f"rho-correlation: {corr_rho:.2f}, p-value: {pval_s}")

rho-correlation: -0.01, p-value: 0.7536334289888662


Insight:

Hasil perhitungan dengan uji korelasi spearman adalah -0.01, angka tersebut negatif dan mendekati angka 0, artinya tidak ada korelasi antara income user dengan average order value user dan hasil nilai p-value adalah 0.75, angka tersebut lebih besar dari 0.05 artinya, tidak ada korelasi/hubungan yang signifikan antara kedua data tersebut.


## Apakah ada korelasi antara total revenue dengan average order value yang dibelanjakan oleh user?

Uji korelasi antara data total revenue (numerik-kontinu) dan average order value (numerik-kontinu) dilakukan menggunakan uji korelasi spearman. Untuk perumusan hipotesisnya menjadi:

H0: Tidak ada korelasi antara total revenue dan average order value user

H1: Ada korelasi antara total revenue dan average order value user

Untuk perhitungannya seperti dibawah ini:

In [70]:
# menggunakan rumus uji korelasi spearman
corr_rho, pval_s = stats.spearmanr(data['Total_Spending'], data['Average_Order_Value'])

# menampilkan hasil uji korelasi spearman dan nilai p-value
print(f"rho-correlation: {corr_rho:.2f}, p-value: {pval_s}")

rho-correlation: 0.10, p-value: 0.002080805389466223


Insight:

Hasil perhitungan dengan uji korelasi spearman adalah 0.10, angka tersebut positif dan mendekati angka 0, artinya ada korelasi antara total revenue dengan average order value user tetapi sangat lemah dan hasil nilai p-value adalah 0.002, angka tersebut lebih kecil dari 0.05 sehingga H0 ditolak, artinya ada korelasi yang signifikan tetapi sangat lemah dari kedua data tersebut.

## Apakah ada korelasi antara interest user dengan product category?

Uji korelasi antara data interest (kategorikan-nominal) dan average order value (kategorikan-nominal) dilakukan menggunakan uji korelasi chi-squared. Untuk perumusan hipotesisnya menjadi:

H0: Tidak ada korelasi antara interest dan kategori produk

H1: Ada korelasi antara interest dan kategori produk

Untuk perhitungannya seperti dibawah ini:

In [71]:
# menggunakan rumus uji korelasi chi-square
contingency_tableip = pd.crosstab(data['Interests'],data['Product_Category_Preference'])
res = stats.chi2_contingency(contingency_tableip)

# menampilkan hasil uji korelasi chi-square
print("P-value:",res.pvalue)

P-value: 0.4567048696797793


Insight:

Hasil perhitungan dengan uji korelasi chi-squared menunjukkan nilai p-value adalah 0.456, angka tersebut lebih besar dari 0.05 sebagai angka critical value sehingga H0 diterima, artinya tidak ada korelasi yang signifikan dari kedua data tersebut.

## Apakah ada korelasi antara kategori umur dengan kategori produk?

Uji korelasi antara data kategori umur (kategorikan-nominal) dan kategori produk (kategorikan-nominal) dilakukan menggunakan uji korelasi chi-squared. Untuk perumusan hipotesisnya menjadi:

H0: Tidak ada korelasi antara kategori umur dan kategori produk

H1: Ada korelasi antara kategori umur dan kategori produk

Untuk perhitungannya seperti dibawah ini:

In [72]:
# menggunakan rumus uji korelasi chi-square
contingency_table = pd.crosstab(data['Age_Category'],data['Product_Category_Preference'])
res = stats.chi2_contingency(contingency_table)

# menampilkan hasil uji korelasi chi-square
print("P-value:",res.pvalue)

P-value: 0.92533447739625


Insight:

Hasil perhitungan dengan uji korelasi chi-squared menunjukkan nilai p-value adalah 0.925, angka tersebut lebih besar dari 0.05 sebagai angka critical value sehingga H0 diterima, artinya tidak ada korelasi yang signifikan dari kedua data tersebut.

## Apakah ada perbedaan frekuensi belanja antara user yang subscribe newsletter dan tidak subscribe?

Untuk menguji apakah ada perbedaan antara frekuensi belanja user yang subscribe newsletter dengan yang tidak subscribe newsletter, perhitungannya menggunakan two sample test karena sample data yang diujikan berbeda / independen. Untuk perumusan hipotesisnya menjadi:

H0: Frekuensi belanja user yang subscribe newsletter == Frekuensi pembelanjaan user yang tidak subscribe newsletter

H1: Frekuensi belanja user yang subscribe newsletter != Frekuensi pembelanjaan user yang tidak subscribe newsletter

Untuk perhitungannya seperti dibawah ini:

In [73]:
# mmenggabungkan data frekuensi belanja dari masing-masing user yang subscribe newsletter dan tidak subscribe dan disimpan ke dalam variabel terpisah
subFreq = data['Purchase_Frequency'][data['Newsletter_Subscription']== True]
nonsubFreq = data['Purchase_Frequency'][data['Newsletter_Subscription']== False]

# menggunakan rumus two sample test
t_stat, p_val = stats.ttest_ind(subFreq, nonsubFreq)

# menampilkan hasil t-test dan p-value
print('T-Statistic:',t_stat)
print('P-value:',p_val)

T-Statistic: 0.06868370337595951
P-value: 0.9452551487961752


Insight:

Dari uji hipotesis yang sudah dilakukan, hasilnya menunjukkan H0 bisa diterima karena nilai p-value lebih besar dari 0.05, jika dilihat dari hasil perhitungan T-test yang mendekati angka 0 artinya sebaran data cenderung ke arah positif tidak jauh dari nilai rata-rata, jadi bisa disimpulkan bahwa frekuensi belanja user yang subscribe newsletter sama dengan frekuensi belanja user yang tidak subscribe newsletter.

## Apakah ada perbedaan antara lamanya user terakhir login dari user yang subscribe newsletter dan tidak subscribe?

Untuk menguji apakah ada perbedaan antara lama user terakhir login dari user yang subscribe newsletter dengan yang tidak subscribe newsletter, perhitungannya menggunakan two sample test karena sample data yang diujikan berbeda / independen. Untuk perumusan hipotesisnya menjadi:

H0: Lama user terakhir login dari user yang subscribe newsletter == lama user terakhir login dari user yang tidak subscribe newsletter

H1: Lama user terakhir login dari user yang subscribe newsletter != lama user terakhir login dari user yang tidak subscribe newsletter

Untuk perhitungannya seperti dibawah ini:

In [74]:
# menggabungkan data lama terakhir user dari masing-masing user yang subscribe newsletter dan tidak subscribe dan disimpan ke dalam variabel terpisah
subLalda = data['Last_Login_Days_Ago'][data['Newsletter_Subscription']== True]
nonsubLalda = data['Last_Login_Days_Ago'][data['Newsletter_Subscription']== False]

# menggunakan rumus two sample test
t_stat, p_val = stats.ttest_ind(subLalda, nonsubLalda)

# menampilkan hasil t-test dan p-value
print('T-Statistic:',t_stat)
print('P-value:',p_val)

T-Statistic: -1.257614910727311
P-value: 0.20882524967296492


Insight:

Dari uji hipotesis yang sudah dilakukan, hasilnya menunjukkan H0 bisa diterima karena nilai p-value lebih besar dari 0.05, dan jika dilihat dari hasil perhitungan T-test yang bernilai -1.26 artinya sebaran data cenderung ke arah negatif dan tidak terlalu jauh dari nilai rata-rata, jadi bisa disimpulkan bahwa lama user terakhir login dari user yang subscribe newsletter sama dengan lama user terakhir login dari user yang tidak subscribe newsletter.

## Apakah ada perbedaan nilai belanja rata-rata dari user yang subscribe newsletter dan tidak subscribe newlestter?

Untuk menguji apakah ada perbedaan antara nilai rata-rata belanja user yang subscribe newsletter dengan yang tidak subscribe newsletter, perhitungannya menggunakan two sample test karena sample data yang diujikan berbeda / independen. Untuk perumusan hipotesisnya menjadi:

H0: nilai rata-rata belanja dari user yang subscribe newsletter == nilai rata-rata belanja dari user yang tidak subscribe newsletter

H1: nilai rata-rata belanja dari user yang subscribe newsletter != nilai rata-rata belanja dari user yang tidak subscribe newsletter

Untuk perhitungannya seperti dibawah ini:

In [75]:
# mmenggabungkan data nilai rata-rata belanja dari masing-masing user yang subscribe newsletter dan tidak subscribe dan disimpan ke dalam variabel terpisah
subAOV = data['Average_Order_Value'][data['Newsletter_Subscription']== True]
nonsubAOV = data['Average_Order_Value'][data['Newsletter_Subscription']== False]

# menggunakan rumus two sample test
t_stat, p_val = stats.ttest_ind(subAOV, nonsubAOV)

# menampilkan hasil t-test dan p-value
print('T-Statistic:',t_stat)
print('P-value:',p_val)

T-Statistic: 0.09012604663931488
P-value: 0.9282051352246777


Insight:

Dari uji hipotesis yang sudah dilakukan, hasilnya menunjukkan H0 bisa diterima karena nilai p-value lebih besar dari 0.05, dan jika dilihat dari hasil perhitungan T-test yang bernilai 0.09 artinya sebaran data cenderung ke arah positif dan tidak jauh dari nilai rata-rata, jadi bisa disimpulkan bahwa nilai rata-rata belanja dari user yang subscribe newsletter sama dengan nilai rata-rata belanja dari user yang tidak subscribe newsletter.

# Pengambilan Kesimpulan

## Kesimpulan Hasil Analisa

Dari analisa informasi yang bisa didapatkan:

1. Kategori produk Apparel menjadi penghasil revenue terbanyak, kategori Books menjadi penghasil revenue terendah, kategori Home & Kitchen dan kategori produk Electronics menjadi penghasil revenue yang hampir sama
2. User yang berasal dari lokasi Suburban dan Urban menjadi penghasil revenue terbanyak sebesar, terkecilnya user dari lokasi Rual
3. Tidak ada perbedaan total revenue yang signifikan dari pria maupun wanita yang bertransaksi
4. Revenue terbanyak didapatkan dari kategori usia yang bisa dikategorikan usia yang sudah stabil secara finansial
5. Tidak ada perbedaan yang signifikan antara jumlah user yang subscribe newsletter dan yang tidak subscribe newsletter
6. Tidak ada korelasi/hubungan yang signifikan antara average order value user dengan income
7. Ada korelasi/hubungan yang lemah antara average order value user dengan total revenue
8. Tidak ada korelasi/hubungan yang signifikan antara kategori produk dengan interest dan kategori usia
9. Frekuensi belanja user yang subscribe newsletter sama dengan frekuensi belanja user yang tidak subscribe newsletter
10. Lama user terakhir login dari user yang subscribe newsletter sama dengan lama user terakhir login dari user yang tidak subscribe newsletter
11. Nilai rata-rata belanja dari user yang subscribe newsletter sama dengan nilai rata-rata belanja dari user yang tidak subscribe newsletter

Kesimpulannya:

Total revenue yang terbentuk distribusinya hampir merata baik dari gender user, kategori produk pilihan user, lokasi user, status newsletter user, dan status newletter user tidak mempengaruhi behaviour user dalam belanja. Temuan-temuan tersebut masih bisa dimanfaatkan dalam strategi pemasaran dan meningkatkan nilai rata-rata belanja user.


## Rekomendasi dari Hasil Analisa

Untuk meningkatkan average order value atau nilai rata-rata belanja user, bisa menggunakan sistem promosi  seperti:

1. Skema bundling promo dari kategori Apparel dengan produk lain
2. Pembelian produk Books akan mendapatkan diskon tambahan 15% untuk pembelian kategori produk lainnya agar bisa meningkatkan penjualan kategori Books.
3. Free shipping untuk user yang berada di lokasi Urban
4. Diskon shipping 10% untuk user yang berada di lokasi Suburban
5. Diskon shipping 30% untuk user yang berada di lokasi Rural
6. Mengkustomisasi produk rekomendasi ketika user login ke akunnya sesuai dengan interest user
7. Mempertahankan katalog produk yang sudah ada, dan jika memungkinkan produk yang unisex khususnya Apparel bisa ditambah
8. Bisa membuat program seasonal diskon, karena bulan September adalah tahun ajaran baru bisa membuat diskon tambahan 10% untuk pembelian kategori produk Books
9. Bisa membuat sistem membership dengan sistem tiering yang memiliki benefit di setiap tiernya
10. Karena status newsletter subscription user tidak memiliki perbedaan dengan frekuensi belanja, lama terakhir user login, dan average order value user, maka kita tetap bisa menjalankan campain email marketing dan optimisasi website serta pengumuman diskon melalui media tersebut.