# **Data Analysis Project**
## **E-Commerce Dataset**

## **Business Questions**
1. Apa metode pembayaran yang paling sering digunakan oleh pelanggan?
2. Apa metode pembayaran yang menghasilkan pendapatan tertinggi secara keseluruhan?
3. Apa metode pembayaran yang paling sering digunakan oleh pelanggan di hari-hari tertentu?
4. Apa metode pembayaran yang paling sering digunakan oleh pelanggan di bulan-bulan tertentu?
5. Apa kategori produk yang menghasilkan pendapatan tertinggi secara keseluruhan?
6. Apakah kategori produk yang dapat menghasilkan pendapatan tertinggi memiliki diskon atau potongan harga yang tinggi juga?
7. Apakah diskon dapat mempengaruhi jumlah pembelian?

## **Import Packages/Library**

In [1]:
import kagglehub
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## **Data Wrangling**

### **Gathering Data**

In [2]:
# Load ecommerce dataset table into DataFrame
ecommerce_df = pd.read_csv('./data/ecommerce_dataset.csv')
ecommerce_df.head()

Unnamed: 0,User_ID,Product_ID,Category,Price (Rs.),Discount (%),Final_Price(Rs.),Payment_Method,Purchase_Date
0,337c166f,f414122f-e,Sports,36.53,15,31.05,Net Banking,12-11-2024
1,d38a19bf,fde50f9c-5,Clothing,232.79,20,186.23,Net Banking,09-02-2024
2,d7f5f0b0,0d96fc90-3,Sports,317.02,25,237.76,Credit Card,01-09-2024
3,395d4994,964fc44b-d,Toys,173.19,25,129.89,UPI,01-04-2024
4,a83c145c,d70e2fc6-e,Beauty,244.8,20,195.84,Net Banking,27-09-2024


### **Assessing Data**

In [3]:
# Menampilkan informasi umum untuk ecommerce_df
ecommerce_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3660 entries, 0 to 3659
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   User_ID           3660 non-null   object 
 1   Product_ID        3660 non-null   object 
 2   Category          3660 non-null   object 
 3   Price (Rs.)       3660 non-null   float64
 4   Discount (%)      3660 non-null   int64  
 5   Final_Price(Rs.)  3660 non-null   float64
 6   Payment_Method    3660 non-null   object 
 7   Purchase_Date     3660 non-null   object 
dtypes: float64(2), int64(1), object(5)
memory usage: 228.9+ KB


In [4]:
# Menampilkan statistik deskriptif untuk ecommerce_df
ecommerce_df.describe()

Unnamed: 0,Price (Rs.),Discount (%),Final_Price(Rs.)
count,3660.0,3660.0,3660.0
mean,254.800675,18.825137,206.906579
std,141.682621,14.731338,122.687844
min,10.09,0.0,5.89
25%,134.0125,5.0,104.5125
50%,253.845,15.0,199.185
75%,377.595,25.0,304.1175
max,499.96,50.0,496.82


In [5]:
# Cek missing values untuk ecommerce_df
ecommerce_df.isnull().sum()

User_ID             0
Product_ID          0
Category            0
Price (Rs.)         0
Discount (%)        0
Final_Price(Rs.)    0
Payment_Method      0
Purchase_Date       0
dtype: int64

In [6]:
# Cek duplikasi untuk ecommerce_df
ecommerce_df.duplicated().sum()

0

#### **Insight**
- Tipe data untuk kolom Purchase_Date merupakan object, seharusnya tipe data yang dimiliki adalah datetime.
- Tidak ada missing values yang ditemukan pada ecommerce_df
- Tidak ada duplikasi yang ditemukan pada ecommerce_df

### **Cleaning Data**

In [7]:
ecommerce_df['Purchase_Date'] = pd.to_datetime(ecommerce_df['Purchase_Date'], errors='coerce', format="%d-%m-%Y")

In [8]:
ecommerce_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3660 entries, 0 to 3659
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   User_ID           3660 non-null   object        
 1   Product_ID        3660 non-null   object        
 2   Category          3660 non-null   object        
 3   Price (Rs.)       3660 non-null   float64       
 4   Discount (%)      3660 non-null   int64         
 5   Final_Price(Rs.)  3660 non-null   float64       
 6   Payment_Method    3660 non-null   object        
 7   Purchase_Date     3660 non-null   datetime64[ns]
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 228.9+ KB


In [9]:
ecommerce_df.head()

Unnamed: 0,User_ID,Product_ID,Category,Price (Rs.),Discount (%),Final_Price(Rs.),Payment_Method,Purchase_Date
0,337c166f,f414122f-e,Sports,36.53,15,31.05,Net Banking,2024-11-12
1,d38a19bf,fde50f9c-5,Clothing,232.79,20,186.23,Net Banking,2024-02-09
2,d7f5f0b0,0d96fc90-3,Sports,317.02,25,237.76,Credit Card,2024-09-01
3,395d4994,964fc44b-d,Toys,173.19,25,129.89,UPI,2024-04-01
4,a83c145c,d70e2fc6-e,Beauty,244.8,20,195.84,Net Banking,2024-09-27


## **Exploratory Data Analysis (EDA)**

### **Eksplorasi Pertanyaan 1**
**Apa metode pembayaran yang paling sering digunakan oleh pelanggan?**

In [24]:
pm_counts = ecommerce_df['Payment_Method'].value_counts()
print(pm_counts)

Payment_Method
Credit Card         760
UPI                 757
Debit Card          731
Net Banking         716
Cash on Delivery    696
Name: count, dtype: int64


#### **Insight**
Metode pembayaran yang disediakan oleh E-Commerce ada 5 macam, yaitu Credit Card, UPI, Debit Card, Net Banking, dan Cash on Delivery. 
Dari kelima macam metode pembayaran yang disediakan, terdapat metode pembayaran dengan penggunaan transaksi tertinggi adalah Credit Card sebanyak 760 kali. Sedangkan, metode pembayaran dengan penggunaan transaksi terendah adalah Cash on Delivery sebanyak 696 kali.

### **Eksplorasi Pertanyaan 2**
**Apa metode pembayaran yang menghasilkan pendapatan tertinggi secara keseluruhan?**

In [26]:
revenue_by_pm = ecommerce_df.groupby('Payment_Method')['Final_Price(Rs.)'].sum().sort_values(ascending=False)
print(revenue_by_pm)

Payment_Method
Credit Card         156017.9690
UPI                 154684.9195
Debit Card          153362.1985
Net Banking         146804.4100
Cash on Delivery    146408.5690
Name: Final_Price(Rs.), dtype: float64


#### **Insight**
Metode pembayaran yang menghasilkan pendapatan tertinggi secara keseluruhan adalah Credit Card dengan total 15,6017.9690 Rs (Indian Rupe). Sedangkan, metode pembayaran yang menghasilkan pendapatan terendah secara keseluruhan adalah Cash on Delivery dengan total 14,6408.5690 Rs (Indian Rupe).

### **Eksplorasi Pertanyaan 3**
**Apa metode pembayaran yang paling sering digunakan oleh pelanggan di hari-hari tertentu?**

In [32]:
ecommerce_df['Day'] = ecommerce_df['Purchase_Date'].dt.day_name()
payment_by_month = ecommerce_df.groupby(['Day', 'Payment_Method']).size().unstack(fill_value=0)
popular_payment_method = payment_by_day.idxmax(axis=1)
popular_payment_count = payment_by_day.max(axis=1)
payment_summary = pd.DataFrame({
    'Most_Used_Payment_Method': popular_payment_method,
    'Usage_Count': popular_payment_count
})
print("Metode Pembayaran Paling Sering Digunakan di Setiap Hari:")
print(payment_summary)

Metode Pembayaran Paling Sering Digunakan di Setiap Hari:
            Most_Used_Payment_Method  Usage_Count
Day_of_Week                                      
Friday                           UPI          109
Monday                           UPI          120
Saturday            Cash on Delivery          110
Sunday                           UPI          120
Thursday                 Net Banking          112
Tuesday                  Credit Card          124
Wednesday                Net Banking          117


#### **Insight**
1. Monday: Metode pembayaran yang paling sering digunakan pada hari Senin adalah UPI sebanyak 120 kali.
2. Tuesday: Metode pembayaran yang paling sering digunakan pada hari Selasa adalah Credit Card sebanyak 124 kali.
3. Wednesday: Metode pembayaran yang paling sering digunakan pada hari Rabu adalah Net Banking sebanyak 117 kali.
4. Thursday: Metode pembayaran yang paling sering digunakan pada hari Kamis adalah Net Banking sebanyak 112 kali.
5. Friday: Metode pembayaran yang paling sering digunakan pada hari Jumat adalah UPI sebanyak 109 kali.
6. Saturday: Metode pembayaran yang paling sering digunakan pada hari Sabtu adalah Cash on Delivery sebanyak 110 kali.
7. Sunday: Metode pembayaran yang paling sering digunakan pada hari Minggu adalah UPI sebanyak 120 kali.

### **Eksplorasi Pertanyaan 4**
**Apa metode pembayaran yang paling sering digunakan oleh pelanggan di bulan-bulan tertentu?**

In [31]:
ecommerce_df['Month'] = ecommerce_df['Purchase_Date'].dt.month_name()
payment_by_month = ecommerce_df.groupby(['Month', 'Payment_Method']).size().unstack(fill_value=0)
popular_payment_method = payment_by_month.idxmax(axis=1)
popular_payment_count = payment_by_month.max(axis=1)
payment_summary = pd.DataFrame({
    'Most_Used_Payment_Method': popular_payment_method,
    'Usage_Count': popular_payment_count
})
print("Metode Pembayaran Paling Sering Digunakan di Setiap Bulan:")
print(payment_summary)

Metode Pembayaran Paling Sering Digunakan di Setiap Bulan:
          Most_Used_Payment_Method  Usage_Count
Month                                          
April                  Credit Card           81
August                         UPI           88
February                       UPI           77
January                Credit Card           77
July                   Credit Card           80
June                    Debit Card           72
March                  Credit Card           82
May                    Credit Card           73
November          Cash on Delivery           58
October                        UPI           85
September                      UPI           80


#### **Insight**
1. January: Metode pembayaran yang paling sering digunakan pada bulan Januari adalah Credit Card sebanyak 77 kali.
2. February: Metode pembayaran yang paling sering digunakan pada bulan Februari adalah UPI sebanyak 77 kali.
3. March: Metode pembayaran yang paling sering digunakan pada bulan Maret adalah Credit Card sebanyak 82 kali.
4. April: Metode pembayaran yang paling sering digunakan pada bulan April adalah Credit Card sebanyak 81 kali.
5. May: Metode pembayaran yang paling sering digunakan pada bulan Mei adalah Credit Card sebanyak 73 kali.
6. June: Metode pembayaran yang paling sering digunakan pada bulan Juni adalah Debit Card sebanyak 72 kali.
7. July: Metode pembayaran yang paling sering digunakan pada bulan Juli adalah Credit Card sebanyak 80 kali.
8. August: Metode pembayaran yang paling sering digunakan pada bulan Agustus adalah UPI sebanyak 88 kali.
9. September: Metode pembayaran yang paling sering digunakan pada bulan September adalah UPI sebanyak 80 kali.
10. October: Metode pembayaran yang paling sering digunakan pada bulan Oktober adalah UPI sebanyak 85 kali.
11. November: Metode pembayaran yang paling sering digunakan pada bulan November adalah Cash on Delivery sebanyak 58 kali.

### **Eksplorasi Pertanyaan 5**
**Apa kategori produk yang menghasilkan pendapatan tertinggi secara keseluruhan?**

In [33]:
revenue_by_category = ecommerce_df.groupby('Category')['Final_Price(Rs.)'].sum().sort_values(ascending=False)
print(revenue_by_category)

Category
Clothing          115314.7595
Books             111149.2515
Home & Kitchen    110328.1780
Sports            108518.7530
Toys              107289.8430
Beauty            104215.0755
Electronics       100462.2055
Name: Final_Price(Rs.), dtype: float64


#### **Insight**
Kategori produk yang menghasilkan pendapatan tertinggi secara keseluruhan adalah kategori Clothing sebanyak 115,314.7595 Rs (Indian Rupe). Sedangkan, kategori produk yang menghasilkan pendapatan terendah secara keseluruhan adalah kategori Electronics sebanyak 100,462.2055 Rs (Indian Rupe).

### **Eksplorasi Pertanyaan 6**
**Apakah kategori produk yang dapat menghasilkan pendapatan tertinggi memiliki diskon atau potongan harga yang tinggi juga?**

In [39]:
category_analysis = ecommerce_df.groupby('Category').agg({
    'Final_Price(Rs.)': 'sum',      
    'Discount (%)': 'mean'     
}).reset_index()
category_analysis = category_analysis.sort_values('Final_Price(Rs.)', ascending=False)
print(category_analysis)

         Category  Final_Price(Rs.)  Discount (%)
2        Clothing       115314.7595     17.919021
1           Books       111149.2515     19.035581
4  Home & Kitchen       110328.1780     19.608379
5          Sports       108518.7530     19.326923
6            Toys       107289.8430     18.126195
0          Beauty       104215.0755     18.475248
3     Electronics       100462.2055     19.267068


#### **Insight**
Kategori produk Clothing menghasilkan pendapatan tertinggi dari produk lainnya. Namun, kategori Clothing justru memiliki rata-rata diskon paling rendah diantara kategori produk lainnya.

## **Visualization & Explanatory Analysis**

### Question 1: 