# Shopping Mall Analysis

## Dashboard

Link : https://public.tableau.com/app/profile/san.gabriel.vanness.kenrick.erwi/viz/milestone_17272481656540/Dashboard1

## Objective(Background)

Peningkatan mal di turki berdampak signifikan pada budaya dan sosial. Memahami perubahan ini sangat penting untuk memahami tren yang sedang berlangsung dan terus berkembang. Mal atau pusat perbelanjaan ini mempengaruhi pilihan gaya hidup di Turki. Juga memegang peran penting dalam membentuk dan mengglobalkan kebiasaan konsumsi. Keberadaan banyak mal saat ini tentunya akan menimbulkan persaingan yang ketat di sektor ini. Oleh karena itu setiap mal harus mampu mengantisipasi persaingan pasar untuk menarik minat konsumen untuk mengunjungi mal tersebut agar intensitas penjualan meningkat.

Maka dari itu, harus dilakukan analisis terhadap data transaksi pelanggan di beberapa mal untuk mencari atau mengetahui strategi pemasaran yang harus dilakukan untuk meningkatkan intensitas penjualan. Dengan strategi pemasaran yang berhubungan dengan trend dan habit maka produk yang dijual akan lebih mudah diterima oleh pelanggan.

Sumber : https://dergipark.org.tr/en/download/article-file/3136104

## Identifikasi Masalah

### Topik Permasalahan

Keberadaan banyak mal akan menimbulkan persaingan yang ketat di sektor retail.

### Business Understanding

#### SMART

1. **Specific** : Mencari strategi pemasaran untuk meningkatkan intensitas pengunjung dan penjualan produk di mal.
2. **Measurable** : Meningkatkan penjualan produk di mal sebanyak 15%.
3. **Achievable** : Dengan strategi pemasaran yang mengikuti tren dan habit, mencapai target peningkatan penjualan.
4. **Relevant** : Dengan adanya persaingan ketat di sektor ritel, analisis ini relevan untuk membantu mal mengembangkan strategi pemasaran untuk menarik lebih banyak pengunjung.
5. **Time-based** : Dalam 3 bulan, dengan strategi pemasaran yang akan dilakukan untuk mencapai target peningkatan penjualan.


#### Problem Statement

Dengan adanya persaingan ketat di sektor ritel sehingga dapat mencari strategi pemasaran berdasarkan tren dan habit dengan analisis untuk meningkatkan penjualan produk sebesar 15% dalam 3 bulan di sektor ritel.

### User

User yang membutuhkan hasil analisis ini adalah divisi marketing mal.

### Penjabaran Masalah (Problem Breakdown)

Penjabaran masalah dengan metode **5W+1H**:

1. Statistik Diferensial
    - Berapa rata-rata pembelian yang dilakukan female dan male setiap tahun dari 2021 - 2023?
    - Berapa interval potensi setiap pembelian yang dilakukan setiap tahun?
2. Statistik Inferensial
    - Apakah rata - rata total pembelian antara laki - laki dan perempuan sama?
    - Bagaimana pengaruh kategori dengan harga barang?
3. Visualisasi Data
    - Rentang usia apa dengan pembelian paling banyak setiap tahun dari tahun 2021 - 2023?
    - Kapan jumlah pembelian terbanyak dilakukan setiap bulan dari tahun 2021 - 2023?
    - Kapan jumlah peningkatan pembelian tertinggi dalam 3 bulan(februari - mei) sesuai dengan 3 kategori terbesar dari tahun 2021 - 2023?
    - Apakah metode pembayaran yang paling sering dipakai setiap tahun?
    - Dimana tempat perbelanjaan yang memiliki jumlah penjualan terbanyak?

## Import Libraries

In [1]:
# Melakukan import library yang digunakan.
import pandas as pd
from scipy import stats
import numpy as np
import plotly.express as px

## Data Loading

### Data Explanation

Dataset : Customer Shopping Dataset - Retail Sales Data

Dataset berasal dari informasi penjualan dari 10 mall dari tahun 2021 hingga 2023. Data dikumpulkan dari umur dan jenis kelamin yang beragam untuk memberikan pandangan terhadap habit pembelian di Istanbul. Data ini dapat digunakan untuk memdapatkan insight dalam tren dan kebiasaan dalam pembelian di Istanbul.


Column | Data Type | Explanation|
--------|-----------|-----------|
invoice_no | Integer | Invoice number. |
customer_id | Integer | Customer number. |
gender | String | Customer gender. |
age | Integer | Customer age. |
category | String | The category of the purchased product. |
quantity | Integer | The quantities of each product (item) per transaction. |
price | Float | Product price per unit in Turkish Liras (TL). |
payment_method | String | The payment method (cash, credit card or debit card) used for the transaction. |
invoice_date | String | The day when a transaction was generated. |
shopping_mall | String | The name of the shopping mall where the transaction was made. |

Sumber : https://www.kaggle.com/datasets/mehmettahiraslan/customer-shopping-dataset

### Read CSV

Pada tahap ini akan dilakukan load dataset dari file csv.

In [2]:
# Meloading data dari csv ke dataframe.
df_asli =  pd.read_csv("customer_shopping_data.csv")

Selanjutnya akan dilihat summary data.

### Data Summary

Pada tahap ini akan dilakukan penampilan data summary untuk mengetahui isi data dan hal yang ingin digunakan pada data.

In [3]:
# Menampilkan data summary
df_asli.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99457 entries, 0 to 99456
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   invoice_no      99457 non-null  object 
 1   customer_id     99457 non-null  object 
 2   gender          99457 non-null  object 
 3   age             99457 non-null  int64  
 4   category        99457 non-null  object 
 5   quantity        99457 non-null  int64  
 6   price           99457 non-null  float64
 7   payment_method  99457 non-null  object 
 8   invoice_date    99457 non-null  object 
 9   shopping_mall   99457 non-null  object 
dtypes: float64(1), int64(2), object(7)
memory usage: 7.6+ MB


Pada data summary, dapat diketahui bahwa data memiliki 99.457 entri dengan 10 kolom dengan tipe data float sebanyak 1 kolom, integer sebanyak 2 kolom dan object atau string sebanyak 7 kolom. Selanjutnya akan dilakukan penampilan nama kolom.

### Data Columns

Pada tahap ini akan dilakukan penampilan nama kolom dari data untuk dianalisis kolom mana yang tidak akan dipakai.

In [4]:
# Menampilkan nama kolom
df_asli.columns

Index(['invoice_no', 'customer_id', 'gender', 'age', 'category', 'quantity',
       'price', 'payment_method', 'invoice_date', 'shopping_mall'],
      dtype='object')

Pada nama kolom, tidak akan dilakukan perubahan tetapi akan menghapus 2 kolom yang tidak akan digunakan pada analisis yaitu kolom 'invoice_no' dan 'custormer_id'. Lalu akan menampilkan nilai unik pada setiap kolom untuk mengecek data yang akan dilakukan handling.

### Unique Values

Pada tahap ini akan menampilkan nilai unik pada setiap kolom untuk melakukan handling yang tepat.

In [5]:
# Menampilkan unique value dari semua kolom
for i in df_asli.columns:
    print(f"{i} : {df_asli[i].unique()}")

invoice_no : ['I138884' 'I317333' 'I127801' ... 'I824010' 'I702964' 'I232867']
customer_id : ['C241288' 'C111565' 'C266599' ... 'C103292' 'C800631' 'C273973']
gender : ['Female' 'Male']
age : [28 21 20 66 53 49 32 69 60 36 29 67 25 24 65 42 46 23 27 52 44 51 50 68
 43 59 54 48 40 41 19 18 22 61 45 64 33 63 34 47 38 57 30 26 62 39 55 56
 35 31 37 58]
category : ['Clothing' 'Shoes' 'Books' 'Cosmetics' 'Food & Beverage' 'Toys'
 'Technology' 'Souvenir']
quantity : [5 3 1 4 2]
price : [1.50040e+03 1.80051e+03 3.00080e+02 3.00085e+03 6.06000e+01 4.06600e+01
 6.00160e+02 9.00240e+02 1.04600e+01 1.51500e+01 1.43360e+02 3.03000e+01
 1.56900e+01 5.23000e+00 5.25000e+03 7.57500e+01 7.16800e+01 2.03300e+02
 2.40068e+03 1.21980e+02 1.07520e+02 1.20032e+03 8.13200e+01 4.54500e+01
 4.20000e+03 1.62640e+02 5.86500e+01 2.61500e+01 3.51900e+01 2.09200e+01
 2.34600e+01 2.10000e+03 3.58400e+01 3.15000e+03 1.79200e+02 6.00170e+02
 1.05000e+03 1.20034e+03 4.69200e+01 1.17300e+01]
payment_method : ['Credit C

Pada unik value yang tidak terdapat missing value pada setiap kolom. Tetapi hanya kolom 'invoice_date' akan diubah tipe datanya menjadi **datetime**, tetapi harus mengubah '/' menjadi '-'. Lalu menambah kolom 'Month Name' dan 'year' yang diambil dari kolom 'invoice_date'. Lalu menambah kolom 'Total' yang didapat dari perkalian kolom 'price' dan kolom 'quantity'. Setelah itu akan dilakukan penambahan kolom 'Age Category' yang diambil dari kolom 'age' menurut rentang usia. Selanjutnya akan dilakukan tahap data cleaning.

## Data Cleaning

Pada tahap data cleaning akan dilakukan penghapusan kolom, handling value dan panambahan kolom yang telah dianalisis pada tahap data loading.

#### Drop Columns

Pada tahap drop columns akan dilakukan penghapusan kolom invoice_no dan customer_id dikarenakan tidak digunakan untuk analisis.

In [6]:
# Menghapus kolom yang tidak digunakan untuk analisis
df = df_asli.drop(columns=["invoice_no", "customer_id"], axis=0)

Selanjutnya akan dilakukan handling values.

### Handling Values

Pada tahap handling values, dilakukan perubahan '/' menjadi '-' karena agar dapat diubah menjadi tipe data datetime.

In [7]:
# Mengubah '/' pada date ke '-'
df["invoice_date"] = df["invoice_date"].str.replace("/", "-")

Selanjutnya akan dilakukan handling tipe data kolom.

#### Handling Columns Type

Pada tahap handling columns type, dilakukan perubahan tipe data pada kolom 'invoice_date' dari object/string menjadi datetime dengan formant day-month-year mengikuti format value dari kolom 'invoice_date'.

In [8]:
# Mengubah tipe data dari string ke datetime
df["invoice_date"] = pd.to_datetime(df["invoice_date"], format='%d-%m-%Y')

Selanjutnya akan dilakukan penambahan kolom yang akan digunakan dalam analisis.

#### Add Columns

Pada tahap add columns, dilakukan penambahan 3 kolom dimana kolom 'year' mengambil tahun dari kolom 'invoice_date' yang akan digunakan untuk analisis visualisasi data. Setelah itu membuat kolom 'Total' yang berisikan total pembelian dari kolom 'price' dikali kolom 'quantity'. Penambahan kolom 'Month Name' digunakan untuk analisis total penjualan setiap bulan dari setiap tahun.

In [9]:
# Menambah kolom year yang diambil dari invoice date
df["year"] = df['invoice_date'].dt.year

# Menambah kolom month name yang diambil dari invoice date
df['Month Name'] = df['invoice_date'].dt.to_period('M')

# Menambah kolom total yang diambil dari kolom price dikali kolom quantity
df["Total"] = df["price"]*df["quantity"]

Selanjutnya dilakukan pengelompokan usia menurut rentang menjadi remaja awal, remaja akhir, dewasa awal, dewasa akhir, lansia awal, lansia akhir, dan manula menurut kategori dari Departemen Kesehatan Republik Indonesia pada tahun 2009.

Sumber : https://jurnal.murnisadar.ac.id/index.php/Tekinkom/article/view/115/93

In [10]:
# Membuat list kosong
age_Category = []
for i in df['age']:
    if 17 <= i <= 25:
        age_Category.append("Remaja Akhir")
    elif 26 <= i <= 35:
        age_Category.append("Dewasa Awal")
    elif 36 <= i <= 45:
        age_Category.append("Dewasa Akhir")
    elif 46 <= i <= 55:
        age_Category.append("Lansia Awal")
    elif 56 <= i <= 65:
        age_Category.append("Lansia Akhir")
    elif i > 65:
        age_Category.append("Manula")

# Membuat kolom age kategori berdasarkan rentang umur
df["Age Category"] = age_Category

In [11]:
df['Age Category'].unique()

array(['Dewasa Awal', 'Remaja Akhir', 'Manula', 'Lansia Awal',
       'Lansia Akhir', 'Dewasa Akhir'], dtype=object)

Pada data cleaning tidak dilakukan penghapusan outlier dikarenakan semua data merupakan transaksi yang sangat berpengaruh dalam hasil analisis dan merupakan data yang tidak bisa diubah valuenya. Maka dari itu pada data tidak dilakukan penghapusan outlier. Lalu akan menampilkan hasil dari data cleaning.

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99457 entries, 0 to 99456
Data columns (total 12 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   gender          99457 non-null  object        
 1   age             99457 non-null  int64         
 2   category        99457 non-null  object        
 3   quantity        99457 non-null  int64         
 4   price           99457 non-null  float64       
 5   payment_method  99457 non-null  object        
 6   invoice_date    99457 non-null  datetime64[ns]
 7   shopping_mall   99457 non-null  object        
 8   year            99457 non-null  int32         
 9   Month Name      99457 non-null  period[M]     
 10  Total           99457 non-null  float64       
 11  Age Category    99457 non-null  object        
dtypes: datetime64[ns](1), float64(2), int32(1), int64(2), object(5), period[M](1)
memory usage: 8.7+ MB


Setelah dilakukan data cleaning, didapat 12 kolom yang akan digunakan dalam analisis. Dengan 2 kolom yang telah dihapus dikarenakan tidak digunakan dalam analisis yaitu kolom 'invoice_no' dan 'customer_id'. Lalu akan dilakukan export data ke excel.

### Export to Excel

Pada tahap ini akan dilakukan export untuk digunakan pada pembuatan dashboard tablue.

In [13]:
# df.to_excel('cleaned.xlsx', engine='xlsxwriter')  

Selanjutnya akan dilakukan analisis berdasarkan problem statement yang telah dibuat.

## Analisis dan Perhitungan

Pada tahap ini akan menjawab problem statement dengan menggunakan problem breakdown yang telah dibuat. Dimulai dari penggunaan statistik deskriptif.

### Statistik Deskriptif

Pada tahap ini akan dilakukan perhitungan deskriptif dari problem breakdown yang ada.

#### Berapa rata-rata pembelian yang dilakukan female dan male setiap tahun dari 2021 - 2023?

Dari pertanyaan di atas dapat diketahui bahwa perhitungan akan menggunakan kolom gender dan year dimana perhitungan ini ditujukan untuk mengetahui perbedaan rata - rata pembelian yang dilakukan oleh perempuan dan laki - laki setiap tahunnya.

In [14]:
# Melakukan perulangan untuk mengambil value di gender
for i in df['gender'].unique():
    # Melakukan perulangan untuk mengambil value di year
    for j in df['year'].unique():
            # Membuat data sebagai penampung gender dan year yang berbeda
            data = df[(df['gender']==i) & (df['year'] == j)]

            # Menampilkan rata - rata setiap gender pada setiap tahun
            print(f'Rata - rata pembelian {i} pada tahun {j} adalah {data['Total'].mean()}')

Rata - rata pembelian Female pada tahun 2022 adalah 2539.713012283024
Rata - rata pembelian Female pada tahun 2021 adalah 2518.5747039328326
Rata - rata pembelian Female pada tahun 2023 adalah 2483.9978827425007
Rata - rata pembelian Male pada tahun 2022 adalah 2526.114595021515
Rata - rata pembelian Male pada tahun 2021 adalah 2532.98342642379
Rata - rata pembelian Male pada tahun 2023 adalah 2582.762374631269


Dari rata - rata total pembelian laki - laki dan perempuan dari tahun 2021 - 2023 memiliki hasil yang kurang lebih sama. Sehingga dapat dinyatakan bahwa pembelian yang dilakukan laki - laki dan perempuan setiap tahunnya tidak mengalami perubahan yang signifikan dan stabil. Selanjunya akan menghitung interval potensi pada setiap pembelian.

#### Berapa interval potensi setiap pembelian yang dilakukan setiap tahun?

Pada tahap ini akan dicari interval pembelian yang dilakukan setiap tahunnya, maka dari itu untuk mencari interval dari potensi pembelian atau sales dapat menggunakan confidence interval. Perhitungan ini dilakukan untuk mengetahui potensi minimum pembelian yang dilakukan sehingga dapat mencari strategi penjualan yang mengandalkan minimum pembelian.

In [15]:
std = df['Total'].std()
N = len(df)
low, up = stats.norm.interval(0.95,loc=df['Total'].mean(),scale=std/np.sqrt(N))
print('Lower Limit:',low)
print('Upper Limit:',up)

Lower Limit: 2502.5472289772524
Upper Limit: 2555.0313074756878


Dengan menggunakan confidence interval, didapat rentang total pembelian yang dilakukan setiap transaksi yaitu dari ₺2,502.5472289772524 sampai ₺2,555.0313074756878. Sehingga minimum pembelian adalah sekitar ₺2,500. Selanjutnya akan melakukan perhitungan untuk menyelesaikan problem dengan menggunakan statistik inferensial.

### Statistik Inferensial

Pada tahap ini akan menjawab problem statement dengan menggunakan problem breakdown yang telah dibuat dengan penggunaan statistik inferensial.

#### Apakah rata - rata total pembelian antara laki - laki dan perempuan sama?

Pada tahap ini akan membandingkan perbedaan antara rata - rata total pembelian yang dilakukan perempuan dan laki - laki. Maka dari itu dengan 2 kondisi yang berbeda atau independent sehingga akan digunakan two sample independent test. Perhitungan ini digunakan untuk melihat perbedaan total pembelian yang dilakukan oleh laki - laki dan perempuan. Dengan menggunakan hipotesis sebagai berikut.

H0 : rata - rata total pembelian perempuan == rata - rata total pembelian laki-laki

H1 : rata - rata total pembelian perempuan != rata - rata total pembelian laki-laki


In [16]:
print(f"Rata - rata total pembelian perempuan : {df.Total[df['gender'] == 'Female'].mean()}")
print(f"Rata - rata total pembelian laki - laki : {df.Total[df['gender'] == 'Male'].mean()}")

Rata - rata total pembelian perempuan : 2525.2536232809925
Rata - rata total pembelian laki - laki : 2534.0502371482175


Dilihat dari hasil rata - rata total pembelian yang dialukan oleh laki - laki maupun perempuan tidak memiliki perbedaan yang signifikan yaitu 8.79.

In [17]:
t_stat,p_val = stats.ttest_ind((df.Total[df['gender'] == 'Female']), (df.Total[df['gender'] == 'Male']))
print('P-value:',p_val) #The p-value divided by 2 since the output is two-sided p-value

P-value: 0.7473635576386927


Dari two-sample independent test yang dilakukan untuk membandingkan rata - rata total pembelian berdasarkan gender, didapat p-value di atas 0.05 maka dapat dinyatakan bahwa H0 gagal untuk ditolak sehingga rata - rata total pembelian perempuan dan laki - laki tidak memiliki perbedaan yang signifikan. Selanjutnya akan dilakukan perhitungan pada pertanyaan berikutnya.

#### Bagaimana pengaruh kategori dengan harga barang?

Pada tahap ini akan digunakan perhitungan korelasi dengan kendall dikarenakan kolom yang dibandingkan merupakan 1 kolom kategorical dan 1 kolom numerical. Maka dari itu digunakan perhitungan korelasi dengan kendall. Agar dapat melihat hubungan antara kategori dengan harga barang.

H0 : Tidak ada hubungan antara kategori dengan harga barang.

H1 : Ada hubungan antara kategori dengan harga barang.

In [18]:
res = stats.kendalltau(df['category'], df['price'])
print(f"p-value: {res.pvalue}")
print(f"correlation: {res.statistic}")

p-value: 0.0
correlation: -0.1541172594743311


Dapat disimpulkan dari hasil bahwa nilai korelasi mendekati 0 dengan value negatif. Untuk p-value berada di bawah 0.05 maka H0 di tolak maka dapat dinyatakan bahwa kolom kategori dan harga barang memiliki korelasi. Maka dapat dinyatakan bahwa kategori dan harga barang memiliki korelasi negatif lemah. Lalu akan dilakukan visualisasi data pada problem breakdown berikutnya.

### Visualisasi Data

Pada tahap ini akan menjawab problem statement dengan menggunakan problem breakdown yang telah dibuat dengan penggunaan visualisasi data.

#### Rentang usia apa dengan pembelian paling banyak setiap tahun dari tahun 2021 - 2023?

Pada tahap ini akan melakukan group terhadap kategori rentang usia dengan setiap tahunnya dari tahun 2021 - 2023. Untuk melihat kategori usia mana yang paling banyak melakukan transaksi.

In [19]:
df_usia = df.groupby('Age Category')['year'].value_counts().reset_index()
df_usia

Unnamed: 0,Age Category,year,count
0,Dewasa Akhir,2022,8894
1,Dewasa Akhir,2021,8891
2,Dewasa Akhir,2023,1651
3,Dewasa Awal,2022,8787
4,Dewasa Awal,2021,8643
5,Dewasa Awal,2023,1629
6,Lansia Akhir,2021,8700
7,Lansia Akhir,2022,8666
8,Lansia Akhir,2023,1650
9,Lansia Awal,2022,8717


Untuk visualisasi digunakan treemap dikarenakan data yang akan divisualisasi memiliki data yang banyak dan ingin membandingkan jumlah per kategori usia dengan setiap tahun sebagai hierarchicalnya.

In [20]:
fig = px.treemap(df_usia, path=['year', 'Age Category'], values='count', color='count', title="Age Category by Year")

fig.show()

Dilihat pada grafik di atas, dapat diketahui bahwa dari tahun 2021 sampai 2023 dengan jumlah pembelian paling banyak berada pada kategori usia 'Dewasa Akhir'. Lalu untuk jumlah pembelian paling sedikit pada kategori usia 'Manula'. Untuk kategori Dewasa dan Lansia mendominasi dalam jumlah pembelian setiap tahun dengan nilai yang tidak berbeda jauh. Maka dari itu, untuk strategi penjualan akan lebih menargetkan orang dengan rentang usia 26 - 35 tahun.

#### Kapan jumlah pembelian terbanyak dilakukan setiap bulan dari tahun 2021 - 2023?.

Pada tahap ini, digunakan kolom 'month name' dan 'total'. Dimana kolom total akan dijumlahkan per bulan tahun dari kolom 'month name'. Untuk melihat pada bulan atau rentang bulan mana yang memiliki peningkatan jumlah pembelian atau sales terbesar.

In [21]:
df_group = df.groupby('Month Name')['Total'].sum().reset_index()
df_group =  df_group.sort_values('Month Name', ascending=True)

Dikarenakan data kontinu dimana menggunakan kolom 'month name' yang berisi bulan dan tahun maka akan digunakan grafik garis atau line chart sebagai visualisasi data.

In [22]:
line = px.line(df_group, x=df_group['Month Name'].dt.strftime('%b %Y'), y='Total', title='Sales by Month Year')

line.update_xaxes(tickangle=90)
line.update_layout(xaxis_title="Invoice Date", title_x=0.5)
line.show()

Dari grafik di atas, dapat disimpulkan bahwa pada bulan juli dan oktober setiap tahun(2021 dan 2022) memiliki nilai sales yang paling tinggi untuk setiap tahunnya. Pada bulan juli 2021 terjadi pengingkatan sekitar 11.2% dari bulan juni 2021. Lalu pada bulan oktober 2021 terjadi peningkatan sekitar 11.67% dari bulan september 2021. Dari bulan juli 2022 terjadi peningkatan penjualan sekitar 4.25% dari bulan juni 2022. Setelah itu pada bulan oktober 2022 terjadi peningkatan penjualan sekitar 6.07% dari bulan september 2022. Maka dari itu strategi penjualan yang harus dibuat pada bulan juli dan oktober agar nilai sales dapat meningkat dikarenakan terjadinya penurunan persentase peningkatan antara tahun 2021 dan 2022.

Untuk per 3 bulan dapat dilihat pada bulan febuari setiap tahun memiliki value penjualan yang terendah. Tetapi dapat dilihat dalam 3 bulan sampai bulan mei terdapat peningkatan yang signifikan yaitu pada tahun 2021 sekitar 11,4% dan pada tahun 2022 sekitar 19.18%. Sehingga dapat disimpulkan jika dibuat strategi penjualan dimulai dari bulan februari sampai bulan mei dapat diketahui peningkatan yang akan dihasilkan dari 11,4% sampai 19.18%.

#### Kapan jumlah peningkatan pembelian tertinggi dalam 3 bulan(februari - mei) sesuai dengan 3 kategori terbesar dari tahun 2021 - 2023?

Pada tahap ini akan menggunakan kolom 'month name', 'total' dan 'kategori'. Dimana kolom kategori akan diambil 3 kategori dengan jumlah sales terbesar. Untuk mengetahui peningkatan dari februari sampai mei pada 3 kategori yang memiliki penjualan terbesar.

In [23]:
df_bar = df.groupby('category')['Total'].sum().reset_index().sort_values('Total', ascending=False)

In [24]:
df_bar

Unnamed: 0,category,Total
1,Clothing,113996800.0
4,Shoes,66553450.0
6,Technology,57862350.0
2,Cosmetics,6792863.0
7,Toys,3980426.0
3,Food & Beverage,849535.1
0,Books,834552.9
5,Souvenir,635824.7


Dari cel di atas, dapat diketahui bahwa 3 kategori yang memiliki jumlah penjualan atau sales terbesar adalah 'Clothing', 'Shoes' dan 'Technology'. Maka dari itu, data akan di filter hanya dengan ketiga kategori tersebut.

In [25]:
df_bar = df[(df['category'] == 'Clothing') | (df['category'] == "Shoes") | (df['category'] == 'Technology')]
df_bar = df_bar.groupby(['category','Month Name'])['Total'].sum().reset_index()
df_bar =  df_bar.sort_values('Month Name', ascending=True)

In [26]:
df_bar

Unnamed: 0,category,Month Name,Total
0,Clothing,2021-01,4303447.28
54,Technology,2021-01,2168250.00
27,Shoes,2021-01,2674957.69
1,Clothing,2021-02,3903740.72
55,Technology,2021-02,1938300.00
...,...,...,...
52,Shoes,2023-02,2332260.62
25,Clothing,2023-02,4208321.92
53,Shoes,2023-03,702799.07
26,Clothing,2023-03,1157708.64


Dikarenakan data kontinu dimana menggunakan kolom 'month name' yang berisi bulan dan tahun maka akan digunakan multiline chart sebagai visualisasi data.

In [27]:
line = px.line(df_bar, x=df_bar['Month Name'].dt.strftime('%b %Y'), y='Total', color='category', title="Sales Category by Month Year")

line.update_xaxes(tickangle=90)
line.update_layout(xaxis_title="Invoice Date", title_x=0.5)
line.show()

Dari kategori 'Clothing' pada bulan februari sampai mei untuk tahun 2021 terjadi peningkatan penjualan sekitar 11.79% dan untuk tahun 2022 sekitar 15.38%. Dari kategori 'Shoes' pada bulan februari sampai mei untuk tahun 2021 terjadi peningkatan penjualan sekitar 12.1% dan untuk tahun 2022 sekitar 27.49%. Dari kategori 'Technology' pada bulan februari sampai mei untuk tahun 2021 terjadi peningkatan penjualan sekitar 9.43% dan untuk tahun 2022 sekitar 19.58%. Maka rata - rata peningkatan untuk setiap tahun dari tahun 2021 sebesar 11.1% dan untuk tahun 2022 sebesar 20.82%. Dari rentang rata - rata tersebut dapat disimpulkan bahwa dalam 3 bulan yaitu dari februari sampai mei jika dilakukan pembuatan strategi penjualan berdasarkan ketiga kategori ini dapat meningkatkan penjualan dari 11.1% sampai 20.82% dimana perkiraan tengahnya adalah 15,96%.

#### Apakah metode pembayaran yang paling sering dipakai setiap tahun?

Pada tahap ini digunakan kolom 'payment_method' dan 'year' akan membandingkan pemakaian payment_method yang berbeda di setiap tahun. Untuk memberikan strategi penjualan dengan metode pembayaran yang paling sering digunakan.

In [28]:
df_pay = df.groupby('payment_method')['year'].value_counts().reset_index()
df_pay

Unnamed: 0,payment_method,year,count
0,Cash,2022,20380
1,Cash,2021,20241
2,Cash,2023,3826
3,Credit Card,2022,16052
4,Credit Card,2021,15880
5,Credit Card,2023,2999
6,Debit Card,2021,9261
7,Debit Card,2022,9119
8,Debit Card,2023,1699


Dikarenakan ingin membandingkan metode pembayaran makan digunakan stacked bar-h chart.

In [29]:
fig = px.bar(df_pay, x='count', y='year', color='payment_method', text='payment_method', orientation='h', title="Number of Payment Method by Year")

# Membuat y axes atau year menampilkan data sebagai integer
fig.update_yaxes(type='category')
fig.show()

Dari grafik di atas, dapat diketahui bahwa metode pembayaran yang paling banyak adalah cash. Dari data tersebut maka dapat dirancang strategi penjualan dengan metode pembayaran cash. Tetapi bisa juga menggunakan metode pembayaran credit card sebagai data terbesar kedua dengan bekerja sama dengan pihak bank atau perusahaan yang mengeluarkan kartu kredit sehingga tidak menambah pengeluaran dikarenakan yang akan menanggung biaya strategi penjualan adalah pihak perusahaan atau bank kartu kredit.

#### Dimana tempat perbelanjaan yang memiliki jumlah penjualan terbanyak?

Pada tahap ini akan menggunakan kolom 'shopping_mall' dengan menghitung value transaksi setiap mall yang digunakan sehingga mengetahui pusat transaksi berada pada mall mana.

In [30]:
df_mal = df['shopping_mall'].value_counts().reset_index()
df_mal

Unnamed: 0,shopping_mall,count
0,Mall of Istanbul,19943
1,Kanyon,19823
2,Metrocity,15011
3,Metropol AVM,10161
4,Istinye Park,9781
5,Zorlu Center,5075
6,Cevahir AVM,4991
7,Forum Istanbul,4947
8,Viaport Outlet,4914
9,Emaar Square Mall,4811


Untuk membandingkan jumlah transaksi yang dilakukan pada setiap mall maka digunakan bar chart.

In [31]:
fig = px.bar(df_mal, x='shopping_mall', y='count', title= "Number of Transaction by Shopping Mall")

fig.show()

Dari grafik diatas, dapat diketahui bahwa 'Mall of Istanbul' memiliki jumlah transaksi atau penjualan terbanyak sebanyak 19,943 pejualan. Dibandingkan dengan 'Emaar Square Mall' memiliki jumlah penjualan yang terendah sebanyak 4,811 penjualan. Dengan penjualan yang sangat berbeda maka untuk mall atau pusat perbelanjaan yang memiliki jumlah penjualan yang rendah dapat meningkatkan penjualannya agar dapat mendekati jumlah penjualan pusat perbelanjaan yang lain. Selanjutnya akan memuat kesimpulan dari semua hasil analisis.

### Kesimpulan

Dari analisis yang telah dilakukan maka dapat disimpulkan bahwa strategi penjualan dalam 3 bulan akan dilakukan dari bulan februari hingga mei. Dimana pada strategi penjualan ini akan berfokus pada 3 kategori yang memiliki total sales terbesar yaitu 'Clothing', 'Shoes' dan 'Technology' yang akan menargetkan kategori usia 'Dewasa Akhir' yang memiliki jumlah pembelian terbanyak setiap tahunnya dengan harga produk untuk setiap kategori yang berkorelasi negatif lemah. Lalu dengan lebih menargetkan penggunaan cara pembayaran cash dan credit card. Maka dalam 3 bulan dari bulan februari hingga mei dapat mencapai peningkatan sebanyak 11.1% sampai 20.82% dimana perkiraan tengahnya adalah 15,96%. Dengan perkiraan setiap transaksi dalam interval ₺2,502.5472289772524 sampai ₺2,555.0313074756878.

### Saran

Rekomendasi yang dapat dilakukan:
1. Cash Promotions
    - Menambah promosi dengan minimum total belanja(₺2,500) dengan pembayaran tunai.
2. Clothes Promotions
    - Membuat promosi pada setiap bulan dari bulan februari sampai mei karena 'Clothing' menjadi penjualan terbesar pada transaksi.
3. Shoes Promotions
    - Membuat promosi pembelian lebih dari 1 sepatu dari bulai februari sampai mei.
4. Technology Promotions
    - Membuat promosi penjualan teknologi atau pameran teknologi pada bulan ferbuari sampai mei.