Jakarta sport center adalah toko yang menjual berbagai kebutuhan olahraga seperti Jaket, Baju, Tas, dan Sepatu. Toko ini mulai berjualan sejak tahun 2013, sehingga sudah memiliki pelanggan tetap sejak lama, dan tetap berusaha untuk mendapatkan pelanggan baru sampai saat ini.

Di awal tahun 2019, manajer toko tersebut merekrut junior DA untuk membantu memecahkan masalah yang ada di tokonya, yaitu menurunnya pelanggan yang membeli kembali ke tokonya. Junior DA tersebut pun diberi kepercayaan mengolah data transaksi toko tersebut. Manajer toko mendefinisikan bahwa customer termasuk sudah bukan disebut pelanggan lagi (churn) ketika dia sudah tidak bertransaksi ke tokonya lagi sampai dengan 6 bulan terakhir dari update data terakhir yang tersedia.

Manajer toko pun memberikan data transaksi dari tahun 2013 sampai dengan 2019 dalam bentuk csv (comma separated value) dengan data_retail.csv dengan jumlah baris 100.000 baris data.

Berikut tampilan datanya:
![1_sddi4_zIg_1Ye6Wm5QCN_g.png](attachment:1_sddi4_zIg_1Ye6Wm5QCN_g.png)

Field yang ada pada data tersebut antara lain:
1. No
2. Row_Num
3. Customer_ID
4. Product
5. First_Transaction
6. Last_Transaction
7. Average_Transaction_Amount
8. Count_Transaction

#### 1. Data preparation test
 - Importing data: Melakukan import data_retail.csv ke python environment.
 - Cleansing data: Melakukan pembersihan dan modifikasi data sehingga siap digunakan untuk analisis lebih lanjut.
 - Data visualization test: Mendapatkan insight dari hasil visualisasi yang telah dibuat.
 - Basic stats method test: Mendapatkan insight dari model dan evaluasi model yang sudah dibuat dan diuji.
 
#### Importing Data dan Inspection
Importlah dataset dan kemudian inspeksilah dataset tersebut dengan

- mencetak lima data teratas saja,
- mencetak info dataset.

In [None]:
import pandas as pd
df = pd.read_csv('data_retail.csv', sep=';')
print('Lima data teratas:')
print(df.head())
print('\nInfo dataset:')
print(df.info())
#Counting missing value
print('\nCounting total missing value : ')
print(df.isnull().sum().sum())

#### Data Cleansing

Dua kolom yang menunjukkan terjadinya transaksi tidak bertipe datetime, maka ubahlah kedua kolom tersebut ke tipe data datetime. Kemudian cetaklah kembali 5 data teratas dari dataframe df dan juga tipe data masing-masing kolomnya.

In [None]:
df['First_Transaction'] = pd.to_datetime(df['First_Transaction']/ 1000, unit='s', origin='1970-01-01')
df['Last_Transaction'] = pd.to_datetime(df['Last_Transaction']/ 1000, unit='s', origin='1970-01-01')

print(df['First_Transaction'] )
print(df['Last_Transaction'] )

#### Note: Customer churn, juga dikenal sebagai atrisi pelanggan, adalah persentase pelanggan yang berhenti menggunakan produk dan layanan bisnis selama jangka waktu tertentu

Untuk menentukan churn customers dari data dapat dilakukan sebagai berikut:

1. transaksi paling terakhir kapan dilakukan
2. klasifikasikanlah mana customer yang berstatus churn dan mana yang tidak.
Setelah itu cetak lima data teratas dan informasi dataset.


In [None]:
# Transaksi paling terakhir kapan dilakukan
print(max(df['Last_Transaction']))

# Klasisfikasi mana customer yang berstatus churn dan mana yg tidak
df.loc[df['Last_Transaction'] <= '2018-08-01', 'is_churn'] = True
df.loc[df['Last_Transaction'] > '2018-08-01', 'is_churn'] = False

print('Lima data teratas : ')
print(df.head())

Kemudian, untuk memudahkan dalam pengambilan keputusan kita bisa menggunakan syntax df[‘is_churn’] untuk mengklasifikasikan manakah customer yang termasuk customer churn atau tidak dengan logika ‘TRUE’ and ‘FALSE’

TRUE = konsumen yang melakukan transaksi terakhir kurang dari tanggal 01 Agustus 2018

FALSE = konsumen yang melakukan transaksi terakhir lebih dari tanggal 01 Agustus 2018

In [None]:
df['is_churn']

#### Mengubah value kolom is_churn menjadi numerik menggunakan Label Encoder

Untuk lebih memudahkan mana yang tergolong customer churn atau tidak, kita bisa mengubah value kolom is_churn menjadi nilai numerik dengan menggunakan Label Encoder. Hal ini dilakukan agar nantinya ketika masuk ke bagian Data Visualization dapat mengetahui proporsi customer churn setiap kategori produknya.

In [None]:
import numpy as np
from sklearn.preprocessing import LabelEncoder

#Convert feature / column 'Month'
LE = LabelEncoder()
df['is_churn'] = LE.fit_transform(df['is_churn'])
print(LE.classes_)
print(np.sort(df['is_churn'].unique()))
print('')


Sehingga, berdasarkan outputnya terlihat angka 0 diwakili logika False (bukan customer churn) dan angka 1 diwakili logika True yang artinya tergolong customer churn.

Selanjutnya, kita melakukan cara yang sama untuk mengeneralisasikan semua elemen customer. Kira-kira konsumen keberapa dan mana saja yang masuk customer churn atau bukan? Dengan menggunakan syntax df[‘is_churn’] yang diaplikasikan pada semua kolom is_churn.

#### Menghapus Kolom yang tidak diperlukan

Selanjutnya, kita akan menghapus kolom yang tidak diperlukan yaitu kolom ‘no’ dan ‘Row_Num’

Berikut syntax yang bisa digunakan:

In [None]:

del df['no']
del df['Row_Num']
print('Lima data teratats')
print(df.head())

### Data Visualization

#### Customer acquisition by year
Setelah semuanya lancar, langkah berikutnya adalah membuat visualisasi data berupa trend of customer acquisition by year dengan menggunakan bar chart. Untuk itu kita buat feature/kolom tambahan yang merupakan tahun dari First_Transaction dan tahun dari Last_Transaction masing-masingnya dengan nama Year_First_Transaction dan Year_Last_Transaction sebelum melakukan visualisasi.

In [None]:
import matplotlib.pyplot as plt
# Kolom tahun trnasaksi pertama
df['Year_First_transaction'] = df['First_Transaction'].dt.year
#Kolom transaski terakhir
df['Year_Last_transaction'] = df['Last_Transaction'].dt.year
df_year = df.groupby(['Year_First_transaction'])['Customer_ID'].count()
df_year.plot(x='Year_First_transaction', y='Customer_ID', kind='bar', title='Graph of customer Acquisition')

plt.xlabel('Year_First_transaction')
plt.ylabel('Year_Last_transaction')
plt.tight_layout()
plt.show

#### Seperti namanya, customer acquisition adalah proses penarikan pelanggan ke layanan yang kamu tawarkan. Proses ini sangat berguna, terutama untuk perkembangan bisnismu dalam jangka panjang.

Berdasarkan visualisasi bar chart, dapat disimpulkan bahwa number of customer tertinggi diraih pada tahun 2017 sebesar 30000. Sedangkan yang memiliki number of customer terendah terjadi pada tahun 2013.

#### Transaction by year

Visalisasikan trend jumlah transaksi pertahun menggunakan bar chart

In [None]:
import matplotlib.pyplot as plt
plt.clf()
df_year = df.groupby(['Year_First_transaction'])['Count_Transaction'].sum()
df_year.plot(x='Year_First_transaction', y='Count_Transaction', kind='bar', title='Graph of Transaction Customer')

plt.xlabel('Year_First_transaction')
plt.ylabel('Num_of_Transaction')
plt.tight_layout()
plt.show

Berdasarkan visualisasi bar chart, number of customer sejalan dengan number of transaction. Hal ini terlihat pada tahun 2017  yakni sama sama meningkat baik transaksi maupun konsumennya. Hal serupa juga dialami dan terjadi pada tahun 2015

#### Average transaction amount by year

Dengan menggunakan seaborn pointplot, visualisasikanlah tren dari tahun ke tahun rata-rata jumlah transaksi untuk tiap-tiap produknya.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
plt.clf()

sns.pointplot(data= df.groupby(['Product', 'Year_First_transaction']).mean().reset_index(),
             x= 'Year_First_transaction',
             y='Average_Transaction_Amount',
             hue='Product')
plt.tight_layout()
plt.show()

Berdasarkan rata-rata transaksi, beberapa produk mengalami kecendrungan naik-turun.Namun juga konstan seperti produk sepatu

### Proporsi churned customer untuk setiap produk
#### Proporsi churned customer untuk setiap produk

Dari sisi churned customer, khususnya untuk melihat seberapa besar proporsi churned customer untuk tiap-tiap produk dapat diketahui insight-nya melalui pie chart. Visualisasikan pie chartnya untuk keempat produk yang dimaksudkan.

In [None]:
import matplotlib.pyplot as plt
plt.clf()
# Melakukan pivot data dengan pivot table
df_piv = df.pivot_table(index='is_churn',
                       columns='Customer_ID',
                       aggfunc='count',
                       fill_value=0)

# Medapatkan Propotion Churn by Product
plot_product = df_piv.count().sort_values(ascending=False).head(5).index
# plot pie chart
df_piv = df_piv.reindex(columns=plot_product)
df_piv.plot.pie(subplots=True,
                figsize=(10, 7),
                layout=(-1, 2),
                autopct='%1.0f%%',
                title='Proportion Churn by Product')
plt.tight_layout()
plt.show()