# 1. **Bussiness Understanding**

![No Image](https://tax.thomsonreuters.com/blog/wp-content/uploads/sites/17/2019/05/GettyImages-935259316-800x450.jpg)

Pada tahap ini kita akan mengumpulkan pengetahuan umum tentang bagaimana bisnis perusahaan bekerja ini adalah bagian terpenting untuk mengetahui aplikasi / analisa data / model seperti apa yang akan dikembangkan. ada beberapa hal yang bisa dijadikan acuan dalam proses ini, diantaranya :

### a. Pahami tujuan bisnis
- Latar belakang
- Jenis
- Tujuan Perusahaan 
- Kriteria sukses
### b. Tentukan tujuan
### c. Rencana Proyek
- Alat yang digunakan
- Teknologi seperti apa yang akan digunakan

Studi kasus penelitian ini menggunakan dataset *transaction* dari *kaggle.com*. Pada tahap ini saya coba memahami dan membaca literasi tentang bagaimana cara **Costummer Relationship Management** dan **Costumer Segmentation** pada perusahaan bekerja dan menetapkan tujuan dari analisa dataset untuk melakukan segementasi pelanggan. Segmentasi pelanggan ini dapat digunakan oleh perusahaan untuk menentukan strategi pemasaran dan promosi produk untuk setiap segmen pelanggan.

# **2. Data Understanding**

![No Image](https://cdn1.katadata.co.id/dinside/media/images/thumb/2018/09/20/2018_09_20-17_07_17_c76799f5f26622ef18e1504efde6bbcf_960x640_thumb.jpg)

Pada penelitian kali ini saya menggunakan dataset *Transaction* dari website *Kaggle.com*

> Link dataset : https://www.kaggle.com/vipin20/transaction-data

Dataset ini berisi data transaksi e-commers berisi delapan kolom yaitu:

- UserId = kode unik yang dimiliki masing masing user
- TransactionId = kode unik yang dimiliki masing masing transaksi
- TransactionTime = waktu terjadinya transaksi
- ItemCode = berisi kode dari item yang dibeli
- ItemDescription = deskripsi item yang dibeli
- NumberOfItemPurchased = jumlah item yang dibeli
- CostPerItem = harga dari masing masing item
- Country = negara dimana item tersebut dibeli

## **2.1 Import Library**

In [1]:
import pandas as pd
import plotly.express as px

## **2.2 Ambil Data**

kita akan mencoba untuk menginputkan dataset lalu mengetesnya apakah berhasil di input atau tidak

In [2]:
rwData = pd.read_csv('Dataset/transaction_data.csv')

In [6]:
rwData['Country'].value_counts()

United Kingdom          990956
Germany                  18990
France                   17114
EIRE                     16392
Spain                     5066
Netherlands               4742
Belgium                   4138
Switzerland               4004
Portugal                  3038
Australia                 2518
Norway                    2172
Italy                     1606
Channel Islands           1516
Finland                   1390
Cyprus                    1244
Sweden                     924
Unspecified                892
Austria                    802
Denmark                    778
Japan                      716
Poland                     682
Israel                     594
USA                        582
Hong Kong                  576
Singapore                  458
Iceland                    364
Canada                     302
Greece                     292
Malta                      254
United Arab Emirates       136
European Community         122
RSA                        116
Lebanon 

In [7]:
fig = px.bar(x=rwData['Country'], y=rwData['Country'].value_counts(), color='Country',)

ValueError: All arguments should have the same length. The length of argument `y` is 38, whereas the length of  previously-processed arguments ['x'] is 1083818

In [3]:
rwData.head(5)

Unnamed: 0,UserId,TransactionId,TransactionTime,ItemCode,ItemDescription,NumberOfItemsPurchased,CostPerItem,Country
0,278166,6355745,Sat Feb 02 12:50:00 IST 2019,465549,FAMILY ALBUM WHITE PICTURE FRAME,6,11.73,United Kingdom
1,337701,6283376,Wed Dec 26 09:06:00 IST 2018,482370,LONDON BUS COFFEE MUG,3,3.52,United Kingdom
2,267099,6385599,Fri Feb 15 09:45:00 IST 2019,490728,SET 12 COLOUR PENCILS DOLLY GIRL,72,0.9,France
3,380478,6044973,Fri Jun 22 07:14:00 IST 2018,459186,UNION JACK FLAG LUGGAGE TAG,3,1.73,United Kingdom
4,-1,6143225,Mon Sep 10 11:58:00 IST 2018,1733592,WASHROOM METAL SIGN,3,3.4,United Kingdom


## **2.3 Eksplorasi Data**

Pada tahap ini kita akan melakukan eksplorasi data untuk mendapatkan pemahaman tentang dataset yang digunakan, mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian yang menarik dari data

In [None]:
rwData.info()

df. info() dari hasil output diatas kita dapat melihat bahwa dataset ini terdiri atas 1083818 data dan 8 kolom, selain itu kita dapat melihat masing masing tipe data dari kolom, berikutnya kita akan mengecek apakah didalam dataset kita terdapat missing data

In [None]:
rwData.isnull().sum()

df.isnull() dari hasil output tersebut kita dapat lihat bahawa terdapat data kosong dikolom ItemDescription, berikutnya saya akan mengecek apakah dalam dataset terdapat nilai 0 pada kolom UserId,TransactionId, NumberOfItemsPurchased, CostPerItem hal ini dilakukan agar tidak menggangu proses perhitungan RFM nantinya

In [None]:
(rwData['UserId'] <= 0).sum()

In [None]:
(rwData['TransactionId'] <= 0).sum()

In [None]:
(rwData['NumberOfItemsPurchased'] <= 0).sum()

In [None]:
(rwData['CostPerItem'] <= 0).sum()

nilai 0, terdapat pada kolom UserId, NumberOfItemsPurchased, CostPerItem

# **3. Data Preparation**

![NoImage](https://analyticsindiamag.com/wp-content/uploads/2018/01/data-cleaning.png)

Pada tahap ini saya

In [None]:
trans_df = rwData.dropna(subset=['ItemDescription'])

In [None]:
print(trans_df.isnull().sum())

In [None]:
trans_df.info()

In [None]:
df_filtered = trans_df[trans_df['NumberOfItemsPurchased'] > 0]
df_filtered = df_filtered[df_filtered['UserId'] > 0]
df_filtered = df_filtered[df_filtered['ItemCode'] > 0]
df_filtered = df_filtered[df_filtered['CostPerItem'] > 0]

In [None]:
df_filtered.info()

In [None]:
df_filtered.describe()

In [None]:
df_filtered.loc[df_filtered.duplicated(), :]

In [None]:
df_filtered.sort_values(by=['TransactionTime'], ascending=True, inplace=True)
df_filtered.head

In [None]:
import datetime as dt

In [None]:
df_filtered['TransactionTime']

In [None]:
df_filtered['TransactionTime'] = df_filtered['TransactionTime'].str.replace('IST','')
updated_df = df_filtered['TransactionTime'].astype('datetime64[ns]')

In [None]:
df_filtered.to_csv(r'Dataset/transaction_data_updated.csv', index=False)