# 1. **Bussiness Understanding**

![No Image](https://tax.thomsonreuters.com/blog/wp-content/uploads/sites/17/2019/05/GettyImages-935259316-800x450.jpg)

Pada tahap ini kita akan mengumpulkan pengetahuan umum tentang bagaimana bisnis perusahaan bekerja ini adalah bagian terpenting untuk mengetahui aplikasi / analisa data / model seperti apa yang akan dikembangkan. ada beberapa hal yang bisa dijadikan acuan dalam proses ini, diantaranya :

### a. Pahami tujuan bisnis
- Latar belakang
- Jenis
- Tujuan Perusahaan 
- Kriteria sukses
### b. Tentukan tujuan
### c. Rencana Proyek
- Alat yang digunakan
- Teknologi seperti apa yang akan digunakan

Studi kasus penelitian ini menggunakan dataset *transaction* dari *kaggle.com*. Pada tahap ini saya coba memahami dan membaca literasi tentang bagaimana cara **Costummer Relationship Management** dan **Costumer Segmentation** pada perusahaan bekerja dan menetapkan tujuan dari analisa dataset untuk melakukan segementasi pelanggan. 

# **2. Data Understanding**

![No Image](https://cdn1.katadata.co.id/dinside/media/images/thumb/2018/09/20/2018_09_20-17_07_17_c76799f5f26622ef18e1504efde6bbcf_960x640_thumb.jpg)

Pada penelitian kali ini saya menggunakan dataset *Transaction* dari website *Kaggle.com*

> Link dataset : https://www.kaggle.com/vipin20/transaction-data

Dataset ini berisi data transaksi e-commers berisi delapan kolom yaitu:

- UserId = kode unik yang dimiliki masing masing user
- TransactionId = kode unik yang dimiliki masing masing transaksi
- TransactionTime = waktu terjadinya transaksi
- ItemCode = berisi kode dari item yang dibeli
- ItemDescription = deskripsi item yang dibeli
- NumberOfItemPurchased = jumlah item yang dibeli
- CostPerItem = harga dari masing masing item
- Country = negara dimana item tersebut dibeli

## **2.1 Import Library**

In [1]:
import pandas as pd
import plotly.express as px

ModuleNotFoundError: No module named 'plotly'

## **2.2 Ambil Data**

kita akan mencoba untuk menginputkan dataset lalu mengetesnya apakah berhasil di input atau tidak

In [1]:
rwData = pd.read_csv('Dataset/transaction_data.csv')

In [2]:
rwData.head(5)

Unnamed: 0,UserId,TransactionId,TransactionTime,ItemCode,ItemDescription,NumberOfItemsPurchased,CostPerItem,Country
0,278166,6355745,Sat Feb 02 12:50:00 IST 2019,465549,FAMILY ALBUM WHITE PICTURE FRAME,6,11.73,United Kingdom
1,337701,6283376,Wed Dec 26 09:06:00 IST 2018,482370,LONDON BUS COFFEE MUG,3,3.52,United Kingdom
2,267099,6385599,Fri Feb 15 09:45:00 IST 2019,490728,SET 12 COLOUR PENCILS DOLLY GIRL,72,0.9,France
3,380478,6044973,Fri Jun 22 07:14:00 IST 2018,459186,UNION JACK FLAG LUGGAGE TAG,3,1.73,United Kingdom
4,-1,6143225,Mon Sep 10 11:58:00 IST 2018,1733592,WASHROOM METAL SIGN,3,3.4,United Kingdom


## **2.3 Eksplorasi Data**

Pada tahap ini kita akan melakukan eksplorasi data untuk mendapatkan pemahaman tentang dataset yang digunakan, mengidentifikasi masalah kualitas data, atau untuk mendeteksi adanya bagian yang menarik dari data

In [3]:
rwData.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1083818 entries, 0 to 1083817
Data columns (total 8 columns):
 #   Column                  Non-Null Count    Dtype  
---  ------                  --------------    -----  
 0   UserId                  1083818 non-null  int64  
 1   TransactionId           1083818 non-null  int64  
 2   TransactionTime         1083818 non-null  object 
 3   ItemCode                1083818 non-null  int64  
 4   ItemDescription         1080910 non-null  object 
 5   NumberOfItemsPurchased  1083818 non-null  int64  
 6   CostPerItem             1083818 non-null  float64
 7   Country                 1083818 non-null  object 
dtypes: float64(1), int64(4), object(3)
memory usage: 66.2+ MB


df. info() dari hasil output diatas kita dapat melihat bahwa dataset ini terdiri atas 1083818 data dan 8 kolom, selain itu kita dapat melihat masing masing tipe data dari kolom, berikutnya kita akan mengecek apakah didalam dataset kita terdapat missing data

In [6]:
rwData.isnull().sum()

UserId                       0
TransactionId                0
TransactionTime              0
ItemCode                     0
ItemDescription           2908
NumberOfItemsPurchased       0
CostPerItem                  0
Country                      0
dtype: int64

df.isnull() dari hasil output tersebut kita dapat lihat bahawa terdapat data kosong dikolom ItemDescription, berikutnya saya akan mengecek apakah dalam dataset terdapat nilai 0 pada kolom UserId,TransactionId, NumberOfItemsPurchased, CostPerItem hal ini dilakukan agar tidak menggangu proses perhitungan RFM nantinya

In [18]:
(rwData['UserId'] <= 0).sum()

270160

In [19]:
(rwData['TransactionId'] <= 0).sum()

0

In [21]:
(rwData['NumberOfItemsPurchased'] <= 0).sum()

21248

In [22]:
(rwData['CostPerItem'] <= 0).sum()

5034

nilai 0, terdapat pada kolom UserId, NumberOfItemsPurchased, CostPerItem

# **3. Data Preparation**

![NoImage](https://analyticsindiamag.com/wp-content/uploads/2018/01/data-cleaning.png)

Pada tahap ini saya

In [5]:
trans_df = rwData.dropna(subset=['ItemDescription'])

In [6]:
print(trans_df.isnull().sum())

UserId                    0
TransactionId             0
TransactionTime           0
ItemCode                  0
ItemDescription           0
NumberOfItemsPurchased    0
CostPerItem               0
Country                   0
dtype: int64


In [7]:
trans_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1080910 entries, 0 to 1083817
Data columns (total 8 columns):
 #   Column                  Non-Null Count    Dtype  
---  ------                  --------------    -----  
 0   UserId                  1080910 non-null  int64  
 1   TransactionId           1080910 non-null  int64  
 2   TransactionTime         1080910 non-null  object 
 3   ItemCode                1080910 non-null  int64  
 4   ItemDescription         1080910 non-null  object 
 5   NumberOfItemsPurchased  1080910 non-null  int64  
 6   CostPerItem             1080910 non-null  float64
 7   Country                 1080910 non-null  object 
dtypes: float64(1), int64(4), object(3)
memory usage: 74.2+ MB


In [8]:
df_filtered = trans_df[trans_df['NumberOfItemsPurchased'] > 0]
df_filtered = df_filtered[df_filtered['UserId'] > 0]
df_filtered = df_filtered[df_filtered['ItemCode'] > 0]
df_filtered = df_filtered[df_filtered['CostPerItem'] > 0]

In [9]:
df_filtered.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 792940 entries, 0 to 1083817
Data columns (total 8 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   UserId                  792940 non-null  int64  
 1   TransactionId           792940 non-null  int64  
 2   TransactionTime         792940 non-null  object 
 3   ItemCode                792940 non-null  int64  
 4   ItemDescription         792940 non-null  object 
 5   NumberOfItemsPurchased  792940 non-null  int64  
 6   CostPerItem             792940 non-null  float64
 7   Country                 792940 non-null  object 
dtypes: float64(1), int64(4), object(3)
memory usage: 54.4+ MB


In [10]:
df_filtered.describe()

Unnamed: 0,UserId,TransactionId,ItemCode,NumberOfItemsPurchased,CostPerItem
count,792940.0,792940.0,792940.0,792940.0,792940.0
mean,321330.406328,6166808.0,645816.5,39.025561,8.263905
std,35905.210683,144168.0,432828.8,538.833396,2693.975
min,259266.0,5900015.0,42.0,3.0,0.06
25%,293475.0,6041585.0,462567.0,6.0,1.73
50%,318339.0,6180823.0,475986.0,18.0,2.7
75%,352821.0,6293001.0,488670.0,36.0,5.18
max,384027.0,6397457.0,1894494.0,242985.0,1696285.0


In [11]:
df_filtered.loc[df_filtered.duplicated(), :]

Unnamed: 0,UserId,TransactionId,TransactionTime,ItemCode,ItemDescription,NumberOfItemsPurchased,CostPerItem,Country
1680,308196,6244777,Tue Dec 04 05:52:00 IST 2018,479157,CARD SUKI BIRTHDAY,108,0.58,United Kingdom
2654,269934,6048284,Sun Jun 24 10:17:00 IST 2018,1787583,WHITE HANGING HEART T-LIGHT HOLDER,9,4.08,United Kingdom
3165,328461,5999565,Mon May 14 09:03:00 IST 2018,482202,JAM JAR WITH PINK LID,36,1.18,United Kingdom
3798,372225,6036184,Sat Jun 16 08:07:00 IST 2018,443394,LAVENDER SCENTED FABRIC HEART,30,1.73,United Kingdom
4611,335013,5949482,Mon Mar 26 07:18:00 IST 2018,471744,HANGING METAL HEART LANTERN,36,2.28,United Kingdom
...,...,...,...,...,...,...,...,...
1083812,261681,6153092,Wed Sep 19 06:23:00 IST 2018,477330,ALARM CLOCK BAKELIKE IVORY,12,5.18,Switzerland
1083813,313131,6040298,Mon Jun 18 09:18:00 IST 2018,437976,DENIM PATCH PURSE PINK BUTTERFLY,30,2.28,EIRE
1083814,295743,6387117,Sat Feb 16 09:14:00 IST 2019,484113,RECYCLED ACAPULCO MAT PINK,6,11.39,United Kingdom
1083816,324765,5945500,Fri Mar 23 06:26:00 IST 2018,470883,REGENCY CAKESTAND 3 TIER,48,15.12,United Kingdom


In [12]:
df_filtered.sort_values(by=['TransactionTime'], ascending=True, inplace=True)
df_filtered.head

<bound method NDFrame.head of          UserId  TransactionId               TransactionTime  ItemCode  \
967078   362103        5960185  Fri Apr 06 06:15:00 IST 2018    447573   
432581   362103        5960185  Fri Apr 06 06:15:00 IST 2018   1732206   
861201   362103        5960185  Fri Apr 06 06:15:00 IST 2018   1732206   
432402   362103        5960185  Fri Apr 06 06:15:00 IST 2018   1528779   
188704   362103        5960185  Fri Apr 06 06:15:00 IST 2018   1732374   
...         ...            ...                           ...       ...   
723825   372750        6162508  Wed Sep 26 13:29:00 IST 2018    437472   
384277   372750        6162508  Wed Sep 26 13:29:00 IST 2018    357441   
78771    372750        6162508  Wed Sep 26 13:29:00 IST 2018    358764   
1056479  372750        6162508  Wed Sep 26 13:29:00 IST 2018    483105   
1080814  372750        6162508  Wed Sep 26 13:29:00 IST 2018    483126   

                           ItemDescription  NumberOfItemsPurchased  \
967078     

In [13]:
import datetime as dt

In [14]:
df_filtered['TransactionTime']

967078     Fri Apr 06 06:15:00 IST 2018
432581     Fri Apr 06 06:15:00 IST 2018
861201     Fri Apr 06 06:15:00 IST 2018
432402     Fri Apr 06 06:15:00 IST 2018
188704     Fri Apr 06 06:15:00 IST 2018
                       ...             
723825     Wed Sep 26 13:29:00 IST 2018
384277     Wed Sep 26 13:29:00 IST 2018
78771      Wed Sep 26 13:29:00 IST 2018
1056479    Wed Sep 26 13:29:00 IST 2018
1080814    Wed Sep 26 13:29:00 IST 2018
Name: TransactionTime, Length: 792940, dtype: object

In [15]:
df_filtered['TransactionTime'] = df_filtered['TransactionTime'].str.replace('IST','')
updated_df = df_filtered['TransactionTime'].astype('datetime64[ns]')

In [16]:
df_filtered.to_csv(r'Dataset/transaction_data_updated.csv', index=False)