# Studia X DSI Case Study
Author: Affandy Fahrizain (Data Engineer @ Mitra Informatika)

## Story
Selama pandemic COVID-19 pada tahun 2020, total peningkatan penjualan di e-commerce meningkat hingga 37%. Karena persaingan antar kompetitor yang semakin ketat, kamu dan Product Manager-mu sedang melakukan diskusi terkait bagaimana cara agar tetap bertahan dan bersaing di industri e-commerce. Setelah itu, kalian memutuskan untuk membuat suatu inovasi atau penawaran agar users tetap memilih kalian sebagai media belanja onlinenya.

## Task
Untuk itu, kamu ditugaskan untuk melakukan analisis terkait transaksi dari data pengguna baru. Akan tetapi, permasalahannya adalah perusahaan sedang melakukan efisiensi terkait pengelolaan dana promosi di 2021. Sebagai seorang data analyst, insights dan rekomendasi apa yang dapat kamu berikan untuk perusahaan tersebut?

## Notes
- Data set yang digunakan merupakan open data dari Kaggle. 
- Kolom *Country* tidak perlu dihiraukan untuk kasus ini
- Tahun di kolom *InvoiceDate* perlu diganti ke tahun 2020 sampai 2021 untuk kasus ini
- Data dalam kolom *UnitPrice* dalam *US dollar*
- Kamu bisa menggunakan data pendukung atau asumsi yang dapat dijustifikasi


### Load Library and Dataset

In [44]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [45]:
df = pd.read_csv('data.csv', encoding='latin-1')
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


In [46]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


Seems we got many null values in CustomerID and Description

Let's do some data adjustment in order to follow the Task Notes

In [47]:
# convert InvoiceDate to datetime data type
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    541909 non-null  object        
 1   StockCode    541909 non-null  object        
 2   Description  540455 non-null  object        
 3   Quantity     541909 non-null  int64         
 4   InvoiceDate  541909 non-null  datetime64[ns]
 5   UnitPrice    541909 non-null  float64       
 6   CustomerID   406829 non-null  float64       
 7   Country      541909 non-null  object        
dtypes: datetime64[ns](1), float64(2), int64(1), object(4)
memory usage: 33.1+ MB


In [48]:
# change InvoiceDate's year into 2020-2021
df['InvoiceDate'] = df['InvoiceDate'] + pd.Timedelta(days = 365*10)

In [49]:
df['InvoiceDate'].head()

0   2020-11-28 08:26:00
1   2020-11-28 08:26:00
2   2020-11-28 08:26:00
3   2020-11-28 08:26:00
4   2020-11-28 08:26:00
Name: InvoiceDate, dtype: datetime64[ns]

In [50]:
# drop Country since we allowed to ignore it
df.drop(columns='Country', inplace=True)
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2020-11-28 08:26:00,2.55,17850.0
1,536365,71053,WHITE METAL LANTERN,6,2020-11-28 08:26:00,3.39,17850.0
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2020-11-28 08:26:00,2.75,17850.0
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2020-11-28 08:26:00,3.39,17850.0
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2020-11-28 08:26:00,3.39,17850.0


4372