# Analisis Data Online Retail

## 1. Data Preparation

In [None]:
# 1.1 Import Library

import pandas as pd
import matplotlib.pyplot as plt


In [None]:
# 1.2 Load Data file

Df = pd.read_excel('Online Retail.xlsx', sheet_name='Online Retail')
Df.head()

In [None]:
Df.dtypes

In [None]:
Df['InvoiceDate'] = Df['InvoiceDate'].apply(pd.Timestamp)

## 2. Data Cleaning

In [None]:
# 2.1 Dimensionality of the DataFrame

Df.shape


In [None]:
# 2.2 Missing Values

Df.isnull().sum()


In [None]:
# 2.2.1 Cleaning missing value

Df_Clean = Df.dropna(axis=0, subset=['Description','CustomerID'])


In [None]:
# 2.3 Missing Values

Df_Clean.isnull().sum()


In [None]:
# 2.3.1 Dimensionality of the DataFrame

Df_Clean.shape


Dari data transaksi online retail. didapat memiliki 541910 baris dan 8 kolom. sebelum melakukan perbersihan data, ditemukan data kosong di kolom Description sebanyak 1454 dan kolom CustomerID sebanyak 135080 dan setelah dilakukan pembersihan baris terjadi pengurangan jumlah baris menjadi 406830 baris dan 8 kolom.

## 3. Analisis descriptive

In [None]:
# 3.1 summary descriptive statistics

Desc = Df_Clean.describe().transpose()
Desc['Type'] = Df_Clean.dtypes
Desc


Dari kesimpulan diatas terdapat nilai minus untuk jumlah transaksi dan jumlah transaksi tertinggi sebesar 80995 

In [None]:
# 3.1.1 Descriptive Statistics Colums InvoiceDate

Desc_InvoiceDate = pd.DataFrame(Df_Clean['InvoiceDate'].describe())
Desc_InvoiceDate

Diketahui dari Data transaksi online retail yang dimulai dari tanggal 1 Desember 2010 sampai 9 Desember 2011 dengan jumlah transaksi sebanyak 406830. terdapat jumlah transaksi tertinggi dalam satu hari pada tanggal 14 November 2011 sebanyak 543 transaksi.

In [None]:
# 3.1.2 Descriptive Statistics Colums Description

Desc_Description = pd.DataFrame(Df_Clean['Description'].describe())
Desc_Description


Diketahui dari data description terdapat 3897 item produk dan didapat bahwa item yang paling banyak dipesan adalah :
- item WHITE HANGING HEART T-LIGHT HOLDER sebanyak 2070

In [None]:
# 3.1.3 Descriptive Statistics Colums Country

pd.DataFrame(Df_Clean['Country'].describe())


Diketahui dari kolom negara terdapat 38 Negara dan didapat bahwa negara yang paling banyak melakukan transaksi adalah :
- Unitted Kingdom sebanyak 361878 transaksi

## 4. Qunatity Distribution

In [None]:
# 4.1 Box Plot Quantity Distribution

Ax = Df_Clean['Quantity'].plot.box(
    showfliers=False,
    grid=True,
    figsize=(5, 4)
)

Ax.set_ylabel('Order Quantity')
Ax.set_title('Quantity Distribution')

plt.suptitle("")
plt.show()


Dari grafik diatas dapat disimpulkan bahwa banyaknya transaksi berulang (repeat order) di angka 1 - 12 dan terdapat nilai minus lebih dari 10.

In [None]:
# 4.1.1 Successful transaction

Transaksi_Berhasil = (Df_Clean.loc[Df['Quantity'] > 0].shape)
display(Transaksi_Berhasil)


In [None]:
# 4.1.2 Failed transaction

Transaksi_Gagal = (Df_Clean.loc[Df['Quantity'] < 0].shape)
display(Transaksi_Gagal)

- Dari jangka waktu selama 375 Hari (2010-12-01 s/d 2011-12-09)
- Untuk transaksi yang berhasil sebanyak 397924.
- Untuk transaksi yang gagal sebanyak 8905.

## 5. Times Series Number Of Orders

In [None]:
Transaksi_perbulan = Df_Clean.set_index('InvoiceDate')['InvoiceNo'].resample('M').nunique()
print(Transaksi_perbulan)

In [None]:
InvoiceDate12 = Df_Clean.loc[Df_Clean['InvoiceDate'] >= '2011-12-01','InvoiceDate']
InvoiceDate12.tail(1)

In [None]:
Ax = pd.DataFrame(Pesanan_Bulanan.values).plot(
    grid=True,
    figsize=(10,3),
    legend=False
)

Ax.set_xlabel('Date')
Ax.set_ylabel('Number Of Orders')
Ax.set_title('Total Number Of Orders Over Time')

Ax.set_ylim([0, max(Pesanan_Bulanan.values)+500])

plt.xticks(
    range(len(Pesanan_Bulanan.index)), 
    [x.strftime('%m.%Y') for x in Pesanan_Bulanan.index], 
    rotation=45
)

plt.show()

Dari grafik times series diatas menunjukkan adanya penurunan jumlah order pada bulan Desember dikarenakan pada bulan tersebut hanya 9 hari melakukan order.

# Times Series Revenue

In [None]:
Df_Clean['Sales'] = Df_Clean['Quantity'] * Df_Clean['UnitPrice']
Df_Clean.head()

In [None]:
Pendapatan_Bulanan = Df_Clean.set_index('InvoiceDate')['Sales'].resample('M').sum()
Pendapatan_Bulanan

In [None]:
Ax = pd.DataFrame(Pendapatan_Bulanan.values).plot(
    grid=True,
    figsize=(10,3),
    legend=False
)

Ax.set_xlabel('Date')
Ax.set_ylabel('Sales')
Ax.set_title('Total Revenue Over Time')

Ax.set_ylim([0, max(Pendapatan_Bulanan.values)+100000])

plt.xticks(
    range(len(Pendapatan_Bulanan.index)), 
    [x.strftime('%m.%Y') for x in Pendapatan_Bulanan.index], 
    rotation=45
)

plt.show()