## Introduction

Hallo. Perkenalkan, saya Fitri Octaviani. Di sini, saya ingin membuat overview mengenai dataset yang telah diberikan oleh Human Resource dari Torch. Dalam pemrograman python ini, saya hanya memberikan gambaran mengenai dataset, seperti apakah terdapat nilai yang hilan (missing value), tipe data yang tidak sesuai, serta adanya data duplikat. Selebihnya, data akan diolah menggunakan Query Power Bi.

## Import Library

> Pada section ini hanya berisi library yang digunakan dalam project dan mengecek versi dari library

In [None]:
# Data Loading
import pandas as pd
import numpy as np

In [None]:
# Cek versi library
print ('Pandas version : ', (pd.__version__))
print ('Numpy version : ', (np.__version__))

Pandas version :  1.5.3
Numpy version :  1.23.5


## Data Loading

> Pada section ini berisi proses penyiapan data sebelum dilakukan eksplorasi data lebih lanjut

In [None]:
encodings = ['utf-8', 'latin1', 'ISO-8859-1']

for encoding in encodings:
    try:
        data = pd.read_csv('/content/sample_data/online_shoppers_1.csv', encoding=encoding)
        break
    except UnicodeDecodeError:
        continue

In [None]:
# Menampilkan 5 baris teratas dari dataset
data.head(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


In [None]:
# Menampilkan 5 baris terbawah dari dataset
data.tail(5)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
459973,575889,23084,RABBIT NIGHT LIGHT,4,11/11/2011 14:09,2.08,16433.0,United Kingdom
459974,575889,22791,T-LIGHT GLASS FLUTED ANTIQUE,12,11/11/2011 14:09,1.25,16433.0,United Kingdom
459975,575889,23023,RIDGED BONNE JAM JAR T-LIGHT HOLDER,12,11/11/2011 14:09,1.65,16433.0,United Kingdom
459976,575889,22080,RIBBON REEL POLKADOTS,5,11/11/2011 14:09,1.65,16433.0,United Kingdom
459977,575889,20750,RED RETROSPOT MINI CASES,8,11/11/2011 14:09,7.95,16433.0,United Kingdom


In [None]:
# Jumlah baris dan kolom dataset
data.shape

(459978, 8)

Dari informasi output di atas, kita dapat mengetahui terdapat 459978 baris dan 8 kolom dalam dataset tersebut.

## Data Type

> Pada section ini akan melihat tipe data dari masing-masing kolom

In [None]:
# Melihat tipe data dari dataset
data.dtypes

InvoiceNo       object
StockCode       object
Description     object
Quantity         int64
InvoiceDate     object
UnitPrice      float64
CustomerID     float64
Country         object
dtype: object

Tipe data kolom 'InvoiceDate' sebaiknya diubah menjadi datetime. Hal ini akan memudahkan dalam melakukan operasi terkait tanggal dan waktu, seperti pengelompokkan berdasarkan hari, bulan, atau tahun.

Sehingga dalam hal tersebut akan dilakukan di Query Power Bi.

Jika dalam Python Pragramming maka code yang digunakan untuk mengubah menjadi datetime adalah


```
data['InvoiceDate'] = pd.to_datetime(data['InvoiceDate'])
```



In [None]:
# Melihat list kolom yang memiliki nilai sebagai kategori
cat_cols = list(data.select_dtypes(include='object'))
cat_cols

['InvoiceNo', 'StockCode', 'Description', 'InvoiceDate', 'Country']

In [None]:
# Overview dari kolom kategori
for i in cat_cols:
  print('Column : ',i)
  print('Total unique labels: ', data[i].nunique())
  print(data[i].value_counts())
  print('-' * 40)

Column :  InvoiceNo
Total unique labels:  22665
573585     1114
558475      705
537434      675
538071      652
538349      620
           ... 
C543780       1
543781        1
543782        1
543783        1
545427        1
Name: InvoiceNo, Length: 22665, dtype: int64
----------------------------------------
Column :  StockCode
Total unique labels:  4035
85123A    2070
22423     1995
85099B    1945
47566     1642
20725     1487
          ... 
37503        1
90060B       1
84620        1
23059        1
23602        1
Name: StockCode, Length: 4035, dtype: int64
----------------------------------------
Column :  Description
Total unique labels:  4159
WHITE HANGING HEART T-LIGHT HOLDER    2123
REGENCY CAKESTAND 3 TIER              1992
JUMBO BAG RED RETROSPOT               1945
PARTY BUNTING                         1642
LUNCH BAG RED RETROSPOT               1486
                                      ... 
MINT DINER CLOCK                         1
PINK CRYSTAL GUITAR PHONE CHARM          1


In [None]:
# Melihat list kolom yang memiliki nilai sebagai numerikal
num_cols = data.describe().columns.tolist()
num_cols

['Quantity', 'UnitPrice', 'CustomerID']

## Missing Value

> Pada section ini akan meninjau nilai yang hilang dari suatu kolom maupun baris.

In [None]:
# Melihat non-null dan tipe data dari dataset
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 459978 entries, 0 to 459977
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    459978 non-null  object 
 1   StockCode    459978 non-null  object 
 2   Description  458600 non-null  object 
 3   Quantity     459978 non-null  int64  
 4   InvoiceDate  459978 non-null  object 
 5   UnitPrice    459978 non-null  float64
 6   CustomerID   346450 non-null  float64
 7   Country      459978 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 28.1+ MB


In [None]:
# Melihat jumlah missing value
data.isnull().sum()

InvoiceNo           0
StockCode           0
Description      1378
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     113528
Country             0
dtype: int64

Dalam kolom Description terdapat 1378 nilai yang hilang (missing value), sementara untuk kolom CustomerID terdapat 113528 nilai yang hilang. Penting untuk menindaklanjuti nilai yang hilang ini karena keberadaannya dapat memengaruhi akurasi hasil analisis. Mengabaikan nilai yang hilang dapat menyebabkan bias dalam analisis.

Untuk menangani masalah ini, dalam Power BI dapat menggunakan Query Editor untuk mengganti nilai yang hilang dalam kolom 'Description' dengan 'UNKNOWN' dan dalam kolom 'CustomerID' dengan nilai yang didasarkan pada 'InvoiceNo'.

Dalam Python, dapat menggunakan kode seperti berikut ini untuk melakukan hal yang sama:

```
data['Description'].fillna('UNKNOWN', inplace=True)

data['CustomerID'].fillna(data['InvoiceNo'], inplace=True)
```



In [None]:
missing_description_rows = data[data['Description'].isnull()]
missing_customer_id_rows = data[data['CustomerID'].isnull()]

# Menampilkan baris-baris yang memiliki nilai yang hilang (missing) dalam kolom 'Description' dan 'CustomerID'
print("Baris dengan nilai yang hilang (missing value) pada kolom 'Description':")
print(missing_description_rows.index)

print("\nBaris dengan nilai yang hilang (missing value) pada kolom 'CustomerID':")
print(missing_customer_id_rows.index)

Baris dengan nilai yang hilang (missing value) pada kolom 'Description':
Int64Index([   622,   1970,   1971,   1972,   1987,   1988,   2024,   2025,
              2026,   2406,
            ...
            440202, 440210, 440212, 446550, 446551, 452781, 453963, 453998,
            453999, 454169],
           dtype='int64', length=1378)

Baris dengan nilai yang hilang (missing value) pada kolom 'CustomerID':
Int64Index([   622,   1443,   1444,   1445,   1446,   1447,   1448,   1449,
              1450,   1451,
            ...
            459772, 459773, 459774, 459775, 459776, 459777, 459778, 459779,
            459780, 459836],
           dtype='int64', length=113528)


## Data Duplicated

> Pada section ini akan melihat jumlah data yang sama

In [None]:
# Melihat jumlah duplikat dataset
data.duplicated().sum()

4056

Dalam dataset tersebut terdapat 4056 baris yang sama. Dalam mengatasi data yang terduplikasi penting karena dapat mengakibatkan perhitungan dan analisis yang tidak akurat, dapat menghabiskan sumber daya komputasi dan penyimpanan, serta mengganggu konsistensi basis data.

Untuk menangani kasus ini, dalam Power Bi dapat di drop.

Sedangkan dalam kode python programming adalah

```
data = data.drop_duplicates()
```



## Menambah kolom baru

> Pada section ini, saya akan menambahkan kolom baru dengan nama 'Actual' yang berisi nilai penjualan yang merupakan perkalian antara harga satuan 'UnitPrice' dan jumlah yang dibeli 'Quantity'

> Selain itu, saya juga telah menyertakan cara penanganan kondisi yang berbeda antara Power BI dan Python dengan contoh yang sesuai. Jadi, baik dalam Power BI menggunakan rumus

> `if [CustomerID] <> null then [CustomerID] else [InvoiceNo]`

> Maupun dalam Python menggunakan kode

> `data['Actual'] = np.where(data['CustomerID'].notnull(), data['CustomerID'], data['InvoiceNo'])`

> keduanya menghasilkan kolom baru 'Actual' dengan logika yang sesuai.



