# Introduction to Data Analyst

Dalam notebook ini membahas mengenai data pre-processing, salah satu langkah penting dalam mengolah data.

## Connect Gdrive kedalam Colab

In [None]:
# Mengakses google drive ke dalam google colaboratory
from google.colab import drive
drive.mount('/content/gdrive', force_remount=True)

Mounted at /content/gdrive


## Import Packages

In [None]:
# Import library
import pandas as pd
from scipy.stats import mode # untuk operasi perhitungan statistik deskriptif
import os

## Import Data

## Read CSV File

Langkah pertama dalam membaca file adalah memastikan dimana file tersimpan. Buatlah path yang merepresentasikan letak data yang tersimpan.

In [None]:
# Inisiasi directory tempat data akan dibaca dan disimpan
path = "gdrive/MyDrive/learn-py/narasiodata/day1-pdaib/"

In [None]:
os.listdir(path)

['Provinsi Jawa Timur Dalam Angka 2020-pages-85.pdf',
 'data description.txt',
 'OnlineRetail.xlsx',
 'OnlineRetail.csv',
 'convert_csv.csv',
 '.ipynb_checkpoints',
 'Provinsi Jawa Timur Dalam Angka 2020-pages-85.docx',
 'convert_excel.xlsx']

Langkah kedua adalah membaca data untuk membaca data dan menampilkannya dalam bentuk dataframe akan menggunakan package yaitu pandas. Dataframe banyak digunakan oleh data analyst dalam mengolah data. Salah satu faktor utama penggunaan dataframe adalah data terdisplay dengan schema yang jelas sehingga memudahkan pembacaan data. Selain itu, perubahan-perubahan yang akan dilakukan dapat anda amati secara langsung dan memastikan apakah sudah sesuai dengan apa yang diharapkan.

In [None]:
# Membaca file csv
df = pd.read_csv(path + 'OnlineRetail.csv', encoding="ISO-8859-1")

In [None]:
# Menampilkan 5 urutan teratas dari data
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01-12-2010 08:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01-12-2010 08:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01-12-2010 08:26,3.39,17850.0,United Kingdom


In [None]:
# Menampilkan 5 urutan terbawah dari data
df.tail()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,09-12-2011 12:50,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,09-12-2011 12:50,2.1,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,09-12-2011 12:50,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,09-12-2011 12:50,4.15,12680.0,France
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,09-12-2011 12:50,4.95,12680.0,France


## Read Excel File

In [None]:
# Membaca file excel
df_xlsx = pd.read_excel(path + "OnlineRetail.xlsx") 

In [None]:
# Menampilkan 5 urutan teratars dari data
df_xlsx.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-01-12 08:26:00,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-01-12 08:26:00,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-01-12 08:26:00,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-01-12 08:26:00,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-01-12 08:26:00,3.39,17850.0,United Kingdom


langkah sebelumnya merupakan langkah membaca file data dengan menggunakan 2 format data yang berbeda. Untuk langkah selanjutnya akan digunakan csv data



>*Sebagai catatan, jika ingin mencoba pada data excel masih tetap dapat melakukannya seperti langkah-langkah dibawah ini. Perbedaan format data hanya di proses awal pembacaan datanya saja.*



# EDA (Exploratory Data Analysis)
Secara garis besar, EDA adalah suatu proses dalam menganalis data yang dimiliki, contohnya melihat pola data, informasi data, menemukan anomali dari data, dan beberapa analis statistik lainnya.

- jika EDA dilakukan sebelum cleaning berfungsi untuk mengetahui data yang bermasalah, untuk membersihkan

- jika EDA dilakukan sesudah cleaning berfungsi untuk menggali insight lain yang lebih dalam atau jauh lagi

## Data terdiri dari berapa baris dan berapa kolom?

In [None]:
# Mencari ukuran data
df.shape

(541909, 8)

## Bagaimana kondisi datanya? Bermasalah atau tidak?

In [None]:
# Melihat informasi data
df.info()

# dtype untuk menunjukkan tipe data, 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


Data informasi berisi mengenai jumlah baris dalam data, nama-nama kolom dan jumlah element dari kolom tersebut, serta tipe data dan masing-masing kolom. Mengetahui informasi dari data akan memudahkan anda untuk mencari tahu apa saja yang perlu anda lakukan seperti merubah format data, melakukan manipulasi dalam data.

invoice date tipenya object (string) tetapi harusnya berbentuk datetime (karna berupa tanggal dan ada waktunya)
customer id tipenya float (didatabase biasanya int) tetapi untuk kebutuhan harusnya diubah menjadi berbentuk object karena customer id tidak akan diagregasi (sum,avirage dkk), lebih tepatnya di count oleh karena itu ubah menjadi object

* olah karena itu dilihat dari info tersebut, 
terdapat 2 masalah:
1. missing value dari non-null
2. tipe data masih belum benar

# Pre-processig Data
jika sudah tahu masalah apa saja, kemudian atasi masalah tersebut

## Apakah ada Missing Value?

cara untuk menghapus data, liat kebutuhannya. Jangan asal hapus data, karena itu juga sebuah informasi. Menghapus data berdasarkan tujuan.

Jika dilihat kebutuhannya lagi berdasarkan dataset yang dimiliki:
1. Kolom nilai CustomerID tidak valid. 
* Karena jika nilai CustomerID bolong siapa yang akan melakukan transaksi, aneh karena kok bisa masuk sistem padahal datanya bolong?. 
* Solusinya adalah menghapus. Kenapa dihapus? karena kolom CustomerID berisi id para pelanggan jadi tidak dapat disubstitusi/isi karena kita sendiri tidak tahu siapa yang transaksi jika semuanya bolong.

2. Kolom Description juga dihapus, karena jika tidak ada deskripsi atau nama produknya. Tidak valid karena tidak mungkin barang tidak berwujud.

In [None]:
# Cek missing value
df.isnull().sum()

InvoiceNo           0
StockCode           0
Description      1454
Quantity            0
InvoiceDate         0
UnitPrice           0
CustomerID     135080
Country             0
dtype: int64

Berdasarkan output diatas diketahu bahwa terdapat missing value pada kolom "Description" dan "CustomerID", oleh karena itu perlu dilakukan cleaning pada kolom tersebut. Salah satu cara handling missing value adalah drop data yang miss.

dalam kasus dataset ini yang dihapus barisnya atau axis=0, bukan kolom/axis=1. Jika CustomerID atau Descriptionnya dihapus itu tidak mungkin dalam kasus dataset ini karena nanti kedepannya kita tidak tahu produk apa yang sudah terjual. Jadi yang dihapus barisnya saja.

In [None]:
# Handling missing value dengan drop data
df = df.dropna(axis=0, how='any')

In [None]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01-12-2010 08:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01-12-2010 08:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01-12-2010 08:26,3.39,17850.0,United Kingdom


In [None]:
# Cek kembali missing value
df.isnull().sum()

InvoiceNo      0
StockCode      0
Description    0
Quantity       0
InvoiceDate    0
UnitPrice      0
CustomerID     0
Country        0
dtype: int64

In [None]:
# cek keseluruhan data masih ada yang kosong lagi atau tidak
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 406829 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    406829 non-null  object 
 1   StockCode    406829 non-null  object 
 2   Description  406829 non-null  object 
 3   Quantity     406829 non-null  int64  
 4   InvoiceDate  406829 non-null  object 
 5   UnitPrice    406829 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      406829 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 27.9+ MB


## Apakah ada Data Duplicate?

Mengecek data yang duplikat adalah salah satu proses penting dalam cleaning data. Duplikat data akan menjadikan analisa menjadi kurang valid dikarenakan terlalu banyak data yang seragam.

In [None]:
# Mencari duplicate data
duplicate = df[df.duplicated()]

# Display data yang duplicate
duplicate            

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
517,536409,21866,UNION JACK FLAG LUGGAGE TAG,1,01-12-2010 11:45,1.25,17908.0,United Kingdom
527,536409,22866,HAND WARMER SCOTTY DOG DESIGN,1,01-12-2010 11:45,2.10,17908.0,United Kingdom
537,536409,22900,SET 2 TEA TOWELS I LOVE LONDON,1,01-12-2010 11:45,2.95,17908.0,United Kingdom
539,536409,22111,SCOTTIE DOG HOT WATER BOTTLE,1,01-12-2010 11:45,4.95,17908.0,United Kingdom
555,536412,22327,ROUND SNACK BOXES SET OF 4 SKULLS,1,01-12-2010 11:49,2.95,17920.0,United Kingdom
...,...,...,...,...,...,...,...,...
541675,581538,22068,BLACK PIRATE TREASURE CHEST,1,09-12-2011 11:34,0.39,14446.0,United Kingdom
541689,581538,23318,BOX OF 6 MINI VINTAGE CRACKERS,1,09-12-2011 11:34,2.49,14446.0,United Kingdom
541692,581538,22992,REVOLVER WOODEN RULER,1,09-12-2011 11:34,1.95,14446.0,United Kingdom
541699,581538,22694,WICKER STAR,1,09-12-2011 11:34,2.10,14446.0,United Kingdom


In [None]:
# Handling duplicate data
df = df.drop_duplicates()

In [None]:
df

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,01-12-2010 08:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,01-12-2010 08:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,01-12-2010 08:26,3.39,17850.0,United Kingdom
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,09-12-2011 12:50,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,09-12-2011 12:50,2.10,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,09-12-2011 12:50,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,09-12-2011 12:50,4.15,12680.0,France


## Ubah Tipe Data

Dalam beberapa kasus terkadang dijumpai beberapa data yang memiliki tipe data yang kurang sesuai dengan yang dibutuhkan. Oleh karena itu, pengubahan tipe data sangat diperlukan.

* Ada beberapa tipe data yang masih kurang sesuai:
1. InvoiceDate harusnya datetime bukan object. Perlu diubah untuk keperluan analisis (chart, dapat mengetahui trendnya)

In [None]:
# Mengubah tipe data 'InvoiceDate' kedalam bentuk Datetime
df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [None]:
# Mengubah tipe data 'CustomerId' kedalam bentuk Non-Metric atau string
df['CustomerID'] = df['CustomerID'].astype(int).astype(str)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [None]:
# Mengecek kembali informasi dari data
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 401604 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype         
---  ------       --------------   -----         
 0   InvoiceNo    401604 non-null  object        
 1   StockCode    401604 non-null  object        
 2   Description  401604 non-null  object        
 3   Quantity     401604 non-null  int64         
 4   InvoiceDate  401604 non-null  datetime64[ns]
 5   UnitPrice    401604 non-null  float64       
 6   CustomerID   401604 non-null  object        
 7   Country      401604 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 27.6+ MB


In [None]:
df.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-01-12 08:26:00,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-01-12 08:26:00,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-01-12 08:26:00,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-01-12 08:26:00,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-01-12 08:26:00,3.39,17850,United Kingdom


Berdasarkan informasi data, dapat dilihat bahwa tipe data sudah berubah sesuai yang diharapkan dan semua kolom memiliki ukuran yang sama.

## Melakukan Analisa

ada 2 kategori data: non-metric dan metric

1. data non-metric: bukan bersifat numerik, non-metric bersifat kategorikal.
2. data metric: data yang numerik, yang dapat di aggregasi (rata-rata, standar deviasi, varian)

Sebelum memulai analisa, harus dipisahkan terlebih dahulu diantara mana data yang non-metric maupun metric

### Apa saja variabel yang termasuk dalam non-metric?
ciri dtype bersifat object. tipe data object.

In [None]:
# Menampilkan kolom/variabel dengan tipe data non-metric atau string
non_metric = list(df.select_dtypes(include=['object']).columns)
df[non_metric].head()

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,17850,United Kingdom


#### Berapakah jumlah nilai yang unik pada setiap variabel?

mencari sebuah informasi secara individu, berapa jumlah yang unik pada setiap variabelnya

In [None]:
df[non_metric].agg(['nunique','count'])

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country
nunique,22190,3684,3896,4372,37
count,401604,401604,401604,401604,401604


Index nunique menunjukkan nilai unique dan tiap tiap kolom, sedangkan count menunjukkan total keseluruhan data dalam kolom

#### Informasi apa yang paling banyak muncul dari setiap variabel secara keseluruhan?
gunakan fungsi statistik modus

In [None]:
# Mencari modus dari data non-metric
df[non_metric].mode()

Unnamed: 0,InvoiceNo,StockCode,Description,CustomerID,Country
0,576339,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17841,United Kingdom


#### Informasi apa yang paling banyak muncul dan berapakah jumlah nilai yang unik dari setiap variabel pada setiap negara?

In [None]:
# Membuat analisa berdasarkan country dan mencari tahu informasi negara dari unique value, total data, dan modus pada setiap variabel
df[non_metric].groupby('Country').agg(['nunique','count',pd.Series.mode]).stack()

Unnamed: 0_level_0,Unnamed: 1_level_0,InvoiceNo,StockCode,Description,CustomerID
Country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Australia,nunique,69,600,609,9
Australia,count,1258,1258,1258,1258
Australia,mode,556917,22720,SET OF 3 CAKE TINS PANTRY DESIGN,12415
Austria,nunique,19,307,307,11
Austria,count,401,401,401,401
...,...,...,...,...,...
United Kingdom,count,356728,356728,356728,356728
United Kingdom,mode,576339,85123A,WHITE HANGING HEART T-LIGHT HOLDER,17841
Unspecified,nunique,8,213,213,4
Unspecified,count,241,241,241,241


Analisa yang didapat: jadi disetiap negara, kita bisa mengetahui transaksinya ada berapa aja, kode transaksi mana yang paling banyak isi produknya, kode stock, deskripsi product, dll.

### Bagaimana dengan data metric?
data metric dapat di aggregasi, seperti data Quantity dan UnitPrice

#### Berapa rata-rata, nilai minimum, nilai maksimum kuantitas barang yang terjual dan harganya?

In [None]:
# Melihat summary dari data yang telah di cleaning
df.describe()

Unnamed: 0,Quantity,UnitPrice
count,401604.0,401604.0
mean,12.183273,3.474064
std,250.283037,69.764035
min,-80995.0,0.0
25%,2.0,1.25
50%,5.0,1.95
75%,12.0,3.75
max,80995.0,38970.0


fungsi describe digunakan untuk menghitung statistik deskriptif dari 2 kolom tersebut.

Analisa yang didapat:
* pada perhitungan "min" ada beberapa kejanggalan dikarenakan apabila nilai quantity negative karena kemungkinan
1. merupakan kuantitas yang ditolak atau dicancel. Jika positive item yang dijual tercatat, tetapi jika negative karna dicancel jadi balik lagi ke gudang, disitu tidak ada statusnya, biasanya cancel atau tidak nya ada di statusnya bukan Quantity nya negative.
2. kemungkinan kesalahan dari sistem, sistem logistic FIFO yang First In First Out. Ada kode stock nya, misal kode stock A masuk dulu di gudang menggunakan sistem FIFO, otomatis A dikeluarkan lebih dahulu kalau ada pembelian. Misal kode A 10 item/barang, sedangkan yang dibeli 20 item. harusnya yang sisanya sudah mengalihkan ke stok berikutnya, nah misalnya ada restock itu kode B, nah 10 nya itu dia ambilnya di kode B.
* Nah kesalahan perhitungan dari sistem hal tersebut masih dianggap kode stock A, oleh karna itu sampai negative.
* Harusnya secara logic tidak boleh, ketika yang diminta pembeli lebih besar dari nilai yang ada di kode stok itu nah harusnya dia langsung di agregasi 0 kan, sisanya itu ambil dari kode stock sesudahnya (urutan ke-2). kesalahan tersebut tidak di kosongkan, jadi nilainya berkurang jadi negative.

* UnitPrice yang 0 biasanya barang gratis, barang gratis itu dianggap tetap keluar dalam logistic dan sistem, tetapi nilai harganya itu 0 karena barang itu gratis. UnitPrice bernilai 0 tidak masalah karna barang gratisan dan dikeluarkan

tantangan bagi data analyst menangani Quantity bernilai negative mau dihapus atau tetap? harus dikulik sangat dalam, jika ada data atau perhitungan yang salah berarti harus dibenerin sistemnya, diulang urutan FIFOnya agar data yang masuk stock tidak bernilai negative harusnya misalkan 0. Harus diulik kode stock itu apa dan sisa stock di kode stock itu berapa.



### Menambah Variabel Baru
Dalam menganalisa data terkadang kita dapat menemukan informasi tambahan dari data yang kita miliki. Misalnya terkadang kita tidak mengetahui usia dari user, yang kita hanya miliki tanggal lahir dari user. Oleh karena itu diperlukan variabel/kolom tambahan untuk mengidentifikasi usia dari user tersebut dengan memanfaatkan data yang kita miliki saat ini. Langkah seperti ini juga akan dilakukan pada step ini, yaitu menambah variabel baru berupa keterangan waktu untuk memudahkan analisa kedepannya.

* berguna untuk menambah kolom tanggal, bulan, tahun, siapa tahu ingin dilakukan aggregasi untuk data penjualan tiap hari/tiap bulan/tiap tahun
* cara ini opsional untuk mempermudahkan

In [None]:
# Menambahkan kolom baru
df['year'], df['month'], df['day'] =  df['InvoiceDate'].dt.year, df['InvoiceDate'].dt.month, df['InvoiceDate'].dt.day

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  


In [None]:
df.tail()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country,year,month,day
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-09-12 12:50:00,0.85,12680,France,2011,9,12
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-09-12 12:50:00,2.1,12680,France,2011,9,12
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-09-12 12:50:00,4.15,12680,France,2011,9,12
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-09-12 12:50:00,4.15,12680,France,2011,9,12
541908,581587,22138,BAKING SET 9 PIECE RETROSPOT,3,2011-09-12 12:50:00,4.95,12680,France,2011,9,12


In [None]:
df.shape

(401604, 11)

## Exporting Data

Menyimpan data hasil pre-processing

In [None]:
# Export data ke dalam format csv
df.to_csv(path + 'Clean_OnlineRetail.csv', index=None) # keterangan index dalam data ini tidak akan di simpan

In [46]:
# Export data ke dalam format excel
df.to_excel(path + 'Clean_OnlineRetail.xlsx', index=None)

ada pertama kode A dan kedua kode B sistem FIFO berlaku agar mengeluarkan data pada kode A yang pertama masuk, antisipasi data tersebut kadaluarsa atau sudah lama digudang, kemudian jika barang dari stock A sudah habis baru diambil dari stock kode B/stock selanjutnya/stock urutan kedua yang ada di gudang. FIFO: apa yang pertama kali masuk, itu juga yang pertama kali keluar.