LANGKAH DASAR PEMBUATAN CHART MENGGUNAKAN MATPLOTLIB
1. Mempersiapkan dulu data yang dibutuhkan (NumPy & Pandas)
2. Membuat plot dari data yang telah dipersiapkan
3. mengkustomisasi berbagai komponen di chart yang telah dibuat - seperti figure size, title/judul, axis labels, axis ticks, style dari line/points di chart, grid, teks, dan lain sebagainya.
4. Menyimpan gambar yang telah dibuat

CONTOH KASUS : MEMBUAT GRAFIK GMV BULANAN UNTUK TAHUN 2019
1. GMV (Gross Merchandise Value) artinya Total uang yang dibayarkan customer

MEMPERSIAPKAN DATASET
1. Pengenalan Dataset: https://storage.googleapis.com/dqlab-dataset/retail_raw_reduced.csv
2. Mengetahui penjelasan setiap kolom dataset
3. Menambahkan kolom yang diperlukan - kolom GMV & order_month

In [4]:
# Pengenalan Dataset
import pandas as pd
dataset = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/retail_raw_reduced.csv')

print('Ukuran dataset: %d baris dan %d kolom/n' % dataset.shape)
print(dataset.columns)
print('Lima data teratas:')
print(dataset.head())

Ukuran dataset: 5000 baris dan 9 kolom/n
Index(['order_id', 'order_date', 'customer_id', 'city', 'province',
       'product_id', 'brand', 'quantity', 'item_price'],
      dtype='object')
Lima data teratas:
   order_id  order_date  customer_id             city     province product_id  \
0   1703458  2019-10-17        14004  Jakarta Selatan  DKI Jakarta      P1910   
1   1706815  2019-10-24        17220  Jakarta Selatan  DKI Jakarta      P2934   
2   1710718  2019-11-03        16518    Jakarta Utara  DKI Jakarta      P0908   
3   1683592  2019-08-19        16364    Jakarta Barat  DKI Jakarta      P0128   
4   1702573  2019-10-16        15696    Jakarta Timur  DKI Jakarta      P2968   

     brand  quantity  item_price  
0  BRAND_J        10      740000  
1  BRAND_R         2      604000  
2  BRAND_C         8     1045000  
3  BRAND_A         4      205000  
4  BRAND_R         2     4475000  


Mengetahui penjelasan setiap kolom dataset :
1. order_id: ID dari order/transaksi, 1 transaksi bisa terdiri dari beberapa produk, tetapi hanya dilakukan oleh 1 customer
2. order_date: tanggal terjadinya transaksi
3. customer_id: ID dari pembeli, bisa jadi dalam satu hari, 1 customer melakukan transaksi beberapa kali
3. city: kota tempat toko terjadinya transaksi
4. province: provinsi (berdasarkan city)
5. product_id: ID dari suatu product yang dibeli
6. brand: brand/merk dari product. Suatu product yang sama pasti memiliki brand yang sama
7. quantity: Kuantitas/banyaknya product yang dibeli
8. item_price: Harga dari 1 product (dalam Rupiah). Suatu product yang sama, bisa jadi memiliki harga yang berbeda saat dibeli.

Menambahkan kolom yang diperlukan :
1. Berdasarkan kasus : Membuat Grafik GMV Bulanan , maka dapat dibayangkan sebuah line chart dengan sumbu-x berupa bulan, dan sumbu-y adalah total GMV di bulan tersebut
2. Dataset tidak memiliki kolom order_month dan GMV, maka kita akan membuatnya

Membuat dataset menggunakan : (datetime, apply, lamda) & Cara Langsung - pada kolom GMV

1. apply & lambda : biasa digunakan untuk membuat kolom baru, berdasarkan suatu kolom lain yang sudah ada (misal .apply(lambda x: x*2) berarti setiap input x di dalam kolom, akan diubah menjadi x*2). Dalam hal ini kolom yang sudah ada adalah dataset['order_date'], lalu tiap nilai di dalamnya kita proses agar menjadi month-nya saja.
2. Function datetime.datetime.strptime : digunakan untuk mengubah date/time dalam bentuk string menjadi tipe data datetime.
3. Function strftime : digunakan untuk mengubah format suatu data bertipe datetime, dalam hal ini diubah menjadi '%Y-%m', yang berarti output-nya adalah waktu dengan bentuk YYYY-MM atau tahun dan bulan saja, tanggalnya sudah tidak ada.
4. Cara langsung : dapat digunakan ketika membuat kolom yang hanya merupakan hasil dari perhitungan matematis sederhana atau hanya menggunakan operator saja sudah bisa.

In [7]:
# Menambahkan kolom yang diperlukan
# Menambahkan kolom order_month
import pandas as pd
import datetime

dataset = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/retail_raw_reduced.csv')

# Membuat kolom order_month dari data order_date
dataset['order_month'] = dataset['order_date'].apply(lambda x:datetime.datetime.strptime(x, '%Y-%m-%d').strftime('%Y-%m'))

# Membuat kolom GMV dari perkalian item_price dan quantity
dataset['gmv'] = dataset['item_price'] * dataset['quantity']

print('Ukuran dataset: %d baris dan %d kolom/n' % dataset.shape)
print('Lima data teratas:')
print(dataset.head())

Ukuran dataset: 5000 baris dan 11 kolom/n
Lima data teratas:
   order_id  order_date  customer_id             city     province product_id  \
0   1703458  2019-10-17        14004  Jakarta Selatan  DKI Jakarta      P1910   
1   1706815  2019-10-24        17220  Jakarta Selatan  DKI Jakarta      P2934   
2   1710718  2019-11-03        16518    Jakarta Utara  DKI Jakarta      P0908   
3   1683592  2019-08-19        16364    Jakarta Barat  DKI Jakarta      P0128   
4   1702573  2019-10-16        15696    Jakarta Timur  DKI Jakarta      P2968   

     brand  quantity  item_price order_month      gmv  
0  BRAND_J        10      740000     2019-10  7400000  
1  BRAND_R         2      604000     2019-10  1208000  
2  BRAND_C         8     1045000     2019-11  8360000  
3  BRAND_A         4      205000     2019-08   820000  
4  BRAND_R         2     4475000     2019-10  8950000  
