<a href="https://colab.research.google.com/github/khairulhabibie/py_data_analyst/blob/Data-Visualization-with-Python-Matplotlib-for-Beginner---Part-1/%5B1%5D_Pengenalan_Matplotlib_dan_Persiapan_Dataset.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ***Pengenalan Matplotlib dan Persiapan Dataset***

--- 

```
*   Pengolahan dataset (menggunakan li[link text](https://)brary NumPy & Pandas).
*   Membuat grafik dasar menggunakan matplotlib.
*   Melakukan modifikasi komponen visualisasi, seperti axis, labels, title, dan legend.
*   Menyimpan plot visualisasi yang sudah dibuat
```

In [2]:
### pengenalan dataset
import pandas as pd
dataset = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/retail_raw_reduced.csv")
print("Ukuran dataset: %d baris dan %d kolom\n" % dataset.shape)
print("Lima data teratas:")
print(dataset.head())

Ukuran dataset: 5000 baris dan 9 kolom

Lima data teratas:
   order_id  order_date  customer_id             city     province product_id  \
0   1703458  2019-10-17        14004  Jakarta Selatan  DKI Jakarta      P1910   
1   1706815  2019-10-24        17220  Jakarta Selatan  DKI Jakarta      P2934   
2   1710718  2019-11-03        16518    Jakarta Utara  DKI Jakarta      P0908   
3   1683592  2019-08-19        16364    Jakarta Barat  DKI Jakarta      P0128   
4   1702573  2019-10-16        15696    Jakarta Timur  DKI Jakarta      P2968   

     brand  quantity  item_price  
0  BRAND_J        10      740000  
1  BRAND_R         2      604000  
2  BRAND_C         8     1045000  
3  BRAND_A         4      205000  
4  BRAND_R         2     4475000  


# ***Penjelasan Dataset***

---

* `order_id` : ID dari order/transaksi, 1 transaksi bisa terdiri dari beberapa produk, tetapi hanya dilakukan oleh 1 customer
* `order_date` : tanggal terjadinya transaksi
* `customer_id` : ID dari pembeli, bisa jadi dalam satu hari, 1 customer melakukan transaksi beberapa kali
* `city `: kota tempat toko terjadinya transaksi
* `province` : provinsi (berdasarkan city)
* `product_id` : ID dari suatu product yang dibeli
* `brand` : brand/merk dari product. Suatu product yang sama pasti memiliki brand yang sama
* `quantity` : Kuantitas/banyaknya product yang dibeli
* `item_price` : Harga dari 1 product (dalam Rupiah). Suatu product yang sama, bisa jadi memiliki harga yang berbeda saat dibeli

In [10]:
### Penambahan Kolom Order Month pada Dataset
import pandas as pd
import datetime

dataset = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/retail_raw_reduced.csv")
dataset["order_month"] = dataset["order_date"].apply(lambda x: datetime.datetime.strptime(x, "%Y-%m-%d").strftime("%Y-%m"))
print(dataset.head())

   order_id  order_date  customer_id             city     province product_id  \
0   1703458  2019-10-17        14004  Jakarta Selatan  DKI Jakarta      P1910   
1   1706815  2019-10-24        17220  Jakarta Selatan  DKI Jakarta      P2934   
2   1710718  2019-11-03        16518    Jakarta Utara  DKI Jakarta      P0908   
3   1683592  2019-08-19        16364    Jakarta Barat  DKI Jakarta      P0128   
4   1702573  2019-10-16        15696    Jakarta Timur  DKI Jakarta      P2968   

     brand  quantity  item_price order_month  
0  BRAND_J        10      740000     2019-10  
1  BRAND_R         2      604000     2019-10  
2  BRAND_C         8     1045000     2019-11  
3  BRAND_A         4      205000     2019-08  
4  BRAND_R         2     4475000     2019-10  


`keterangan:`

* apply & lambda biasa digunakan untuk membuat kolom baru, berdasarkan suatu kolom lain yang sudah ada (misal .apply(lambda x: x*2) berarti setiap input x di dalam kolom, akan diubah menjadi x*2). Dalam hal ini kolom yang sudah ada adalah dataset['order_date'], lalu tiap nilai di dalamnya kita proses agar menjadi month-nya saja
* Function datetime.datetime.strptime digunakan untuk mengubah date/time dalam bentuk string menjadi tipe data datetime.
* Function strftime digunakan untuk mengubah format suatu data bertipe datetime, dalam hal ini diubah menjadi '%Y-%m', yang berarti output-nya adalah waktu dengan bentuk YYYY-MM atau tahun dan bulan saja, tanggalnya sudah tidak ada. 


# ***Penambahan Kolom GMV pada Dataset***

---

```
MV adalah perkalian setiap entri di kolom item_price dan kolom quantity.
Bisa saja menggunakan fungsi apply & lambda seperti tadi,
tetapi ada cara yang lebih mudah yaitu dengan mengalikan kedua kolom yang disebutkan secara langsung.
```

In [13]:
### Penambahan Kolom GMV pada Dataset
import pandas as pd
import datetime
dataset = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/retail_raw_reduced.csv")
dataset["order_month"] = dataset["order_date"].apply(lambda x: datetime.datetime.strptime(x, "%Y-%m-%d").strftime("%Y-%m"))

dataset["gmv"] = dataset["item_price"] * dataset["quantity"]
print("Ukuran dataset: %d baris dan %d kolom\n" % dataset.shape)
print("Lima data teratas:")
print(dataset.head())

Ukuran dataset: 5000 baris dan 11 kolom

Lima data teratas:
   order_id  order_date  customer_id             city     province product_id  \
0   1703458  2019-10-17        14004  Jakarta Selatan  DKI Jakarta      P1910   
1   1706815  2019-10-24        17220  Jakarta Selatan  DKI Jakarta      P2934   
2   1710718  2019-11-03        16518    Jakarta Utara  DKI Jakarta      P0908   
3   1683592  2019-08-19        16364    Jakarta Barat  DKI Jakarta      P0128   
4   1702573  2019-10-16        15696    Jakarta Timur  DKI Jakarta      P2968   

     brand  quantity  item_price order_month      gmv  
0  BRAND_J        10      740000     2019-10  7400000  
1  BRAND_R         2      604000     2019-10  1208000  
2  BRAND_C         8     1045000     2019-11  8360000  
3  BRAND_A         4      205000     2019-08   820000  
4  BRAND_R         2     4475000     2019-10  8950000  
