In [16]:
import pandas as pd
import numpy as np

## Series and DataFrame
- Series: satu kolom bagian dari tabel dataframe yang merupakan 1 dimensional numpy array sebagai basis datanya, terdiri dari 1 tipe data (integer, string, float, dll).
- DataFrame: gabungan dari Series, berbentuk rectangular data yang merupakan tabel spreadsheet itu sendiri (karena dibentuk dari banyak Series, tiap Series biasanya punya 1 tipe data, yang artinya 1 dataframe bisa memiliki banyak tipe data).

In [17]:
# Series
number_list = pd.Series([1,2,3,4,5,6])
print("Series:")
print(number_list)
# DataFrame
matrix = [[1,2,3],
          ['a','b','c'],
          [3,4,5],
          ['d',4,6]]
matrix_list = pd.DataFrame(matrix)
print("DataFrame:")
print(matrix_list)

Series:
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
DataFrame:
   0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


### Attribute Series and DataFrame

#### 1. Method .info()
Method .info() digunakan untuk mengecek kolom apa yang membentuk dataframe itu, data types, berapa yang non null, dll. Method ini tidak dapat digunakan pada series, hanya pada dataframe saja.

In [18]:
print("Shape dari number_list:", number_list.shape)
print("Shape dari matrix_list:", matrix_list.shape)

Shape dari number_list: (6,)
Shape dari matrix_list: (4, 3)


#### 2. Attribute .shape
Attribute .shape digunakan untuk mengetahui berapa baris dan kolom, hasilnya dalam format tuple (baris, kolom).

In [19]:
print("Shape dari number_list:", number_list.shape)
print("Shape dari matrix_list:", matrix_list.shape)

Shape dari number_list: (6,)
Shape dari matrix_list: (4, 3)


#### 3. Attribute .dtypes
Attribute .dtypes digunakan untuk mengetahui tipe data di tiap kolom. Tipe data object: kombinasi untuk berbagai tipe data (number & text, etc).

In [20]:
print("Tipe data number_list:", number_list.dtypes)
print("Tipe data matrix_list:", matrix_list.dtypes)

Tipe data number_list: int64
Tipe data matrix_list: 0    object
1    object
2    object
dtype: object


#### 4. Method .astype(nama_tipe_data)
Method .astype(nama_tipe_data) untuk convert tipe data berdasarkan tipe data seperti: float, int, str, numpy.float, numpy.int ataupun numpy.datetime.

In [21]:
print("Konversi number_list ke str:", number_list.astype(str))
print("Konversi matrix_list ke str:", matrix_list.astype(str))

Konversi number_list ke str: 0    1
1    2
2    3
3    4
4    5
5    6
dtype: object
Konversi matrix_list ke str:    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


#### 5. Attribute .copy()
Attribute .copy() digunakan melakukan duplikat, untuk disimpan di variable yang berbeda mungkin supaya tidak loading data lagi.

In [22]:
num_list = number_list.copy()
print("Copy number_list ke num_list:", num_list)
mtr_list = matrix_list.copy()
print("Copy matrix_list ke mtr_list:", mtr_list)

Copy number_list ke num_list: 0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
Copy matrix_list ke mtr_list:    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


#### 6. Attribute .to_list()
Attribute .to_list() digunakan untuk mengubah series menjadi list dan tidak dapat digunakan untuk dataframe.

In [23]:
print(number_list.to_list())

[1, 2, 3, 4, 5, 6]


#### 7. Attribute .unique()
Attribute .unique() digunakan menghasilkan nilai unik dari suatu kolom, hasilnya dalam bentuk numpy array. Attribute ini hanya digunakan pada series saja.

In [24]:
print(number_list.unique())

[1 2 3 4 5 6]


#### 8. Attribute .index
Attribute .index digunakan untuk mencari index/key dari Series atau Dataframe.

In [25]:
print("Index number_list:", number_list.index)
print("Index matrix_list:", matrix_list.index)

Index number_list: RangeIndex(start=0, stop=6, step=1)
Index matrix_list: RangeIndex(start=0, stop=4, step=1)


#### 9. Attribute .columns
Attribute .columns digunakan untuk mengetahui apa saja kolom yang tersedia di dataframe tersebut (hanya digunakan untuk dataframe saja).

In [26]:
print("Column matrix_list:", matrix_list.columns)

Column matrix_list: RangeIndex(start=0, stop=3, step=1)


#### 10. Attribute .loc
Attribute .loc digunakan slice dataframe atau series berdasarkan nama kolom dan/atau nama index.

In [27]:
print(".loc[0:1] pada number_list:", number_list.loc[0:1])
print(".loc[0:1] pada matrix_list:", matrix_list.loc[0:1])

.loc[0:1] pada number_list: 0    1
1    2
dtype: int64
.loc[0:1] pada matrix_list:    0  1  2
0  1  2  3
1  a  b  c


#### 11. Attribute .iloc
Attribute .iloc digunakan untuk slice dataframe atau series berdasarkan index kolom dan/atau index.

In [28]:
print(".iloc[0:1] pada number_list:", number_list.iloc[0:1])
print(".iloc[0:1] pada matrix_list:", matrix_list.iloc[0:1])

.iloc[0:1] pada number_list: 0    1
dtype: int64
.iloc[0:1] pada matrix_list:    0  1  2
0  1  2  3


### Creating Series & Dataframe from List

In [29]:
# Creating series from list
ex_list = ['a',1,3,5,'c','d']
ex_series = pd.Series(ex_list)
print(ex_series)
# Creating dataframe from list of list
ex_list_of_list = [[1,'a','b','c'],
                   [2.5,'d','e','f'],
		           [5,'g','h','i'],
		           [7.5,'j',10.5,'l']]
index = ['dq','lab','kar','lan']
cols = ['float','char','obj','char']
ex_df = pd.DataFrame(ex_list_of_list, index=index, columns=cols)
print(ex_df)

0    a
1    1
2    3
3    5
4    c
5    d
dtype: object
     float char   obj char
dq     1.0    a     b    c
lab    2.5    d     e    f
kar    5.0    g     h    i
lan    7.5    j  10.5    l


### Creating Series & Dataframe from Dictionary

In [15]:
# Creating series from dictionary
dict_series = {'1':'a',
			   '2':'b',
			   '3':'c'}
ex_series = pd.Series(dict_series)
print(ex_series)
# Creating dataframe from dictionary
df_series = {'1':['a','b','c'],
             '2':['b','c','d'],
             '4':[2,3,'z']}
ex_df = pd.DataFrame(df_series)
print(ex_df)

1    a
2    b
3    c
dtype: object
   1  2  4
0  a  b  2
1  b  c  3
2  c  d  z


### Creating Series & Dataframe from Numpy Array

In [16]:
# Creating series from numpy array (1D)
arr_series = np.array([1,2,3,4,5,6,6,7])
ex_series = pd.Series(arr_series)
print(ex_series)
# Creating dataframe from numpy array (2D)
arr_df = np.array([[1,2,3,5],
                   [5,6,7,8],
                   ['a','b','c',10]])
ex_df = pd.DataFrame(arr_df)
print(ex_df)

0    1
1    2
2    3
3    4
4    5
5    6
6    6
7    7
dtype: int32
   0  1  2   3
0  1  2  3   5
1  5  6  7   8
2  a  b  c  10


## Dataset I/O

### Read Dataset

In [18]:
# File CSV
df_csv = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_csv.csv')
# File TSV
df_tsv = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv', sep='\t')
# File xlsx dengan data di sheet "test"
df_excel = pd.read_excel('https://storage.googleapis.com/dqlab-dataset/sample_excel.xlsx', sheet_name='test')
# File JSON
url = 'https://storage.googleapis.com/dqlab-dataset/covid2019-api-herokuapp-v2.json'
df_json = pd.read_json(url)

### Write Dataset

In [19]:
# CSV
df.to_csv("csv1.csv", index=False)
# TSV
df.to_csv("tsv1.tsv", index=False, sep='\t')
# Copy
df.to_clipboard()
# Excel
df_excel.to_excel("xlsx1.xlsx", index=False)
# Google BigQuery
df.to_gbq("temp.test", project_id="XXXXXX", if_exists="fail")

NameError: name 'df' is not defined

### Head & Tail

In [20]:
df = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_csv.csv')
# Tampilkan 3 data teratas
print("Tiga data teratas:\n", df.head(3))
# Tampilkan 3 data terbawah
print("Tiga data terbawah:\n", df.tail(3))

Tiga data teratas:
    order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8      604000  
2  BRAND_G        12      747000  
Tiga data terbawah:
      order_id  order_date  customer_id      city          province product_id  \
98    1612390  2019-01-01        12681  Makassar  Sulawesi Selatan      P3354   
99    1612390  2019-01-01        12681  Makassar  Sulawesi Selatan      P3357   
100   1612390  2019-01-01        12681  Makassar  Sulawesi Selatan      P0422   

       brand  quantity  item_price  
98   BRAND_S        24      450000  
99   BRAND_S        24      450000  
100  BRAND_B         4     1325000  


## Indexing, Slicing, dan Transforming

In [21]:
# Index dari df
print("Index:", df.index)
# Column dari df
print("Columns:", df.columns)

Index: RangeIndex(start=0, stop=101, step=1)
Columns: Index(['order_id', 'order_date', 'customer_id', 'city', 'province',
       'product_id', 'brand', 'quantity', 'item_price'],
      dtype='object')


In [22]:
# Set multi index df
df_x = df.set_index(['order_date', 'city', 'customer_id'])
# Print nama dan level dari multi index
for name, level in zip(df_x.index.names, df_x.index.levels):
    print(name,':',level)

order_date : Index(['2019-01-01'], dtype='object', name='order_date')
city : Index(['Bogor', 'Jakarta Pusat', 'Jakarta Selatan', 'Jakarta Utara',
       'Makassar', 'Malang', 'Surabaya', 'Tangerang'],
      dtype='object', name='city')
customer_id : Index([12681, 13963, 15649, 17091, 17228, 17450, 17470, 17511, 17616, 18055], dtype='int64', name='customer_id')


In [23]:
df = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv', sep="\t", nrows=10)
# Cetak data frame awal
print("Dataframe awal:\n", df)
# Set index baru
df.index = ["Pesanan ke-" + str(i) for i in range(1, 11)]
# Cetak data frame dengan index baru
print("Dataframe dengan index baru:\n", df)

Dataframe awal:
    order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   
3   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0520   
4   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1513   
5   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3911   
6   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1780   
7   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3132   
8   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1342   
9   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P2556   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8 

In [24]:
df = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv', sep='\t', index_col=['order_date','order_id'])
# Cetak data frame untuk 8 data teratas
print("Dataframe:\n", df.head(8))

Dataframe:
                      customer_id             city     province product_id  \
order_date order_id                                                         
2019-01-01 1612339         18055  Jakarta Selatan  DKI Jakarta      P0648   
           1612339         18055  Jakarta Selatan  DKI Jakarta      P3826   
           1612339         18055  Jakarta Selatan  DKI Jakarta      P1508   
           1612339         18055  Jakarta Selatan  DKI Jakarta      P0520   
           1612339         18055  Jakarta Selatan  DKI Jakarta      P1513   
           1612339         18055  Jakarta Selatan  DKI Jakarta      P3911   
           1612339         18055  Jakarta Selatan  DKI Jakarta      P1780   
           1612339         18055  Jakarta Selatan  DKI Jakarta      P3132   

                       brand  quantity  item_price  
order_date order_id                                 
2019-01-01 1612339   BRAND_C         4     1934000  
           1612339   BRAND_V         8      604000  
     

In [25]:
df = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_csv.csv')
# Slice langsung berdasarkan kolom
df_slice = df.loc[(df['customer_id'] == '18055') &
                 (df['product_id'].isin(['P0029','P0040','P0041','P0116','P0117']))
                 ]
print("Slice langsung berdasarkan kolom:\n", df_slice)

Slice langsung berdasarkan kolom:
 Empty DataFrame
Columns: [order_id, order_date, customer_id, city, province, product_id, brand, quantity, item_price]
Index: []


In [26]:
# Set index dari df sesuai instruksi
df = df.set_index(['order_date','order_id','product_id'])
# Slice sesuai intruksi
df_slice = df.loc[('2019-01-01',1612339,['P2154','P2159']),:]
print("Slice df:\n", df_slice)

Slice df:
                                 customer_id             city     province  \
order_date order_id product_id                                              
2019-01-01 1612339  P2154             18055  Jakarta Selatan  DKI Jakarta   
                    P2159             18055  Jakarta Selatan  DKI Jakarta   

                                  brand  quantity  item_price  
order_date order_id product_id                                 
2019-01-01 1612339  P2154       BRAND_M         4     1745000  
                    P2159       BRAND_M        24      310000  


In [27]:
df = pd.read_csv('https://storage.googleapis.com/dqlab-dataset/sample_csv.csv')
# Tampilkan tipe data
print("Tipe data df:\n", df.dtypes)
# Ubah tipe data kolom order_date menjadi datetime
df['order_date'] = pd.to_datetime(df['order_date'])
# Ubah tipe data kolom quantity menjadi tipe data numerik float
df['quantity'] = pd.to_numeric(df['quantity'], downcast="float")
# Ubah tipe data kolom city menjadi tipe data category
df['city'] = df['city'].astype('category')
# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id                int64
order_date     datetime64[ns]
customer_id             int64
city                 category
province               object
product_id             object
brand                  object
quantity              float32
item_price              int64
dtype: object


In [28]:
# Cetak 5 baris teratas kolom brand
print("Kolom brand awal:\n", df["brand"].head())
# Gunakan method apply untuk merubah isi kolom menjadi lower case
df["brand"] = df["brand"].apply(lambda x: x.lower())
# Cetak 5 baris teratas kolom brand
print("Kolom brand setelah apply:\n", df["brand"].head())
# Gunakan method map untuk mengambil kode brand yaitu karakter terakhirnya
df["brand"] = df["brand"].map(lambda x: x[-1])
# Cetak 5 baris teratas kolom brand
print("Kolom brand setelah map:\n", df["brand"].head())

Kolom brand awal:
 0    BRAND_C
1    BRAND_V
2    BRAND_G
3    BRAND_B
4    BRAND_G
Name: brand, dtype: object
Kolom brand setelah apply:
 0    brand_c
1    brand_v
2    brand_g
3    brand_b
4    brand_g
Name: brand, dtype: object
Kolom brand setelah map:
 0    c
1    v
2    g
3    b
4    g
Name: brand, dtype: object


In [29]:
# number generator, set angka seed menjadi suatu angka, bisa semua angka, supaya hasil random nya selalu sama ketika kita run
np.random.seed(1234)
# create dataframe 3 baris dan 4 kolom dengan angka random
df_tr = pd.DataFrame(np.random.rand(3,4)) 
# Cetak dataframe
print("Dataframe:\n", df_tr)
# Cara 1 dengan tanpa define function awalnya, langsung pake fungsi anonymous lambda x
df_tr1 = df_tr.applymap(lambda x: x**2 + 3*x + 2) 
print("\nDataframe - cara 1:\n", df_tr1)
# Cara 2 dengan define function 
def qudratic_fun(x):
    return x**2 + 3*x + 2
df_tr2 = df_tr.applymap(qudratic_fun)
print("\nDataframe - cara 2:\n", df_tr2)

Dataframe:
           0         1         2         3
0  0.191519  0.622109  0.437728  0.785359
1  0.779976  0.272593  0.276464  0.801872
2  0.958139  0.875933  0.357817  0.500995

Dataframe - cara 1:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981

Dataframe - cara 2:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981


  df_tr1 = df_tr.applymap(lambda x: x**2 + 3*x + 2)
  df_tr2 = df_tr.applymap(qudratic_fun)


## Handling Missing Value

In [30]:
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak info dari df
print(df.info())
# Cetak jumlah missing value di setiap kolom
mv = df.isna().sum()
print("\nJumlah missing value per kolom:\n", mv)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   province_state  960 non-null    object 
 1   country_region  1000 non-null   object 
 2   date            1000 non-null   object 
 3   latitude        874 non-null    float64
 4   longitude       874 non-null    float64
 5   location_geom   874 non-null    object 
 6   confirmed       1000 non-null   int64  
 7   deaths          999 non-null    float64
 8   recovered       999 non-null    float64
 9   active          949 non-null    float64
 10  fips            949 non-null    float64
 11  admin2          842 non-null    object 
 12  combined_key    0 non-null      float64
dtypes: float64(7), int64(1), object(5)
memory usage: 101.7+ KB
None

Jumlah missing value per kolom:
 province_state      40
country_region       0
date                 0
latitude           126
longitude          126
l

In [31]:
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak ukuran awal dataframe
print("Ukuran awal df: %d baris, %d kolom." % df.shape)
# Drop kolom yang seluruhnya missing value dan cetak ukurannya
df = df.dropna(axis=1, how="all")
print("Ukuran df setelah buang kolom dengan seluruh data missing: %d baris, %d kolom." % df.shape)
# Drop baris jika ada satu saja data yang missing dan cetak ukurannya
df = df.dropna(axis=0, how="any")
print("Ukuran df setelah dibuang baris yang memiliki sekurangnya 1 missing value: %d baris, %d kolom." % df.shape)

Ukuran awal df: 1000 baris, 13 kolom.
Ukuran df setelah buang kolom dengan seluruh data missing: 1000 baris, 12 kolom.
Ukuran df setelah dibuang baris yang memiliki sekurangnya 1 missing value: 746 baris, 12 kolom.


In [32]:
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak unique value pada kolom province_state
print("Unique value awal:\n", df["province_state"].unique())
# Ganti missing value dengan string "unknown_province_state"
df["province_state"] = df["province_state"].fillna("unknown_province_state")
# Cetak kembali unique value pada kolom province_state
print("Unique value setelah fillna:\n", df["province_state"].unique())

Unique value awal:
 [nan 'US' 'Guam' 'Iowa']
Unique value setelah fillna:
 ['unknown_province_state' 'US' 'Guam' 'Iowa']


In [33]:
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak nilai mean dan median awal 
print("Awal: mean = %f, median = %f." % (df["active"].mean(), df["active"].median()))
# Isi missing value kolom active dengan median
df_median = df["active"].fillna(df["active"].median())
# Cetak nilai mean dan median awal setelah diisi dengan median
print("Fillna median: mean = %f, median = %f." % (df_median.mean(), df_median.median()))
# Isi missing value kolom active dengan mean
df_mean = df["active"].fillna(df["active"].mean())
# Cetak nilai mean dan median awal setelah diisi dengan mean
print("Fillna mean: mean = %f, median = %f." % (df_mean.mean(), df_mean.median()))

Awal: mean = 192.571128, median = 41.000000.
Fillna median: mean = 184.841000, median = 41.000000.
Fillna mean: mean = 192.571128, median = 49.000000.


In [34]:
# Data
ts = pd.Series({
   "2020-01-01":9,
   "2020-01-02":np.nan,
   "2020-01-05":np.nan,
   "2020-01-07":24,
   "2020-01-10":np.nan,
   "2020-01-12":np.nan,
   "2020-01-15":33,
   "2020-01-17":np.nan,
   "2020-01-16":40,
   "2020-01-20":45,
   "2020-01-22":52,
   "2020-01-25":75,
   "2020-01-28":np.nan,
   "2020-01-30":np.nan
})
# Isi missing value menggunakan interpolasi linier
ts = ts.interpolate()
# Cetak time series setelah interpolasi linier
print("Setelah diisi missing valuenya:\n", ts)

Setelah diisi missing valuenya:
 2020-01-01     9.0
2020-01-02    14.0
2020-01-05    19.0
2020-01-07    24.0
2020-01-10    27.0
2020-01-12    30.0
2020-01-15    33.0
2020-01-17    36.5
2020-01-16    40.0
2020-01-20    45.0
2020-01-22    52.0
2020-01-25    75.0
2020-01-28    75.0
2020-01-30    75.0
dtype: float64


## Mini Project

In [35]:
import pandas as pd

# 1. Baca dataset
print("[1] BACA DATASET")
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/retail_raw_test.csv", low_memory=False)
print("    Dataset:\n", df.head())
print("    Info:\n", df.info())

# 2. Ubah tipe data
print("\n[2] UBAH TIPE DATA")
df["customer_id"] = df["customer_id"].apply(lambda x: x.split("'")[1]).astype("int64")
df["quantity"] = df["quantity"].apply(lambda x: x.split("'")[1]).astype("int64")
df["item_price"] = df["item_price"].apply(lambda x: x.split("'")[1]).astype("int64")
print("    Tipe data:\n", df.dtypes)

# 3. Transform "product_value" supaya bentuknya seragam dengan format "PXXXX", assign ke kolom baru "product_id", dan drop kolom "product_value", jika terdapat nan gantilah dengan "unknown"
print("\n[3] TRANSFORM product_value MENJADI product_id")
# Buat fungsi
import math
def impute_product_value(val):
    if math.isnan(val):
        return "unknown"
    else:
        return 'P' + '{:0>4}'.format(str(val).split('.')[0])
# Buat kolom "product_id"
df["product_id"] = df["product_value"].apply(lambda x: impute_product_value(x))
# Hapus kolom "product_value"
df.drop(["product_value"], axis=1, inplace=True)
# Cetak 5 data teratas
print(df.head())

# 4. Tranform order_date menjadi value dengan format "YYYY-mm-dd"
print("\n[4] TRANSFORM order_date MENJADI FORMAT YYYY-mm-dd")
months_dict = {
   "Jan":"01",
   "Feb":"02",
   "Mar":"03",
   "Apr":"04",
   "May":"05",
   "Jun":"06",
   "Jul":"07",
   "Aug":"08",
   "Sep":"09",
   "Oct":"10",
   "Nov":"11",
   "Dec":"12"
}
df["order_date"] = pd.to_datetime(df["order_date"].apply(lambda x: str(x)[-4:] + "-" + months_dict[str(x)[:3]] + "-" + str(x)[4:7]))
print("    Tipe data:\n", df.dtypes)

# 5. Mengatasi data yang hilang di beberapa kolom
print("\n[5] HANDLING MISSING VALUE")
# Kolom "city" dan "province" masih memiliki missing value, nilai yang hilang di kedua kolom ini diisi saja dengan "unknown"
df[["city","province"]] = df[["city","province"]].fillna("unknown")
# Kolom brand juga masih memiliki missing value, Ganti value NaN menjadi "no_brand"
df["brand"] = df["brand"].fillna("no_brand")
# Cek apakah masih terdapat missing value di seluruh kolom 
print("    Info:\n", df.info())

# 6. Membuat kolom baru "city/province" dengan menggabungkan kolom "city" dan kolom "province" dan delete kolom asalnya
print("\n[6] MEMBUAT KOLOM BARU city/province")
df["city/province"] = df["city"] + "/" + df["province"]
# drop kolom "city" dan "province" karena telah digabungkan
df.drop(["city","province"], axis=1, inplace=True)
# Cetak 5 data teratas
print(df.head())

# 7. Membuat hierarchical index yang terdiri dari kolom "city/province", "order_date", "customer_id", "order_id", "product_id"
print("\n[7] MEMBUAT HIERACHICAL INDEX")
df = df.set_index(["city/province","order_date","customer_id","order_id","product_id"])
# urutkanlah berdasarkan index yang baru
df = df.sort_index()
# Cetak 5 data teratas
print(df.head())

# 8. Membuat kolom "total_price" yang formula nya perkalian antara kolom "quantity" dan kolom "item_price"
print("\n[8] MEMBUAT KOLOM total_price")
df["total_price"] = df["quantity"] * df["item_price"]
# Cetak 5 data teratas
print(df.head())

# 9. Slice dataset agar hanya terdapat data bulan Januari 2019
print("\n[9] SLICE DATASET UNTUK BULAN JANUARI 2019 SAJA")
idx = pd.IndexSlice
df_jan2019 = df.loc[idx[:, "2019-01-01":"2019-01-31"], :]
print("Dataset akhir:\n", df_jan2019)

# END OF PROJECT

[1] BACA DATASET
    Dataset:
    order_id    order_date customer_id           city     province    brand  \
0   1730350  Dec 11, 2019      '13447      Surakarta  Jawa Tengah  BRAND_F   
1   1677490  Jul 31, 2019          '0            NaN          NaN  BRAND_F   
2   1704211  Oct 18, 2019      '16128  Jakarta Pusat  DKI Jakarta  BRAND_H   
3   1679695  Aug 07, 2019      '16225     Yogyakarta   Yogyakarta  BRAND_H   
4   1679080  Aug 05, 2019          '0            NaN          NaN  BRAND_E   

  quantity item_price  product_value  
0      '24    '113000         1374.0  
1       '1   '1164000         1370.0  
2      '12    '747000         1679.0  
3       '6    '590000         1708.0  
4       '2    '740000         1201.0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   order_id       5000 non-null   int64  
 1   order_date     5000 non