# Data Manipulation with Pandas - Part 1
## [Introduction to Pandas]
### Memanggil Library Pandas
Pandas adalah library python open source yang biasanya digunakan untuk kebutuhan data analisis. Pandas membuat Python supaya dapat bekerja dengan data yang berbentuk tabular seperti spreadsheet dengan cara pemuatan data yang cepat, manipulasi data, menggabungkan data, serta ada berbagai fungsi yang lain.

Pertama-tama, harus di import dulu Pandas dan NumPy library di Python script yang telah tersedia.

In [1]:
import pandas as pd
import numpy  as np

### DataFrame & Series
Di Pandas terdapat 2 kelas data baru yang digunakan sebagai struktur dari spreadsheet:
1. **Series**: satu kolom bagian dari tabel dataframe yang merupakan 1 dimensional numpy array sebagai basis datanya, terdiri dari 1 tipe data (integer, string, float, dll).
2. **DataFrame**: gabungan dari Series, berbentuk rectangular data yang merupakan tabel spreadsheet itu sendiri (karena dibentuk dari banyak Series, tiap Series biasanya punya 1 tipe data, yang artinya 1 dataframe bisa memiliki banyak tipe data).

In [2]:
# Series
number_list = pd.Series([1,2,3,4,5,6])
print("Series:")
print(number_list)

# DataFrame
matrix = [[1,2,3],
          ['a','b','c'],
          [3,4,5],
          ['d',4,6]]
matrix_list = pd.DataFrame(matrix)
print("DataFrame:")
print(matrix_list)

Series:
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
DataFrame:
   0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


### Atribut DataFrame & Series
Dataframe dan Series memiliki sangat banyak atribut yang digunakan untuk transformasi data, tetapi ada beberapa attribute yang sering dipakai.
1. **Method .info()** =>
Method .info() digunakan untuk mengecek kolom apa yang membentuk dataframe itu, data types, berapa yang non null, dll. Method ini **tidak dapat digunakan pada series, hanya pada dataframe saja**.
2. **Attribute .shape** =>
Attribute .shape digunakan untuk mengetahui berapa baris dan kolom, hasilnya dalam format tuple (baris, kolom).
3. **Attribute .dtypes** =>
Attribute .dtypes digunakan untuk mengetahui tipe data di tiap kolom. Tipe data object: kombinasi untuk berbagai tipe data (number & text, etc).
4. **Method .astype(nama_tipe_data)**
Method .astype(nama_tipe_data) untuk convert tipe data berdasarkan tipe data seperti: float, int, str, numpy.float, numpy.int ataupun numpy.datetime.
5. **Attribute .copy()** =>
Attribute .copy() digunakan melakukan duplikat, untuk disimpan di variable yang berbeda mungkin supaya tidak loading data lagi.
6. **Attribute .to_list()** =>
Attribute .to_list() digunakan untuk mengubah series menjadi list dan **tidak dapat digunakan untuk dataframe**.
7. **Attribute .unique()** =>
Attribute .unique() digunakan menghasilkan nilai unik dari suatu kolom, hasilnya dalam bentuk numpy array. Attribute ini **hanya digunakan pada series saja**.
8. **Attribute .index** =>
Attribute .index digunakan untuk mencari index/key dari Series atau Dataframe.
9. **Attribute .columns** =>
Attribute .columns digunakan untuk mengetahui apa saja kolom yang tersedia di dataframe tersebut (hanya digunakan untuk dataframe saja).
10. **Attribute .loc** =>
Attribute .loc digunakan slice dataframe atau series berdasarkan nama kolom dan/atau nama index.
11. **Attribute .iloc** =>
Attribute .iloc digunakan untuk slice dataframe atau series berdasarkan index kolom dan/atau index.

In [3]:
# [1] method .info()
print("[1] method .info()")
print(matrix_list.info())
# [2] attribute .shape
print("\n[2] attribute .shape")
print("    Shape dari number_list:", number_list.shape)
print("    Shape dari matrix_list:", matrix_list.shape)
# [3] attribute .dtypes
print("\n[3] attribute .dtypes")
print("    Tipe data number_list:", number_list.dtypes)
print("    Tipe data matrix_list:", matrix_list.dtypes)
# [4] attribute .astype()
print("\n[4] method .astype()")
print("    Konversi number_list ke str:", number_list.astype("str"))
print("    Konversi matrix_list ke str:", matrix_list.astype("str"))
# [5] attribute .copy()
print("\n[5] attribute .copy()")
num_list = number_list.copy()
print("    Copy number_list ke num_list:", num_list)
mtr_list = matrix_list.copy()
print("    Copy matrix_list ke mtr_list:", mtr_list)	
# [6] attribute .to_list()
print("\n[6] attribute .to_list()")
print(number_list.to_list())
# [7] attribute .unique()
print("\n[7] attribute .unique()")
print(number_list.unique())
# [8] attribute .index
print("\n[8] attribute .index")
print("    Index number_list:", number_list.index)
print("    Index matrix_list:", matrix_list.index)	
# [9] attribute .columns
print("\n[9] attribute .columns")
print("    Column matrix_list:", matrix_list.columns)
# [10] attribute .loc
print("\n[10] attribute .loc")
print("    .loc[0:1] pada number_list:", number_list.loc[0:1])
print("    .loc[0:1] pada matrix_list:", matrix_list.loc[0:1])
# [11] attribute .iloc
print("\n[11] attribute .iloc")
print("    iloc[0:1] pada number_list:", number_list.iloc[0:1])
print("    iloc[0:1] pada matrix_list:", matrix_list.iloc[0:1])

[1] method .info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       4 non-null      object
 1   1       4 non-null      object
 2   2       4 non-null      object
dtypes: object(3)
memory usage: 224.0+ bytes
None

[2] attribute .shape
    Shape dari number_list: (6,)
    Shape dari matrix_list: (4, 3)

[3] attribute .dtypes
    Tipe data number_list: int64
    Tipe data matrix_list: 0    object
1    object
2    object
dtype: object

[4] method .astype()
    Konversi number_list ke str: 0    1
1    2
2    3
3    4
4    5
5    6
dtype: object
    Konversi matrix_list ke str:    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6

[5] attribute .copy()
    Copy number_list ke num_list: 0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
    Copy matrix_list ke mtr_list:    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6

[6] attribute .to_list()
[1

### Creating Series & Dataframe from List
Untuk membuat Series atau Dataframe bisa dari berbagai macam tipe data container/mapping di python, seperti list dan dictionary, maupun dari numpy array.

Pada sub bagian ini, kamu akan membuat Series dan Dataframe yang bersumber dari list. Sekadar meninjau bahwa list merupakan sebuah kumpulan data berbagai macam tipe data yang mutable (dapat diganti).

In [4]:
# Creating series from list
ex_list = ['a',1,3,5,'c','d']
ex_series = pd.Series(ex_list)
print(ex_series)

# Creating dataframe from list of list
ex_list_of_list = [[1,'a','b','c'],
                   [2.5,'d','e','f'],
		           [5,'g','h','i'],
		           [7.5,'j',10.5,'l']]
index = ['dq','lab','kar','lan']
cols = ['float','char','obj','char']
ex_df = pd.DataFrame(ex_list_of_list, index=index, columns=cols)
print(ex_df)

0    a
1    1
2    3
3    5
4    c
5    d
dtype: object
     float char   obj char
dq     1.0    a     b    c
lab    2.5    d     e    f
kar    5.0    g     h    i
lan    7.5    j  10.5    l


### Creating Series & Dataframe from Dictionary
Pada sub bagian ini, akan membuat Series dan Dataframe yang bersumber dari dictionary. Sekadar meninjau bahwa, dictionary merupakan kumpulan data yang strukturnya terdiri dari key dan value.

In [5]:
# Creating series from dictionary
dict_series = {'1':'a',
			   '2':'b',
			   '3':'c'}
ex_series = pd.Series(dict_series)
print(ex_series)

# Creating dataframe from dictionary
df_series = {'1':['a','b','c'],
             '2':['b','c','d'],
             '4':[2,3,'z']}
ex_df = pd.DataFrame(df_series)
print(ex_df)

1    a
2    b
3    c
dtype: object
   1  2  4
0  a  b  2
1  b  c  3
2  c  d  z


### Creating Series & Dataframe from Numpy Array
Pada sub bagian ini, akan membuat Series dan Dataframe yang bersumber dari numpy array. Sekadar meninjau bahwa, numpy array kumpulan data yang terdiri atas berbagai macam tipe data, mutable, tapi dibungkus dalam array oleh library Numpy.

In [6]:
# Creating series from numpy array (1D)
arr_series = np.array([1,2,3,4,5,6,6,7])
ex_series = pd.Series(arr_series)
print(ex_series)

# Creating dataframe from numpy array (2D)
arr_df = np.array([[1,2,3,5],
                   [5,6,7,8],
                   ['a','b','c',10]])
ex_df = pd.DataFrame(arr_df)
print(ex_df)

0    1
1    2
2    3
3    4
4    5
5    6
6    6
7    7
dtype: int32
   0  1  2   3
0  1  2  3   5
1  5  6  7   8
2  a  b  c  10


## [Dataset I/O]
Pandas menyediakan berbagai method untuk membaca file tersebut hanya dengan dipanggil method itu, code yang lebih simple dan loading yang lebih, tentu saja output nya dapat berupa Series atau Dataframe.

Terdapat sangat banyak file yang dapat dibaca/dapat disimpan oleh Pandas, tapi ada beberapa file yang paling umum dan sering digunakan oleh praktisi data seperti berikut ini:
1. CSV (Comma Separated Values), antar data dalam satu baris dipisahkan oleh comma, ",".
2. TSV (Tab Separated Values), antar data dalam satu baris dipisahkan oleh "Tab".
3. Excel
4. Google BigQuery
5. SQL Query
6. JSON (Java Script Object Notation)

### Read Dataset - CSV dan TSV
CSV dan TSV pada hakikatnya adalah tipe data text dengan perbedaan terletak pada pemisah antar data dalam satu baris. Pada file CSV, antar data dalam satu baris dipisahkan oleh comma, ",". Namun, pada file TSV antar data dalam satu baris dipisahkan oleh "Tab".

Fungsi **.read_csv()** digunakan untuk membaca file yang value-nya dipisahkan oleh comma (default), terkadang pemisah value-nya bisa di set ‘**\t**’ untuk file tsv (tab separated values).

In [7]:
# File CSV
df_csv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
df_csv.head(3) # Menampilkan 3 data teratas

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000


In [8]:
# File TSV
df_tsv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv", sep='\t')
df_tsv.head(3) # Menampilkan 3 data teratas

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000


### Read Dataset - Excel
File Excel dengan ekstensi .xls atau .xlsx cukup banyak digunakan dalam menyimpan data. Pandas juga memiliki fitur untuk membaca file excel.

Fungsi **.read_excel()** digunakan untuk membaca file excel menjadi dataframe pandas.

In [9]:
# File xlsx dengan data di sheet "test"
df_excel = pd.read_excel("https://storage.googleapis.com/dqlab-dataset/sample_excel.xlsx", sheet_name="test")
df_excel.head(4) # Menampilkan 4 data teratas

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
3,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000


### Read Dataset - JSON
Method **.read_json()** digunakan untuk membaca URL API yang formatnya JSON dan mengubahnya menjadi dataframe pandas.

In [10]:
# File JSON
url = "https://storage.googleapis.com/dqlab-dataset/covid2019-api-herokuapp-v2.json"
df_json = pd.read_json(url)
df_json.head(5) # Menampilkan 5 data teratas

Unnamed: 0,data,dt,ts
0,"{'location': 'US', 'confirmed': 3363056, 'deat...",07-14-2020,1594684800
1,"{'location': 'Brazil', 'confirmed': 1884967, '...",07-14-2020,1594684800
2,"{'location': 'India', 'confirmed': 906752, 'de...",07-14-2020,1594684800
3,"{'location': 'Russia', 'confirmed': 732547, 'd...",07-14-2020,1594684800
4,"{'location': 'Peru', 'confirmed': 330123, 'dea...",07-14-2020,1594684800


### Read Dataset - SQL

Fungsi **.read_sql()** atau **.read_sql_query()** digunakan untuk membaca query dari database dan translate menjadi pandas dataframe, contoh case ini database sqlite.

Contoh penggunaannya:

![image.png](attachment:image.png)

Jika menggunakan **.read_sql_query**,

![image.png](attachment:image.png)

Outputnya,

![image.png](attachment:image.png)

### Read Dataset - Google BigQuery
Untuk data yang besar (big data), umumnya digunakan Google BigQuery. Layanan ini dapat digunakan jika telah memiliki Google BigQuery account.

Fungsi **.read_gbq()** digunakan untuk membaca Google BigQuery table menjadi dataframe pandas.

![image.png](attachment:image.png)

project_id="XXXXXXXX" adalah ID dari Google BigQuery account.

Output-nya:

![image.png](attachment:image.png)

### Write Dataset
Setelah dilakukan data cleaning, dataset yang sudah rapih tentunya disimpan terlebih dahulu ke dalam media penyimpanan. Pandas menyediakan fitur demikian secara ringkas melalui penerapan method pada dataframe/series, sebagai berikut.
1. **to_csv()** : export dataframe jadi csv atau tsv.
    
    syntax:
    
        df.to_csv('nama.csv', index=False)
    atau
        
        df.to_csv('nama.csv', index=False, sep='\t')
2. **to_excel()** : export dataframe jadi file excel.
    
    syntax:
    
        df.to_excel('nama.xlsx', index=False)
    
3. **to_clipboard()** : export dataframe jadi bahan copy jadi nanti bisa tinggal klik paste di excel atau google sheets.
    
    syntax:
    
        df.to_clipboard()
4. **to_gbq()**, export dataframe jadi tabel di big query.

    syntax:
    
        df.to_gbq("temp.test", project_id="XXXXXX", if_exists="fail")

    - temp: nama dataset
    - test: nama table
    - if_exists: ketika tabel yang dataset.table_name nya udah ada. Apa actionnya? "fail": ga diapa2in; "replace': diganti sama tabel baru; "append": nambahin baris tabel pake data baru


## [Indexing, Slicing, dan Transforming]
### Indexing
Indexing merupakan key identifier dari tiap row/column untuk DataFrame atau Series. Jika tidak disediakan, Pandas akan membuat kolom index default secara otomatis sebagai bilangan bulat dari 0 sampai range jumlah baris data tersebut. Kolom index dapat terdiri dari:
1. satu kolom (single index), atau
2. multiple kolom (hierarchical index)

In [11]:
import pandas as pd
# Baca file TSV sample_tsv.tsv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep="\t")
# Index dari df
print("Index: ", df.index)
# Column dari df
print("Columns: ", df.columns)

Index:  RangeIndex(start=0, stop=101, step=1)
Columns:  Index(['order_id', 'order_date', 'customer_id', 'city', 'province',
       'product_id', 'brand', 'quantity', 'item_price'],
      dtype='object')


Contoh di atas termasuk ke dalam jenis _single index_.

Untuk membuat multiple index (hierarchical indexing) dengan Pandas, diperlukan kolom-kolom mana saja yang perlu disusun agar index dari dataframe menjadi sebuah hirarki yang kemudian dapet dikenali. Contoh:

In [12]:
# Set multi index df
df_x = df.set_index(['order_id', 'customer_id','product_id','order_date'])
df_x

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,city,province,brand,quantity,item_price
order_id,customer_id,product_id,order_date,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1612339,18055,P0648,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_C,4,1934000
1612339,18055,P3826,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_V,8,604000
1612339,18055,P1508,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_G,12,747000
1612339,18055,P0520,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_B,12,450000
1612339,18055,P1513,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_G,3,1500000
...,...,...,...,...,...,...,...,...
1612390,12681,P3388,2019-01-01,Makassar,Sulawesi Selatan,BRAND_S,10,450000
1612390,12681,P3082,2019-01-01,Makassar,Sulawesi Selatan,BRAND_R,18,1045000
1612390,12681,P3354,2019-01-01,Makassar,Sulawesi Selatan,BRAND_S,24,450000
1612390,12681,P3357,2019-01-01,Makassar,Sulawesi Selatan,BRAND_S,24,450000


In [13]:
#cek index
df_x.index

MultiIndex([(1612339, 18055, 'P0648', '2019-01-01'),
            (1612339, 18055, 'P3826', '2019-01-01'),
            (1612339, 18055, 'P1508', '2019-01-01'),
            (1612339, 18055, 'P0520', '2019-01-01'),
            (1612339, 18055, 'P1513', '2019-01-01'),
            (1612339, 18055, 'P3911', '2019-01-01'),
            (1612339, 18055, 'P1780', '2019-01-01'),
            (1612339, 18055, 'P3132', '2019-01-01'),
            (1612339, 18055, 'P1342', '2019-01-01'),
            (1612339, 18055, 'P2556', '2019-01-01'),
            ...
            (1612387, 17228, 'P0535', '2019-01-01'),
            (1612387, 17228, 'P0029', '2019-01-01'),
            (1612387, 17228, 'P3362', '2019-01-01'),
            (1612387, 17228, 'P3409', '2019-01-01'),
            (1612390, 12681, 'P1867', '2019-01-01'),
            (1612390, 12681, 'P3388', '2019-01-01'),
            (1612390, 12681, 'P3082', '2019-01-01'),
            (1612390, 12681, 'P3354', '2019-01-01'),
            (1612390, 12681, '

In [14]:
#cek kolom
df_x.columns

Index(['city', 'province', 'brand', 'quantity', 'item_price'], dtype='object')

In [15]:
# Print nama dan level dari multi index
# zip berfungsi untuk membentuk iterator berisi item dengan cara mendapatkan 
# iterable (bisa satu atau lebih) yang kemudian digabungkan ke dalam tuple dan dikembalikan 
for name, level in zip(df_x.index.names, df_x.index.levels):
    print(name,':',level)

order_id : Int64Index([1612339, 1612342, 1612345, 1612369, 1612372, 1612375, 1612378,
            1612381, 1612384, 1612387, 1612390],
           dtype='int64', name='order_id')
customer_id : Int64Index([12681, 13963, 15649, 17091, 17228, 17450, 17470, 17511, 17616,
            18055],
           dtype='int64', name='customer_id')
product_id : Index(['P0029', 'P0040', 'P0041', 'P0116', 'P0117', 'P0219', 'P0255', 'P0327',
       'P0422', 'P0449', 'P0491', 'P0515', 'P0517', 'P0520', 'P0525', 'P0535',
       'P0648', 'P0704', 'P0708', 'P0709', 'P0784', 'P0791', 'P0792', 'P0931',
       'P0968', 'P1118', 'P1251', 'P1255', 'P1305', 'P1306', 'P1307', 'P1329',
       'P1342', 'P1469', 'P1508', 'P1513', 'P1597', 'P1600', 'P1679', 'P1680',
       'P1683', 'P1684', 'P1685', 'P1700', 'P1741', 'P1742', 'P1780', 'P1800',
       'P1813', 'P1867', 'P1945', 'P2086', 'P2089', 'P2103', 'P2154', 'P2159',
       'P2325', 'P2494', 'P2556', 'P2575', 'P2594', 'P2641', 'P2660', 'P2707',
       'P2760', 'P2783

Lanjut, kita juga bisa menggunakan _assignment_ untuk menset index dari suatu dataframe.

In [16]:
# Baca file sample_tsv.tsv untuk 10 baris pertama saja
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep="\t", nrows=10)
# Cetak data frame awal
print("Dataframe awal:\n")
df

Dataframe awal:



Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
3,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000
4,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1513,BRAND_G,3,1500000
5,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3911,BRAND_V,3,2095000
6,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1780,BRAND_H,3,2095000
7,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3132,BRAND_S,3,1745000
8,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1342,BRAND_F,6,1045000
9,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2556,BRAND_P,6,1045000


In [17]:
# Set index baru
# jika index yang diassign panjangnya sama kayak jumlah baris dataframenya
df.index = ["Pesanan ke- " + str(i) for i in range(1, 11)]
# Cetak data frame dengan index baru
print("Dataframe dengan index baru:\n")
df

Dataframe dengan index baru:



Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
Pesanan ke- 1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
Pesanan ke- 2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
Pesanan ke- 3,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
Pesanan ke- 4,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000
Pesanan ke- 5,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1513,BRAND_G,3,1500000
Pesanan ke- 6,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3911,BRAND_V,3,2095000
Pesanan ke- 7,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1780,BRAND_H,3,2095000
Pesanan ke- 8,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3132,BRAND_S,3,1745000
Pesanan ke- 9,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1342,BRAND_F,6,1045000
Pesanan ke- 10,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2556,BRAND_P,6,1045000


Catatan:

- Cara yang ditunjukkan #set index baru, hanya berlaku jika index yang di-assign memiliki panjang yang sama dengan jumlah baris data frame.
- Jika ingin mengembalikan dataframe ke index defaultnya (yaitu 0 s/d jumlah baris data-1), maka dapat menggunakan method **.reset_index(drop=True)**

Lanjut, kita juga dapat menjadikan kolom sebagai index dengan cara langsung ditentukan saat membaca berkas filenya. Dengan catatan, kita menyertakan parameter **index_col**. Contoh:

In [18]:
# Baca file sample_tsv.tsv dan set lah index_col sesuai instruksi
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep="\t", index_col=['order_date','order_id'])
# Cetak data frame untuk 8 data teratas
df.head(8)

Unnamed: 0_level_0,Unnamed: 1_level_0,customer_id,city,province,product_id,brand,quantity,item_price
order_date,order_id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P1513,BRAND_G,3,1500000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P3911,BRAND_V,3,2095000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P1780,BRAND_H,3,2095000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P3132,BRAND_S,3,1745000


### Slicing / Filtering
Slicing adalah cara untuk melakukan filter ke dataframe/series berdasarkan kriteria tertentu dari nilai kolomnya ataupun kriteria indexnya. Terdapat 2 cara paling terkenal untuk slicing dataframe, yaitu dengan menggunakan method **.loc** dan **.iloc** pada variabel bertipe Pandas DataFrame/Series. Method .iloc ditunjukkan untuk proses slicing berdasarkan index berupa nilai integer tertentu. Akan tetapi akan lebih sering menggunakan method .loc karena fleksibel.

In [19]:
# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# Slice langsung berdasarkan kolom
df_slice = df.loc[(df["order_date"] == "2019-01-01") &
              # isin untuk mengecek isi value yang terkait 
		          (df["product_id"].isin(["P2154","P2556"]))]
df_slice

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
9,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2556,BRAND_P,6,1045000
10,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2154,BRAND_M,4,1745000


Sekarang kita akan menerapkan filtering berdasarkan index. Tentu syaratnya adalah dataset sudah dilakukan indexing terlebih dahulu melalui penerapan method **.set_index()**

Cara 1 : Gunakan method .loc

In [20]:
# Set index dari df sesuai instruksi
df = df.set_index(["order_date", "product_id"])
# Cara 1 : Gunakan.loc
df_slice1 = df.loc[("2019-01-01", ["P2154","P2556"]),:]
df_slice1

Unnamed: 0_level_0,Unnamed: 1_level_0,order_id,customer_id,city,province,brand,quantity,item_price
order_date,product_id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,P2154,1612339,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,4,1745000
2019-01-01,P2556,1612339,18055,Jakarta Selatan,DKI Jakarta,BRAND_P,6,1045000


Cara 2 : Gunakan pd.IndexSlice dan terapkan dengan .loc

In [21]:
# Cara 2: Gunakan pd.IndexSlice dan terapkan dengan .loc
idx = pd.IndexSlice
df_slice2 = df.sort_index().loc[idx["2019-01-01", "P2154":"P2556"], :]
df_slice2

Unnamed: 0_level_0,Unnamed: 1_level_0,order_id,customer_id,city,province,brand,quantity,item_price
order_date,product_id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,P2154,1612339,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,4,1745000
2019-01-01,P2159,1612339,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,24,310000
2019-01-01,P2325,1612372,17511,Tangerang,Banten,BRAND_N,48,604000
2019-01-01,P2494,1612372,17511,Tangerang,Banten,BRAND_P,40,904000
2019-01-01,P2556,1612339,18055,Jakarta Selatan,DKI Jakarta,BRAND_P,6,1045000


### Transforming
Transforming adalah proses mengubah dataset yang ada menjadi entitas baru. Hal yang biasa dilakukan pertama kali setelah data dibaca adalah mengrcek tipe data di setiap kolomnya apakah sesuai dengan representasinya. Apabila tidak sesuai, kita dapat mengkonversinya menjadi tipe data yang lain.

Untuk konversi data, secara default sistem akan mendeteksi data yang tidak dirender _as date type_ atau _numeric type_ sebagai object yang basically _string_. Tidak bisa dirender oleh sistem ini karena berbagai hal, mungkin karena formatnya asing dan tidak dikenali oleh python secara umum.

Contohnya adalah '2019Jan01'. Contoh tersebut tidak bisa dirender karena bulannya tidak dapat ditranslate menjadi _in form of number_ (00-12); serta tidak ada tanda strip (-) di antara tahun, bulan, dan harinya. Jika seluruh date pada kolom sudat tertulis dalam bentuk 'YYYY-mm-dd', maka ketika dibaca, kolom tersebut sudah langsung dinyatakan bertipe data datetime.

Berikut adalah syntax untuk **mengubah tipe data object menjadi datetime**:

    nama_dataset['nama_kolom'] = pd.to_datetime(nama_dataset['nama_kolom'])

Berikut adalah syntax untuk **mengubah tipe data ke numerik**:

    nama_dataset['nama_kolom'] = pd.to_numeric(nama_dataset['nama_kolom'], downcase='tipe_data_baru')

Berikut adalah syntax untuk **mengubah tipe data ke category**:

    nama_dataset['nama_kolom'] = nama_dataset['nama_kolom'].astype('category')

In [22]:
# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# Tampilkan tipe data
print("Tipe data df:\n", df.dtypes)
# Ubah tipe data kolom order_date menjadi datetime
df["order_date"] = pd.to_datetime(df["order_date"])
# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id                int64
order_date     datetime64[ns]
customer_id             int64
city                   object
province               object
product_id             object
brand                  object
quantity                int64
item_price              int64
dtype: object


Selanjutnya, kita akan mempelajari teknik/cara lain dalam proses transformasi suatu dataframe menggunakan method **.apply()** dan **.map()**

Sebetulnya, kedua method itu kegunaannya sama, yakni untuk menerapkan suatu fungsi python. Perbedaannya:
1. method .apply() hanya bekerja pada pandas Series. Jadi kita hanya dapat melakukan transformasi data untuk satu kolom saja.
2. method .map() dapat bekerja pada pandas Series dan DataFrame. Jadi kita dapat melakukan transfromasi data untuk lebih dari satu kolom.

In [23]:
import pandas as pd
# baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# cetak 5 baris teratas kolom brand
print("kolom brand awal: \n", df["brand"].head())
print()

# ubah kolom brand menjadi lower case
df["brand"] = df["brand"].apply(lambda x: x.lower())
# cetak 5 baris teratas kolom brand
print("kolom brand setelah diubah:\n", df["brand"].head())

kolom brand awal: 
 0    BRAND_C
1    BRAND_V
2    BRAND_G
3    BRAND_B
4    BRAND_G
Name: brand, dtype: object

kolom brand setelah diubah:
 0    brand_c
1    brand_v
2    brand_g
3    brand_b
4    brand_g
Name: brand, dtype: object


In [24]:
import pandas as pd
# baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# cetak 5 baris teratas kolom brand
print("Kolom Brand awal :\n", df["brand"].head())
print()
# ambil karakter terakhir dari kolom brand
df["brand"] = df["brand"].map(lambda x: x[-1])
# cetak 5 baris teratas kolom brand
print("Kolom brand setelah diubah:\n", df["brand"].head())

Kolom Brand awal :
 0    BRAND_C
1    BRAND_V
2    BRAND_G
3    BRAND_B
4    BRAND_G
Name: brand, dtype: object

Kolom brand setelah diubah:
 0    C
1    V
2    G
3    B
4    G
Name: brand, dtype: object


Lanjut, kita juga dapat mentransformasikan seluruh kolom pada dataframe sekaligus dengan menggunakan method **.applymap()**.

Keterangan: Karena dataframe sering berisi variabel dari tipe data yang berbeda, .applymap() mungkin menimbulkan kesalahan saat menggunakan fungsi yang mengharapkan tipe input tertentu. Tetapi untuk dataframe dengan tipe data yang homogen, ini adalah cara cepat menjalankan fungsi pada semua kolom.

In [25]:
import numpy as np
import pandas as pd

# number generator
# set angka seed menjadi suatu angka, bisa semua angka
# supaya hasil randomnya selalu sama ketika di run
np.random.seed(100)

# bikin dataframe 3 baris dan 5 kolom dengan angka random
# random.rand(<baris>, <kolom>)
df_tr = pd.DataFrame(np.random.rand(3,5))

# cetak dataframe
print("Dataframe:\n", df_tr)

Dataframe:
           0         1         2         3         4
0  0.543405  0.278369  0.424518  0.844776  0.004719
1  0.121569  0.670749  0.825853  0.136707  0.575093
2  0.891322  0.209202  0.185328  0.108377  0.219697


Cara 1 : .applymap() dengan langsung menggunakan lambda

In [26]:
df_tr1 = df_tr.applymap(lambda x: x*100)
df_tr1

Unnamed: 0,0,1,2,3,4
0,54.340494,27.836939,42.451759,84.477613,0.471886
1,12.156912,67.074908,82.585276,13.670659,57.509333
2,89.132195,20.920212,18.532822,10.837689,21.969749


Cara 2 : .applymap() dengan terlebih dahulu men-define function

In [27]:
def times_100(x):
  return x*100
df_tr2 = df_tr.applymap(times_100)
df_tr2

Unnamed: 0,0,1,2,3,4
0,54.340494,27.836939,42.451759,84.477613,0.471886
1,12.156912,67.074908,82.585276,13.670659,57.509333
2,89.132195,20.920212,18.532822,10.837689,21.969749


## [Handling Missing Values]
### Inspeksi Missing Values
Value yang hilang / tidak lengkap dari dataframe akan membuat analisis atau model prediksi yang dibuat menjadi tidak akurat dan mengakibatkan keputusan salah yang diambil..

In [29]:
# Baca file "public data covid19 jhu csse eu.csv"
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/CHAPTER+4+-+missing+value+-+public+data+covid19+.csv")
df.head()

Unnamed: 0,province_state,country_region,date,latitude,longitude,location_geom,confirmed,deaths,recovered,active,fips,admin2,combined_key
0,,UK,01-02-20,,,,2,0.0,0.0,,,,
1,,UK,18-02-20,,,,9,0.0,8.0,,,,
2,,UK,17-02-20,,,,9,0.0,8.0,,,,
3,,UK,31-01-20,,,,2,,,,,,
4,,UK,19-02-20,,,,9,0.0,8.0,,,,


Nah, di Pandas, data yang hilang umumnya direpresentasikan dengan **Nan**. Treatmenrs yang dapat dilakukan untuk mengatasi missing values, yaitu:
1. **dibiarkan saja**,
2. **hapus value itu**, atau
3. **isi value tersebut dengan value lain**.

Sebelum melakukan treatment yang tepat, kita coba cek terlebih dahulu banyaknya missing value dari setiap kolom dengan cara berikut.

In [30]:
# Cetak info dari df
print(df.info())
# Cetak jumlah missing value di setiap kolom
mv = df.isna().sum()
print("\nJumlah missing value per kolom:\n", mv)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   province_state  960 non-null    object 
 1   country_region  1000 non-null   object 
 2   date            1000 non-null   object 
 3   latitude        874 non-null    float64
 4   longitude       874 non-null    float64
 5   location_geom   874 non-null    object 
 6   confirmed       1000 non-null   int64  
 7   deaths          999 non-null    float64
 8   recovered       999 non-null    float64
 9   active          949 non-null    float64
 10  fips            949 non-null    float64
 11  admin2          842 non-null    object 
 12  combined_key    0 non-null      float64
dtypes: float64(7), int64(1), object(5)
memory usage: 101.7+ KB
None

Jumlah missing value per kolom:
 province_state      40
country_region       0
date                 0
latitude           126
longitude          126
l

Mari kita telaah beberapa,

- pada kolom 'deaths' dan 'recovered', jika ada missing value maka kemungkinan terbesarnya adalah tidak ada yang meninggal atau sembuh pada hari tersebut.
- untuk kolom yang seluruhnya missing, yaitu 'combined-key' dapat dibuang saja satu kolom karena tidak ada data yang dapat diketahui dari kolom tersebut.
- kolom 'province_state', missing value-nya dapat terjadi apabila tidak dilaporkan suatu kejadian berasal dari daerah mana di daerah itu. Kita dapat mengisinya dengan 'unknown' karena kolom tersebut bertipe data string.

### Treatment untuk Missing Value
1. **Treatment Pertama, yaitu membiarkannya saja**, dapat digunakan untuk kolom 'confirmed', 'death', dan 'recovered'. Ya sebetulnya jika tidak ada yang terkonfirmasi, meninggal, atau sembuh bisa saja kita memasukkan value-nya dengan anagka nol agar lebih _make sense_ repredentasi datanya.
2. **Treatment Kedua, yaitu menghapus valuenya**, dapat digunakan untuk kolom yang sebagian atau seluruh datanya adalah missing value. Cara penggunaannya yakni dengan menggunakan method **.dropna()**
    
        nama_dataframe = nama_dataframe.dropna(axis=..., how=...)
    - Parameter **axis** digunakan untuk menentukan arah dataframe yang akan dibuang. Gunakan angka 1 untuk menyatakan kolom (column-based) atau bisa juga ditulis dalam bentuk string 'column'. Gunakan angka 0 untuk menyatakan baris (row-based) atau bisa juga ditulis dalam string 'index'.
    - Parameter **how** digunakan untuk menentukan bagaimana cara membuangnya. Gunakan string 'all' jika ingin membuang baris/kolom yang seluruh datanya berupa missing value. Gunakan string 'any' jika ingin membuang baris/kolom yang setidaknya memiliki 1 missing value.

In [31]:
# Baca file "public data covid19 jhu csse eu.csv"
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/CHAPTER+4+-+missing+value+-+public+data+covid19+.csv")
# Cetak ukuran awal dataframe
print("Ukuran awal df: %d baris, %d kolom." % df.shape)
# Drop kolom yang seluruhnya missing value dan cetak ukurannya
df = df.dropna(axis=1, how="all")
print("Ukuran df setelah buang kolom dengan seluruh data missing: %d baris, %d kolom." % df.shape)
# Drop baris jika ada satu saja data yang missing dan cetak ukurannya
df = df.dropna(axis=0, how="any")
print("Ukuran df setelah dibuang baris yang memiliki sekurangnya 1 missing value: %d baris, %d kolom." % df.shape)

Ukuran awal df: 1000 baris, 13 kolom.
Ukuran df setelah buang kolom dengan seluruh data missing: 1000 baris, 12 kolom.
Ukuran df setelah dibuang baris yang memiliki sekurangnya 1 missing value: 746 baris, 12 kolom.


3. **Treatment Ketiga, yaitu mengisi missing value dengan nilai lain**.

- Kasus 1 : **mengganti missing value dari kolom yang tipe datanya adalah object / string**. Misalkan pada kolom 'province_state', karena tidak tahu secara persis province_state mana yang dimaksud, kita bisa menempatkan string 'unknown' sebagai substitusi missing value. Meskipun keduanya berarti sama-sama tidak tahu, tetapi berbeda dalam representasi datanya.

In [32]:
# Baca file "public data covid19 jhu csse eu.csv"
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/CHAPTER+4+-+missing+value+-+public+data+covid19+.csv")
# Cetak unique value pada kolom province_state
print("Unique value awal:\n", df["province_state"].unique())
# Ganti missing value dengan string "unknown_province_state"
df["province_state"] = df["province_state"].fillna("unknown_province_state")
# Cetak kembali unique value pada kolom province_state
print("Unique value setelah fillna:\n", df["province_state"].unique())

Unique value awal:
 [nan 'US' 'Guam' 'Iowa']
Unique value setelah fillna:
 ['unknown_province_state' 'US' 'Guam' 'Iowa']


- Kasus 2 : **mengganti missing value dengan suatu ukuran pemusatan data**. Misalkan kita akan melakukan _handling missing value_ pada kolom 'active'. Dengan mengabaikan terlebih dahulu sebaran berdasarkan negaran (univariate), jika mengisi dengan nilai rata-rata, maka harus melihat terlebih dahulu apakah data memiliki outlier atau tidak. Apabila data memiliki outlier, maka mengisi missing value dengan median adalah pilihan yang tebih _safe_.

In [33]:
# Baca file "https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/CHAPTER+4+-+missing+value+-+public+data+covid19+.csv"
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/CHAPTER+4+-+missing+value+-+public+data+covid19+.csv")
# cek summary dari statistik deskriptif untuk kolom 'active'
df['active'].describe()

count     949.000000
mean      192.571128
std       438.904950
min        -6.000000
25%         2.000000
50%        41.000000
75%       149.000000
max      2243.000000
Name: active, dtype: float64

Berdasarkan hasil tersebut, dapat diketahui bahwa data memiliki distribusi yang skewneww ke arah kiri. Hal ini terjadi karena nilai mean dan median yang cukup jauh serta rangr data yang cukup lebar. Karena kolom 'active' memiliki outlier, maka sebaiknya kita mengisi missing value dengan median.

In [34]:
# cek missing value di kolom 'active'
print('Jumlah missing value: ', df['active'].isna().sum())
# isi missing value di kolom 'active' dengan median
df['active'] = df['active'].fillna(df['active'].median())
# cek kembali missing value di kolom 'active'
print('Jumlah missing value setelah diisi median: ', df['active'].isna().sum())

Jumlah missing value:  51
Jumlah missing value setelah diisi median:  0


- Kasus 3 : **mengganti missing value dengan teknik interpolasi**. Data yang menggunakan interpolasi untuk mengisi data yang hilang adalah time series, yang secara default akan diisi dengan interpolasi linear. Contohnya:

In [35]:
import numpy as np
import pandas as pd
# Data
ts = pd.Series({
   "2020-01-01":9,
   "2020-01-02":np.nan,
   "2020-01-05":np.nan,
   "2020-01-07":24,
   "2020-01-10":np.nan,
   "2020-01-12":np.nan,
   "2020-01-15":33,
   "2020-01-17":np.nan,
   "2020-01-16":40,
   "2020-01-20":45,
   "2020-01-22":52,
   "2020-01-25":75,
   "2020-01-28":np.nan,
   "2020-01-30":np.nan
})
# Isi missing value menggunakan interpolasi linier
ts = ts.interpolate()
# Cetak time series setelah interpolasi linier
print("Setelah diisi missing valuenya:\n", ts)

Setelah diisi missing valuenya:
 2020-01-01     9.0
2020-01-02    14.0
2020-01-05    19.0
2020-01-07    24.0
2020-01-10    27.0
2020-01-12    30.0
2020-01-15    33.0
2020-01-17    36.5
2020-01-16    40.0
2020-01-20    45.0
2020-01-22    52.0
2020-01-25    75.0
2020-01-28    75.0
2020-01-30    75.0
dtype: float64


## [Mini Project]

In [36]:
import pandas as pd

# 1. Baca dataset
print("[1] BACA DATASET")
df = pd.read_csv('https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/retail_raw_test.csv', low_memory=False)
df.head()

[1] BACA DATASET


Unnamed: 0,order_id,order_date,customer_id,city,province,brand,quantity,item_price,product_value
0,1730350,"Dec 11, 2019",'13447,Surakarta,Jawa Tengah,BRAND_F,'24,'113000,1374.0
1,1677490,"Jul 31, 2019",'0,,,BRAND_F,'1,'1164000,1370.0
2,1704211,"Oct 18, 2019",'16128,Jakarta Pusat,DKI Jakarta,BRAND_H,'12,'747000,1679.0
3,1679695,"Aug 07, 2019",'16225,Yogyakarta,Yogyakarta,BRAND_H,'6,'590000,1708.0
4,1679080,"Aug 05, 2019",'0,,,BRAND_E,'2,'740000,1201.0


In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   order_id       5000 non-null   int64  
 1   order_date     5000 non-null   object 
 2   customer_id    5000 non-null   object 
 3   city           3802 non-null   object 
 4   province       3802 non-null   object 
 5   brand          4995 non-null   object 
 6   quantity       5000 non-null   object 
 7   item_price     5000 non-null   object 
 8   product_value  4995 non-null   float64
dtypes: float64(1), int64(1), object(7)
memory usage: 351.7+ KB


In [38]:
# 2. ganti tipe datanya
print("\n[2] UBAH TIPE DATA")
df["customer_id"] = df["customer_id"].apply(lambda x: x.split("'")[1]).astype("int64")
df["quantity"] = df["quantity"].apply(lambda x: x.split("'")[1]).astype("int64")
df["item_price"] = df["item_price"].apply(lambda x: x.split("'")[1]).astype("int64")
print("    Tipe data:\n", df.dtypes)


[2] UBAH TIPE DATA
    Tipe data:
 order_id           int64
order_date        object
customer_id        int64
city              object
province          object
brand             object
quantity           int64
item_price         int64
product_value    float64
dtype: object


In [39]:
# 3. Transform "product_value" supaya bentuknya seragam dengan format "PXXXX", assign ke kolom baru "product_id", 
# dan drop kolom "product_value", jika terdapat nan gantilah dengan "unknown"
print("\n[3] TRANSFORM product_value MENJADI product_id")
# Buat fungsi
import math
def impute_product_value(val):
    if math.isnan(val):
        return "unknown"
    else:
        return 'P' + '{:0>4}'.format(str(val).split('.')[0])
# Buat kolom "product_id"
df["product_id"] = df["product_value"].apply(lambda x: impute_product_value(x))
# Hapus kolom "product_value"
df.drop(["product_value"], axis=1, inplace=True)
# Cetak 5 data teratas
df.head()


[3] TRANSFORM product_value MENJADI product_id


Unnamed: 0,order_id,order_date,customer_id,city,province,brand,quantity,item_price,product_id
0,1730350,"Dec 11, 2019",13447,Surakarta,Jawa Tengah,BRAND_F,24,113000,P1374
1,1677490,"Jul 31, 2019",0,,,BRAND_F,1,1164000,P1370
2,1704211,"Oct 18, 2019",16128,Jakarta Pusat,DKI Jakarta,BRAND_H,12,747000,P1679
3,1679695,"Aug 07, 2019",16225,Yogyakarta,Yogyakarta,BRAND_H,6,590000,P1708
4,1679080,"Aug 05, 2019",0,,,BRAND_E,2,740000,P1201


In [40]:
# 4. Tranform order_date menjadi value dengan format "YYYY-mm-dd"
print("\n[4] TRANSFORM order_date MENJADI FORMAT YYYY-mm-dd")
months_dict = {
   "Jan":"01",
   "Feb":"02",
   "Mar":"03",
   "Apr":"04",
   "May":"05",
   "Jun":"06",
   "Jul":"07",
   "Aug":"08",
   "Sep":"09",
   "Oct":"10",
   "Nov":"11",
   "Dec":"12"
}
df["order_date"] = pd.to_datetime(df["order_date"].apply(lambda x: str(x)[-4:] + "-" + months_dict[str(x)[:3]] + "-" + str(x)[4:7]))
print("    Tipe data:\n", df.dtypes)


[4] TRANSFORM order_date MENJADI FORMAT YYYY-mm-dd
    Tipe data:
 order_id                int64
order_date     datetime64[ns]
customer_id             int64
city                   object
province               object
brand                  object
quantity                int64
item_price              int64
product_id             object
dtype: object


In [41]:
# 5. Mengatasi data yang hilang di beberapa kolom
print("\n[5] HANDLING MISSING VALUE")
# Kolom "city" dan "province" masih memiliki missing value, nilai yang hilang di kedua kolom ini diisi saja dengan "unknown"
df[["city","province"]] = df[["city","province"]].fillna("unknown")
# Kolom brand juga masih memiliki missing value, Ganti value NaN menjadi "no_brand"
df["brand"] = df["brand"].fillna("no_brand")
# Cek apakah masih terdapat missing value di seluruh kolom 
print("    Info:\n", df.info())


[5] HANDLING MISSING VALUE
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   order_id     5000 non-null   int64         
 1   order_date   5000 non-null   datetime64[ns]
 2   customer_id  5000 non-null   int64         
 3   city         5000 non-null   object        
 4   province     5000 non-null   object        
 5   brand        5000 non-null   object        
 6   quantity     5000 non-null   int64         
 7   item_price   5000 non-null   int64         
 8   product_id   5000 non-null   object        
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 351.7+ KB
    Info:
 None


In [42]:
# 6. Membuat kolom baru "city/province" dengan menggabungkan kolom "city" dan kolom "province" dan delete kolom asalnya
print("\n[6] MEMBUAT KOLOM BARU city/province")
df["city/province"] = df["city"] + "/" + df["province"]
# drop kolom "city" dan "province" karena telah digabungkan
df.drop(["city","province"], axis=1, inplace=True)
# Cetak 5 data teratas
df.head()


[6] MEMBUAT KOLOM BARU city/province


Unnamed: 0,order_id,order_date,customer_id,brand,quantity,item_price,product_id,city/province
0,1730350,2019-12-11,13447,BRAND_F,24,113000,P1374,Surakarta/Jawa Tengah
1,1677490,2019-07-31,0,BRAND_F,1,1164000,P1370,unknown/unknown
2,1704211,2019-10-18,16128,BRAND_H,12,747000,P1679,Jakarta Pusat/DKI Jakarta
3,1679695,2019-08-07,16225,BRAND_H,6,590000,P1708,Yogyakarta/Yogyakarta
4,1679080,2019-08-05,0,BRAND_E,2,740000,P1201,unknown/unknown


In [43]:
# 7. Membuat hierarchical index yang terdiri dari kolom "city/province", "order_date", "customer_id", "order_id", "product_id"
print("\n[7] MEMBUAT HIERACHICAL INDEX")
df = df.set_index(["city/province","order_date","customer_id","order_id","product_id"])
# urutkanlah berdasarkan index yang baru
df = df.sort_index()
# Cetak 5 data teratas
df.head()


[7] MEMBUAT HIERACHICAL INDEX


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,brand,quantity,item_price
city/province,order_date,customer_id,order_id,product_id,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Banda Aceh/Aceh,2019-04-17,12818,1642480,P1936,BRAND_K,24,450000
Banda Aceh/Aceh,2019-11-12,12360,1715116,P0758,BRAND_C,8,695000
Banda Aceh/Aceh,2019-11-12,12360,1715116,P3042,BRAND_R,12,310000
Banda Aceh/Aceh,2019-12-09,12374,1729036,P1660,BRAND_G,4,2795000
Bandar Lampung/Lampung,2019-01-15,12515,1619257,P0628,BRAND_C,12,695000


In [44]:
# 8. Membuat kolom "total_price" yang formula nya perkalian antara kolom "quantity" dan kolom "item_price"
print("\n[8] MEMBUAT KOLOM total_price")
df["total_price"] = df["quantity"] * df["item_price"]
# Cetak 5 data teratas
df.head()


[8] MEMBUAT KOLOM total_price


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,brand,quantity,item_price,total_price
city/province,order_date,customer_id,order_id,product_id,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Banda Aceh/Aceh,2019-04-17,12818,1642480,P1936,BRAND_K,24,450000,10800000
Banda Aceh/Aceh,2019-11-12,12360,1715116,P0758,BRAND_C,8,695000,5560000
Banda Aceh/Aceh,2019-11-12,12360,1715116,P3042,BRAND_R,12,310000,3720000
Banda Aceh/Aceh,2019-12-09,12374,1729036,P1660,BRAND_G,4,2795000,11180000
Bandar Lampung/Lampung,2019-01-15,12515,1619257,P0628,BRAND_C,12,695000,8340000


In [45]:
# 9. Slice dataset agar hanya terdapat data bulan Januari 2019
print("\n[9] SLICE DATASET UNTUK BULAN JANUARI 2019 SAJA")
idx = pd.IndexSlice
df_jan2019 = df.loc[idx[:, "2019-01-01":"2019-01-31"], :]
df_jan2019


[9] SLICE DATASET UNTUK BULAN JANUARI 2019 SAJA


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,brand,quantity,item_price,total_price
city/province,order_date,customer_id,order_id,product_id,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Bandar Lampung/Lampung,2019-01-15,12515,1619257,P0628,BRAND_C,12,695000,8340000
Bandung/Jawa Barat,2019-01-09,16134,1617055,P1597,BRAND_G,9,520000,4680000
Bandung/Jawa Barat,2019-01-10,17392,1617952,P2137,BRAND_M,2,1062000,2124000
Bandung/Jawa Barat,2019-01-14,15527,1618828,P3115,BRAND_S,1,1045000,1045000
Bandung/Jawa Barat,2019-01-29,13253,1620289,P0099,BRAND_A,12,450000,5400000
...,...,...,...,...,...,...,...,...
unknown/unknown,2019-01-30,0,1620766,P3070,BRAND_R,1,593000,593000
unknown/unknown,2019-01-30,0,1620766,P3483,BRAND_S,3,593000,1779000
unknown/unknown,2019-01-31,0,1621057,P1298,BRAND_F,1,296000,296000
unknown/unknown,2019-01-31,0,1621057,P1773,BRAND_H,5,593000,2965000
