# **Indexing, Slicing, dan Transforming**

## **Pendahuluan**

Aku masih fokus mengutak-atik dokumen yang bisa dibaca oleh Pandas ketika Andra menyahut dari belakangku. “Sudah dipelajari modulnya, Aksara? Apakah sudah cukup paham dasarnya penggunaan basic data of Pandas? Terutama cara bikin data frame dan data source yang diolah dari Pandas?”

Seperti biasa, Andra ingin memastikan proses belajarku berjalan lancar. Tapi, mumpung ia berada di sini dan aku punya pertanyaan, lebih baik kusampaikan.

“Iya, Ndra. Tapi aku masih agak bingung soal manipulasi data, seperti membuat index, slicing dan transform tipe data di series maupun dataframe,” ungkapku jujur. Apakah Andra akan membantuku? Aku menunggu responsnya sampai kemudian Andra menarik bangku ke sebelahku.

 

“Oke, coba sini saya bantu jelaskan.”

 

Mataku berbinar. Aku tak akan melewatkan kesempatan ini. Aku pun menggeser bangku agar lebih dekat dengan Andra yang siap menampilkan beberapa contoh manipulasi data, terutama membuat index, seperti yang dijelaskan selanjutnya.

## **Indexing**

Index merupakan key identifier dari tiap row/column untuk Series atau Dataframe (sifatnya tidak mutable untuk masing-masing value tapi bisa diganti untuk semua value sekaligus).

Jika tidak disediakan, pandas akan membuat kolom index default secara otomatis sebagai bilangan bulat (integer) dari 0 sampai range jumlah baris data tersebut.

Kolom index dapat terdiri dari:
* satu kolom (single index), atau
* multiple kolom (disebut dengan hierarchical indexing).

Index dengan multiple kolom ini terjadi karena unique identifier tidak dapat dicapai hanya dengan set index di 1 kolom saja sehingga membutuhkan beberapa kolom yang menjadikan tiap row menjadi unique.

Secara default setelah suatu data frame dibaca dari file dengan format tertentu, index-nya merupakan single index.

Pada bagian ini kita akan mencetak index dan kolom yang dimiliki oleh file `"sample_csv.csv"`. Untuk menentukan index dan kolom yang dimiliki oleh dataset yang telah dinyatakan sebagai sebuah dataframe pandas dapat dilakukan dengan menggunakan attribut `.index` dan `.columns`.
Untuk lebih jelasnya diberikan oleh kode yang ditampilkan berikut ini:


 

In [None]:
import pandas as pd
# Baca file TSV sample_tsv.tsv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep="\t")

# Index dari df
print("Index:", df.index)

# Column dari df
print("Columns:", df.columns)

Index: RangeIndex(start=0, stop=101, step=1)
Columns: Index(['order_id', 'order_date', 'customer_id', 'city', 'province',
       'product_id', 'brand', 'quantity', 'item_price'],
      dtype='object')


### Multi Indexing
Sebelumnya telah dibahas terkait single index, pada bagian ini kita akan membahas multi index atau disebut juga dengan hierarchical indexing.

Untuk membuat multi index (hierarchical indexing) dengan pandas diperlukan kolom-kolom mana saja yang perlu disusun agar index dari data frame menjadi sebuah hirarki yang kemudian dapat dikenali.

Sebelumnya telah diberikan nama-nama kolom dari dataframe yang telah dibaca seperti yang terlihat diatas.

Selanjutnya kita akan membuat multi index dengan menggunakan kolom 'order_id', 'customer_id', 'product_id', dan 'order_date' dengan menggunakan method `.set_index()`. Mari perhatikan contoh kode yang diberikan berikut ini:

In [None]:
# Set multi index df
df_x = df.set_index(['order_id', 'customer_id', 'product_id', 'order_date'])


In [None]:
df_x.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,city,province,brand,quantity,item_price
order_id,customer_id,product_id,order_date,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1612339,18055,P0648,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_C,4,1934000
1612339,18055,P3826,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_V,8,604000
1612339,18055,P1508,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_G,12,747000
1612339,18055,P0520,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_B,12,450000
1612339,18055,P1513,2019-01-01,Jakarta Selatan,DKI Jakarta,BRAND_G,3,1500000


In [None]:
df_x.tail()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,city,province,brand,quantity,item_price
order_id,customer_id,product_id,order_date,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1612390,12681,P3388,2019-01-01,Makassar,Sulawesi Selatan,BRAND_S,10,450000
1612390,12681,P3082,2019-01-01,Makassar,Sulawesi Selatan,BRAND_R,18,1045000
1612390,12681,P3354,2019-01-01,Makassar,Sulawesi Selatan,BRAND_S,24,450000
1612390,12681,P3357,2019-01-01,Makassar,Sulawesi Selatan,BRAND_S,24,450000
1612390,12681,P0422,2019-01-01,Makassar,Sulawesi Selatan,BRAND_B,4,1325000


In [None]:
# Print nama dan level dari multi index
for name, level in zip(df_x.index.names, df_x.index.levels):
    print(name,':',level)

order_id : Int64Index([1612339, 1612342, 1612345, 1612369, 1612372, 1612375, 1612378,
            1612381, 1612384, 1612387, 1612390],
           dtype='int64', name='order_id')
customer_id : Int64Index([12681, 13963, 15649, 17091, 17228, 17450, 17470, 17511, 17616,
            18055],
           dtype='int64', name='customer_id')
product_id : Index(['P0029', 'P0040', 'P0041', 'P0116', 'P0117', 'P0219', 'P0255', 'P0327',
       'P0422', 'P0449', 'P0491', 'P0515', 'P0517', 'P0520', 'P0525', 'P0535',
       'P0648', 'P0704', 'P0708', 'P0709', 'P0784', 'P0791', 'P0792', 'P0931',
       'P0968', 'P1118', 'P1251', 'P1255', 'P1305', 'P1306', 'P1307', 'P1329',
       'P1342', 'P1469', 'P1508', 'P1513', 'P1597', 'P1600', 'P1679', 'P1680',
       'P1683', 'P1684', 'P1685', 'P1700', 'P1741', 'P1742', 'P1780', 'P1800',
       'P1813', 'P1867', 'P1945', 'P2086', 'P2089', 'P2103', 'P2154', 'P2159',
       'P2325', 'P2494', 'P2556', 'P2575', 'P2594', 'P2641', 'P2660', 'P2707',
       'P2760', 'P2783

### Cara lain setting index
Terdapat beberapa cara untuk membuat index, salah satunya adalah seperti yang telah dilakukan sebelumnya dengan menggunakan method `.set_index()`.

Cara lainnya adalah dengan menggunakan assignment untuk men-set index dari suatu data frame. Untuk itu file "sample_excel.xlsx" yang digunakan. Perhatikan code berikut.

In [None]:
# Baca file sample_tsv.tsv untuk 10 baris pertama saja
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep="\t", nrows=10)
# Cetak data frame awal
print("\nDataframe awal:\n", df)
# Set index baru
df.index = ["Pesanan ke-" + str(i) for i in range(1, 11)]
# Cetak data frame dengan index baru
print("\nDataframe dengan index baru:\n", df)


Dataframe awal:
    order_id  order_date  customer_id  ...    brand quantity item_price
0   1612339  2019-01-01        18055  ...  BRAND_C        4    1934000
1   1612339  2019-01-01        18055  ...  BRAND_V        8     604000
2   1612339  2019-01-01        18055  ...  BRAND_G       12     747000
3   1612339  2019-01-01        18055  ...  BRAND_B       12     450000
4   1612339  2019-01-01        18055  ...  BRAND_G        3    1500000
5   1612339  2019-01-01        18055  ...  BRAND_V        3    2095000
6   1612339  2019-01-01        18055  ...  BRAND_H        3    2095000
7   1612339  2019-01-01        18055  ...  BRAND_S        3    1745000
8   1612339  2019-01-01        18055  ...  BRAND_F        6    1045000
9   1612339  2019-01-01        18055  ...  BRAND_P        6    1045000

[10 rows x 9 columns]

Dataframe dengan index baru:
                order_id  order_date  customer_id  ...    brand quantity item_price
Pesanan ke-1    1612339  2019-01-01        18055  ...  BRAND_C  

**Note:**

* Cara yang ditunjukkan oleh baris ketujuh (ke 7) pada code editor di atas hanya berlaku jika index yang diassign tersebut memiliki panjang yang sama dengan jumlah baris dari dataframe.
* Jika ingin kembalikan dataframe ke index defaultnya yaitu dari 0 s/d jumlah baris data - 1, maka dapat menggunakan method `.reset_index(drop=True)`, argument `drop=True` bertujuan untuk menghapus index lama. 

In [None]:
df.reset_index(drop=True)

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
3,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000
4,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1513,BRAND_G,3,1500000
5,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3911,BRAND_V,3,2095000
6,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1780,BRAND_H,3,2095000
7,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3132,BRAND_S,3,1745000
8,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1342,BRAND_F,6,1045000
9,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2556,BRAND_P,6,1045000


## Cara lain setting index (Menggunakan index_col)

Jika file yang akan dibaca melalui penggunaan library pandas dapat di-preview terlebih dahulu struktur datanya maka melalui fungsi yang ditujukan untuk membaca file dapat diset mana kolom yang akan dijadikan index.

Fitur ini telah dimiliki oleh setiap fungsi yang digunakan dalam membaca data dengan pandas, yaitu penggunaan argumen index_col pada fungsi yang dimaksud. Untuk jelasnya dapat diperhatikan pada kode berikut ini.


In [None]:
# Baca file sample_tsv.tsv dan set lah index_col sesuai instruksi
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep="\t", index_col=["order_date", "order_id"])
# Cetak data frame untuk 8 data teratas
print("Dataframe:\n", df.head(8))

Dataframe:
                      customer_id             city  ... quantity item_price
order_date order_id                                ...                    
2019-01-01 1612339         18055  Jakarta Selatan  ...        4    1934000
           1612339         18055  Jakarta Selatan  ...        8     604000
           1612339         18055  Jakarta Selatan  ...       12     747000
           1612339         18055  Jakarta Selatan  ...       12     450000
           1612339         18055  Jakarta Selatan  ...        3    1500000
           1612339         18055  Jakarta Selatan  ...        3    2095000
           1612339         18055  Jakarta Selatan  ...        3    2095000
           1612339         18055  Jakarta Selatan  ...        3    1745000

[8 rows x 7 columns]


Dari dataset sample_csv.csv, sample_tsv.tsv, atau sample_excel.xlsx sudah tahu bahwa kolom dataset adalah 'order_id'; 'order_date'; 'customer_id'; 'city'; 'province'; 'product_id'; 'brand'; 'quantity'; and 'item_price'. Sehingga kode di atas digunakan langsung kolom 'order_date' dan 'order_id' pada saat membaca filenya. Terlihat bahwa kolom  'order_date' dan 'order_id' sudah jadi index, dan tentunya jumlah kolom dataframe berkurang dua, yaitu menjadi tujuh kolom.

---
## **Slicing**

Seperti artinya slicing adalah cara untuk melakukan filter ke dataframe/series berdasarkan kriteria tertentu dari nilai kolomnya ataupun kriteria index-nya.

Terdapat 2 cara paling terkenal untuk slicing dataframe, yaitu dengan menggunakan method `.loc` dan `.iloc` pada variabel bertipe pandas DataFrame/Series. Method `.iloc` ditujukan untuk proses slicing berdasarkan index berupa nilai integer tertentu. Akan tetapi akan lebih sering menggunakan dengan method `.loc` karena lebih fleksibel. 

 

Mari ikuti ilustrasi berikut ini.

Dataset belum dilakukan indexing, jadi slicing berdasarkan nilai kolomnya. Untuk itu `"sample_csv.csv"` dibaca kembali dan dipraktikkan metode `.loc[]` dengan mengambil tanggal 1 Januari 2019 dari kolom `order_date` dan `product_id` nya adalah P2154 dan P2556.

In [None]:
# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# Slice langsung berdasarkan kolom
df_slice = df.loc[(df["order_date"] == "2019-01-01") &
		          (df["product_id"].isin(["P2154","P2556"]))
				 ]
print("Slice langsung berdasarkan kolom:\n", df_slice)

Slice langsung berdasarkan kolom:
     order_id  order_date  customer_id  ...    brand quantity item_price
9    1612339  2019-01-01        18055  ...  BRAND_P        6    1045000
10   1612339  2019-01-01        18055  ...  BRAND_M        4    1745000

[2 rows x 9 columns]


In [None]:
# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")

# Set index dari df sesuai instruksi
df = df.set_index(["order_date","order_id","product_id"])

# Slice sesuai intruksi
df_slice = df.loc[("2019-01-01",1612339,["P2154","P2159"]),:]
print("Slice df:\n", df_slice)

Slice df:
                                 customer_id  ... item_price
order_date order_id product_id               ...           
2019-01-01 1612339  P2154             18055  ...    1745000
                    P2159             18055  ...     310000

[2 rows x 6 columns]


---

## **Transforming**

Transform adalah ketika mengubah dataset yang ada menjadi entitas baru, dapat dilakukan dengan

-  konversi dari satu data type ke data type yang lain,
- transpose dataframe
- atau yang lainnya.

Hal yang biasa dilakukan pertama kali setelah data dibaca adalah mengecek tipe data di setiap kolomnya apakah sesuai dengan representasinya. Untuk itu dapat menggunakan attribut .dtypes pada dataframe yang telah kita baca tadi,

`[nama_dataframe].dtypes`
 

Untuk konversi tipe data, secara default system akan mendeteksi data yang tidak bisa di render as date type or numeric type sebagai object yang basically string. Tidak bisa di render oleh system ini karena berbagai hal, mungkin karena formatnya asing dan tidak dikenali oleh python secara umum (misal: date type data → '2019Jan01').

Data contoh tersebut tidak bisa di render karena bulannya Jan tidak bisa di translate menjadi in form of number (00-12) dan tidak ada ‘-’ di antara tahun, bulan dan harinya. Jika seluruh data pada kolom di order_date sudah tertulis dalam bentuk 'YYYY-MM-DD' maka ketika dibaca, kolom order_date sudah langsung dinyatakan bertipe data datetime.

Untuk merubah kolom date_order yang sebelumnya bertipe object menjadi kolom bertipe datetime, cara pertama yang dapat dilakukan adalah menggunakan

`pd.to_datetime(argumen) `
dengan argumen adalah isi kolom dari dataframe yang akan dirubah tipe datanya, misal dalam format umum

`nama_dataframe["nama_kolom"]`
Sehingga lengkapnya dapat ditulis sebagai

`nama_dataframe["nama_kolom"] = pd.to_datetime(nama_dataframe["nama_kolom"])` 


Kita akan mengubah  tipe data di kolom order_date yang semula bertipe objek menjadi bertipe datetime.

In [None]:
# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")

# Tampilkan tipe data
print("Tipe data df:\n", df.dtypes)

# Ubah tipe data kolom order_date menjadi datetime
df["order_date"] = pd.to_datetime(df["order_date"])

# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id                int64
order_date     datetime64[ns]
customer_id             int64
city                   object
province               object
product_id             object
brand                  object
quantity                int64
item_price              int64
dtype: object


Selanjutnya, kita akan mengubah tipe data pada kolom dataframe yang telah dibaca menjadi tipe data float (kolom quantity) dan tipe categori (kolom city).

Secara umum, untuk merubah ke numerik dapat menggunakan `pd.to_numeric()`, yaitu

`nama_dataframe["nama_kolom"] = pd.to_numeric(nama_dataframe["nama_kolom"], downcast="tipe_data_baru")`
Sedangkan untuk menjadi suatu kolom yang dapat dinyatakan sebagai kategory dapat menggunakan method `.astype()` pada dataframe, yaitu

`nama_dataframe["nama_kolom"] = nama_dataframe["nama_kolom"].astype("category")`

In [None]:
# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")

# Tampilkan tipe data
print("Tipe data df:\n", df.dtypes)

# Ubah tipe data kolom quantity menjadi tipe data numerik float
df["quantity"] = pd.to_numeric(df["quantity"], downcast="float")

# Ubah tipe data kolom city menjadi tipe data category
df["city"] = df["city"].astype("category")

# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id          int64
order_date       object
customer_id       int64
city           category
province         object
product_id       object
brand            object
quantity        float32
item_price        int64
dtype: object


Sekarang kita akan mempelajari teknik/cara berikutnya dalam proses transformasi suatu dataframe. Kita akan memakai method `.apply()` dan `.map()` pada suatu dataframe.

Method `.apply()` digunakan untuk menerapkan suatu fungsi python (yang dibuat dengan `def` atau anonymous dengan `lambda`) pada dataframe/series atau hanya kolom tertentu dari dataframe. 

Berikut ini adalah contohnya yaitu akan merubah setiap baris pada kolom brand menjadi lowercase.  

In [None]:
# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")

# Cetak 5 baris teratas kolom brand
print("Kolom brand awal:\n", df["brand"].head())

# Gunakan method apply untuk merubah isi kolom menjadi lower case
df["brand"] = df["brand"].apply(lambda x: x.lower())

# Cetak 5 baris teratas kolom brand
print("Kolom brand setelah apply:\n", df["brand"].head())

Kolom brand awal:
 0    BRAND_C
1    BRAND_V
2    BRAND_G
3    BRAND_B
4    BRAND_G
Name: brand, dtype: object
Kolom brand setelah apply:
 0    brand_c
1    brand_v
2    brand_g
3    brand_b
4    brand_g
Name: brand, dtype: object


Method `.map()` hanya dapat diterapkan pada series atau dataframe yang diakses satu kolom saja. Method ini digunakan untuk mensubstitusikan suatu nilai ke dalam tiap baris datanya.

Mari lihat contoh yang diberikan berikut ini yang mana akan ambil huruf terakhir dari brand

In [None]:
# Gunakan method map untuk mengambil kode brand yaitu karakter terakhirnya
df["brand"] = df["brand"].map(lambda x: x[-1])

# Cetak 5 baris teratas kolom brand
print("Kolom brand setelah map:\n", df["brand"].head())

Kolom brand setelah map:
 0    c
1    v
2    g
3    b
4    g
Name: brand, dtype: object


Sebelumnya kita sudah mengetahui bahwa `.map` hanya dapat digunakan untuk pandas series. Pada bagian ini kita akan menggunakan method `.applymap` pada dataframe.

In [None]:
import numpy as np

# number generator, set angka seed menjadi suatu angka, bisa semua angka, supaya hasil random nya selalu sama ketika kita run
np.random.seed(1234)

# create dataframe 3 baris dan 4 kolom dengan angka random
df_tr = pd.DataFrame(np.random.rand(3,4)) 

# Cetak dataframe
print("Dataframe:\n", df_tr)

# Cara 1 dengan tanpa define function awalnya, langsung pake fungsi anonymous lambda x
df_tr1 = df_tr.applymap(lambda x: x**2 + 3*x + 2) 
print("\nDataframe - cara 1:\n", df_tr1)

# Cara 2 dengan define function 
def qudratic_fun(x):
	return x**2 + 3*x + 2
df_tr2 = df_tr.applymap(qudratic_fun)
print("\nDataframe - cara 2:\n", df_tr2)

Dataframe:
           0         1         2         3
0  0.191519  0.622109  0.437728  0.785359
1  0.779976  0.272593  0.276464  0.801872
2  0.958139  0.875933  0.357817  0.500995

Dataframe - cara 1:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981

Dataframe - cara 2:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981


Dapat kita lihat bahwa cara 1 dan cara 2 menunjukkan bahwa keduanya menghasilkan dataframe yang sama.

# **Penutup dari Andra**

“Sampai di sini sudah cukup jelas, Aksara? Terutama soal manipulasi data dengan index,” ujar Andra mengonfirmasi padaku.


Aku mengangguk antusias, “Iya, ini keren banget! Kayak upgrade-an dari Excel ya.”

 

“Oke, kalau begitu kamu bisa coba mengerjakan kuisnya sebelum kita lanjut ke materi selanjutnya. Soalnya bakal ada proyek yang mau diberikan padamu berkaitan dengan Pandas ini.”

 

Proyek? Ah, pantas saja Andra yang sibuk itu mau meluangkan waktu untuk menjelaskan panjang lebar seperti tadi. Tapi tak bisa dipungkiri, aku sedikit gugup sekaligus tertantang untuk mengetahui detail proyeknya. 