<a href="https://colab.research.google.com/github/dikoharyadhanto/Pandas-Documentation/blob/main/003_Indexing_Slicing_Transforming.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Indexing**

Index merupakan key identifier dari tiap row/column untuk Series atau Dataframe (sifatnya tidak mutable untuk masing-masing value tapi bisa diganti untuk semua value sekaligus).

Jika tidak disediakan, pandas akan membuat kolom index default secara otomatis sebagai bilangan bulat (integer) dari 0 sampai range jumlah baris data tersebut.

Kolom index dapat terdiri dari
- satu kolom (single index), atau
- multiple kolom (disebut dengan hierarchical indexing).

Index dengan multiple kolom ini terjadi karena unique identifier tidak dapat dicapai hanya dengan set index di 1 kolom saja sehingga membutuhkan beberapa kolom yang menjadikan tiap row menjadi unique.

Secara default setelah suatu data frame dibaca dari file dengan format tertentu, index-nya merupakan single index.

In [1]:
import pandas as pd
# Baca file TSV sample_tsv.tsv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv", sep="\t")
# Index dari df
print("Index:", df.index)
# Column dari df
print("Columns:", df.columns)

Index: RangeIndex(start=0, stop=101, step=1)
Columns: Index(['order_id', 'order_date', 'customer_id', 'city', 'province',
       'product_id', 'brand', 'quantity', 'item_price'],
      dtype='object')


Untuk membuat multi index (hierarchical indexing) dengan pandas diperlukan kolom-kolom mana saja yang perlu disusun agar index dari data frame menjadi sebuah hirarki yang kemudian dapat dikenali.

In [2]:
import pandas as pd
# Baca file TSV sample_tsv.tsv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv", sep="\t")
df.head(10)

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
3,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000
4,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1513,BRAND_G,3,1500000
5,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3911,BRAND_V,3,2095000
6,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1780,BRAND_H,3,2095000
7,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3132,BRAND_S,3,1745000
8,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1342,BRAND_F,6,1045000
9,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2556,BRAND_P,6,1045000


In [3]:
# Set multi index df
df_x = df.set_index(['order_date', 'city', 'customer_id'])
# Print nama dan level dari multi index
for name, level in zip(df_x.index.names, df_x.index.levels):
    print(name,':',level)

order_date : Index(['2019-01-01'], dtype='object', name='order_date')
city : Index(['Bogor', 'Jakarta Pusat', 'Jakarta Selatan', 'Jakarta Utara',
       'Makassar', 'Malang', 'Surabaya', 'Tangerang'],
      dtype='object', name='city')
customer_id : Int64Index([12681, 13963, 15649, 17091, 17228, 17450, 17470, 17511, 17616,
            18055],
           dtype='int64', name='customer_id')


In [4]:
df_x.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,order_id,province,product_id,brand,quantity,item_price
order_date,city,customer_id,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P0648,BRAND_C,4,1934000
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P3826,BRAND_V,8,604000
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P1508,BRAND_G,12,747000
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P0520,BRAND_B,12,450000
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P1513,BRAND_G,3,1500000
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P3911,BRAND_V,3,2095000
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P1780,BRAND_H,3,2095000
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P3132,BRAND_S,3,1745000
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P1342,BRAND_F,6,1045000
2019-01-01,Jakarta Selatan,18055,1612339,DKI Jakarta,P2556,BRAND_P,6,1045000


Selain menggunakan method `.set_index()`. bisa menggunakan assignment untuk menset index dari suatu data frame.

In [5]:
import pandas as pd
# Baca file sample_tsv.tsv untuk 10 baris pertama saja
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv", sep="\t", nrows=10)
# Cetak data frame awal
print("Dataframe awal:\n", df)
# Set index baru
df.index = ["Pesanan ke-" + str(i) for i in range(1, 11)]
# Cetak data frame dengan index baru
print("Dataframe dengan index baru:\n", df)

Dataframe awal:
    order_id  order_date  customer_id  ...    brand quantity item_price
0   1612339  2019-01-01        18055  ...  BRAND_C        4    1934000
1   1612339  2019-01-01        18055  ...  BRAND_V        8     604000
2   1612339  2019-01-01        18055  ...  BRAND_G       12     747000
3   1612339  2019-01-01        18055  ...  BRAND_B       12     450000
4   1612339  2019-01-01        18055  ...  BRAND_G        3    1500000
5   1612339  2019-01-01        18055  ...  BRAND_V        3    2095000
6   1612339  2019-01-01        18055  ...  BRAND_H        3    2095000
7   1612339  2019-01-01        18055  ...  BRAND_S        3    1745000
8   1612339  2019-01-01        18055  ...  BRAND_F        6    1045000
9   1612339  2019-01-01        18055  ...  BRAND_P        6    1045000

[10 rows x 9 columns]
Dataframe dengan index baru:
                order_id  order_date  customer_id  ...    brand quantity item_price
Pesanan ke-1    1612339  2019-01-01        18055  ...  BRAND_C    

**Note:**

- Cara yang ditunjukkan oleh baris ketujuh (ke 7) pada code editor di atas hanya berlaku jika index yang diassign tersebut memiliki panjang yang sama dengan jumlah baris dari dataframe.
- Jika ingin kembalikan dataframe ke index defaultnya yaitu dari 0 s/d jumlah baris data - 1, maka dapat menggunakan method `.reset_index(drop=True)`, argument `drop=True` bertujuan untuk menghapus index lama. 

Jika file yang akan dibaca melalu penggunaan library pandas dapat dipreview terlebih dahulu struktur datanya maka melalui fungsi yang ditujukan untuk **membaca file dapat diset mana kolom yang akan dijadikan index.**

Fitur ini telah dimiliki oleh setiap fungsi yang digunakan dalam membaca data dengan pandas, yaitu penggunaan argumen `index_col` pada fungsi yang dimaksud.

In [6]:
import pandas as pd
# Baca file sample_tsv.tsv dan set lah index_col sesuai instruksi
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv", sep="\t", index_col=["order_date","order_id"])
# Cetak data frame untuk 8 data teratas
print("Dataframe:\n", df.head(8))

Dataframe:
                      customer_id             city  ... quantity item_price
order_date order_id                                ...                    
2019-01-01 1612339         18055  Jakarta Selatan  ...        4    1934000
           1612339         18055  Jakarta Selatan  ...        8     604000
           1612339         18055  Jakarta Selatan  ...       12     747000
           1612339         18055  Jakarta Selatan  ...       12     450000
           1612339         18055  Jakarta Selatan  ...        3    1500000
           1612339         18055  Jakarta Selatan  ...        3    2095000
           1612339         18055  Jakarta Selatan  ...        3    2095000
           1612339         18055  Jakarta Selatan  ...        3    1745000

[8 rows x 7 columns]


# **Slicing**

Terdapat 2 cara paling terkenal untuk slicing dataframe, yaitu dengan menggunakan method `.loc` dan `.iloc` pada variabel bertipe pandas DataFrame/Series.Method `.iloc` ditujukan untuk proses slicing berdasarkan index berupa nilai integer tertentu. Akan tetapi akan lebih sering menggunakan dengan method `.loc` karena lebih fleksibel. 

In [7]:
import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Slice langsung berdasarkan kolom
df_slice = df.loc[(df["customer_id"] == "18055") &
		              (df["product_id"].isin(["P0029","P0040","P0041","P0116","P0117"]))
				         ]
print("Slice langsung berdasarkan kolom:\n", df_slice)

Slice langsung berdasarkan kolom:
 Empty DataFrame
Columns: [order_id, order_date, customer_id, city, province, product_id, brand, quantity, item_price]
Index: []


Dalam melakukan method `.iloc`, syaratnya adalah dataset sudah dilakukan indexing terlebih dahulu melalui penerapan method `.set_index `

In [8]:
import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Set index dari df sesuai instruksi
df = df.set_index(["order_date","order_id","product_id"])
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,customer_id,city,province,brand,quantity,item_price
order_date,order_id,product_id,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,1612339,P0648,18055,Jakarta Selatan,DKI Jakarta,BRAND_C,4,1934000
2019-01-01,1612339,P3826,18055,Jakarta Selatan,DKI Jakarta,BRAND_V,8,604000
2019-01-01,1612339,P1508,18055,Jakarta Selatan,DKI Jakarta,BRAND_G,12,747000
2019-01-01,1612339,P0520,18055,Jakarta Selatan,DKI Jakarta,BRAND_B,12,450000
2019-01-01,1612339,P1513,18055,Jakarta Selatan,DKI Jakarta,BRAND_G,3,1500000


In [9]:
# Cara 1 - Gunakan method .loc
df_slice = df.loc[("2019-01-01",1612339,["P2154","P2159"]),:]
df_slice

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,customer_id,city,province,brand,quantity,item_price
order_date,order_id,product_id,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,1612339,P2154,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,4,1745000
2019-01-01,1612339,P2159,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,24,310000


In [10]:
# Cara 2 - Gunakan pd.IndexSlice
idx = pd.IndexSlice
df_slice2 = df.sort_index().loc[idx["2019-01-01",1612339,["P2154","P2159"]], :]
df_slice2

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,customer_id,city,province,brand,quantity,item_price
order_date,order_id,product_id,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,1612339,P2154,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,4,1745000
2019-01-01,1612339,P2159,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,24,310000


# **Transforming**

Transform adalah ketika mengubah dataset yang ada menjadi entitas baru, dapat dilakukan dengan

- konversi dari satu data type ke data type yang lain,
- transpose dataframe
- atau yang lainnya.


Untuk mengecek tipe data di setiap kolomnya apakah sesuai dengan representasinya. Untuk itu dapat menggunakan attribut `.dtypes`

In [None]:
[nama_dataframe].dtypes 

Untuk merubah kolom date_order yang sebelumnya bertipe object menjadi kolom bertipe datetime, caranya sebagai berikut:

In [None]:
nama_dataframe["nama_kolom"] = pd.to_datetime(nama_dataframe["nama_kolom"]) 

In [12]:
import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Tampilkan tipe data
print("Tipe data df:\n", df.dtypes)
# Ubah tipe data kolom order_date menjadi datetime
df["order_date"] = pd.to_datetime(df["order_date"])
# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id                int64
order_date     datetime64[ns]
customer_id             int64
city                   object
province               object
product_id             object
brand                  object
quantity                int64
item_price              int64
dtype: object


Kita akan mengubah tipe data pada kolom dataframe yang telah dibaca menjadi tipe data float (kolom quantity) dan tipe categori (kolom city).

In [None]:
nama_dataframe["nama_kolom"] = pd.to_numeric(nama_dataframe["nama_kolom"], downcast="tipe_data_baru")

In [None]:
nama_dataframe["nama_kolom"] = nama_dataframe["nama_kolom"].astype("category")

In [13]:
import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Tampilkan tipe data
print("Tipe data df:\n", df.dtypes)
# Ubah tipe data kolom quantity menjadi tipe data numerik float
df["quantity"] = pd.to_numeric(df["quantity"], downcast="float")
# Ubah tipe data kolom city menjadi tipe data category
df["city"] = df["city"].astype("category")
# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id          int64
order_date       object
customer_id       int64
city           category
province         object
product_id       object
brand            object
quantity        float32
item_price        int64
dtype: object


Method `.apply()` digunakan untuk menerapkan suatu fungsi python (yang dibuat dengan def atau anonymous dengan lambda) pada dataframe/series atau hanya kolom tertentu dari dataframe. 

Berikut ini adalah contohnya yaitu akan merubah setiap baris pada kolom brand menjadi lowercase.  

Method `.map()` hanya dapat diterapkan pada series atau dataframe yang diakses satu kolom saja. Method ini digunakan untuk mensubstitusikan suatu nilai ke dalam tiap baris datanya.

Mari lihat contoh yang diberikan berikut ini yang mana akan ambil huruf terakhir dari brand

In [14]:
import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Cetak 5 baris teratas kolom brand
df["brand"].head()

0    BRAND_C
1    BRAND_V
2    BRAND_G
3    BRAND_B
4    BRAND_G
Name: brand, dtype: object

In [15]:
# Gunakan method apply untuk merubah isi kolom menjadi lower case
df["brand"] = df["brand"].apply(lambda x: x.lower())
# Cetak 5 baris teratas kolom brand
df["brand"].head()

0    brand_c
1    brand_v
2    brand_g
3    brand_b
4    brand_g
Name: brand, dtype: object

In [16]:
# Gunakan method map untuk mengambil kode brand yaitu karakter terakhirnya
df["brand"] = df["brand"].map(lambda x: x[-1])
# Cetak 5 baris teratas kolom brand
df["brand"].head()

0    c
1    v
2    g
3    b
4    g
Name: brand, dtype: object

sebelumnya sudah mengetahui bahwa map hanya dapat digunakan untuk pandas series. Sekarang akan menggunakan method `.applymap` pada dataframe.

In [17]:
import numpy as np
import pandas as pd
# number generator, set angka seed menjadi suatu angka, bisa semua angka, supaya hasil random nya selalu sama ketika kita run
np.random.seed(1234)
# create dataframe 3 baris dan 4 kolom dengan angka random
df_tr = pd.DataFrame(np.random.rand(3,4))
# Cetak dataframe
print("Dataframe:\n", df_tr)
# Cara 1 dengan tanpa define function awalnya, langsung pake fungsi anonymous lambda x
df_tr1 = df_tr.applymap(lambda x: x**2+3*x+2) 
print("\nDataframe - cara 1:\n", df_tr1)
# Cara 2 dengan define function 
def qudratic_fun(x):
	return x**2+3*x+2
df_tr2 = df_tr.applymap(qudratic_fun)
print("\nDataframe - cara 2:\n", df_tr2)

Dataframe:
           0         1         2         3
0  0.191519  0.622109  0.437728  0.785359
1  0.779976  0.272593  0.276464  0.801872
2  0.958139  0.875933  0.357817  0.500995

Dataframe - cara 1:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981

Dataframe - cara 2:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981
