# Pandas

Pandas merupakan library di Python yang digunakan untuk memudahkan kita dalam melakukan pengolahan data dari file (menyediakan sarana berupa struktur data yang powerful) dan analisis data. Pandas merupakan library yang bersifat open-source dan bisa didapatkan secara gratis melalui pip3 atau Anaconda. Dokumentasi dari library ini dapat diakses di https://pandas.pydata.org/.

Untuk bisa menjalankan library ini, kita membutuhkan library numpy. Sebelum bisa menggunakannya, ingatlah untuk melakukan instalasi library ini terlebih dahulu. Berikut perintah untuk melakukan instalasinya:


<b>Instalasi via pip</b> <br>
``pip3 install pandas``

<b>Instalasi via conda</b> (secara default sudah tersedia ketika instalasi Anaconda atau Miniconda) <br>
``conda install pandas``

In [119]:
!pip3 show pandas

Name: pandas
Version: 1.3.1
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/anaconda3/lib/python3.8/site-packages
Requires: numpy, python-dateutil, pytz
Required-by: statsmodels, seaborn, mariadb-kernel


In [120]:
import pandas as pd

dir(pd)

['BooleanDtype',
 'Categorical',
 'CategoricalDtype',
 'CategoricalIndex',
 'DataFrame',
 'DateOffset',
 'DatetimeIndex',
 'DatetimeTZDtype',
 'ExcelFile',
 'ExcelWriter',
 'Flags',
 'Float32Dtype',
 'Float64Dtype',
 'Float64Index',
 'Grouper',
 'HDFStore',
 'Index',
 'IndexSlice',
 'Int16Dtype',
 'Int32Dtype',
 'Int64Dtype',
 'Int64Index',
 'Int8Dtype',
 'Interval',
 'IntervalDtype',
 'IntervalIndex',
 'MultiIndex',
 'NA',
 'NaT',
 'NamedAgg',
 'Period',
 'PeriodDtype',
 'PeriodIndex',
 'RangeIndex',
 'Series',
 'SparseDtype',
 'StringDtype',
 'Timedelta',
 'TimedeltaIndex',
 'Timestamp',
 'UInt16Dtype',
 'UInt32Dtype',
 'UInt64Dtype',
 'UInt64Index',
 'UInt8Dtype',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__docformat__',
 '__file__',
 '__getattr__',
 '__git_version__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_config',
 '_hashtable',
 '_is_numpy_dev',
 '_lib',
 '_libs',
 '_np_version_under1p18',
 '_testing',
 '_tslib',
 '_typing',
 

Ada beberapa bahasan perihal library ``pandas``, di antaranya:

1. Series (tipe data di pandas)
2. DataFrames (tipe data di pandas)
3. Pemrosesan Missing Data
4. GroupBy
5. Merging, Joining, dan Konkatenasi
6. Operasi di pandas
7. Data Input dan Output.

Mari kita mulai pembahasannya. Dokumentasi perihal pandas dapat diakses di https://pandas.pydata.org/docs/user_guide/index.html#user-guide.

# Tipe Series

Tipe series pada pandas bekerja mirip seperti array pada numpy. Perbedaannya terletak pada pengaksesan series yang menggunakan label. Berikut adalah format pembentukan Series menggunakan pandas:

```python
import pandas as pd

pd.series(data = <data>, index = <index/label>)
```

Berikut perbedaan antara numpy array dengan pandas series:

In [121]:
import numpy as np

label = ['a', 'b', 'c']
list_bilangan = [100, 90, 80]

array = np.array(list_bilangan)
print(array)

# mapping label to list_bilangan
dictionary = {'a': 100, 'b': 90, 'c': 80}
print(dictionary)

[100  90  80]
{'a': 100, 'b': 90, 'c': 80}


In [3]:
import pandas as pd

label = ['a', 'b', 'c']
list_bilangan = [100, 90, 80]

series = pd.Series(data = list_bilangan)
print(series)

print()

#keyword argument
series = pd.Series(data = list_bilangan, index = label)
display(series)

print()

# positional argument
series = pd.Series(list_bilangan, label)
display(series)

0    100
1     90
2     80
dtype: int64



a    100
b     90
c     80
dtype: int64




a    100
b     90
c     80
dtype: int64

Dengan menggunakan Series di pandas, pemberian indeks menjadi customable. Tentunya ini mempermudah kita dalam melakukan manipulasi data atau operasi data yang lebih baik. Apabila kita sudah mempunyai numpy array, maka kita bisa melakukan type casting numpy array menjadi Series di pandas. Berikut contoh penggunaannya:

In [4]:
import numpy as np
import pandas as pd

label = ['a', 'b', 'c']
list_bilangan = [100, 90, 80]

array = np.array(list_bilangan)
print(array)
print(type(array))

print()

series = pd.Series(array)
display(series)
print(type(series))
print()

series = pd.Series(array, label)
display(series)
print(type(series))
print()

[100  90  80]
<class 'numpy.ndarray'>



0    100
1     90
2     80
dtype: int64

<class 'pandas.core.series.Series'>



a    100
b     90
c     80
dtype: int64

<class 'pandas.core.series.Series'>



Selain itu juga kita bisa melakukan type casting dari Dictionary menjadi pandas Series. Berikut contoh penggunaannya:

In [5]:
import pandas as pd

dictionary = {'a': 100, 'b': 90, 'c': 80}
display(dictionary)
print(type(dictionary))

print()

series = pd.Series(dictionary)
display(series)
print(type(series))


{'a': 100, 'b': 90, 'c': 80}

<class 'dict'>



a    100
b     90
c     80
dtype: int64

<class 'pandas.core.series.Series'>


In [1]:
import pandas as pd

mahasiswa = {1010: "Budi", 1011: "Ani"}
series_mhs = pd.Series(mahasiswa)
print(series_mhs)

1010    Budi
1011     Ani
dtype: object


Kita juga bisa langsung menginisialisasi Series seperti cara berikut:

In [2]:
import pandas as pd

ibukota = pd.Series(['Bandung', 'Makassar', 'Palembang'], [
                    'Jawa Barat', 'Sulawesi Selatan', 'Sumatra Selatan'])
display(ibukota)
print(ibukota['Jawa Barat'])


Jawa Barat            Bandung
Sulawesi Selatan     Makassar
Sumatra Selatan     Palembang
dtype: object

Bandung


Setiap data akan dipetakan kepada label yang sesuai dengan urutan indeksnya. Bagaimana jika jumlah antara label dengan data tidak sama? Mari kita coba:

In [126]:
import pandas as pd

label = ['a', 'b', 'c', 'd']
data = [1, 2, 3]

series = [pd.Series(data, label)]
print(series)

ValueError: Length of values (3) does not match length of index (4)

Proses ini akan menimbulkan exception berupa ``ValueError`` yang diakibatkan panjang dari label dan panjang dari data berbeda.

## Pengaksesan Elemen di Series

Setelah mempelajari cara mendeklarasikan Series pada pandas, maka langkah berikutnya adalah mengakses elemen di Series. Seperti yang sudah disebutkan sebelumnya, Series bisa diakses menggunakan label. Apabila label menggunakan label default maka kita bisa menggunakan konsep slicing pada list. Sebagai contoh, silakan coba kode program berikut:

In [7]:
import pandas as panda

data = [100, 200, 300, 400, 500]

series = pd.Series(data)
print(series)
print(series[1:])
print()
print(series[:3])
print()
print(series[1:3])
print()
print(series[:3])
print()

0    100
1    200
2    300
3    400
4    500
dtype: int64
1    200
2    300
3    400
4    500
dtype: int64

0    100
1    200
2    300
dtype: int64

1    200
2    300
dtype: int64

0    100
1    200
2    300
dtype: int64



><b>Catatan:</b> Walaupun slicing mirip seperti list akan tetapi kita tidak bisa mengakses menggunakan slicing indeks negatif karena indeks yang bisa dipakai hanya yang terdaftar di series.

Bagaimana kalau kita meng-custom labelnya? Berikut cara aksesnya:

In [2]:
import pandas as pd

ibukota = pd.Series(['Bandung', 'Makassar', 'Palembang'], ['Jawa Barat', 'Sulawesi Selatan', 'Sumatra Selatan'])
print(ibukota)
print()
print(ibukota['Sulawesi Selatan'])
print(ibukota[1])

Jawa Barat            Bandung
Sulawesi Selatan     Makassar
Sumatra Selatan     Palembang
dtype: object

Makassar
Makassar


## Operasi di Series

Kita bisa melakukan beberapa operasi pada Series di pandas. Berikut contohnya:

In [1]:
import pandas as pd

series1 = pd.Series([1, 2, 3])
series2 = pd.Series([10, 20, 30])

series_hasil1 = series1 + series2
series_hasil2 = series1 - series2
series_hasil3 = series1 * series2
series_hasil4 = series1 / series2

print(series_hasil1)
print()
print(series_hasil2)
print()
print(series_hasil3)
print()
print(series_hasil4)
print()


0    11
1    22
2    33
dtype: int64

0    -9
1   -18
2   -27
dtype: int64

0    10
1    40
2    90
dtype: int64

0    0.1
1    0.1
2    0.1
dtype: float64



Apa yang terjadi jika series menggunakan label dan jumlah data antar series tidak sama? Mari kita coba kode program berikut:

In [3]:
data1 = [100, 200, 300]
label1 = ['Budi', 'Andi', 'Ani']

series1 = pd.Series(data1, label1)
print(series1)

Budi    100
Andi    200
Ani     300
dtype: int64


In [4]:
data2 = [100, 200, 300, 400]
label2 = ['Budi', 'Andi', 'Ani', 'Suci']

series2 = pd.Series(data2,label2)
print(series2)

Budi    100
Andi    200
Ani     300
Suci    400
dtype: int64


In [5]:
series_hasil = series1 + series2
print(series_hasil)

Andi    400.0
Ani     600.0
Budi    200.0
Suci      NaN
dtype: float64


Untuk label yang ada di kedua series, maka nilai yang diwakilinya akan langsung dioperasikan sesuai dengan operator yang digunakan. Akan tetapi untuk yang labelnya hanya ada di satu series saja maka nilainya akan diisi dengan NaN (Not a Number). Jumlah elemen series hasil adalah jumlah elemen Unique hasil penggabungan dua series.

# DataFrames

Tipe kedua yang didukung oleh pandas adalah dataframe. Bentuk data pada dataframe menyerupai tabel. Tipe data ini memiliki banyak dukungan operasi untuk menganalisis data. Dataframe bekerja layaknya seperti array dua dimensi atau matriks pada numpy. Bentuk deklarasi umum dari dataframe pada pandas adalah sebagai berikut:

```python
import pandas as pd

pd.DataFrame(data=<data>, index=<index/label_baris>, columns=<index/label_kolom>, dtype=None, copy=None)
```
Biasanya dataframe digunakan untuk menampung data hasil pembacaan file .csv atau excel. Operasi-operasi pada tabel (seperti pada umumnya) didukung oleh tipe data pandas ini. Berikut contoh pendeklarasian dataframe pada pandas.

In [8]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, columns = kolom)
display(df)
print()

df = pd.DataFrame(data, nim, kolom)
display(df)
print()

Unnamed: 0,nama,nilai
0,Budi,100
1,Andi,90
2,Ani,80





Unnamed: 0,nama,nilai
10101010,Budi,100
10101011,Andi,90
10101012,Ani,80





In [9]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
display(df)
print()

Unnamed: 0,nim,nama,nilai
0,10101010,Budi,100
1,10101011,Andi,90
2,10101012,Ani,80





Apa perbedaan dari kedua kode program tersebut? Pada kode program yang pertama, NIM dijadikan indeks baris sementara pada kode program kedua NIM dijadikan data (salah satu kolom) yang ditunjuk oleh indeks/label default (0, 1, 2, dan seterusnya, mirip dengan konsep auto-increment di konsep database). Kita juga bisa mendeklarasian dataframe menggunakan dictionary. Berikut contoh penggunaanya

In [10]:
import pandas as pd

dict = {10101010: ['Budi', 100], 10101011: ['Andi', 90], 10101012: ['Ani', 80]}
kolom = ['nama','nilai']

df = pd.DataFrame(dict.values(), dict.keys())
display(df)
print()

df = pd.DataFrame(dict.values(), dict.keys(), kolom)
display(df)

Unnamed: 0,0,1
10101010,Budi,100
10101011,Andi,90
10101012,Ani,80





Unnamed: 0,nama,nilai
10101010,Budi,100
10101011,Andi,90
10101012,Ani,80


## Pengaksesan Elemen di DataFrame

Setelah dideklarasikan, elemen-elemen di dalam DataFrame bisa diakses. Pengaksesan elemen di dataframe bisa memiliki banyak konsep. Berikut contoh pengaksesan elemen di dataframe:

### Pengaksesan Kolom

Untuk bisa mengakses data pada kolom, kita bisa menggunakan format berikut:

```python
nama_dataframe[label_kolom]
```

Berikut contoh pengaksesan kolom pada dataframe:

In [5]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)

display(df['nama'])
print()
display(df['nilai'])

10101010    Budi
10101011    Andi
10101012     Ani
Name: nama, dtype: object




10101010    100
10101011     90
10101012     80
Name: nilai, dtype: int64

><b>Catatan:</b> Apabila dilihat 1 kolom pada dataframe merupakan 1 series.

### Pengaksesan Multi Kolom

Kita bisa mengakses beberapa kolom dalam satu kali pengaksesan. Contoh penggunaannya adalah sebagai berikut:

In [7]:
data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)

display(df[['nim','nilai']])

Unnamed: 0,nim,nilai
0,10101010,100
1,10101011,90
2,10101012,80


><b>Catatan:</b> label kolom yang mau dimunculkan, disimpan dalam sebuah list dan dijadikan indeks akses di dataframe untuk multi kolom.

### Pengaksesan Baris

Mirip seperti pengaksesan kolom, pengaksesan baris dapat dilakukan dengan cara sebagai berikut:

```python
nama_dataframe.loc[label_baris]
```

Berikut contoh pengaksesan baris pada dataframe:

In [13]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
display(df.loc[1])


nim      10101011
nama         Andi
nilai          90
Name: 1, dtype: object

><b>Catatan:</b> Gunakan fungsi ``iloc`` jika ingin mengakses label baris default (0, 1, 2, dan seterusnya) jika label baris sudah di-custom.

Selain menggunakan ``loc[]`` untuk menampilkan baris, pandas juga menyediakan sarana berupa ``head()`` yang bisa digunakan untuk memunculkan 5 baris pertama dalam dataframe dan juga ``tail()`` untuk menampilkan 5 baris data terakhir di dataframe. Penggunaannya adalah sebagai berikut:

In [14]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
display(df.head())
print()

display(df.tail())


Unnamed: 0,nim,nama,nilai
0,10101010,Budi,100
1,10101011,Andi,90
2,10101012,Ani,80
3,10101013,Melodi,85
4,10101014,Siska,100





Unnamed: 0,nim,nama,nilai
1,10101011,Andi,90
2,10101012,Ani,80
3,10101013,Melodi,85
4,10101014,Siska,100
5,10101015,Yono,60


Apabila ingin menampilkan multibaris, kita bisa menyebutkan list label baris pada fungsi ``loc``. Berikut contoh penggunaannya:

In [15]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
display(df.loc[[0,3]])

Unnamed: 0,nim,nama,nilai
0,10101010,Budi,100
3,10101013,Melodi,85


### Pengaksesan Baris dan Kolom

Pandas juga menyediakan cara untuk kita mengakses data pada suatu baris dan kolom tertentu pada saat yang bersamaan. Format pengaksesannya adalah sebagai berikut:

```python
nama_dataframe[label_kolom][batas_baris_bawah:batas_baris_bawah]
```

Berikut contoh penggunaanya:

In [16]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns = kolom)
display(df['nama'][2])

'Ani'

Apabila kita ingin menggunakan multilabel pada kolom atau baris, penggunaannya adalah sebagai berikut:

In [17]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
display(df[['nim','nilai']][2:3])
print()

display(df[['nama','nilai']][2:])

Unnamed: 0,nim,nilai
2,10101012,80





Unnamed: 0,nama,nilai
2,Ani,80
3,Melodi,85
4,Siska,100
5,Yono,60


## Operasi pada DataFrame

Ada beberapa operasi pada dataframe selain pengaksesan elemennya. Berikut kita akan membahas perihal operasi apa saja yang bisa dilakukan pada dataframe.

### Mengetahui Tipe Data Datum di DataFrame

Datum adalah satuan terkecil pada data. Ilustrasinya dapat dilihat pada gambar berikut:

<img src = "https://i1.wp.com/www.kanalinfo.web.id/wp-content/uploads/2016/10/datum-data.jpg?resize=500%2C333" alt = "Ilustrasi Datum">

Dataframe mempunyai entity berupa ``dtypes`` yang berguna untuk memunculkan data dari setiap datum yang ada di dataframe. Berikut contoh penggunaanya:

In [18]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
display(df.dtypes)

nim       int64
nama     object
nilai     int64
dtype: object

### Penambahan Kolom pada DataFrame

Kita bisa melakukan penambahan kolom pada dataframe dengan cara berikut:

```python
nama_dataframe[label_kolom_baru] = [nilai_baru]
```

Sebagai contoh, silakan coba kode program berikut:

In [8]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
display(df)

df['jenis_kelamin'] = ['Pria', 'Pria', 'Wanita', 'Wanita', 'Wanita', 'Pria']
print()
display(df)

df['nilai_akhir'] = df['nilai'] - 10
print()
display(df)

Unnamed: 0,nim,nama,nilai
0,10101010,Budi,100
1,10101011,Andi,90
2,10101012,Ani,80
3,10101013,Melodi,85
4,10101014,Siska,100
5,10101015,Yono,60





Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria





Unnamed: 0,nim,nama,nilai,jenis_kelamin,nilai_akhir
0,10101010,Budi,100,Pria,90
1,10101011,Andi,90,Pria,80
2,10101012,Ani,80,Wanita,70
3,10101013,Melodi,85,Wanita,75
4,10101014,Siska,100,Wanita,90
5,10101015,Yono,60,Pria,50


><b>Catatan:</b> Jumlah nilai yang diinput harus sama dengan jumlah baris yang sudah ada sebelumnya pada dataframe yang ditambah kolomnya.

### Menghapus Kolom pada DataFrame

Selain menambah kolom baru, kita juga bisa menghapus kolom dari dataframe. Fungsi yang digunakan adalah fungsi ``drop(label_kolom)``. Berikut contoh penggunaannya:

In [9]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
display(df)

print()
display(df.drop('jenis_kelamin', axis = 1))

display(df)

Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria





Unnamed: 0,nim,nama,nilai
0,10101010,Budi,100
1,10101011,Andi,90
2,10101012,Ani,80
3,10101013,Melodi,85
4,10101014,Siska,100
5,10101015,Yono,60


Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria


><b>Catatan:</b> parameter axis digunakan untuk menandakan apakah yang dihapus adalah baris atau kolom. Apabila mau menghapus kolom, gunakan nilai 1 pada parameter axis.

Fungsi ``drop()`` tidak benar-benar menghapus secara fisik kolom yang disebutkan. Fungsi ini hanya memproyeksikan dataframe tanpa menampilkan kolom yang ada di parameter fungsi tersebut. Berikut buktinya:

In [22]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
display(df)

print()
display(df.drop('jenis_kelamin', axis=1))

print()
display(df)

Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria





Unnamed: 0,nim,nama,nilai
0,10101010,Budi,100
1,10101011,Andi,90
2,10101012,Ani,80
3,10101013,Melodi,85
4,10101014,Siska,100
5,10101015,Yono,60





Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria


Jika kita ingin benar-benar menghapus kolom tersebut, kita bisa menambahkan parameter ``inplace = True`` di dalam fungsi drop. Berikut contoh penggunaannya:

In [10]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
display(df)

print()
df.drop('jenis_kelamin', axis=1, inplace = True)

print()
display(df)

Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria






Unnamed: 0,nim,nama,nilai
0,10101010,Budi,100
1,10101011,Andi,90
2,10101012,Ani,80
3,10101013,Melodi,85
4,10101014,Siska,100
5,10101015,Yono,60


### Menghapus Baris

Mirip seperti konsep penghapusan kolom, untuk menghapus baris, kita tinggal mengganti nilai parameter ```axis`` menjadi 0. Berikut contoh penggunaannya:

In [24]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
display(df)

print()
display(df.drop(2, axis=0))

print()
display(df)

Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria





Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria





Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria


Untuk benar-benar menghapus secara fisik baris yang mau dihapus, kita gunakan parameter ``inplace = True``. Berikut contoh penggunaannya:

In [25]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
display(df)

print()
df.drop(2, axis=0, inplace=True)

print()
display(df)

Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria






Unnamed: 0,nim,nama,nilai,jenis_kelamin
0,10101010,Budi,100,Pria
1,10101011,Andi,90,Pria
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria


### Dimensi DataFrame

Untuk mengetahui dimensi pada suatu dataframe, kita bisa menggunakan atribut ``shape``. Dimensi dari dataframe adalah baris x kolom. Berikut contoh penggunaannya:

In [27]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
display(df.shape)

(6, 4)

## Data Selection di DataFrame

Seperti halnya tabel pada suatu DBMS Relational, data pada DataFrame dapat diseleksi menggunakan fungsi-fungsi yang disediakan oleh pandas. Berikut adalah beberapa pembahasan perihal operasil selection di dataframe.

### Penggunaan Operator Relasional

Salah satu cara menseleksi data pada dataframe adalah menggunakan operator relasional. Jenis operator relasional yang digunakan sama dengan pembahasan topik sebelumnya. Berikut adalah beberapa cara contoh seleksi data menggunakan operator relasional:

In [7]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

seleksi_nim = df['nim'] > 10101012
display(seleksi_nim)
display(df[seleksi_nim])

seleksi_nama = df['nama'].str.startswith('A')
display(df[seleksi_nama])

0    False
1    False
2    False
3     True
4     True
5     True
Name: nim, dtype: bool

Unnamed: 0,nim,nama,nilai,jenis_kelamin
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria


Unnamed: 0,nim,nama,nilai,jenis_kelamin
1,10101011,Andi,90,Pria
2,10101012,Ani,80,Wanita


Untuk memunculkan isi dari hasil seleksi tersebut, kita gunakan hasil seleksi sebagai indeks/label pada dataframe seperti berikut:

In [8]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Cara 1
seleksi_nim = df['nim'] > 10101012
display(df[seleksi_nim])

print()

# Cara 2
display(df[df['nim'] > 10101012])

Unnamed: 0,nim,nama,nilai,jenis_kelamin
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria





Unnamed: 0,nim,nama,nilai,jenis_kelamin
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria


Kita tetap bisa men-slicing hasil seleksi tersebut dengan konsep slicing yang sama dengan sebelumnya. Berikut contoh penggunaannya:

In [30]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Cara 1
seleksi_nim = df['nim'] > 10101012
display(df[seleksi_nim]['nama'])

print()

# Cara 2
display(df[df['nim'] > 10101012]['nama'])

3    Melodi
4     Siska
5      Yono
Name: nama, dtype: object




3    Melodi
4     Siska
5      Yono
Name: nama, dtype: object

Selain itu kita juga bisa menggunakan multikolom dengan cara yang sama seperti berikut:

In [31]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Cara 1
seleksi_nim = df['nim'] > 10101012
display(df[seleksi_nim][['nama', 'nilai']])

print()

# Cara 2
display(df[df['nim'] > 10101012][['nama', 'nilai']])

Unnamed: 0,nama,nilai
3,Melodi,85
4,Siska,100
5,Yono,60





Unnamed: 0,nama,nilai
3,Melodi,85
4,Siska,100
5,Yono,60


### Hands on Lab 1: Mencoba seleksi operator relasional

Silakan coba operator relasional lainnya dan juga kolom lainnya untuk proses seleksi.

In [32]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Ganti operator maupun kolom
seleksi_nim = df['nim'] > 10101012
display(df[seleksi_nim])

print()

# Ganti operator maupun kolom
display(df[df['nim'] > 10101012])

Unnamed: 0,nim,nama,nilai,jenis_kelamin
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria





Unnamed: 0,nim,nama,nilai,jenis_kelamin
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita
5,10101015,Yono,60,Pria


### Seleksi dengan Multikondisional

Contoh sebelumnya selalu membahas seleksi dataframe dengan 1 buah kondisional. Bagaimana cara seleksi jika kondisional yang diperiksa lebih dari satu? Kita bisa menggunakan operator logika untuk mengkombinasikan kondisional yang ada. Sebagai contoh pada kasus data mahasiswa sebelumnya, mari kita seleksi data dimana nim > 10101012 dan nilai >= 90. Berikut kode programnya:

In [33]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

seleksi_nim = (df['nim'] > 10101012) & (df['nilai'] >= 80)
display(df[seleksi_nim])

Unnamed: 0,nim,nama,nilai,jenis_kelamin
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita


### Hands on Lab 2: Seleksi Multikondisional

Silakan coba operator logika lainnya dan juga kombinasi kondisional lainnya untuk proses seleksi.

In [34]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Ganti operator logika dan kombinasi kondisionalnya
seleksi_nim = (df['nim'] > 10101012) & (df['nilai'] >= 80)
display(df[seleksi_nim])

Unnamed: 0,nim,nama,nilai,jenis_kelamin
3,10101013,Melodi,85,Wanita
4,10101014,Siska,100,Wanita


## Fungsi reset_index()

Fungsi ``reset_index()`` digunakan untuk mengembalikan indeks/label baris ke kondisi default (0, 1, 2, dan seterusnya). Apabila sudah ada custom label pada baris, maka label tersebut akan dijadikan kolom baru di dalam dataframe. Berikut contoh penggunaannya:

In [12]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)

display(df)
print()

display(df.reset_index())
print()
display(df)

Unnamed: 0,nama,nilai
10101010,Budi,100
10101011,Andi,90
10101012,Ani,80





Unnamed: 0,index,nama,nilai
0,10101010,Budi,100
1,10101011,Andi,90
2,10101012,Ani,80





Unnamed: 0,nama,nilai
10101010,Budi,100
10101011,Andi,90
10101012,Ani,80


Jika kita mau me-reset indeks secara permanen, maka gunakan parameter ``inplace = True`` di dalam parameter fungsi tersebut. Berikut contoh penggunaanya:

In [36]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)

display(df)
print()

df.reset_index(inplace= True)
print()
display(df)

Unnamed: 0,nama,nilai
10101010,Budi,100
10101011,Andi,90
10101012,Ani,80






Unnamed: 0,index,nama,nilai
0,10101010,Budi,100
1,10101011,Andi,90
2,10101012,Ani,80


## Fungsi set_index()

Kita bisa menggunakan fungsi ``set_index()`` untuk mengganti label/indeks baris yang ada pada dataframe. Berikut contoh penggunaannya:

In [37]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)
display(df)


display(df.set_index('nilai'))
print()
display(df)

Unnamed: 0,nama,nilai
10101010,Budi,100
10101011,Andi,90
10101012,Ani,80


Unnamed: 0_level_0,nama
nilai,Unnamed: 1_level_1
100,Budi
90,Andi
80,Ani





Unnamed: 0,nama,nilai
10101010,Budi,100
10101011,Andi,90
10101012,Ani,80


Gunakan parameter ``inplace = True`` agar efeknya permanen.

In [53]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)
display(df)


df.set_index('nilai', inplace= True)
print()
display(df)

Unnamed: 0,nama,nilai
10101010,Budi,100
10101011,Andi,90
10101012,Ani,80





Unnamed: 0_level_0,nama
nilai,Unnamed: 1_level_1
100,Budi
90,Andi
80,Ani


## Multilevel Indeks

Dataframe pada pandas mendukung multilevel indeks untuk mendukung multidimensional data. Berikut contoh penggunaan multilevel indeks:

In [39]:
import pandas as pd

data = [[10, 20], [30 , 40], [10, 20], [30, 40],
        [100, 200], [300 , 40], [50, 50], [100, 100]]
kolom = ['Jawa Barat', 'Bali']

df = pd.DataFrame(data, columns = kolom)
display(df)
print()

tahun = [2020, 2020, 2020, 2020, 2021, 2021, 2021, 2021]
kuartal = [1, 2, 3, 4, 1, 2, 3, 4]
indeks_baris = list(zip(tahun, kuartal))
indeks_baris = pd.MultiIndex.from_tuples(indeks_baris)
display(indeks_baris)
print()

df = pd.DataFrame(data, indeks_baris, kolom)
display(df)

Unnamed: 0,Jawa Barat,Bali
0,10,20
1,30,40
2,10,20
3,30,40
4,100,200
5,300,40
6,50,50
7,100,100





MultiIndex([(2020, 1),
            (2020, 2),
            (2020, 3),
            (2020, 4),
            (2021, 1),
            (2021, 2),
            (2021, 3),
            (2021, 4)],
           )




Unnamed: 0,Unnamed: 1,Jawa Barat,Bali
2020,1,10,20
2020,2,30,40
2020,3,10,20
2020,4,30,40
2021,1,100,200
2021,2,300,40
2021,3,50,50
2021,4,100,100


Cara mengaksesnya pun bisa memanfaatkan indeks yang dibutuhkan. Sebagai contoh kita mau mengakses data di tahun 2020, maka kode programnya sebagai berikut:

In [11]:
print(df.loc[2020])

   Jawa Barat  Bali
1          10    20
2          30    40
3          10    20
4          30    40


Jika ingin mengakses indeks di dalam tahun, pengaksesannya adalah sebagai berikut:

In [12]:
print(df.loc[2021].loc[2])

Jawa Barat    300
Bali           40
Name: 2, dtype: int64


Selain mengakses baris spesifik, kita juga bisa mengakses kolom spesifik di multilevel indeks dataframe dengan cara seperti berikut:

In [13]:
print(df.loc[2021].loc[2]['Bali'])
print(df.loc[2020].loc[1]['Jawa Barat'])

40
10


Kita juga bisa memberikan penamaan untuk indeks agar pembacaan data menjadi lebih mudah. Caranya sebagai berikut:

In [40]:
df.index.names = ['Tahun', 'Kuartal']
display(df)

Unnamed: 0_level_0,Unnamed: 1_level_0,Jawa Barat,Bali
Tahun,Kuartal,Unnamed: 2_level_1,Unnamed: 3_level_1
2020,1,10,20
2020,2,30,40
2020,3,10,20
2020,4,30,40
2021,1,100,200
2021,2,300,40
2021,3,50,50
2021,4,100,100


Setelah memberikan nama pada indeks, maka kita bisa menggunakan fungsi ``xs()`` untuk mengakses elemen cross-section pada dataframe. Fungsi ini memiliki kelebihan dibanding cara slicing biasa karena menggunakan penamaan indeks yang lebih mudah dipahami dan juga bisa mengakses elemen lintas section. Berikut contoh penggunaannya:

In [41]:
display(df.xs(2, level = 'Kuartal'))

Unnamed: 0_level_0,Jawa Barat,Bali
Tahun,Unnamed: 1_level_1,Unnamed: 2_level_1
2020,30,40
2021,300,40


><b>Catatan:</b> Dapat dilihat bahwa dengan menggunakan fungsi ``xs()`` maka kita bisa mengakses data pada indeks 2020 dan 2021 secara bersamaan.

# Menangani Missing Data

Salah satu kelebihan dari dataframe adalah kemampuannnya dalam menangani <b>MISSING DATA</b>. Dalam domain data science, missing data (data yang tidak diisi dan biasanya bernilai NaN di dalam dataframe) akan mengganggu proses modeling dalam ekstraksi pengetahuan (biasanya missing data akan ditangani dalam proses data preparation). Kita akan membahas lebih lanjut tentang data sains pada topik berikutnya. Bagaimana cara dataframe menangani missing data? Mari kita lihat dulu bentuk missing data pada dataframe sebagai berikut:

In [1]:
import pandas as pd
import numpy as np

data = {10101010:['Budi', 'Pria', np.NaN], 10101011: ['Joo Dan Te', 'Pria', 45], 10101012: ['Cheon So Jin', np.NaN, np.NaN]}

df = pd.DataFrame(data)
display(df)

Unnamed: 0,10101010,10101011,10101012
0,Budi,Joo Dan Te,Cheon So Jin
1,Pria,Pria,
2,,45,


Salah satu bentuk penanganan missing data adalah kita menghapus missing data baik dari perspektif baris maupun perspektif kolom. Fungsi yang digunakan untuk menghapus missing data adalah:

```python
nama_dataframe.dropna(axis = None)
```

><b>Catatan:</b> axis diisi dengan 0 jika mau menangani missing data dari perspektif baris dan diisi dengan 1 jika mau menangani missing data dari perspektif kolom. Nilai axis di dalam berbagai fungsi di pandas berfungsi sama yaitu menyatakan baris atau kolom.

Pertama mari kita bersihkan missing data dari perspektif baris. Mari kita coba kode program berikut:

In [2]:
display(df.dropna())

# alternatif lain
print()
display(df.dropna(axis = 0))

Unnamed: 0,10101010,10101011,10101012
0,Budi,Joo Dan Te,Cheon So Jin





Unnamed: 0,10101010,10101011,10101012
0,Budi,Joo Dan Te,Cheon So Jin


Dua eksekusi kode tersebut akan menghasilkan hal yang sama karena nilai default dari parameter axis adalah 0 (mengacu ke baris). Gunakan ``inplace = True`` jika hasilnya ingin permanen:

In [3]:
df.dropna(inplace = True)
display(df)

Unnamed: 0,10101010,10101011,10101012
0,Budi,Joo Dan Te,Cheon So Jin


Selanjutnya mari kita lihat penanganan missing data berdasarkan perspektif kolom. Berikut kode programnya:

In [4]:
df = pd.DataFrame(data) # mengembalikan dataframe ke kondisi semula

display(df.dropna(axis = 1))

Unnamed: 0,10101011
0,Joo Dan Te
1,Pria
2,45


Gunakan ``inplace == True`` agar hasil penanganannya permanen:

In [5]:
df.dropna(axis = 1, inplace= True)
display(df)

Unnamed: 0,10101011
0,Joo Dan Te
1,Pria
2,45


Terkadang dalam menangani missing data, kita masih membutuhkan baris atau kolom yang mengandung missing data dengan batas tertentu. Sebagai contoh terkadang kita bisa mentolerir baris atau kolom yang mengandung 1 missing data dalam datanya. Bentuk penanganan missing data ini dapat didukung oleh pandas dengan menambahkan parameter ``thresh`` sebagai threshold (batasan) jumlah missing data. Berikut cara penggunaannya:

In [6]:
df = pd.DataFrame(data) # mengembalikan dataframe ke kondisi semula

display(df.dropna(thresh= 2))

Unnamed: 0,10101010,10101011,10101012
0,Budi,Joo Dan Te,Cheon So Jin
1,Pria,Pria,


><b>Catatan:</b> nilai ``thresh`` menyatakan batas missing data yang tidak boleh dimiliki oleh suatu baris atau kolom. Jika diisi dengan angka 2 maka kita hanya mengizinkan baris atau kolom memiliki maksimal 1 missing data.

Bentuk penanganan missing data yang ketiga adalah dengan cara memberikan nilai default untuk menimpa semua missing data. Pandas mendukung hal ini dengan menyediakan fungsi ``fillna`` untuk menimpa missing data dengan default value yang kita tentukan. Berikut contoh penggunaannya:

In [7]:
df = pd.DataFrame(data) # mengembalikan dataframe ke kondisi semula

display(df.fillna(value ='DEFAULT VALUE')) # nilai default value bisa diganti sesuai kebutuhan

Unnamed: 0,10101010,10101011,10101012
0,Budi,Joo Dan Te,Cheon So Jin
1,Pria,Pria,DEFAULT VALUE
2,DEFAULT VALUE,45,DEFAULT VALUE


Gunakan parameter ``inplace = True`` jika mau hasilnya permanen:

In [8]:
df.fillna(value ='DEFAULT VALUE', inplace= True)
display(df)

Unnamed: 0,10101010,10101011,10101012
0,Budi,Joo Dan Te,Cheon So Jin
1,Pria,Pria,DEFAULT VALUE
2,DEFAULT VALUE,45,DEFAULT VALUE


Perintah tadi mengubah semua missing data menjadi nilai yang ditentukan. Apabila kita hanya ingin mengubah baris atau kolom secara parsial, maka kita bisa melakukan slicing di dataframe dahulu sebelum memanggil fungsi ``fillna()``. Berikut contoh penggunaanya:

In [10]:
df = pd.DataFrame(data) # mengembalikan dataframe ke kondisi semula

print(df[10101010].fillna(value = 0,inplace = True))
display(df)

None


Unnamed: 0,10101010,10101011,10101012
0,Budi,Joo Dan Te,Cheon So Jin
1,Pria,Pria,
2,0,45,


# Group by di Pandas

Salah satu fasilitas yang disediakan oleh pandas adalah grouping data. Data dalam 1 group akan bisa diolah secara terpisah dengan grup lainnya. Konsep group by ini mirip seperti konsep pada DBMS Relational umumnya. Ilustrasi group by dapat dilihat pada gambar berikut:

<img src = "https://i.stack.imgur.com/OfrOY.png" alt = "Ilustrasi group by">

Setiap group yang terbentuk akan bisa dikenakan operasi agregat secara terpisah. Mari kita coba penerapan group by di pandas. Pertama, mari kita buat dataframe peserta bebras berikut:

In [71]:
import pandas as pd

data = {'universitas':['UNIKOM','UNIKOM','UNPAD','UNPAR','UNPAR','UKM', 'UKM'],
       'pic':['Adam','Ginar','Mira','Maresha','Vania','Dian','Angga'],
       'peserta_bebras':[500,120,340,124,243,350,134]}

df = pd.DataFrame(data)
display(df)

Unnamed: 0,universitas,pic,peserta_bebras
0,UNIKOM,Adam,500
1,UNIKOM,Ginar,120
2,UNPAD,Mira,340
3,UNPAR,Maresha,124
4,UNPAR,Vania,243
5,UKM,Dian,350
6,UKM,Angga,134


Kemudian, kita membutuhkan data peserta berdasarkan Universitas. Berarti kita harus mengolah datanya berdasarkan group Universitas-nya. Untuk universitas yang sama harus diolah menjadi satu informasi. Di sinilah fungsi ``groupby`` pada dataframe akan bekerja. Mari kita group data peserta bebras tersebut berdasarkan kolom ``universitas``.

In [72]:
df_group = df.groupby('universitas')
display(df_group)

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fcf8a9f1610>

Setelah melakukan grouping, maka kita bisa mengenakan operasi agregat pada grup-grup tersebut. Contoh, kita menjalankan fungsi ``sum()``dan ``mean()`` pada ``df_group`` sebagai berikut:

In [73]:
display(df_group.sum())
print()
display(df_group.mean())

Unnamed: 0_level_0,peserta_bebras
universitas,Unnamed: 1_level_1
UKM,484
UNIKOM,620
UNPAD,340
UNPAR,367





Unnamed: 0_level_0,peserta_bebras
universitas,Unnamed: 1_level_1
UKM,242.0
UNIKOM,310.0
UNPAD,340.0
UNPAR,183.5


><b>Catatan:</b> Kolom yang tidak berisi numerik akan di-ignore dalam proses ini.

Kita bisa mengakses hasil agregat dengan menggunakan slicing. Berikut contoh penggunaanya:

In [74]:
display(df_group.sum().loc['UNIKOM'])

peserta_bebras    620
Name: UNIKOM, dtype: int64

Selain fungsi ``mean()`` dan ``sum()``, kita juga bisa menggunakan fungsi agregat lainnya termasuk fungsi ``count()`` (menghitung jumlah kemunculan data) seperti berikut:

In [75]:
display(df_group.count())

Unnamed: 0_level_0,pic,peserta_bebras
universitas,Unnamed: 1_level_1,Unnamed: 2_level_1
UKM,2,2
UNIKOM,2,2
UNPAD,1,1
UNPAR,2,2


Apabila ingin membentuk group tanpa menjadikan poros groupnya sebagai index, maka kita bisa menambahkan parameter ``as_index = False`` di perintah grouby. Berikut adalah contohnya:

In [69]:
import pandas as pd

data = {'universitas':['UNIKOM','UNIKOM','UNPAD','UNPAR','UNPAR','UKM', 'UKM'],
       'pic':['Adam','Ginar','Mira','Maresha','Vania','Dian','Angga'],
       'peserta_bebras':[500,120,340,124,243,350,134]}

df = pd.DataFrame(data)
display(df)

df_group = df.groupby('universitas', as_index= False)
display(df_group)

Unnamed: 0,universitas,pic,peserta_bebras
0,UNIKOM,Adam,500
1,UNIKOM,Ginar,120
2,UNPAD,Mira,340
3,UNPAR,Maresha,124
4,UNPAR,Vania,243
5,UKM,Dian,350
6,UKM,Angga,134


<pandas.core.groupby.generic.DataFrameGroupBy object at 0x7fcf8a738c10>

# Fungsi Statistika di Pandas

Ada beberapa fungsi dasar statistika yang bisa diakses di pandas. Fungsi dasar tersebut dapat dilihat pada tabel berikut:

| Fungsi Statistika | Kegunaan |
| :--- | :--- |
| count() | Menghitung jumlah kemunculan data non NaN |
| sum() | Menghitung hasil penjumlahan elemen data |
| mean() | Menghitung nilai mean dari suatu kumpulan data |
| mad() | Menghitung mean dari simpangan absolut |
| median | Nilai median (nilai tengah) |
| min() | Menampilkan nilai terkecil |
| max() | Menampilkan nilai terbesar |
| mode() | Menampilkan mode |
| abs() | Menghitung nilai absolut |
| prod() | Product dari kumpulan nilai |
| quantile | Sampel dari kuartil (nilai dalam %). Kuartil 1 ditandai dengan nilai 25% |
| std() | Menghitung standar deviasi (Bessel-corrected sample) |
| var() | Menghitung varian unbiased |
| sem() | Standar error dari mean |
| skew() | Sampel dari skewness (asimetris) |
| kurt() | Sampel kurtosis |
| cumsum() | Sum kumulatif |
| cumprod() | Prod kumulatif |
| cummin() | Min kumulatif |
| cummax() | Max kumulatif |

Kita bisa menggunakan fungsi statistik tersebut secara satuan. Akan tetapi apabila kita ingin mengetahui hasil pengolah statistik dari dataframe secara umum, kita bisa menggunakan fungsi ``describe()``. Berikut contoh penggunaanya:

In [76]:
import pandas as pd

data = {'universitas':['UNIKOM','UNIKOM','UNPAD','UNPAR','UNPAR','UKM', 'UKM'],
       'pic':['Adam','Ginar','Mira','Maresha','Vania','Dian','Angga'],
       'peserta_bebras':[500,120,340,124,243,350,134]}

df = pd.DataFrame(data)
display(df)
print()

display(df.describe())

Unnamed: 0,universitas,pic,peserta_bebras
0,UNIKOM,Adam,500
1,UNIKOM,Ginar,120
2,UNPAD,Mira,340
3,UNPAR,Maresha,124
4,UNPAR,Vania,243
5,UKM,Dian,350
6,UKM,Angga,134





Unnamed: 0,peserta_bebras
count,7.0
mean,258.714286
std,145.114569
min,120.0
25%,129.0
50%,243.0
75%,345.0
max,500.0


><b>Catatan:</b> 25%, 50%, 75% menyatakan median dari setiap kuartil (25% dari keseluruhan data yang sudah diurutkan). Nilai 25% menyatakankan kuartil 1.

Kalau kita perhatikan, fungsi ``describe()`` hanya menampilkan hasil dari pengolahan statistik bagi kolom numerik. Bagaimana dengan yang alphanumeric? Kita bisa menambahkan parameter ``include = 'all'`` di fungsi ``describe()``. Berikut cara penggunaannya:

In [77]:
display(df.describe(include= 'all'))

Unnamed: 0,universitas,pic,peserta_bebras
count,7,7,7.0
unique,4,7,
top,UNIKOM,Adam,
freq,2,1,
mean,,,258.714286
std,,,145.114569
min,,,120.0
25%,,,129.0
50%,,,243.0
75%,,,345.0


><b>Catatan:</b> <br>
1. nilai top menyatakan ``modus`` (nilai yang memiliki kemunculan terbanyak) dan jumlah kemunculannya dinyatakan dalam nilai ``freq``.
2. Nilai ``unique`` menyatakan jumlah nilai yang dihitung secara unique.

# Merging, Joining, dan Concatenating

Seperti halnya pengolahan data dalam bentuk tabel, suatu tabel bisa digabungkan dengan tabel lainnya. 
Sebagai contoh, ada beberapa dataframe sebagai berikut:

In [14]:
import pandas as pd

In [15]:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'C': ['C0', 'C1', 'C2', 'C3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 1, 2, 3])

display(df1)

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [16]:
df2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                    'B': ['B4', 'B5', 'B6', 'B7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D': ['D4', 'D5', 'D6', 'D7']},
                    index=[4, 5, 6, 7])

display(df2)

Unnamed: 0,A,B,C,D
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7


In [24]:
df3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                    'B': ['B8', 'B9', 'B10', 'B11'],
                    'C': ['C8', 'C9', 'C10', 'C11'],
                    'D': ['D8', 'D9', 'D10', 'D11']},
                    index=[8, 9, 10, 11])

display(df3)

Unnamed: 0,A,B,C,D
8,A8,B8,C8,D8
9,A9,B9,C9,D9
10,A10,B10,C10,D10
11,A11,B11,C11,D11


Kita bisa menggabungkan dataframe tadi dengan berbagai konsep. Mari kita bahas konsep penggabungannya.

## Concatenating

Bentuk penggabungan ini akan menyatukan tiga dataframe tersebut menjadi sebuah dataframe. Yang perlu menjadi perhatian adalah dimensi antar dataframe harus sama. Fungsi yang digunakan adalah ``pd.concat()``. Berikut contoh penggunaanya:

In [27]:
pd.concat([df1,df2,df3])

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


><b>Catatan:</b> Concatenating tadi merupakan concatenasi di level baris. Artinya baris dataframe 1 ditempelkan bersama dengan baris dari dataframe lainnya.

Selain bisa concatenating di level baris, fungsi ini juga bisa melakukan concatenating di level kolom dengan cara menambahkan paramater ``axis = 1`` di fungsi ``concat()``. Berikut contoh penggunaannya:

In [34]:
pd.concat([df1,df2,df3], axis = 1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,,,,,,,,
1,A1,B1,C1,D1,,,,,,,,
2,A2,B2,C2,D2,,,,,,,,
3,A3,B3,C3,D3,,,,,,,,
4,,,,,A4,B4,C4,D4,,,,
5,,,,,A5,B5,C5,D5,,,,
6,,,,,A6,B6,C6,D6,,,,
7,,,,,A7,B7,C7,D7,,,,
8,,,,,,,,,A8,B8,C8,D8
9,,,,,,,,,A9,B9,C9,D9


Hasil dari concatenating ini akan banyak menghasilkan missing data karena memang kolom pada dataframe yang satu tidak terisi oleh data di kolom dataframe lainnya.

## Merging

Pandas menyediakan fungsi ``merge()`` yang memudahkan kita untuk menggabungkan antar dataframe dengan logika yang mirip seperti ketika kita melakukannya menggunakan query di DBMS Relational (contoh: MySQL, atau MS-SQL). Berikut contohnya:

In [36]:
import pandas as pd

In [11]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3','K4'],
                     'A': ['A0', 'A1', 'A2', 'A3','A4'],
                     'B': ['B0', 'B1', 'B2', 'B3','B4']})

display(left)

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3
4,K4,A4,B4


In [12]:
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

display(right)

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


Proses merging melibatkan sebuah atribut sebagai dasar (atau poros) penggabungannya. Atribut yang dipilih harus ada di dataframe yang akan digabung. Biasanya atribut ini berupa atribut kunci. Dalam kasus dua dataframe tadi (left dan right), atribut kuncinya adalah atribut ``key``. Berikut contoh penggunaan merging:

In [13]:
pd.merge(left,right,how='inner',on='key')

Unnamed: 0,key,A,B,C,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K2,A2,B2,C2,D2
3,K3,A3,B3,C3,D3


Parameter ``how = inner`` menyatakan bahwa merging menggunakan konsep inner-join dan parameter ``on = 'key`` digunakan untuk menyatakan bahwa atribut kunci yang akan digunakan sebagai poros merging adalah atribut ``key`` yang ada pada dua dataframe tersebut. Untuk mempermudah membayangkan innerjoin, silakan lihat gambar berikut:

<img src = "https://i.pinimg.com/originals/52/71/64/5271644b8c3db314b5830d902db361d9.png" alt = "Ilustrasi join pada SQL">

Innerjoin hanya akan menggabungkan dataframe jika ada irisan atribut kunci yang sama. Mari kita coba kasus berikut:

## Hands on Lab 3: Mencoba merging

Diberikan dataframe sebagai berikut:

In [25]:
import pandas as pd

In [26]:
left = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3', 'K4'],
                     'A': ['A0', 'A1', 'A2', 'A3', 'A4'],
                     'B': ['B0', 'B1', 'B2', 'B3', 'B4']})

display(left)

Unnamed: 0,key,A,B
0,K0,A0,B0
1,K1,A1,B1
2,K2,A2,B2
3,K3,A3,B3
4,K4,A4,B4


In [84]:
right = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'],
                      'C': ['C0', 'C1', 'C2', 'C3'],
                      'D': ['D0', 'D1', 'D2', 'D3']})

display(right)

Unnamed: 0,key,C,D
0,K0,C0,D0
1,K1,C1,D1
2,K2,C2,D2
3,K3,C3,D3


Mari kita gabungkan dengan konsep innerjoin sebagai berikut:

In [None]:
pd.merge(left,right,how='inner',on='key')

Data dengan key ``K4`` di dataframe ``left`` tidak akan digabungkan karena tidak ada irisannya dengan dataframe ``right``. Selain menggunakan innerjoin, mari kita coba dengan left dan right join sebagai berikut:

In [None]:
pd.merge(left,right,how='left',on='key')

Pada left join, penggabungan didasarkan pada atribut kunci di dataframe ``left``. Data pada dataframe ``right`` yang tidak beririsan akan diisi dengan missing data. Berikutnya kita coba right join:

In [None]:
pd.merge(left,right,how='right',on='key')

Atribut kunci yang digunakan sebagai poros merging adalah atribut kunci yang ada pada dataframe ``right``

## Join

Selain kedua fungsi yang sudah disebutkan sebelumnya, pandas menyediakan fungsi ``join()``. Fungsi ini digunakan sebagai metode penggabungan ketika ada kemungkinan dataframe yang digabungkan memiliki perbedaan indeks. Berikut cara penggunaannya:

In [40]:
import pandas as pd

In [85]:
left = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2'])
display(left)

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [86]:
right = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                      'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

display(right)

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [43]:
left.join(right)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [44]:
right.join(left)

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K2,C2,D2,A2,B2
K3,C3,D3,,


Kita juga bisa menambahkan paramater ``how = <jenis_join>`` ke dalam fungsi ``join()``. Sebagai contoh, kita gunakan outer join sebagai berikut:

In [45]:
left.join(right, how = 'outer')

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


In [46]:
right.join(left, how = 'outer')

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K1,,,A1,B1
K2,C2,D2,A2,B2
K3,C3,D3,,


# Operasi pada Pandas

Ada beberapa operasi tambahan yang bisa membantu kita dalam melakukan pengolahan data menggunakan pandas. Operasi-operasi tersebut adalah:

| Operasi pada Pandas | Keterangan |
| :--- | :--- |
| display() | Menampilkan dataframe dalam bentuk yang lebih rapi dibandingkan menggunakan fungsi print() |
| head() | Memunculkan 5 data pertama pada dataframe dan jumlah data bisa di-custom pada parameter |
| unique() | Memunculkan data secara unique (data yang sama hanya dimunculkan sekali) |
| nunique() | Mengembalikan jumlah data unique |
| value_counts() | Menghitung jumlah kemunculan data pada dataframe per datum |
| tail() | Serupa dengan head() tapi untuk memunculkan 5 data terakhir (kecuali di-custom parameternya) |
| apply() | Mengaplikasikan fungsi pada suatu series di Dataframe |
| del | Digunakan untuk menghapus suatu kolom dalam dataframe secara permanen |
| columns | Mendapatkan nama kolom yang ada pada suatu dataframe |
| index | Mendapatkan indeks baris pada dataframe |
| sort_values() | Mengurutkan data pada dataframe berdasarkan data pada suatu kolom atau lebih |
| isnull() | Mengembalikan nilai boolean untuk memeriksa apakah datum berisi null character |




## Penggunaan ``display()``

Berikut contoh penggunaan fungsi ``display()``:

In [1]:
import pandas as pd

df = pd.DataFrame({'col1':[1,2,3,4,5,6],'col2':[444,555,666,444,333,555],'col3':['abc','def','ghi','xyz','mno','jkl']})

display(df)

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz
4,5,333,mno
5,6,555,jkl


## Penggunaan ``head()``

Berikut contoh penggunaan fungsi ``head()``:

In [18]:
import pandas as pd

df = pd.DataFrame({'col1':[1,2,3,4,5,6],'col2':[444,555,666,444,333,555],'col3':['abc','def','ghi','xyz','mno','jkl']})
print(df)
print()
print(df.head())
print()
print(df.head(3))

   col1  col2 col3
0     1   444  abc
1     2   555  def
2     3   666  ghi
3     4   444  xyz
4     5   333  mno
5     6   555  jkl

   col1  col2 col3
0     1   444  abc
1     2   555  def
2     3   666  ghi
3     4   444  xyz
4     5   333  mno

   col1  col2 col3
0     1   444  abc
1     2   555  def
2     3   666  ghi


## Penggunaan ``unique()`` dan ``nunique()``

Berikut contoh penggunaan fungsi ``unique()`` dan ``nunique()``:

In [17]:
df['col2'].unique()

array([444, 555, 666, 333])

In [18]:
df['col2'].nunique()

4

## Penggunaan ``value_counts()``

Berikut contoh penggunaan fungsi ``value_counts()``:

In [None]:
df['col2'].value_counts()

## Penggunaan ``apply()``

Berikut adalah contoh penggunaan fungsi ``apply()``:

In [19]:
def kalikan_dua(bilangan):
    return 2 * bilangan

In [20]:
df['col1'].apply(kalikan_dua)

0     2
1     4
2     6
3     8
4    10
5    12
Name: col1, dtype: int64

Selain bisa untuk mengaplikasikan fungsi buatan sendiri, fungsi ``apply()`` ini juga bisa digunakan untuk mengaplikasikan fungsi built-in. Berikut contoh penggunaannya:

In [None]:
df['col3'].apply(len)

><b>Catatan:</b> ``len`` merupakan fungsi built-in yang digunakan pada tipe data string untuk menghitung panjang karakter.

## Penggunaan fungsi del

Berikut contoh penggunaan fungsi del:

In [19]:
del df['col1']
df

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz
4,333,mno
5,555,jkl


## Penggunaan ``columns`` dan ``index``

Berikut contoh penggunaan ``columns`` dan ``index``:

In [20]:
df.columns

Index(['col2', 'col3'], dtype='object')

In [21]:
df.index

RangeIndex(start=0, stop=6, step=1)

## Pengurutan Data di Dataframe

Kita bisa mengurutkan data pada dataframe berdasarkan 1 atau lebih kolom. Pengurutannya bisa dilakukan untuk menghasilkan urutan yang ascending atau pun descending. Untuk bisa mengurutkan data di dataframe, kita menggunakan fungsi ``sort_values()``. Berikut contoh penggunaanya:

In [None]:
# Kembalikan datframe dalam kondisi semula
df = pd.DataFrame({'col1':[1,2,3,4,5,6],'col2':[444,555,666,444,333,555],'col3':['abc','def','ghi','xyz','mno','jkl']})

df

In [None]:
df.sort_values(by = 'col2')

In [None]:
df.sort_values(by = 'col2', ascending = False)

In [None]:
df.sort_values(by = 'col3', ascending = False)

Kita juga bisa mengurutkan data di dataframe berdasarkan dua kolom atau lebih. Berikut contoh pengurutannya:

In [None]:
df.sort_values(by = ['col1', 'col2'], ascending = [True, False])

## Penggunaan ``isnull()``

Berikut contoh penggunaan fungsi ``isnull()``:

In [22]:
df.isnull()

Unnamed: 0,col2,col3
0,False,False
1,False,False
2,False,False
3,False,False
4,False,False
5,False,False


# Pivot Dataframe

Sebuah dataframe bisa dikenakan operasi pivot. Pivot merupakan operasi yang mengubah poros baris menjadi kolom dan sebaliknya. Tidak hanya itu, pivot juga bisa membantu kita dalam mengubah perspektif (atau sudut pandang) pembacaan dari suatu dataframe. Penggunaan pivot akan sangat membantu dalam melakukan pengolahan data yang multilevel indeks (atau disebut juga multidimensional). Berikut contoh penggunaannya:

In [47]:
import pandas as pd

In [48]:
data = {'A':['foo','foo','foo','bar','bar','bar'],
        'B':['one','one','two','two','one','one'],
        'C':['x','y','x','y','x','y'],
        'D':[1,3,2,5,4,1]}

df = pd.DataFrame(data)

df

Unnamed: 0,A,B,C,D
0,foo,one,x,1
1,foo,one,y,3
2,foo,two,x,2
3,bar,two,y,5
4,bar,one,x,4
5,bar,one,y,1


In [49]:
df.pivot_table(values='D',index=['A', 'B'],columns=['C'])

Unnamed: 0_level_0,C,x,y
A,B,Unnamed: 2_level_1,Unnamed: 3_level_1
bar,one,4.0,1.0
bar,two,,5.0
foo,one,1.0,3.0
foo,two,2.0,


<b>Berlanjut ke bagian 2</b>