# Pandas

Pandas merupakan library di Python yang digunakan untuk memudahkan kita dalam melakukan pengolahan data dari file (menyediakan sarana berupa struktur data yang powerful) dan analisis data. Pandas merupakan library yang bersifat open-source dan bisa didapatkan secara gratis melalui pip3 atau Anaconda. Dokumentasi dari library ini dapat diakses di https://pandas.pydata.org/.

Untuk bisa menjalankan library ini, kita membutuhkan library numpy. Sebelum bisa menggunakannya, ingatlah untuk melakukan instalasi library ini terlebih dahulu. Berikut perintah untuk melakukan instalasinya:


<b>Instalasi via pip</b> <br>
``pip3 install pandas``

<b>Instalasi via conda</b> (secara default sudah tersedia ketika instalasi Anaconda atau Miniconda) <br>
``conda install pandas``

In [31]:
!pip3 show pandas

Name: pandas
Version: 1.3.1
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/anaconda3/lib/python3.8/site-packages
Requires: numpy, python-dateutil, pytz
Required-by: statsmodels, seaborn, mariadb-kernel


In [32]:
import pandas as pd

dir(pd)

['BooleanDtype',
 'Categorical',
 'CategoricalDtype',
 'CategoricalIndex',
 'DataFrame',
 'DateOffset',
 'DatetimeIndex',
 'DatetimeTZDtype',
 'ExcelFile',
 'ExcelWriter',
 'Flags',
 'Float32Dtype',
 'Float64Dtype',
 'Float64Index',
 'Grouper',
 'HDFStore',
 'Index',
 'IndexSlice',
 'Int16Dtype',
 'Int32Dtype',
 'Int64Dtype',
 'Int64Index',
 'Int8Dtype',
 'Interval',
 'IntervalDtype',
 'IntervalIndex',
 'MultiIndex',
 'NA',
 'NaT',
 'NamedAgg',
 'Period',
 'PeriodDtype',
 'PeriodIndex',
 'RangeIndex',
 'Series',
 'SparseDtype',
 'StringDtype',
 'Timedelta',
 'TimedeltaIndex',
 'Timestamp',
 'UInt16Dtype',
 'UInt32Dtype',
 'UInt64Dtype',
 'UInt64Index',
 'UInt8Dtype',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__docformat__',
 '__file__',
 '__getattr__',
 '__git_version__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_config',
 '_hashtable',
 '_is_numpy_dev',
 '_lib',
 '_libs',
 '_np_version_under1p18',
 '_testing',
 '_tslib',
 '_typing',
 

Ada beberapa bahasan perihal library ``pandas``, di antaranya:

1. Series (tipe data di pandas)
2. DataFrames (tipe data di pandas)
3. Pemrosesan Missing Data
4. GroupBy
5. Merging, Joining, dan Konkatenasi
6. Operasi di pandas
7. Data Input dan Output.

Mari kita mulai pembahasannya. Dokumentasi perihal pandas dapat diakses di https://pandas.pydata.org/docs/user_guide/index.html#user-guide.

## Tipe Series

Tipe series pada pandas bekerja mirip seperti array pada numpy. Perbedaannya terletak pada pengaksesan series yang menggunakan label. Berikut adalah format pembentukan Series menggunakan pandas:

```python
import pandas as pd

pd.series(data = <data>, index = <index/label>)
```

Berikut perbedaan antara numpy array dengan pandas series:

In [33]:
import numpy as np

label = ['a', 'b', 'c']
list_bilangan = [100, 90, 80]

array = np.array(list_bilangan)
print(array)

# mapping label to list_bilangan
dictionary = {'a': 100, 'b': 90, 'c': 80}
print(dictionary)

[100  90  80]
{'a': 100, 'b': 90, 'c': 80}


In [34]:
import pandas as pd

label = ['a', 'b', 'c']
list_bilangan = [100, 90, 80]

series = pd.Series(data = list_bilangan)
print(series)

print()

#keyword argument
series = pd.Series (data = list_bilangan, index = label)
print(series)

print()

# positional argument
series = pd.Series(list_bilangan, label)
print(series)

0    100
1     90
2     80
dtype: int64

a    100
b     90
c     80
dtype: int64

a    100
b     90
c     80
dtype: int64


Dengan menggunakan Series di pandas, pemberian indeks menjadi customable. Tentunya ini mempermudah kita dalam melakukan manipulasi data atau operasi data yang lebih baik. Apabila kita sudah mempunyai numpy array, maka kita bisa melakukan type casting numpy array menjadi Series di pandas. Berikut contoh penggunaannya:

In [35]:
import numpy as np
import pandas as pd

label = ['a', 'b', 'c']
list_bilangan = [100, 90, 80]

array = np.array(list_bilangan)
print(array)
print(type(array))

print()

series = pd.Series(array)
print(series)
print(type(series))
print()

series = pd.Series(array, label)
print(series)
print(type(series))
print()

[100  90  80]
<class 'numpy.ndarray'>

0    100
1     90
2     80
dtype: int64
<class 'pandas.core.series.Series'>

a    100
b     90
c     80
dtype: int64
<class 'pandas.core.series.Series'>



Selain itu juga kita bisa melakukan type casting dari Dictionary menjadi pandas Series. Berikut contoh penggunaannya:

In [36]:
import pandas as pd

dictionary = {'a': 100, 'b': 90, 'c': 80}
print(dictionary)
print(type(dictionary))

print()

series = pd.Series(dictionary)
print(series)
print(type(series))


{'a': 100, 'b': 90, 'c': 80}
<class 'dict'>

a    100
b     90
c     80
dtype: int64
<class 'pandas.core.series.Series'>


Kita juga bisa langsung menginisialisasi Series seperti cara berikut:

In [37]:
import pandas as pd

ibukota = pd.Series(['Bandung', 'Makassar', 'Palembang'], [
                    'Jawa Barat', 'Sulawesi Selatan', 'Sumatra Selatan'])
print(ibukota)


Jawa Barat            Bandung
Sulawesi Selatan     Makassar
Sumatra Selatan     Palembang
dtype: object


Setiap data akan dipetakan kepada label yang sesuai dengan urutan indeksnya. Bagaimana jika jumlah antara label dengan data tidak sama? Mari kita coba:

In [38]:
import pandas as pd

label = ['a', 'b', 'c', 'd']
data = [1, 2, 3]

series = [pd.Series(data, label)]
print(series)

ValueError: Length of values (3) does not match length of index (4)

Proses ini akan menimbulkan exception berupa ``ValueError`` yang diakibatkan panjang dari label dan panjang dari data berbeda.

### Pengaksesas Elemen di Series

Setelah mempelajari cara mendeklarasikan Series pada pandas, maka langkah berikutnya adalah mengakses elemen di Series. Seperti yang sudah disebutkan sebelumnya, Series bisa diakses menggunakan label. Apabila label menggunakan label default maka kita bisa menggunakan konsep slicing pada list. Sebagai contoh, silakan coba kode program berikut:

In [None]:
import pandas as panda

data = [100, 200, 300, 400, 500]

series = pd.Series(data)
print(series)
print()
print()
print()
print(series[1:3])
print()
print(series[:3])

><b>Catatan:</b> Walaupun slicing mirip seperti list akan tetapi kita tidak bisa mengakses menggunakan slicing indeks negatif karena indeks yang bisa dipakai hanya yang terdaftar di series.

Bagaimana kalau kita meng-custom labelnya? Berikut cara aksesnya:

In [None]:
import pandas as pd

ibukota = pd.Series(['Bandung', 'Makassar', 'Palembang'], [
kolom = ['nama', 'nilai']
print(ibukota)
print()
print(ibukota['Sulawesi Selatan'])

### Operasi di Series

Kita bisa melakukan beberapa operasi pada Series di pandas. Berikut contohnya:

In [None]:
import pandas as pd

series1 = pd.Series([1, 2, 3])
series2 = pd.Series([10, 20, 30])

series_hasil1 = series1 + series2
series_hasil2 = series1 - series2
series_hasil3 = series1 * series2
series_hasil4 = series1 / series2

print(series_hasil1)
print()
print(series_hasil2)
print()
print(series_hasil3)
print()
print(series_hasil4)
print()


Apa yang terjadi apabila label diubah? Mari kita coba kode program berikut:

In [None]:
data = [100, 200, 300]
label = ['Budi', 'Andi', 'Ani']

series1 = pd.Series(data, label)
print(series1)
print()

data2 = [100, 200, 300]
label2 = ['Budi', 'Andi', 'Suci']

print(df['nilai'])
print(series2)
print()

series_hasil1 = series1 + series2
series_hasil2 = series1 - series2
series_hasil3 = series1 * series2
series_hasil4 = series1 / series2

print(series_hasil1)
print()
print(series_hasil2)
print()
print(series_hasil3)
print()
print(series_hasil4)
print()


Untuk label yang ada di kedua series, maka nilai yang diwakilinya akan langsung dioperasikan sesuai dengan operator yang digunakan. Akan tetapi untuk yang labelnya hanya ada di satu series saja maka nilainya akan diisi dengan NaN (Not a Number). Jumlah elemen series hasil adalah jumlah elemen Unique hasil penggabungan dua series.

## DataFrames

Tipe kedua yang didukung oleh pandas adalah dataframe. Bentuk data pada dataframe menyerupai tabel. Tipe data ini memiliki banyak dukungan operasi untuk menganalisis data. Dataframe bekerja layaknya seperti array dua dimensi atau matriks pada numpy. Bentuk deklarasi umum dari dataframe pada pandas adalah sebagai berikut:

```python
import pandas as pd

pd.DataFrame(data=<data>, index=<index/label_baris>, columns=<index/label_kolom>, dtype=None, copy=None)
```
Biasanya dataframe digunakan untuk menampung data hasil pembacaan file .csv atau excel. Operasi-operasi pada tabel (seperti pada umumnya) didukung oleh tipe data pandas ini. Berikut contoh pendeklarasian dataframe pada pandas.

In [None]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, columns = kolom)
print(df)
print()

df = pd.DataFrame(data, nim, kolom)
print(df)
print()

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df)
print()

Apa perbedaan dari kedua kode program tersebut? Pada kode program yang pertama, NIM dijadikan indeks baris smenetara pada kode program kedua NIM dijadikan data (salah satu kolom) yang ditunjuk oleh indeks/label default (0, 1, 2, dan seterusnya, mirip dengan konsep auto-increment di konsep database). Kita juga bisa mendeklarasian dataframe menggunakan dictionary. Berikut contoh penggunaanya

In [None]:
import pandas as pd

dict = {10101010: ['Budi', 100], 10101011: ['Andi', 90], 10101012: ['Ani', 80]}
kolom = ['nama','nilai']

df = pd.DataFrame(dict.values(), dict.keys())
print(df)
print()

df = pd.DataFrame(dict.values(), dict.keys(), kolom)
print(df)


### Pengaksesan Elemen di DataFrame

Setelah dideklarasikan, elemen-elemen di dalam DataFrame bisa diakses. Pengaksesan elemen di dataframe bisa memiliki banyak konsep. Berikut contoh pengaksesan elemen di dataframe:

#### Pengaksesan Kolom

Untuk bisa mengakses data pada kolom, kita bisa menggunakan format berikut:

```python
nama_dataframe[label_kolom]
```

Berikut contoh pengaksesan kolom pada dataframe:

In [None]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)

print(df['nama'])
print()
print(df['nilai'])

><b>Catatan:</b> Apabila dilihat 1 kolom pada dataframe merupakan 1 series.

Pengaksesan kolom juga bisa dilakukan dengan mekanisme sebagai berikut:

In [None]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)
print(df[['nim', 'nilai']][2:3])
print(df.nama)
print()
print(df[['nama', 'nilai']][2:])


><b>Catatan:</b> Cara pengaksesan seperti ini kurang disarankan karena akan ada kemungkinan tertukarnya pengaksesan data dengan nama method built-in dari pandas.

#### Pengaksesan Multi Kolom

Kita bisa mengakses beberapa kolom dalam satu kali pengaksesan. Contoh penggunaannya adalah sebagai berikut:

In [None]:
data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)

print(df[['nim','nilai']])

><b>Catatan:</b> label kolom yang mau dimunculkan, disimpan dalam sebuah list dan dijadikan indeks akses di dataframe untuk multi kolom.

#### Pengaksesan Baris

Mirip seperti pengaksesan kolom, pengaksesan baris dapat dilakukan dengan cara sebagai berikut:

```python
nama_dataframe.loc[label_baris]
```

Berikut contoh pengaksesan baris pada dataframe:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df.loc[1])


><b>Catatan:</b> Gunakan fungsi ``iloc`` jika ingin mengakses label baris default (0, 1, 2, dan seterusnya) jika label baris sudah di-custom.

Selain menggunakan ``loc[]`` untuk menampilkan baris, pandas juga menyediakan sarana berupa ``head()`` yang bisa digunakan untuk memunculkan 5 baris pertama dalam dataframe dan juga ``tail()`` untuk menampilkan 5 baris data terakhir di dataframe. Penggunaannya adalah sebagai berikut:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df.head())
print()

print(df.tail())


Apabila ingin menampilkan multibaris, kita bisa menyebutkan list label baris pada fungsi ``loc``. Berikut contoh penggunaannya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df.loc[[0,3]])

#### Pengaksesan Baris dan Kolom

Pandas juga menyediakan cara untuk kita mengakses data pada suatu baris dan kolom tertentu pada saat yang bersamaan. Format pengaksesannya adalah sebagai berikut:

```python
nama_dataframe[label_kolom][batas_baris_bawah:batas_baris_bawah]
```

Berikut contoh penggunaanya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns = kolom)
print(df['nama'][2])

Apabila kita ingin menggunakan multilabel pada kolom atau baris, penggunaannya adalah sebagai berikut:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df[['nim','nilai']][2:3])
print()

print(df[['nama','nilai']][2:])


### Operasi pada DataFrame

Ada beberapa operasi pada dataframe selain pengaksesan elemennya. Berikut kita akan membahas perihal operasi apa saja yang bisa dilakukan pada dataframe.

#### Penambahan Kolom pada DataFrame

Kita bisa melakukan penambahan kolom pada dataframe dengan cara berikut:

```python
nama_dataframe[label_kolom_baru] = [nilai_baru]
```

Sebagai contoh, silakan coba kode program berikut:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101013, 'Melodi', 85], [10101014, 'Siska', 100], [10101015, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df)

df['jenis_kelamin'] = ['Pria', 'Pria', 'Wanita', 'Wanita', 'Siska', 'Pria']
print()
print(df)

><b>Catatan:</b> Jumlah nilai yang diinput harus sama dengan jumlah baris yang sudah ada sebelumnya pada dataframe yang ditambah kolomnya.

#### Menghapus Kolom pada DataFrame

Selain menambah kolom baru, kita juga bisa menghapus kolom dari dataframe. Fungsi yang digunakan adalah fungsi ``drop(label_kolom)``. Berikut contoh penggunaannya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
print(df.drop('jenis_kelamin', axis = 1))

><b>Catatan:</b> parameter axis digunakan untuk menandakan apakah yang dihapus adalah baris atau kolom. Apabila mau menghapus kolom, gunakan nilai 1 pada parameter axis.

Fungsi ``drop()`` tidak benar-benar menghapus secara fisik kolom yang disebutkan. Fungsi ini hanya memproyeksikan dataframe tanpa menampilkan kolom yang ada di parameter fungsi tersebut. Berikut buktinya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
print(df.drop('jenis_kelamin', axis=1))

print()
print(df)

Jika kita ingin benar-benar menghapus kolom tersebut, kita bisa menambahkan parameter ``inplace = True`` di dalam fungsi drop. Berikut contoh penggunaannya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
df.drop('jenis_kelamin', axis=1, inplace = True)

print()
print(df)

#### Menghapus Baris

Mirip seperti konsep penghapusan kolom, untuk menghapus baris, kita tinggal mengganti nilai parameter ```axis`` menjadi 0. Berikut contoh penggunaannya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
print(df.drop(2, axis=0))

print()
print(df)

Untuk benar-benar menghapus secara fisik baris yang mau dihapus, kita gunakan parameter ``inplace = True``. Berikut contoh penggunaannya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
df.drop(2, axis=0, inplace=True)

print()
print(df)

#### Dimensi DataFrame

Untuk mengetahui dimensi pada suatu dataframe, kita bisa menggunakan atribut ``shape``. Dimensi dari dataframe adalah baris x kolom. Berikut contoh penggunaannya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df.drop())
print(df.shape)

### Data Selection di DataFrame

Seperti halnya tabel pada suatu DBMS Relational, data pada DataFrame dapat diseleksi menggunakan fungsi-fungsi yang disediakan oleh pandas. Berikut adalah beberapa pembahasan perihal operasil selection di dataframe.

#### Penggunaan Operator Relasional

Salah satu cara menseleksi data pada dataframe adalah menggunakan operator relasional. Jenis operator relasional yang digunakan sama dengan pembahasan topik sebelumnya. Berikut adalah beberapa cara contoh seleksi data menggunakan operator relasional:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

seleksi_nim = df['nim'] > 10101012
print(seleksi_nim)

Untuk memunculkan isi dari hasil seleksi tersebut, kita gunakan hasil seleksi sebagai indeks/label pada dataframe seperti berikut:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Cara 1
seleksi_nim = df['nim'] > 10101012
print(df[seleksi_nim])

print()

# Cara 2
print(df[df['nim'] > 10101012])

Kita tetap bisa men-slicing hasil seleksi tersebut dengan konsep slicing yang sama dengan sebelumnya. Berikut contoh penggunaannya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Cara 1
seleksi_nim = df['nim'] > 10101012
print(df[seleksi_nim]['nama'])

print()

# Cara 2
print(df[df['nim'] > 10101012]['nama'])

Selain itu kita juga bisa menggunakan multikolom dengan cara yang sama seperti berikut:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Cara 1
seleksi_nim = df['nim'] > 10101012
print(df[seleksi_nim][['nama', 'nilai']])

print()

# Cara 2
print(df[df['nim'] > 10101012][['nama', 'nilai']])

#### Hands on Lab 1: Mencoba seleksi operator relasional

Silakan coba operator relasional lainnya dan juga kolom lainnya untuk proses seleksi.

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Ganti operator maupun kolom
seleksi_nim = df['nim'] > 10101012
print(df[seleksi_nim])

print()

# Ganti operator maupun kolom
print(df[df['nim'] > 10101012])

#### Seleksi dengan Multikondisional

Contoh sebelumnya selalu membahas seleksi dataframe dengan 1 buah kondisional. Bagaimana cara seleksi jika kondisional yang diperiksa lebih dari satu? Kita bisa menggunakan operator logika untuk mengkombinasikan kondisional yang ada. Sebagai contoh pada kasus data mahasiswa sebelumnya, mari kita seleksi data dimana nim > 10101012 dan nilai >= 90. Berikut kode programnya:

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

seleksi_nim = (df['nim'] > 10101012) & (df['nilai'] >= 80)
print(df[seleksi_nim])

#### Hands on Lab 2: Seleksi Multikondisional

Silakan coba operator logika lainnya dan juga kombinasi kondisional lainnya untuk proses seleksi.

In [None]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101013, 'Melodi', 85, 'Wanita'], [10101014, 'Siska', 100, 'Wanita'], [10101015, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)

# Ganti operator logika dan kombinasi kondisionalnya
seleksi_nim = (df['nim'] > 10101012) & (df['nilai'] >= 80)
print(df[seleksi_nim])

### Fungsi reset_index()

Fungsi ``reset_index()`` digunakan untuk mengembalikan indeks/label baris ke kondisi default (0, 1, 2, dan seterusnya). Apabila sudah ada custom label pada baris, maka label tersebut akan dijadikan kolom baru di dalam dataframe. Berikut contoh penggunaannya:

In [43]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)

print(df)
print()

print(df.reset_index())
print()
print(df)


          nama  nilai
10101010  Budi    100
10101011  Andi     90
10101012   Ani     80

      index  nama  nilai
0  10101010  Budi    100
1  10101011  Andi     90
2  10101012   Ani     80

          nama  nilai
10101010  Budi    100
10101011  Andi     90
10101012   Ani     80


Jika kita mau me-reset indeks secara permanen, maka gunakan parameter ``inplace = True`` di dalam parameter fungsi tersebut. Berikut contoh penggunaanya:

In [45]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)

print(df)
print()

df.reset_index(inplace= True)
print()
print(df)

          nama  nilai
10101010  Budi    100
10101011  Andi     90
10101012   Ani     80


      index  nama  nilai
0  10101010  Budi    100
1  10101011  Andi     90
2  10101012   Ani     80


### Fungsi set_index()

Kita bisa menggunakan fungsi ``set_index()`` untuk mengganti label/indeks baris yang ada pada dataframe. Berikut contoh penggunaannya:

In [50]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)
print(df)


print(df.set_index('nilai'))
print()
print(df)

          nama  nilai
10101010  Budi    100
10101011  Andi     90
10101012   Ani     80
       nama
nilai      
100    Budi
90     Andi
80      Ani

          nama  nilai
10101010  Budi    100
10101011  Andi     90
10101012   Ani     80


Gunakan parameter ``inplace = True`` agar efeknya permanen.

In [51]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)
print(df)


df.set_index('nilai', inplace= True)
print()
print(df)

          nama  nilai
10101010  Budi    100
10101011  Andi     90
10101012   Ani     80

       nama
nilai      
100    Budi
90     Andi
80      Ani


### Multilevel Indeks

Dataframe pada pandas mendukung multilevel indeks untuk mendukung multidimensional data. Berikut contoh penggunaan multilevel indeks:

In [63]:
import pandas as pd

data = [[10, 20], [30 , 40], [10, 20], [30, 40],
        [100, 200], [300 , 40], [50, 50], [100, 100]]
kolom = ['Jawa Barat', 'Bali']

df = pd.DataFrame(data, columns = kolom)
print(df)
print()

tahun = [2020, 2020, 2020, 2020, 2021, 2021, 2021, 2021]
kuartal = [1, 2, 3, 4, 1, 2, 3, 4]
indeks_baris = list(zip(tahun, kuartal))
indeks_baris = pd.MultiIndex.from_tuples(indeks_baris)
print(indeks_baris)
print()

df = pd.DataFrame(data, indeks_baris, kolom)
print(df)

   Jawa Barat  Bali
0          10    20
1          30    40
2          10    20
3          30    40
4         100   200
5         300    40
6          50    50
7         100   100

MultiIndex([(2020, 1),
            (2020, 2),
            (2020, 3),
            (2020, 4),
            (2021, 1),
            (2021, 2),
            (2021, 3),
            (2021, 4)],
           )

        Jawa Barat  Bali
2020 1          10    20
     2          30    40
     3          10    20
     4          30    40
2021 1         100   200
     2         300    40
     3          50    50
     4         100   100


Cara mengaksesnya pun bisa memanfaatkan indeks yang dibutuhkan. Sebagai contoh kita mau mengakses data di tahun 2020, maka kode programnya sebagai berikut:

In [64]:
print(df.loc[2020])

   Jawa Barat  Bali
1          10    20
2          30    40
3          10    20
4          30    40
