# Pandas

Pandas merupakan library di Python yang digunakan untuk memudahkan kita dalam melakukan pengolahan data dari file (menyediakan sarana berupa struktur data yang powerful) dan analisis data. Pandas merupakan library yang bersifat open-source dan bisa didapatkan secara gratis melalui pip3 atau Anaconda. Dokumentasi dari library ini dapat diakses di https://pandas.pydata.org/.

Untuk bisa menjalankan library ini, kita membutuhkan library numpy. Sebelum bisa menggunakannya, ingatlah untuk melakukan instalasi library ini terlebih dahulu. Berikut perintah untuk melakukan instalasinya:


<b>Instalasi via pip</b> <br>
``pip3 install pandas``

<b>Instalasi via conda</b> (secara default sudah tersedia ketika instalasi Anaconda atau Miniconda) <br>
``conda install pandas``

In [2]:
!pip3 show pandas

Name: pandas
Version: 1.3.1
Summary: Powerful data structures for data analysis, time series, and statistics
Home-page: https://pandas.pydata.org
Author: The Pandas Development Team
Author-email: pandas-dev@python.org
License: BSD-3-Clause
Location: /usr/local/anaconda3/lib/python3.8/site-packages
Requires: numpy, python-dateutil, pytz
Required-by: statsmodels, seaborn, mariadb-kernel


In [3]:
import pandas as pd

dir(pd)

['BooleanDtype',
 'Categorical',
 'CategoricalDtype',
 'CategoricalIndex',
 'DataFrame',
 'DateOffset',
 'DatetimeIndex',
 'DatetimeTZDtype',
 'ExcelFile',
 'ExcelWriter',
 'Flags',
 'Float32Dtype',
 'Float64Dtype',
 'Float64Index',
 'Grouper',
 'HDFStore',
 'Index',
 'IndexSlice',
 'Int16Dtype',
 'Int32Dtype',
 'Int64Dtype',
 'Int64Index',
 'Int8Dtype',
 'Interval',
 'IntervalDtype',
 'IntervalIndex',
 'MultiIndex',
 'NA',
 'NaT',
 'NamedAgg',
 'Period',
 'PeriodDtype',
 'PeriodIndex',
 'RangeIndex',
 'Series',
 'SparseDtype',
 'StringDtype',
 'Timedelta',
 'TimedeltaIndex',
 'Timestamp',
 'UInt16Dtype',
 'UInt32Dtype',
 'UInt64Dtype',
 'UInt64Index',
 'UInt8Dtype',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__docformat__',
 '__file__',
 '__getattr__',
 '__git_version__',
 '__loader__',
 '__name__',
 '__package__',
 '__path__',
 '__spec__',
 '__version__',
 '_config',
 '_hashtable',
 '_is_numpy_dev',
 '_lib',
 '_libs',
 '_np_version_under1p18',
 '_testing',
 '_tslib',
 '_typing',
 

Ada beberapa bahasan perihal library ``pandas``, di antaranya:

1. Series (tipe data di pandas)
2. DataFrames (tipe data di pandas)
3. Pemrosesan Missing Data
4. GroupBy
5. Merging, Joining, dan Konkatenasi
6. Operasi di pandas
7. Data Input dan Output.

Mari kita mulai pembahasannya. Dokumentasi perihal pandas dapat diakses di https://pandas.pydata.org/docs/user_guide/index.html#user-guide.

## Tipe Series

Tipe series pada pandas bekerja mirip seperti array pada numpy. Perbedaannya terletak pada pengaksesan series yang menggunakan label. Berikut adalah format pembentukan Series menggunakan pandas:

```python
import pandas as pd

pd.series(data = <data>, index = <index/label>)
```

Berikut perbedaan antara numpy array dengan pandas series:

In [4]:
import numpy as np

label = ['a', 'b', 'c']
list_bilangan = [100, 90, 80]

array = np.array(list_bilangan)
print(array)

# mapping label to list_bilangan
dictionary = {'a': 100, 'b': 90, 'c': 80}
print(dictionary)

[100  90  80]
{'a': 100, 'b': 90, 'c': 80}


In [11]:
import pandas as pd

label = ['a', 'b', 'c']
list_bilangan = [100, 90, 80]

series = pd.Series(data = list_bilangan)
print(series)

print()

#keyword argument
series = pd.Series (data = list_bilangan, index = label)
print(series)

print()

# positional argument
series = pd.Series(list_bilangan, label)
print(series)

0    100
1     90
2     80
dtype: int64

a    100
b     90
c     80
dtype: int64

a    100
b     90
c     80
dtype: int64


Dengan menggunakan Series di pandas, pemberian indeks menjadi customable. Tentunya ini mempermudah kita dalam melakukan manipulasi data atau operasi data yang lebih baik. Apabila kita sudah mempunyai numpy array, maka kita bisa melakukan type casting numpy array menjadi Series di pandas. Berikut contoh penggunaannya:

In [12]:
import numpy as np
import pandas as pd

label = ['a', 'b', 'c']
list_bilangan = [100, 90, 80]

array = np.array(list_bilangan)
print(array)
print(type(array))

print()

series = pd.Series(array)
print(series)
print(type(series))
print()

series = pd.Series(array, label)
print(series)
print(type(series))
print()

[100  90  80]
<class 'numpy.ndarray'>

0    100
1     90
2     80
dtype: int64
<class 'pandas.core.series.Series'>

a    100
b     90
c     80
dtype: int64
<class 'pandas.core.series.Series'>



Selain itu juga kita bisa melakukan type casting dari Dictionary menjadi pandas Series. Berikut contoh penggunaannya:

In [13]:
import pandas as pd

dictionary = {'a': 100, 'b': 90, 'c': 80}
print(dictionary)
print(type(dictionary))

print()

series = pd.Series(dictionary)
print(series)
print(type(series))


{'a': 100, 'b': 90, 'c': 80}
<class 'dict'>

a    100
b     90
c     80
dtype: int64
<class 'pandas.core.series.Series'>


Kita juga bisa langsung menginisialisasi Series seperti cara berikut:

In [15]:
import pandas as pd

ibukota = pd.Series(['Bandung', 'Makassar', 'Palembang'], [
                    'Jawa Barat', 'Sulawesi Selatan', 'Sumatra Selatan'])
print(ibukota)


Jawa Barat            Bandung
Sulawesi Selatan     Makassar
Sumatra Selatan     Palembang
dtype: object


Setiap data akan dipetakan kepada label yang sesuai dengan urutan indeksnya. Bagaimana jika jumlah antara label dengan data tidak sama? Mari kita coba:

In [16]:
import pandas as pd

label = ['a', 'b', 'c', 'd']
data = [1, 2, 3]

series = [pd.Series(data, label)]
print(series)

ValueError: Length of values (3) does not match length of index (4)

Proses ini akan menimbulkan exception berupa ``ValueError`` yang diakibatkan panjang dari label dan panjang dari data berbeda.

### Pengaksesas Elemen di Series

Setelah mempelajari cara mendeklarasikan Series pada pandas, maka langkah berikutnya adalah mengakses elemen di Series. Seperti yang sudah disebutkan sebelumnya, Series bisa diakses menggunakan label. Apabila label menggunakan label default maka kita bisa menggunakan konsep slicing pada list. Sebagai contoh, silakan coba kode program berikut:

In [21]:
import pandas as panda

data = [100, 200, 300, 400, 500]

series = pd.Series(data)
print(series)
print()
print()
print()
print(series[1:3])
print()
print(series[:3])

0    100
1    200
2    300
3    400
4    500
dtype: int64

200

1    200
2    300
dtype: int64

0    100
1    200
2    300
dtype: int64


><b>Catatan:</b> Walaupun slicing mirip seperti list akan tetapi kita tidak bisa mengakses menggunakan slicing indeks negatif karena indeks yang bisa dipakai hanya yang terdaftar di series.

Bagaimana kalau kita meng-custom labelnya? Berikut cara aksesnya:

In [22]:
import pandas as pd

ibukota = pd.Series(['Bandung', 'Makassar', 'Palembang'], [
kolom = ['nama', 'nilai']
print(ibukota)
print()
print(ibukota['Sulawesi Selatan'])

Jawa Barat            Bandung
Sulawesi Selatan     Makassar
Sumatra Selatan     Palembang
dtype: object

Makassar


### Operasi di Series

Kita bisa melakukan beberapa operasi pada Series di pandas. Berikut contohnya:

In [25]:
import pandas as pd

series1 = pd.Series([1, 2, 3])
series2 = pd.Series([10, 20, 30])

series_hasil1 = series1 + series2
series_hasil2 = series1 - series2
series_hasil3 = series1 * series2
series_hasil4 = series1 / series2

print(series_hasil1)
print()
print(series_hasil2)
print()
print(series_hasil3)
print()
print(series_hasil4)
print()


0    11
1    22
2    33
dtype: int64

0    -9
1   -18
2   -27
dtype: int64

0    10
1    40
2    90
dtype: int64

0    0.1
1    0.1
2    0.1
dtype: float64



Apa yang terjadi apabila label diubah? Mari kita coba kode program berikut:

In [27]:
data = [100, 200, 300]
label = ['Budi', 'Andi', 'Ani']

series1 = pd.Series(data, label)
print(series1)
print()

data2 = [100, 200, 300]
label2 = ['Budi', 'Andi', 'Suci']

print(df['nilai'])
print(series2)
print()

series_hasil1 = series1 + series2
series_hasil2 = series1 - series2
series_hasil3 = series1 * series2
series_hasil4 = series1 / series2

print(series_hasil1)
print()
print(series_hasil2)
print()
print(series_hasil3)
print()
print(series_hasil4)
print()


Budi    100
Andi    200
Ani     300
dtype: int64

Budi    100
Andi    200
Suci    300
dtype: int64

Andi    400.0
Ani       NaN
Budi    200.0
Suci      NaN
dtype: float64

Andi    0.0
Ani     NaN
Budi    0.0
Suci    NaN
dtype: float64

Andi    40000.0
Ani         NaN
Budi    10000.0
Suci        NaN
dtype: float64

Andi    1.0
Ani     NaN
Budi    1.0
Suci    NaN
dtype: float64



Untuk label yang ada di kedua series, maka nilai yang diwakilinya akan langsung dioperasikan sesuai dengan operator yang digunakan. Akan tetapi untuk yang labelnya hanya ada di satu series saja maka nilainya akan diisi dengan NaN (Not a Number). Jumlah elemen series hasil adalah jumlah elemen Unique hasil penggabungan dua series.

## DataFrames

Tipe kedua yang didukung oleh pandas adalah dataframe. Bentuk data pada dataframe menyerupai tabel. Tipe data ini memiliki banyak dukungan operasi untuk menganalisis data. Dataframe bekerja layaknya seperti array dua dimensi atau matriks pada numpy. Bentuk deklarasi umum dari dataframe pada pandas adalah sebagai berikut:

```python
import pandas as pd

pd.DataFrame(data=<data>, index=<index/label_baris>, columns=<index/label_kolom>, dtype=None, copy=None)
```
Biasanya dataframe digunakan untuk menampung data hasil pembacaan file .csv atau excel. Operasi-operasi pada tabel (seperti pada umumnya) didukung oleh tipe data pandas ini. Berikut contoh pendeklarasian dataframe pada pandas.

In [34]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, columns = kolom)
print(df)
print()

df = pd.DataFrame(data, nim, kolom)
print(df)
print()

   nama  nilai
0  Budi    100
1  Andi     90
2   Ani     80

          nama  nilai
10101010  Budi    100
10101011  Andi     90
10101012   Ani     80



In [36]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df)
print()

        nim  nama  nilai
0  10101010  Budi    100
1  10101011  Andi     90
2  10101012   Ani     80



Apa perbedaan dari kedua kode program tersebut? Pada kode program yang pertama, NIM dijadikan indeks baris smenetara pada kode program kedua NIM dijadikan data (salah satu kolom) yang ditunjuk oleh indeks/label default (0, 1, 2, dan seterusnya, mirip dengan konsep auto-increment di konsep database). Kita juga bisa mendeklarasian dataframe menggunakan dictionary. Berikut contoh penggunaanya

In [45]:
import pandas as pd

dict = {10101010: ['Budi', 100], 10101011: ['Andi', 90], 10101012: ['Ani', 80]}
kolom = ['nama','nilai']

df = pd.DataFrame(dict.values(), dict.keys())
print(df)
print()

df = pd.DataFrame(dict.values(), dict.keys(), kolom)
print(df)


             0    1
10101010  Budi  100
10101011  Andi   90
10101012   Ani   80

          nama  nilai
10101010  Budi    100
10101011  Andi     90
10101012   Ani     80


### Pengaksesan Elemen di DataFrame

Setelah dideklarasikan, elemen-elemen di dalam DataFrame bisa diakses. Pengaksesan elemen di dataframe bisa memiliki banyak konsep. Berikut contoh pengaksesan elemen di dataframe:

#### Pengaksesan Kolom

Untuk bisa mengakses data pada kolom, kita bisa menggunakan format berikut:

```python
nama_dataframe[label_kolom]
```

Berikut contoh pengaksesan kolom pada dataframe:

In [47]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)

print(df['nama'])
print()
print(df['nilai'])

10101010    Budi
10101011    Andi
10101012     Ani
Name: nama, dtype: object

10101010    100
10101011     90
10101012     80
Name: nilai, dtype: int64


><b>Catatan:</b> Apabila dilihat 1 kolom pada dataframe merupakan 1 series.

Pengaksesan kolom juga bisa dilakukan dengan mekanisme sebagai berikut:

In [50]:
import pandas as pd

nim = [10101010, 10101011, 10101012]
data = [['Budi', 100], ['Andi', 90], ['Ani', 80]]
kolom = ['nama', 'nilai']

df = pd.DataFrame(data, nim, kolom)
print(df[['nim', 'nilai']][2:3])
print(df.nama)
print()
print(df[['nama', 'nilai']][2:])


10101010    Budi
10101011    Andi
10101012     Ani
Name: nama, dtype: object

10101010    100
10101011     90
10101012     80
Name: nilai, dtype: int64


><b>Catatan:</b> Cara pengaksesan seperti ini kurang disarankan karena akan ada kemungkinan tertukarnya pengaksesan data dengan nama method built-in dari pandas.

#### Pengaksesan Multi Kolom

Kita bisa mengakses beberapa kolom dalam satu kali pengaksesan. Contoh penggunaannya adalah sebagai berikut:

In [55]:
data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)

print(df[['nim','nilai']])

        nim  nilai
0  10101010    100
1  10101011     90
2  10101012     80


><b>Catatan:</b> label kolom yang mau dimunculkan, disimpan dalam sebuah list dan dijadikan indeks akses di dataframe untuk multi kolom.

#### Pengaksesan Baris

Mirip seperti pengaksesan kolom, pengaksesan baris dapat dilakukan dengan cara sebagai berikut:

```python
nama_dataframe.loc[label_baris]
```

Berikut contoh pengaksesan baris pada dataframe:

In [100]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101010, 'Melodi', 85], [10101010, 'Siska', 100], [10101010, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df.loc[1])


nim      10101011
nama         Andi
nilai          90
Name: 1, dtype: object


Selain menggunakan ``loc[]`` untuk menampilkan baris, pandas juga menyediakan sarana berupa ``head()`` yang bisa digunakan untuk memunculkan 5 baris pertama dalam dataframe dan juga ``tail()`` untuk menampilkan 5 baris data terakhir di dataframe. Penggunaannya adalah sebagai berikut:

In [104]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101010, 'Melodi', 85], [10101010, 'Siska', 100], [10101010, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df.head())
print()

print(df.tail())


        nim    nama  nilai
0  10101010    Budi    100
1  10101011    Andi     90
2  10101012     Ani     80
3  10101010  Melodi     85
4  10101010   Siska    100

        nim    nama  nilai
1  10101011    Andi     90
2  10101012     Ani     80
3  10101010  Melodi     85
4  10101010   Siska    100
5  10101010    Yono     60


#### Pengaksesan Baris dan Kolom

Pandas juga menyediakan cara untuk kita mengakses data pada suatu baris dan kolom tertentu pada saat yang bersamaan. Format pengaksesannya adalah sebagai berikut:

```python
nama_dataframe[label_kolom][batas_baris_bawah:batas_baris_bawah]
```

Berikut contoh penggunaanya:

In [106]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101010, 'Melodi', 85], [10101010, 'Siska', 100], [10101010, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns = kolom)
print(df['nama'][2])

Ani


Apabila kita ingin menggunakan multilabel pada kolom atau baris, penggunaannya adalah sebagai berikut:

In [112]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101010, 'Melodi', 85], [10101010, 'Siska', 100], [10101010, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df[['nim','nilai']][2:3])
print()

print(df[['nama','nilai']][2:])


        nim  nilai
2  10101012     80

     nama  nilai
2     Ani     80
3  Melodi     85
4   Siska    100
5    Yono     60


### Operasi pada DataFrame

Ada beberapa operasi pada dataframe selain pengaksesan elemennya. Berikut kita akan membahas perihal operasi apa saja yang bisa dilakukan pada dataframe.

#### Penambahan Kolom pada DataFrame

Kita bisa melakukan penambahan kolom pada dataframe dengan cara berikut:

```python
nama_dataframe[label_kolom_baru] = [nilai_baru]
```

Sebagai contoh, silakan coba kode program berikut:

In [115]:
import pandas as pd

data = [[10101010, 'Budi', 100], [10101011, 'Andi', 90], [10101012, 'Ani', 80],
        [10101010, 'Melodi', 85], [10101010, 'Siska', 100], [10101010, 'Yono', 60]]
kolom = ['nim', 'nama', 'nilai']

df = pd.DataFrame(data, columns=kolom)
print(df)

df['jenis_kelamin'] = ['Pria', 'Pria', 'Wanita', 'Wanita', 'Siska', 'Pria']
print()
print(df)

        nim    nama  nilai
0  10101010    Budi    100
1  10101011    Andi     90
2  10101012     Ani     80
3  10101010  Melodi     85
4  10101010   Siska    100
5  10101010    Yono     60

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
2  10101012     Ani     80        Wanita
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100         Siska
5  10101010    Yono     60          Pria


><b>Catatan:</b> Jumlah nilai yang diinput harus sama dengan jumlah baris yang sudah ada sebelumnya pada dataframe yang ditambah kolomnya.

#### Menghapus Kolom pada DataFrame

Selain menambah kolom baru, kita juga bisa menghapus kolom dari dataframe. Fungsi yang digunakan adalah fungsi ``drop(label_kolom)``. Berikut contoh penggunaannya:

In [120]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101010, 'Melodi', 85, 'Wanita'], [10101010, 'Siska', 100, 'Wanita'], [10101010, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
print(df.drop('jenis_kelamin', axis = 1))

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
2  10101012     Ani     80        Wanita
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria

        nim    nama  nilai
0  10101010    Budi    100
1  10101011    Andi     90
2  10101012     Ani     80
3  10101010  Melodi     85
4  10101010   Siska    100
5  10101010    Yono     60


><b>Catatan:</b> parameter axis digunakan untuk menandakan apakah yang dihapus adalah baris atau kolom. Apabila mau menghapus kolom, gunakan nilai 1 pada parameter axis.

Fungsi ``drop()`` tidak benar-benar menghapus secara fisik kolom yang disebutkan. Fungsi ini hanya memproyeksikan dataframe tanpa menampilkan kolom yang ada di parameter fungsi tersebut. Berikut buktinya:

In [121]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101010, 'Melodi', 85, 'Wanita'], [10101010, 'Siska', 100, 'Wanita'], [10101010, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
print(df.drop('jenis_kelamin', axis=1))

print()
print(df)

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
2  10101012     Ani     80        Wanita
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria

        nim    nama  nilai
0  10101010    Budi    100
1  10101011    Andi     90
2  10101012     Ani     80
3  10101010  Melodi     85
4  10101010   Siska    100
5  10101010    Yono     60

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
2  10101012     Ani     80        Wanita
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria


Jika kita ingin benar-benar menghapus kolom tersebut, kita bisa menambahkan parameter ``inplace = True`` di dalam fungsi drop. Berikut contoh penggunaannya:

In [123]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101010, 'Melodi', 85, 'Wanita'], [10101010, 'Siska', 100, 'Wanita'], [10101010, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
df.drop('jenis_kelamin', axis=1, inplace = True)

print()
print(df)

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
2  10101012     Ani     80        Wanita
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria


        nim    nama  nilai
0  10101010    Budi    100
1  10101011    Andi     90
2  10101012     Ani     80
3  10101010  Melodi     85
4  10101010   Siska    100
5  10101010    Yono     60


#### Menghapus Baris

Mirip seperti konsep penghapusan kolom, untuk menghapus baris, kita tinggal mengganti nilai parameter ```axis`` menjadi 0. Berikut contoh penggunaannya:

In [125]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101010, 'Melodi', 85, 'Wanita'], [10101010, 'Siska', 100, 'Wanita'], [10101010, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
print(df.drop(2, axis=0))

print()
print(df)

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
2  10101012     Ani     80        Wanita
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
2  10101012     Ani     80        Wanita
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria


Untuk benar-benar menghapus secara fisik baris yang mau dihapus, kita gunakan parameter ``inplace = True``. Berikut contoh penggunaannya:

In [126]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101010, 'Melodi', 85, 'Wanita'], [10101010, 'Siska', 100, 'Wanita'], [10101010, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)

print()
df.drop(2, axis=0, inplace=True)

print()
print(df)

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
2  10101012     Ani     80        Wanita
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria


        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria


#### Dimensi DataFrame

Untuk mengetahui dimensi pada suatu dataframe, kita bisa menggunakan atribut ``shape``. Dimensi dari dataframe adalah baris x kolom. Berikut contoh penggunaannya:

In [128]:
import pandas as pd

data = [[10101010, 'Budi', 100, 'Pria'], [10101011, 'Andi', 90, 'Pria'], [10101012, 'Ani', 80, 'Wanita'],
        [10101010, 'Melodi', 85, 'Wanita'], [10101010, 'Siska', 100, 'Wanita'], [10101010, 'Yono', 60, 'Pria']]
kolom = ['nim', 'nama', 'nilai', 'jenis_kelamin']

df = pd.DataFrame(data, columns=kolom)
print(df)
print(df.shape)

        nim    nama  nilai jenis_kelamin
0  10101010    Budi    100          Pria
1  10101011    Andi     90          Pria
2  10101012     Ani     80        Wanita
3  10101010  Melodi     85        Wanita
4  10101010   Siska    100        Wanita
5  10101010    Yono     60          Pria


TypeError: 'tuple' object is not callable