## 1. Import Library & Melakukan Eksplorasi Dataset dengan Pandas

In [20]:
# Import library yang akan digunakan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("seaborn")
import warnings
warnings.filterwarnings("ignore")
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [21]:
# Read dataset
data_mei = pd.read_csv("volume-pengangkutan-sampah-di-kali-sungai-situ-waduk-bulan-mei-tahun-2021.csv", 
                       encoding="latin-1")
data_mei.head()

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
0,5,Kali / Sungai Sentiong - Ruas Dewi Sri,Johar Baru,Jakarta Pusat,464,m,1,3
1,5,Kali / Sungai Sentiong - Ruas Abapon,Johar Baru,Jakarta Pusat,464,m,1,3
2,5,Kali / Sungai Sentiong - JL Tanah Tinggi,Johar Baru,Jakarta Pusat,464,m,1,3
3,5,Kali / Sungai Sentiong Jl.Galur - Pombensin,Johar Baru,Jakarta Pusat,606,m,1,4
4,5,Kali / Sungai Sentiong - Jl. Timah,Johar Baru,Jakarta Pusat,310,m,1,4


In [22]:
# Melihat total data pada masing-masing kolom di dalam dataframe
data_mei.count()

bulan                        54870
 titik_lokasi                54870
 kecamatan                   54870
 wilayah                     54870
 panjang/luas                54002
satuan_panjang/luas          33883
tanggal                      54870
volume_sampah_perhari(m3)    54870
dtype: int64

In [23]:
# Melihat tipe data dari masing-masing kolom yang ada di dalam dataframe
data_mei.dtypes

bulan                         int64
 titik_lokasi                object
 kecamatan                   object
 wilayah                     object
 panjang/luas                object
satuan_panjang/luas          object
tanggal                       int64
volume_sampah_perhari(m3)    object
dtype: object

In [24]:
# Melihat nama kolom yang ada di dalam dataframe
data_mei.columns

Index(['bulan', ' titik_lokasi ', ' kecamatan ', ' wilayah ', ' panjang/luas ',
       'satuan_panjang/luas', 'tanggal', 'volume_sampah_perhari(m3)'],
      dtype='object')

In [25]:
# Melihat jumlah rows dan kolom pada dataframe
data_mei.shape

(54870, 8)

In [26]:
# Melihat info dataset (tipe data, total record data, dll)
data_mei.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54870 entries, 0 to 54869
Data columns (total 8 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   bulan                      54870 non-null  int64 
 1    titik_lokasi              54870 non-null  object
 2    kecamatan                 54870 non-null  object
 3    wilayah                   54870 non-null  object
 4    panjang/luas              54002 non-null  object
 5   satuan_panjang/luas        33883 non-null  object
 6   tanggal                    54870 non-null  int64 
 7   volume_sampah_perhari(m3)  54870 non-null  object
dtypes: int64(2), object(6)
memory usage: 3.3+ MB


In [27]:
# Menghapus jarak spasi pada kolom dataset
data_mei.columns = data_mei.columns.str.replace(" ", "")

In [28]:
# Melihat nilai statistik deskriptif dari dataframe untuk keseluruhan kolom
data_mei.describe(include="all")

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
count,54870.0,54870,54870,54870,54002.0,33883,54870.0,54870
unique,,1764,42,5,417.0,10,,70
top,,PHB Pramuka,Kalideres,Jakarta Barat,1000.0,m,,-
freq,,62,2945,16616,6665.0,32116,,17285
mean,5.0,,,,,,16.0,
std,0.0,,,,,,8.944353,
min,5.0,,,,,,1.0,
25%,5.0,,,,,,8.0,
50%,5.0,,,,,,16.0,
75%,5.0,,,,,,24.0,


Hasil keluaran diatas menandakan beberapa nilai-nilai dari statistik deskriptif dari kedua jenis data yakni numerik (tipe data int & float) dan kategorik (tipe data object/string) dan tentu saja setiap jenis data memiliki nilai deskriptif yang berbeda. Seperti misalnya jenis data numerik memiliki nilai deskriptif seperti count, mean, std (standard deviasi), maximum, minimum, quartil 1 (25%), quartil 2/median (50%) dan quartil 3 (75%). Sedangkan jenis data kategorik memiliki nilai deskriptif seperti count, unique, top dan freq (frekuensi data).

Sebagai contoh dapat dilihat pada penjelasan dibawah ini:

- Pada kolom titik_lokasi tidak memiliki nilai mean, standard deviasi, min, dll, tetapi memiliki nilai top, unique, freq, dll. Hal tersebut dikarenakan kolom titik_lokasi bersifat kategorik (karena memiliki tipe data string). Maka dari itu kolom titik_lokasi memiliki nilai top yakni Saluran PHB Pramuka, nilai freq adalah 62, dst.

- Sedangkan pada kolom tanggal tidak memiliki nilai top, freq, dll tetapi memiliki nilai mean, standard deviasi, min, max, dll. Hal tersebut dikarenakan kolom tanggal bersifat numerik. Hal ini dapat dilihat dari nilai mean pada kolom tanggal adalah 16, nilai max adalah 31, nilai quartil 3 adalah 24, dst.

Berikut adalah kolom-kolom yang bersifat kategorik dan numerik:

- Kategorik: titik_lokasi, kecamatan, wilayah, panjang/luas, satuan_panjang/luas dan volume_sampah_perhari(m3).
- Numerik: bulan dan tanggal.

In [29]:
"""
Menghitung nilai dari beberapa kolom (kecamatan, wilayah, satuan_panjang/satuan) 
dari yang sering muncul - tidak sering muncul di dalam dataframe
"""
print(data_mei["kecamatan"].value_counts())
print()

print(data_mei["wilayah"].value_counts())
print()

print(data_mei["satuan_panjang/luas"].value_counts())

Kalideres            2945
Tanjung Priok        2914
Penjaringan          2759
Cilincing            2542
Cengkareng           2542
Kembangan            2325
Grogol Petamburan    2325
Cakung               2263
Tamansari            1953
Pademangan           1891
Kebon Jeruk          1581
Tambora              1550
Kelapa Gading        1488
Koja                 1395
Palmerah             1395
Jatinegara           1364
Pulo Gadung          1333
Duren Sawit          1302
Jagakarsa            1209
Pasar Rebo           1147
Kramat Jati          1116
Makasar              1023
Ciracas               992
Matraman              961
Gambir                930
Tanah Abang           899
Pancoran              868
Kebayoran Baru        837
Cilandak              837
Pasar Minggu          837
Kebayoran Lama        806
Setiabudi             775
Tebet                 744
Mampang Prapatan      713
Cipayung              651
Pesanggrahan          620
Sawah Besar           558
Kemayoran             527
Cempaka Puti

In [30]:
# Mengubah nama kolom dari yang semula "panjang/luas" dan "satuan_panjang/luas" menjadi "panjang_luas" dan "satuan_panjang"
rename_column_data = data_mei.rename(columns={"panjang/luas": "panjang_luas", "satuan_panjang/luas":"satuan_panjang"})

rename_column_data.columns

Index(['bulan', 'titik_lokasi', 'kecamatan', 'wilayah', 'panjang_luas',
       'satuan_panjang', 'tanggal', 'volume_sampah_perhari(m3)'],
      dtype='object')

In [31]:
# Memisahkan semua data yang memiliki satuan_panjang = m³ dan ditampilkan sebanyak 13 data teratas
data_m3 = rename_column_data[rename_column_data.satuan_panjang == "m³"]
data_m3.head(13)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
58,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,1,0.0
1828,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,2,0.5
3598,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,3,0.5
5368,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,4,0.5
7138,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,5,0.5
8908,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,6,2.0
10678,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,7,0.5
12448,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,8,0.5
14218,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,9,4.0
15988,5,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,10,0.5


In [32]:
# Memisahkan semua data yang memiliki panjang_luas = 150/1 dan ditampilkan sebanyak 17 baris data terakhir
data_panjang_luas = rename_column_data[rename_column_data.panjang_luas == "150/1"]
data_panjang_luas.tail(17)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
51875,5,PHB Pademangan A,Pademangan,Jakarta Utara,150/1,,30,1
51876,5,PHB Pademangan B,Pademangan,Jakarta Utara,150/1,,30,1
51877,5,PHB Pademangan C,Pademangan,Jakarta Utara,150/1,,30,0
51879,5,PHB Ancol Barat 1,Pademangan,Jakarta Utara,150/1,,30,0
51883,5,PHB Masjid Kampung Bandan,Pademangan,Jakarta Utara,150/1,,30,0
51898,5,PHB Pademangan 22,Pademangan,Jakarta Utara,150/1,,30,1
51903,5,PHB Parang Tritis,Pademangan,Jakarta Utara,150/1,,30,0
51904,5,PHB Indofood Jalan Ancol Parang Tritis,Pademangan,Jakarta Utara,150/1,,30,0
53644,5,PHB Pademangan 5 (Sejajar Rel Kereta Api),Pademangan,Jakarta Utara,150/1,,31,1
53645,5,PHB Pademangan A,Pademangan,Jakarta Utara,150/1,,31,1


In [33]:
# Memisahkan semua data yang memiliki kecamatan = Kebon Jeruk dari 12 data teratas
data_kebon_jeruk = rename_column_data[rename_column_data.kecamatan == "Kebon Jeruk"]
data_kebon_jeruk.head(10)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
696,5,Kali Sodetan Sekretaris (Pos Polisi Duri Kepa ...,Kebon Jeruk,Jakarta Barat,310,m,1,-
697,5,Kali Sodetan Sekretaris ( Belakang Studio 5 In...,Kebon Jeruk,Jakarta Barat,360,m,1,-
698,5,Kali Sodetan Sekretaris ( Centro City - Sampin...,Kebon Jeruk,Jakarta Barat,300,m,1,-
699,5,Kali Sodetan Sekretaris ( Samping Rumah Pompa ...,Kebon Jeruk,Jakarta Barat,331,m,1,-
700,5,Kali Sodetan Sekretaris ( Jembatan Rel KAI - J...,Kebon Jeruk,Jakarta Barat,300,m,1,2
701,5,Stasiun Pompa Air Saluran PHB. Gang Macan ( Jl...,Kebon Jeruk,Jakarta Barat,700,m,1,2
702,5,Saluran PHB. Da'an Mogot 1 Sisi Barat ( Jln. D...,Kebon Jeruk,Jakarta Barat,610,m,1,1
703,5,Saluran PHB. Da'an Mogot 1 Sisi Timur ( Jln.Da...,Kebon Jeruk,Jakarta Barat,610,m,1,1
704,5,Saluran PHB. Da'an Mogot 2 ( Jln. Da'an Mogot ...,Kebon Jeruk,Jakarta Barat,1070,m,1,0
705,5,Saluran PHB. Jln. Inspeksi Sekretaris (Pos Pol...,Kebon Jeruk,Jakarta Barat,1070,m,1,0


In [35]:
# Melihat susunan dataframe dari 19 data terbawah
data_mei.tail(19)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
54851,5,Kali Pedaengan (Ujung Krawang - Kp. Sawah),Cakung,Jakarta Timur,800,m,31,-
54852,5,Kali Pedaengan (Kp. Sawah - Jl. Raya Penggilin...,Cakung,Jakarta Timur,800,m,31,-
54853,5,Kali Pedaengan (Jl. Raya Penggilingan - Kali B...,Cakung,Jakarta Timur,600,m,31,-
54854,5,PHB Pintu Tol Cakung,Cakung,Jakarta Timur,700,m,31,-
54855,5,PHB Pasar Cakung,Cakung,Jakarta Timur,600,m,31,-
54856,5,Kali Buaran (Yamaha-Pintu Air UT),Cakung,Jakarta Timur,600,m,31,20
54857,5,PHB United Tractor,Cakung,Jakarta Timur,600,m,31,2
54858,5,PHB Kramayudha Rawa Teratai,Cakung,Jakarta Timur,1500,m,31,1
54859,5,Kali Buaran (PHB United Tractor-Kali Cakung Lama),Cakung,Jakarta Timur,1500,m,31,1
54860,5,Waduk Aneka Elok,Cakung,Jakarta Timur,700,m,31,-


In [36]:
# Mengecek apakah di dalam dataframe memiliki data duplikat/tidak
data_mei.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
54865    False
54866    False
54867    False
54868    False
54869    False
Length: 54870, dtype: bool

## 2. Data Preprocessing