## 1. Import Library & Melakukan Eksplorasi Dataset dengan Pandas

In [1]:
# Import library yang akan digunakan dalam melakukan prediksi
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("seaborn")
import warnings
warnings.filterwarnings("ignore")
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [2]:
# Read dataset
data_maret = pd.read_csv("volume-pengangkutan-sampah-di-kali-sungai-situ-waduk-bulan-maret-tahun-2021.csv", 
                            encoding="latin-1")
data_maret.head()

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
0,3,Kali / Sungai Sentiong - Ruas Dewi Sri,Johar Baru,Jakarta Pusat,464,m,1,3
1,3,Kali / Sungai Sentiong - Ruas Abapon,Johar Baru,Jakarta Pusat,464,m,1,4
2,3,Kali / Sungai Sentiong - JL Tanah Tinggi,Johar Baru,Jakarta Pusat,464,m,1,4
3,3,Kali / Sungai Sentiong Jl.Galur - Pombensin,Johar Baru,Jakarta Pusat,606,m,1,5
4,3,Kali / Sungai Sentiong - Jl. Timah,Johar Baru,Jakarta Pusat,310,m,1,6


In [3]:
# Melihat info dataset (tipe data, total record data, dll)
data_maret.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 54715 entries, 0 to 54714
Data columns (total 8 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   bulan                      54715 non-null  int64 
 1    titik_lokasi              54715 non-null  object
 2    kecamatan                 54715 non-null  object
 3    wilayah                   54715 non-null  object
 4    panjang/luas              53723 non-null  object
 5   satuan_panjang/luas        33480 non-null  object
 6   tanggal                    54715 non-null  int64 
 7   volume_sampah_perhari(m3)  54715 non-null  object
dtypes: int64(2), object(6)
memory usage: 3.3+ MB


In [4]:
# Menghapus jarak spasi pada kolom dataset
data_maret.columns = data_maret.columns.str.replace(" ", "")

In [5]:
# Melihat nilai statistik deskriptif dari dataframe untuk keseluruhan kolom
data_maret.describe(include="all")

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
count,54715.0,54715,54715,54715,53723.0,33480,54715.0,54715
unique,,1759,42,5,420.0,10,,77
top,,Saluran PHB Gudang Baru,Kalideres,Jakarta Barat,1000.0,m,,-
freq,,62,2945,16523,6634.0,31775,,15992
mean,3.0,,,,,,16.0,
std,0.0,,,,,,8.944354,
min,3.0,,,,,,1.0,
25%,3.0,,,,,,8.0,
50%,3.0,,,,,,16.0,
75%,3.0,,,,,,24.0,


Hasil keluaran diatas menandakan beberapa nilai-nilai dari statistik deskriptif dari kedua jenis data yakni numerik (tipe data int & float) dan kategorik (tipe data object/string) dan tentu saja setiap jenis data memiliki nilai deskriptif yang berbeda. Seperti misalnya jenis data numerik memiliki nilai deskriptif seperti count, mean, std (standard deviasi), maximum, minimum, quartil 1 (25%), quartil 2/median (50%) dan quartil 3 (75%). Sedangkan jenis data kategorik memiliki nilai deskriptif seperti count, unique, top dan freq (frekuensi data).

Sebagai contoh dapat dilihat pada penjelasan dibawah ini:

- Pada kolom titik_lokasi tidak memiliki nilai mean, standard deviasi, min, dll, tetapi memiliki nilai top, unique, freq, dll. Hal tersebut dikarenakan kolom titik_lokasi bersifat kategorik (karena memiliki tipe data string). Maka dari itu kolom titik_lokasi memiliki nilai top yakni Saluran PHB Asem, nilai freq adalah 62, dst.

- Sedangkan pada kolom tanggal tidak memiliki nilai top, freq, dll tetapi memiliki nilai mean, standard deviasi, min, max, dll. Hal tersebut dikarenakan kolom tanggal bersifat numerik. Hal ini dapat dilihat dari nilai mean pada kolom tanggal adalah 16, nilai max adalah 31, nilai quartil 3 adalah 24, dst.

Berikut adalah kolom-kolom yang bersifat kategorik dan numerik:

- Kategorik: titik_lokasi, kecamatan, wilayah, panjang/luas, satuan_panjang/luas dan volume_sampah_perhari(m3).
- Numerik: bulan dan tanggal.

In [6]:
# Melihat tipe data dari masing-masing kolom yang ada di dalam dataframe
data_maret.dtypes

bulan                         int64
titik_lokasi                 object
kecamatan                    object
wilayah                      object
panjang/luas                 object
satuan_panjang/luas          object
tanggal                       int64
volume_sampah_perhari(m3)    object
dtype: object

In [7]:
# Melihat nama kolom yang ada di dalam dataframe
data_maret.columns

Index(['bulan', 'titik_lokasi', 'kecamatan', 'wilayah', 'panjang/luas',
       'satuan_panjang/luas', 'tanggal', 'volume_sampah_perhari(m3)'],
      dtype='object')

In [8]:
# Melihat jumlah rows dan kolom pada dataframe
data_maret.shape

(54715, 8)

Sangat berbeda sekali jumlah rows atau jumlah baris dari dataframe bulan Januari dan Februari 2021 dengan bulan Maret 2021. Pada bulan Januari jumlah rows-nya sebanyak 54343, bulan Februari memiliki jumlah baris yakni 49252 sedangkan jumlah rows di bulan Maret 2021 memiliki jumlah baris yakni mencapai 54715.

In [9]:
"""
Menghitung nilai dari beberapa kolom (kecamatan, wilayah, satuan_panjang/satuan) 
dari yang sering muncul - tidak sering muncul di dalam dataframe
"""
print(data_maret["kecamatan"].value_counts())
print()

print(data_maret["wilayah"].value_counts())
print()

print(data_maret["satuan_panjang/luas"].value_counts())

Kalideres            2945
Tanjung Priok        2914
Penjaringan          2759
Cengkareng           2542
Cilincing            2542
Grogol Petamburan    2325
Cakung               2263
Kembangan            2232
Tamansari            1953
Pademangan           1891
Kebon Jeruk          1581
Tambora              1550
Kelapa Gading        1488
Koja                 1395
Palmerah             1395
Jatinegara           1364
Pulo Gadung          1333
Duren Sawit          1302
Jagakarsa            1209
Pasar Rebo           1147
Kramat Jati          1116
Ciracas               992
Makasar               961
Matraman              961
Gambir                930
Tanah Abang           899
Pancoran              868
Cilandak              837
Pasar Minggu          837
Kebayoran Baru        837
Kebayoran Lama        806
Setiabudi             775
Tebet                 744
Mampang Prapatan      713
Cipayung              651
Pesanggrahan          620
Sawah Besar           558
Cempaka Putih         527
Kemayoran   

In [10]:
# Mengubah nama kolom dari yang semula "panjang/luas" dan "satuan_panjang/luas" menjadi "panjang_luas" dan "satuan_panjang"
rename_column_data = data_maret.rename(columns={"panjang/luas": "panjang_luas", "satuan_panjang/luas":"satuan_panjang"})

rename_column_data.columns

Index(['bulan', 'titik_lokasi', 'kecamatan', 'wilayah', 'panjang_luas',
       'satuan_panjang', 'tanggal', 'volume_sampah_perhari(m3)'],
      dtype='object')

In [11]:
# Memisahkan semua data yang memiliki panjang_luas = m³ dari 5 data teratas
data_m3 = rename_column_data[rename_column_data.satuan_panjang == "m³"]
data_m3.head()

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
58,3,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,1,3.0
1823,3,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,2,1.0
3588,3,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,3,0.5
5353,3,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,4,1.5
7118,3,Emplasment Pompa Cideng,Gambir,Jakarta Pusat,4,m³,5,0.0


In [12]:
# Memisahkan semua data yang memiliki panjang_luas = 700/10 yang dilihat dari 5 baris data terakhir
data_satpanjang = rename_column_data[rename_column_data.panjang_luas == "700/10"]
data_satpanjang.tail()

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
49645,3,PHB Gading Griya Lestari Kel. Sukapura,Cilincing,Jakarta Utara,700/10,,29,0
51348,3,Kali Sengkang Kel. Kali Baru,Cilincing,Jakarta Utara,700/10,,30,0
51410,3,PHB Gading Griya Lestari Kel. Sukapura,Cilincing,Jakarta Utara,700/10,,30,0
53113,3,Kali Sengkang Kel. Kali Baru,Cilincing,Jakarta Utara,700/10,,31,0
53175,3,PHB Gading Griya Lestari Kel. Sukapura,Cilincing,Jakarta Utara,700/10,,31,0


In [13]:
# Memisahkan semua data yang memiliki kecamatan = Tebet dari 10 data teratas
data_tebet = rename_column_data[rename_column_data.kecamatan == "Tebet"]
data_tebet.head(10)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
1203,3,Ciliwung MT. Haryono (Indo Mobil - Kebon Baru ...,Tebet,Jakarta Selatan,1000,,1,0
1204,3,Ciliwung MT. Haryono (Kebon Baru Jln F - Kampu...,Tebet,Jakarta Selatan,1000,,1,1
1205,3,Ciliwung Kampung Melayu Tongtek,Tebet,Jakarta Selatan,1000,,1,0
1206,3,Ciliwung Tongtek Pintu Air Manggarai,Tebet,Jakarta Selatan,1000,,1,2
1207,3,Saluran PHB Asem Baris Raya,Tebet,Jakarta Selatan,1000,,1,1
1208,3,Saluran PHB Gudang Baru,Tebet,Jakarta Selatan,1000,,1,1
1209,3,Saluran Kalibata Taman Seno - Rusun Berlian,Tebet,Jakarta Selatan,2000,,1,0
1210,3,Saluran PHB Taman Honda,Tebet,Jakarta Selatan,1500,,1,
1211,3,Saluran Kalibata Rusun Berlian - Jembatan Syafei,Tebet,Jakarta Selatan,1000,,1,0
1212,3,Saluran Kalibata Jembatan Syafei - Jembatan Me...,Tebet,Jakarta Selatan,3000,,1,0


## 2. Data Preprocessing

In [14]:
# Mengecek nilai kosong (NaN) dari masing-masing kolom di dataframe
data_maret.isnull().sum()

bulan                            0
titik_lokasi                     0
kecamatan                        0
wilayah                          0
panjang/luas                   992
satuan_panjang/luas          21235
tanggal                          0
volume_sampah_perhari(m3)        0
dtype: int64