## 1. Import Library & Melakukan Eksplorasi Dataset dengan Pandas

In [76]:
# Import library yang akan digunakan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("seaborn")
import warnings
warnings.filterwarnings("ignore")
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [77]:
# Read dataset
data_juni = pd.read_csv("volume-pengangkutan-sampah-di-kali-sungai-situ-waduk-bulan-juni-tahun-2021.csv", 
                        encoding="latin-1")
data_juni.head()

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
0,6,Kali / Sungai Sentiong - Ruas Dewi Sri,Johar Baru,Jakarta Pusat,464,m,1,3
1,6,Kali / Sungai Sentiong - Ruas Abapon,Johar Baru,Jakarta Pusat,464,m,1,4
2,6,Kali / Sungai Sentiong - JL Tanah Tinggi,Johar Baru,Jakarta Pusat,464,m,1,4
3,6,Kali / Sungai Sentiong Jl.Galur - Pombensin,Johar Baru,Jakarta Pusat,606,m,1,4
4,6,Kali / Sungai Sentiong - Jl. Timah,Johar Baru,Jakarta Pusat,310,m,1,5


In [78]:
# Melihat total data pada masing-masing kolom di dalam dataframe
data_juni.count()

bulan                        53130
 titik_lokasi                53130
 kecamatan                   53130
 wilayah                     53130
 panjang/luas                52290
satuan_panjang/luas          32760
tanggal                      53130
volume_sampah_perhari(m3)    53130
dtype: int64

In [79]:
# Melihat tipe data dari masing-masing kolom yang ada di dalam dataframe
data_juni.dtypes

bulan                         int64
 titik_lokasi                object
 kecamatan                   object
 wilayah                     object
 panjang/luas                object
satuan_panjang/luas          object
tanggal                       int64
volume_sampah_perhari(m3)    object
dtype: object

In [80]:
# Melihat nama kolom yang ada di dalam dataframe
data_juni.columns

Index(['bulan', ' titik_lokasi ', ' kecamatan ', ' wilayah ', ' panjang/luas ',
       'satuan_panjang/luas', 'tanggal', 'volume_sampah_perhari(m3)'],
      dtype='object')

In [81]:
# Melihat jumlah rows dan kolom pada dataframe
data_juni.shape

(53130, 8)

In [82]:
# Melihat info dataset (tipe data, total record data, dll)
data_juni.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53130 entries, 0 to 53129
Data columns (total 8 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   bulan                      53130 non-null  int64 
 1    titik_lokasi              53130 non-null  object
 2    kecamatan                 53130 non-null  object
 3    wilayah                   53130 non-null  object
 4    panjang/luas              52290 non-null  object
 5   satuan_panjang/luas        32760 non-null  object
 6   tanggal                    53130 non-null  int64 
 7   volume_sampah_perhari(m3)  53130 non-null  object
dtypes: int64(2), object(6)
memory usage: 3.2+ MB


Karena pada beberapa kolom memiliki jarak putih atau whitespace di sisi kiri nama kolom, maka saya akan menghapus whitespace tersebut supaya kolom-kolom tersebut bisa dilakukan pada tahap-tahap selanjutnya.

In [83]:
# Menghapus jarak spasi pada beberapa kolom yang ada di dalam dataframe
data_juni.columns = data_juni.columns.str.replace(" ", "")

In [84]:
# Melihat nilai statistik deskriptif dari dataframe untuk keseluruhan kolom
data_juni.describe(include="all")

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
count,53130.0,53130,53130,53130,52290.0,32760,53130.0,53130
unique,,1765,42,5,418.0,8,,72
top,,Saluran PHB Bungur,Kalideres,Jakarta Barat,1000.0,m,,-
freq,,60,2880,16110,6450.0,31110,,27958
mean,6.0,,,,,,15.5,
std,0.0,,,,,,8.655523,
min,6.0,,,,,,1.0,
25%,6.0,,,,,,8.0,
50%,6.0,,,,,,15.5,
75%,6.0,,,,,,23.0,


Hasil keluaran diatas menandakan beberapa nilai-nilai dari statistik deskriptif dari kedua jenis data yakni numerik (tipe data int & float) dan kategorik (tipe data object/string) dan tentu saja setiap jenis data memiliki nilai deskriptif yang berbeda. Seperti misalnya jenis data numerik memiliki nilai deskriptif seperti count, mean, std (standard deviasi), maximum, minimum, quartil 1 (25%), quartil 2/median (50%) dan quartil 3 (75%). Sedangkan jenis data kategorik memiliki nilai deskriptif seperti count, unique, top dan freq (frekuensi data).

Sebagai contoh dapat dilihat pada penjelasan dibawah ini:

- Pada kolom titik_lokasi tidak memiliki nilai mean, standard deviasi, min, dll, tetapi memiliki nilai top, unique, freq, dll. Hal tersebut dikarenakan kolom titik_lokasi bersifat kategorik (karena memiliki tipe data string). Maka dari itu kolom titik_lokasi memiliki nilai top yakni Saluran PHB Bungur, nilai freq adalah 60, dst.

- Sedangkan pada kolom tanggal tidak memiliki nilai top, freq, dll tetapi memiliki nilai mean, standard deviasi, min, max, dll. Hal tersebut dikarenakan kolom tanggal bersifat numerik. Hal ini dapat dilihat dari nilai mean pada kolom tanggal adalah 15.5, nilai max adalah 30, nilai quartil 3 adalah 23, dst.

Berikut adalah kolom-kolom yang bersifat kategorik dan numerik:

- Kategorik: titik_lokasi, kecamatan, wilayah, panjang/luas, satuan_panjang/luas dan volume_sampah_perhari(m3).
- Numerik: bulan dan tanggal.

In [85]:
"""
Menghitung nilai dari beberapa kolom (kecamatan, wilayah, satuan_panjang/satuan) 
dari yang sering muncul - tidak sering muncul di dalam dataframe
"""
print(data_juni["kecamatan"].value_counts())
print()

print(data_juni["wilayah"].value_counts())
print()

print(data_juni["satuan_panjang/luas"].value_counts())

Kalideres            2880
Tanjung Priok        2820
Penjaringan          2670
Cilincing            2460
Cengkareng           2460
Grogol Petamburan    2250
Kembangan            2250
Cakung               2190
Tamansari            1890
Pademangan           1830
Kebon Jeruk          1530
Tambora              1500
Kelapa Gading        1440
Palmerah             1350
Koja                 1350
Jatinegara           1320
Pulo Gadung          1290
Duren Sawit          1260
Jagakarsa            1170
Pasar Rebo           1110
Kramat Jati          1080
Makasar               990
Ciracas               960
Matraman              930
Gambir                900
Tanah Abang           870
Pancoran              840
Kebayoran Baru        810
Pasar Minggu          810
Cilandak              810
Kebayoran Lama        780
Setiabudi             750
Tebet                 720
Mampang Prapatan      690
Cipayung              630
Pesanggrahan          600
Sawah Besar           540
Kemayoran             510
Senen       

In [86]:
# Mengubah nama kolom dari yang semula "panjang/luas" dan "satuan_panjang/luas" menjadi "panjang_luas" dan "satuan_panjang"
rename_column_data = data_juni.rename(columns={"panjang/luas": "panjang_luas", "satuan_panjang/luas": "satuan_panjang"})

rename_column_data.columns

Index(['bulan', 'titik_lokasi', 'kecamatan', 'wilayah', 'panjang_luas',
       'satuan_panjang', 'tanggal', 'volume_sampah_perhari(m3)'],
      dtype='object')

In [87]:
# Memisahkan semua data yang memiliki satuan_panjang = km dan ditampilkan sebanyak 11 data teratas
data_km = rename_column_data[rename_column_data.satuan_panjang == "km"]

data_km.head(11)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
1488,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,1,4
3259,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,2,-
5030,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,3,2
6801,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,4,4
8572,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,5,4
10343,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,6,-
12114,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,7,2
13885,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,8,-
15656,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,9,2
17427,6,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,10,-


In [88]:
# Memisahkan semua data yang memiliki panjang_luas = 1400/40 dan ditampilkan sebanyak 16 data teratas
data_panjang_luas = rename_column_data[rename_column_data.panjang_luas == "1400/40"]

data_panjang_luas.head(16)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
431,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,1,8
2202,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,2,-
3973,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,3,-
5744,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,4,-
7515,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,5,-
9286,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,6,-
11057,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,7,-
12828,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,8,-
14599,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,9,-
16370,6,Kali Banjir Kanal Barat (Kali Jodo),Penjaringan,Jakarta Utara,1400/40,,10,-


In [89]:
# Memisahkan semua data yang memiliki nilai kecamatan = Senen dan ditampilkan sebanyak 9 data teratas
data_senen = rename_column_data[rename_column_data.kecamatan == "Senen"]

data_senen.head(9)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
140,6,Kali Ciliwung Raden Saleh,Senen,Jakarta Pusat,1000,m,1,1.0
141,6,Kali Ciliwung Ruas Toko Gunung Agung/Kwitang,Senen,Jakarta Pusat,1000,m,1,0.0
142,6,Kali Ciliwung Ruas Kali Pasir,Senen,Jakarta Pusat,1000,m,1,1.0
143,6,Kali Sentiong samping BSI,Senen,Jakarta Pusat,1000,m,1,1.5
144,6,Kali Sentiong H. Murtado,Senen,Jakarta Pusat,1000,m,1,1.0
145,6,Kali / Sungai Sentiong - Paseban Timur,Senen,Jakarta Pusat,1500,m,1,1.5
146,6,Kali Lio,Senen,Jakarta Pusat,2000,m,1,1.0
147,6,PHB Kembang Pacar,Senen,Jakarta Pusat,2000,m,1,0.5
148,6,PHB Kembang Raya,Senen,Jakarta Pusat,2000,m,1,12.0


In [90]:
# Melihat susunan dataframe dari 17 data terbawah
data_juni.tail(17)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
53113,6,Kali Pedaengan (Jl. Raya Penggilingan - Kali B...,Cakung,Jakarta Timur,600,m,30,-
53114,6,PHB Pintu Tol Cakung,Cakung,Jakarta Timur,700,m,30,4
53115,6,PHB Pasar Cakung,Cakung,Jakarta Timur,600,m,30,4
53116,6,Kali Buaran (Yamaha-Pintu Air UT),Cakung,Jakarta Timur,600,m,30,4
53117,6,PHB United Tractor,Cakung,Jakarta Timur,600,m,30,2
53118,6,PHB Kramayudha Rawa Teratai,Cakung,Jakarta Timur,1500,m,30,-
53119,6,Kali Buaran (PHB United Tractor-Kali Cakung Lama),Cakung,Jakarta Timur,1500,m,30,-
53120,6,Waduk Aneka Elok,Cakung,Jakarta Timur,700,m,30,-
53121,6,PHB Aneka Elok,Cakung,Jakarta Timur,600,m,30,-
53122,6,PHB KP Bulak Penggilingan,Cakung,Jakarta Timur,800,m,30,-


In [91]:
# Mengecek apakah di dalam dataframe memiliki data duplikat/tidak
data_juni.duplicated().sum()

0

## 2. Data Preprocessing

In [92]:
# Mengubah format penamaan kolom dari yang semula huruf kecil menjadi huruf besar dan kecil
data_juni = data_juni.rename(str.title, axis="columns")

data_juni.columns

Index(['Bulan', 'Titik_Lokasi', 'Kecamatan', 'Wilayah', 'Panjang/Luas',
       'Satuan_Panjang/Luas', 'Tanggal', 'Volume_Sampah_Perhari(M3)'],
      dtype='object')

In [93]:
# Mengecek nilai kosong (NaN - Not a Number) dari masing-masing kolom di dalam dataframe
data_juni.isnull().sum()

Bulan                            0
Titik_Lokasi                     0
Kecamatan                        0
Wilayah                          0
Panjang/Luas                   840
Satuan_Panjang/Luas          20370
Tanggal                          0
Volume_Sampah_Perhari(M3)        0
dtype: int64

Jika dilihat dari hasil diatas maka hanya terdapat 2 kolom yang memiliki nilai NaN (Not a Number) atau nilai kosong yaitu kolom "Panjang/Luas" dan "Satuan_Panjang/Luas". Namun jika diperhatikan kembali terdapat 3 kolom yang memiliki nilai NaN yakni kolom "Panjang/Luas", "Satuan_Panjang/Luas", dan kolom "Volume_Sampah_Perhari(M3)".

Mengapa terdapat kolom "Volume_Sampah_Perhari(M3)"?

Hal tersebut dikarenakan nilai kosong yang ada di kolom "Volume_Sampah_Perhari(M3)" ditulis dengan simbol "-". Karena kolom ini merupakan kolom prediksi maka dari itu saya akan mengubahnya menjadi nilai mean atau nilai rata-rata. Tetapi sebelum itu nilai "-" ini akan saya ubah terlebih dahulu menjadi nilai NaN (Not a Number).

In [94]:
"""
Menghapus karakter yang berada di kolom "Panjang/Luas" seperti pada 
nilai data 1400/40 yang dapat dilihat pada tahap sebelumnya
"""
data_juni["Panjang/Luas"] = data_juni["Panjang/Luas"].str.replace(r"\D", "")

In [95]:
# Menghapus karakter "-" di kolom "Volume_Sampah_Perhari(M3)" dengan nilai NaN
data_juni["Volume_Sampah_Perhari(M3)"] = data_juni["Volume_Sampah_Perhari(M3)"].replace("-", np.nan)

data_juni.tail()

Unnamed: 0,Bulan,Titik_Lokasi,Kecamatan,Wilayah,Panjang/Luas,Satuan_Panjang/Luas,Tanggal,Volume_Sampah_Perhari(M3)
53125,6,Kali Cakung Drain (Jembatan Tinggi-Perbatasan ...,Cakung,Jakarta Timur,800,m,30,
53126,6,PHB Rawa Teratai,Cakung,Jakarta Timur,700,m,30,
53127,6,PHB Rawa Gelam III,Cakung,Jakarta Timur,1000,m,30,2.0
53128,6,PHB Metropos KIP,Cakung,Jakarta Timur,1000,m,30,
53129,6,PHB Warung Jengkol,Cakung,Jakarta Timur,400,m,30,


In [96]:
# Mengubah tipe data di kolom "Panjang/Luas" dari string menjadi float
data_juni[["Panjang/Luas"]] = data_juni[["Panjang/Luas"]].apply(pd.to_numeric)

In [97]:
# Mengubah tipe data pada kolom "Volume_Sampah_Perhari(M3)" dari string menjadi float
data_juni["Volume_Sampah_Perhari(M3)"] = pd.to_numeric(data_juni["Volume_Sampah_Perhari(M3)"], errors="coerce")

data_juni.dtypes

Bulan                          int64
Titik_Lokasi                  object
Kecamatan                     object
Wilayah                       object
Panjang/Luas                 float64
Satuan_Panjang/Luas           object
Tanggal                        int64
Volume_Sampah_Perhari(M3)    float64
dtype: object

In [98]:
# Melihat nilai total dari masing-masing data yang ada di kolom "Satuan_Panjang/Luas"
data_juni["Satuan_Panjang/Luas"].value_counts()

m     31110
Ha     1320
ha       90
H        90
HA       60
m³       30
m²       30
km       30
Name: Satuan_Panjang/Luas, dtype: int64

Berdasarkan hasil diatas dapat dilihat bahwa nilai data hektar (yang dilambangkan dengan Ha) memiliki banyak sekali penulisan yang berbeda-beda seperti H, HA, dan ha. Padahal semuanya memiliki satu kesatuan yaitu Ha. Maka dari itu saya akan menjadikan nilai data H, HA, dan ha ini menjadi satu kesatuan saja yakni data Ha.

In [99]:
# Mengganti nilai "H", "HA", dan "ha" menjadi "Ha"
data_juni = data_juni.replace(to_replace=["H", "HA", "ha"], value="Ha")

data_juni["Satuan_Panjang/Luas"].value_counts()

m     31110
Ha     1560
m³       30
m²       30
km       30
Name: Satuan_Panjang/Luas, dtype: int64

In [100]:
# Mengecek kembali apakah di dalam dataframe memiliki nilai NaN/nilai kosong atau tidak
data_juni.isnull().sum()

Bulan                            0
Titik_Lokasi                     0
Kecamatan                        0
Wilayah                          0
Panjang/Luas                   960
Satuan_Panjang/Luas          20370
Tanggal                          0
Volume_Sampah_Perhari(M3)    27959
dtype: int64

In [101]:
# Mengganti nilai NaN yang ada di setiap kolom yang bersifat numerik di dalam dataframe dengan nilai mean
mean = data_juni.mean()
data_juni = data_juni.replace(np.nan, mean)

data_juni.isnull().sum()

Bulan                            0
Titik_Lokasi                     0
Kecamatan                        0
Wilayah                          0
Panjang/Luas                     0
Satuan_Panjang/Luas          20370
Tanggal                          0
Volume_Sampah_Perhari(M3)        0
dtype: int64

Setelah mengisi nilai kosong (NaN) dengan nilai mean (rata-rata) selanjutnya saya akan mengubah tipe data pada kolom "Panjang/Luas" dan "Volume_Sampah_Perhari(M3)" dari yang semula float menjadi integer.

In [102]:
# Mengubah tipe data pada kolom "Panjang/Luas" dan "Volume_Sampah_Perhari(M3)" dari float menjadi integer
data_juni["Panjang/Luas"] = data_juni["Panjang/Luas"].astype(int)
data_juni["Volume_Sampah_Perhari(M3)"] = data_juni["Volume_Sampah_Perhari(M3)"].astype(int)

data_juni.tail()

Unnamed: 0,Bulan,Titik_Lokasi,Kecamatan,Wilayah,Panjang/Luas,Satuan_Panjang/Luas,Tanggal,Volume_Sampah_Perhari(M3)
53125,6,Kali Cakung Drain (Jembatan Tinggi-Perbatasan ...,Cakung,Jakarta Timur,800,m,30,3
53126,6,PHB Rawa Teratai,Cakung,Jakarta Timur,700,m,30,3
53127,6,PHB Rawa Gelam III,Cakung,Jakarta Timur,1000,m,30,2
53128,6,PHB Metropos KIP,Cakung,Jakarta Timur,1000,m,30,3
53129,6,PHB Warung Jengkol,Cakung,Jakarta Timur,400,m,30,3


In [103]:
# Mengecek nilai outliers untuk kolom "Panjang/Luas" dengan nilai quartil dan IQR
Q1 = data_juni["Panjang/Luas"].quantile(0.25)
Q3 = data_juni["Panjang/Luas"].quantile(0.75)

# Rumus untuk menghitung IQR atau Interquartile Range adalah dengan mengurangi quartil 3 dengan quartil 1
IQR = Q3 - Q1

# Melihat ukuran sementara sebelum data outliers dibuang
print("Ukuran Data dari Kolom Panjang/Luas Sebelum Nilai Outliers Dibuang: ", data_juni.shape)

# Menghapus nilai outliers dari kolom "Panjang/Luas" menggunakan rumus yang telah didefinisikan
data_juni = data_juni[~((data_juni["Panjang/Luas"] < (Q1 - 1.5 * IQR)) | 
                        (data_juni["Panjang/Luas"] > (Q3 + 1.5 * IQR)))]

# Melihat kembali ukuran (jumlah baris dan kolom) setelah data outliers dibuang dari kolom "Panjang/Luas"
print("Ukuran Data dari Kolom Panjang/Luas Setelah Nilai Outliers Dibuang: ", data_juni.shape)

Ukuran Data dari Kolom Panjang/Luas Sebelum Nilai Outliers Dibuang:  (53130, 8)
Ukuran Data dari Kolom Panjang/Luas Setelah Nilai Outliers Dibuang:  (43590, 8)


Terdapat 9.540 nilai outliers yang ada di kolom "Panjang/Luas" yang ada di dalam dataframe. Walaupun kolom "Panjang/Luas" tidak akan digunakan dalam proses prediksi tingkat pengangkutan volume sampah (kolom "Panjang/Luas" tidak termasuk ke dalam variabel independen maupun variabel dependen) tetapi penghapusan nilai outliers ini tetap saya lakukan karena pada tahap data visualisasi akan saya gunakan untuk melihat presentase berdasarkan wilayah dan juga melihat perbandingan data berdasarkan kolom "Satuan_Panjang/Luas".

In [104]:
# Menghapus kolom yang tidak dibutuhkan dalam pengujian ini
data_juni = data_juni.drop(["Bulan"], axis=1)

## 3. Data Visualisasi + Analisis Data per Grafik