## 1. Import Library & Melakukan Eksplorasi Dataset dengan Pandas

In [81]:
# Import library yang akan digunakan
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
plt.style.use("seaborn")
import warnings
warnings.filterwarnings("ignore")
from sklearn.model_selection import train_test_split, KFold, cross_val_score
from sklearn.metrics import mean_absolute_error, mean_squared_error

In [82]:
# Read dataset
data_april = pd.read_csv("volume-pengangkutan-sampah-di-kali-sungai-situ-waduk-bulan-april-tahun-2021.csv", 
                         encoding="latin-1")
data_april.head()

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
0,4,Kali / Sungai Sentiong - Ruas Dewi Sri,Johar Baru,Jakarta Pusat,464,m,1,3
1,4,Kali / Sungai Sentiong - Ruas Abapon,Johar Baru,Jakarta Pusat,464,m,1,3
2,4,Kali / Sungai Sentiong - JL Tanah Tinggi,Johar Baru,Jakarta Pusat,464,m,1,3
3,4,Kali / Sungai Sentiong Jl.Galur - Pombensin,Johar Baru,Jakarta Pusat,606,m,1,3
4,4,Kali / Sungai Sentiong - Jl. Timah,Johar Baru,Jakarta Pusat,310,m,1,4


In [83]:
# Melihat total data pada masing-masing kolom di dalam dataframe
data_april.count()

bulan                        53100
 titik_lokasi                53100
 kecamatan                   53100
 wilayah                     53100
 panjang/luas                52170
satuan_panjang/luas          32460
tanggal                      53100
volume_sampah_perhari(m3)    53100
dtype: int64

In [84]:
# Melihat tipe data dari masing-masing kolom yang ada di dalam dataframe
data_april.dtypes

bulan                         int64
 titik_lokasi                object
 kecamatan                   object
 wilayah                     object
 panjang/luas                object
satuan_panjang/luas          object
tanggal                       int64
volume_sampah_perhari(m3)    object
dtype: object

In [85]:
# Melihat nama kolom yang ada di dalam dataframe
data_april.columns

Index(['bulan', ' titik_lokasi ', ' kecamatan ', ' wilayah ', ' panjang/luas ',
       'satuan_panjang/luas', 'tanggal', 'volume_sampah_perhari(m3)'],
      dtype='object')

In [86]:
# Melihat jumlah rows dan kolom pada dataframe
data_april.shape

(53100, 8)

In [87]:
# Melihat info dataset (tipe data, total record data, dll)
data_april.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53100 entries, 0 to 53099
Data columns (total 8 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   bulan                      53100 non-null  int64 
 1    titik_lokasi              53100 non-null  object
 2    kecamatan                 53100 non-null  object
 3    wilayah                   53100 non-null  object
 4    panjang/luas              52170 non-null  object
 5   satuan_panjang/luas        32460 non-null  object
 6   tanggal                    53100 non-null  int64 
 7   volume_sampah_perhari(m3)  53100 non-null  object
dtypes: int64(2), object(6)
memory usage: 3.2+ MB


In [88]:
# Menghapus jarak spasi pada kolom dataset
data_april.columns = data_april.columns.str.replace(" ", "")

In [89]:
# Melihat nilai statistik deskriptif dari dataframe untuk keseluruhan kolom
data_april.describe(include="all")

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
count,53100.0,53100,53100,53100,52170.0,32460,53100.0,53100
unique,,1764,42,5,421.0,10,,84
top,,Saluran PHB Pertanian,Kalideres,Jakarta Barat,1000.0,m,,-
freq,,60,2850,16080,6450.0,30810,,15656
mean,4.0,,,,,,15.5,
std,0.0,,,,,,8.655523,
min,4.0,,,,,,1.0,
25%,4.0,,,,,,8.0,
50%,4.0,,,,,,15.5,
75%,4.0,,,,,,23.0,


Hasil keluaran diatas menandakan beberapa nilai-nilai dari statistik deskriptif dari kedua jenis data yakni numerik (tipe data int & float) dan kategorik (tipe data object/string) dan tentu saja setiap jenis data memiliki nilai deskriptif yang berbeda. Seperti misalnya jenis data numerik memiliki nilai deskriptif seperti count, mean, std (standard deviasi), maximum, minimum, quartil 1 (25%), quartil 2/median (50%) dan quartil 3 (75%). Sedangkan jenis data kategorik memiliki nilai deskriptif seperti count, unique, top dan freq (frekuensi data).

Sebagai contoh dapat dilihat pada penjelasan dibawah ini:

- Pada kolom titik_lokasi tidak memiliki nilai mean, standard deviasi, min, dll, tetapi memiliki nilai top, unique, freq, dll. Hal tersebut dikarenakan kolom titik_lokasi bersifat kategorik (karena memiliki tipe data string). Maka dari itu kolom titik_lokasi memiliki nilai top yakni Saluran PHB Pertanian, nilai freq adalah 60, dst.

- Sedangkan pada kolom tanggal tidak memiliki nilai top, freq, dll tetapi memiliki nilai mean, standard deviasi, min, max, dll. Hal tersebut dikarenakan kolom tanggal bersifat numerik. Hal ini dapat dilihat dari nilai mean pada kolom tanggal adalah 15.5, nilai max adalah 30, nilai quartil 3 adalah 23, dst.

Berikut adalah kolom-kolom yang bersifat kategorik dan numerik:

- Kategorik: titik_lokasi, kecamatan, wilayah, panjang/luas, satuan_panjang/luas dan volume_sampah_perhari(m3).
- Numerik: bulan dan tanggal.

In [90]:
"""
Menghitung nilai dari beberapa kolom (kecamatan, wilayah, satuan_panjang/satuan) 
dari yang sering muncul - tidak sering muncul di dalam dataframe
"""
print(data_april["kecamatan"].value_counts())
print()

print(data_april["wilayah"].value_counts())
print()

print(data_april["satuan_panjang/luas"].value_counts())

Kalideres            2850
Tanjung Priok        2820
Penjaringan          2670
Cengkareng           2460
Cilincing            2460
Kembangan            2250
Grogol Petamburan    2250
Cakung               2190
Tamansari            1890
Pademangan           1830
Kebon Jeruk          1530
Tambora              1500
Kelapa Gading        1440
Palmerah             1350
Koja                 1350
Jatinegara           1320
Pulo Gadung          1290
Duren Sawit          1260
Jagakarsa            1170
Pasar Rebo           1110
Kramat Jati          1080
Makasar               990
Ciracas               960
Matraman              930
Gambir                900
Tanah Abang           870
Pancoran              840
Pasar Minggu          810
Cilandak              810
Kebayoran Baru        810
Kebayoran Lama        780
Setiabudi             750
Tebet                 720
Mampang Prapatan      690
Cipayung              630
Pesanggrahan          600
Sawah Besar           540
Senen                 510
Cempaka Puti

In [91]:
# Mengubah nama kolom dari yang semula "panjang/luas" dan "satuan_panjang/luas" menjadi "panjang_luas" dan "satuan_panjang"
rename_column_data = data_april.rename(columns={"panjang/luas": "panjang_luas", "satuan_panjang/luas":"satuan_panjang"})

rename_column_data.columns

Index(['bulan', 'titik_lokasi', 'kecamatan', 'wilayah', 'panjang_luas',
       'satuan_panjang', 'tanggal', 'volume_sampah_perhari(m3)'],
      dtype='object')

In [92]:
# Memisahkan semua data yang memiliki satuan_panjang = km dan ditampilkan sebanyak 10 data teratas
data_km = rename_column_data[rename_column_data.satuan_panjang == "km"]
data_km.head(10)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
1487,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,1,2
3257,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,2,-
5027,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,3,-
6797,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,4,-
8567,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,5,2
10337,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,6,-
12107,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,7,-
13877,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,8,-
15647,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,9,-
17417,4,Kali Ciliwung KOPASSUS,Pasar Rebo,Jakarta Timur,7,km,10,4


In [93]:
# Memisahkan semua data yang memiliki panjang_luas = 600/3 dan ditampilkan sebanyak 8 baris data terakhir
data_panjang_luas = rename_column_data[rename_column_data.panjang_luas == "600/3"]
data_panjang_luas.tail(8)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
50067,4,PHB Atmajaya,Penjaringan,Jakarta Utara,600/3,,29,0
51552,4,PHB Pure Dewaruci Kel. Semper Barat,Cilincing,Jakarta Utara,600/3,,30,0
51559,4,PHB Grandong Jl Bakti VI Samping Kantor Kel. C...,Cilincing,Jakarta Utara,600/3,,30,0
51633,4,PHB Rawa Badak Utara,Koja,Jakarta Utara,600/3,,30,0
51741,4,PHB Trio Ruas Warakas Raya Kel. Warakas,Tanjung Priok,Jakarta Utara,600/3,,30,0
51751,4,PHB Pasar Kober,Tanjung Priok,Jakarta Utara,600/3,,30,0
51819,4,Kali Gendong Pabrik Benang,Penjaringan,Jakarta Utara,600/3,,30,0
51837,4,PHB Atmajaya,Penjaringan,Jakarta Utara,600/3,,30,0


In [94]:
# Memisahkan semua data yang memiliki kecamatan = Gambir dari 10 data teratas
data_gambir = rename_column_data[rename_column_data.kecamatan == "Gambir"]
data_gambir.head(10)

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang_luas,satuan_panjang,tanggal,volume_sampah_perhari(m3)
30,4,Kali / Sungai Ciliwung Ruas Veteran,Gambir,Jakarta Pusat,2000,m,1,2
31,4,Kali / Sungai Ciliwung Ruas Pejambon,Gambir,Jakarta Pusat,1000,m,1,0
32,4,Kali / Sungai Ciliwung Ruas Belakang Kemenkeu,Gambir,Jakarta Pusat,1000,m,1,0
33,4,Kali / Sungai Ciliwung Ruas Pintu Istiqlal,Gambir,Jakarta Pusat,700,m,1,0
34,4,Kali / Sungai Ciliwung Ruas jl Perwira,Gambir,Jakarta Pusat,800,m,1,0
35,4,Kali / Sungai Cideng Ruas Siantar,Gambir,Jakarta Pusat,900,m,1,0
36,4,Kali / Sungai Cideng Ruas Zainul Arifin,Gambir,Jakarta Pusat,950,m,1,12
37,4,Kali / Sungai Cideng Ruas Holand Bakeri,Gambir,Jakarta Pusat,950,m,1,12
38,4,Kali / Sungai Cideng Ruas Tarakan,Gambir,Jakarta Pusat,800,m,1,12
39,4,Kali / Sungai Cideng Ruas Jembatan MCDonald's,Gambir,Jakarta Pusat,1000,m,1,2


In [95]:
# Melihat susunan dataframe dari 5 data terbawah
data_april.tail()

Unnamed: 0,bulan,titik_lokasi,kecamatan,wilayah,panjang/luas,satuan_panjang/luas,tanggal,volume_sampah_perhari(m3)
53095,4,Kali Cakung Drain (Jembatan Tinggi-Perbatasan ...,Cakung,Jakarta Timur,800,m,30,3
53096,4,PHB Rawa Teratai,Cakung,Jakarta Timur,700,m,30,-
53097,4,PHB Rawa Gelam III,Cakung,Jakarta Timur,1000,m,30,-
53098,4,PHB Metropos KIP,Cakung,Jakarta Timur,1000,m,30,-
53099,4,PHB Warung Jengkol,Cakung,Jakarta Timur,400,m,30,-


## 2. Data Preprocessing

In [96]:
# Mengecek apakah di dalam dataframe terdapat nilai duplikat/tidak
data_april.duplicated().sum()

0

In [97]:
# Mengubah format penamaan kolom dari yang semula huruf kecil menjadi huruf gabungan (huruf besar & kecil)
data_april = data_april.rename(str.title, axis="columns")
data_april.columns

Index(['Bulan', 'Titik_Lokasi', 'Kecamatan', 'Wilayah', 'Panjang/Luas',
       'Satuan_Panjang/Luas', 'Tanggal', 'Volume_Sampah_Perhari(M3)'],
      dtype='object')

In [98]:
# Mengecek nilai kosong (NaN) dari masing-masing kolom di dataframe
data_april.isnull().sum()

Bulan                            0
Titik_Lokasi                     0
Kecamatan                        0
Wilayah                          0
Panjang/Luas                   930
Satuan_Panjang/Luas          20640
Tanggal                          0
Volume_Sampah_Perhari(M3)        0
dtype: int64

Jika dilihat dari hasil diatas maka hanya terdapat 2 kolom yang memiliki nilai NaN (Not a Number) atau nilai kosong yaitu kolom "Panjang/Luas" dan "Satuan_Panjang/Luas". Namun jika diperhatikan kembali terdapat 3 kolom yang memiliki nilai NaN yakni kolom "Panjang/Luas", "Satuan_Panjang/Luas", dan kolom "Volume_Sampah_Perhari(M3)".

Mengapa terdapat kolom "Volume_Sampah_Perhari(M3)"?

Hal tersebut dikarenakan nilai kosong yang ada di kolom "Volume_Sampah_Perhari(M3)" ditulis dengan simbol "-". Karena kolom ini merupakan kolom prediksi maka dari itu saya akan mengubahnya menjadi nilai mean atau nilai rata-rata. Tetapi sebelum itu nilai "-" ini akan saya ubah terlebih dahulu menjadi nilai NaN (Not a Number).

In [99]:
# Menghapus karakter yang berada di kolom "Panjang/Luas" seperti pada data 700/10 yang dapat dilihat pada tahapan sebelumnya
data_april["Panjang/Luas"] = data_april["Panjang/Luas"].str.replace(r"\D", "")

In [100]:
# Mengahapus karakter "-" di kolom "Volume_Sampah_Perhari(M3)" dengan nilai NaN
data_april["Volume_Sampah_Perhari(M3)"] = data_april["Volume_Sampah_Perhari(M3)"].replace("-", np.nan)

data_april.tail(10)

Unnamed: 0,Bulan,Titik_Lokasi,Kecamatan,Wilayah,Panjang/Luas,Satuan_Panjang/Luas,Tanggal,Volume_Sampah_Perhari(M3)
53090,4,Waduk Aneka Elok,Cakung,Jakarta Timur,700,m,30,
53091,4,PHB Aneka Elok,Cakung,Jakarta Timur,600,m,30,
53092,4,PHB KP Bulak Penggilingan,Cakung,Jakarta Timur,800,m,30,
53093,4,Kali Cakung Drain (Jl. Raya Bekasi-Lion),Cakung,Jakarta Timur,1000,m,30,3.0
53094,4,Kali Cakung Drain (Lion-Wing's),Cakung,Jakarta Timur,800,m,30,3.0
53095,4,Kali Cakung Drain (Jembatan Tinggi-Perbatasan ...,Cakung,Jakarta Timur,800,m,30,3.0
53096,4,PHB Rawa Teratai,Cakung,Jakarta Timur,700,m,30,
53097,4,PHB Rawa Gelam III,Cakung,Jakarta Timur,1000,m,30,
53098,4,PHB Metropos KIP,Cakung,Jakarta Timur,1000,m,30,
53099,4,PHB Warung Jengkol,Cakung,Jakarta Timur,400,m,30,


In [101]:
# Mengubah tipe data di kolom "Panjang/Luas" dari string menjadi float
data_april[["Panjang/Luas"]] = data_april[["Panjang/Luas"]].apply(pd.to_numeric)

In [102]:
# Mengubah tipe data pada kolom "Volume_Sampah_Perhari(M3)" dari string menjadi float
data_april["Volume_Sampah_Perhari(M3)"] = pd.to_numeric(data_april["Volume_Sampah_Perhari(M3)"], errors="coerce")

data_april.dtypes

Bulan                          int64
Titik_Lokasi                  object
Kecamatan                     object
Wilayah                       object
Panjang/Luas                 float64
Satuan_Panjang/Luas           object
Tanggal                        int64
Volume_Sampah_Perhari(M3)    float64
dtype: object

In [103]:
# Melihat nilai total dari masing-masing data yang ada di kolom "Satuan_Panjang/Luas"
data_april["Satuan_Panjang/Luas"].value_counts()

m         30810
Ha         1320
H            90
HA           60
m³           30
m2           30
km           30
hektar       30
Hektar       30
m²           30
Name: Satuan_Panjang/Luas, dtype: int64

Berdasarkan hasil diatas dapat dilihat bahwa nilai data hektar (yang dilambangkan dengan Ha) memiliki banyak sekali penulisan yang berbeda-beda seperti H, HA, Hektar, dan hektar. Padahal semuanya memiliki satu kesatuan yaitu Ha. Maka dari itu saya akan menjadikan nilai data H, HA, Hektar, dan hektar ini menjadi satu kesatuan saja yakni data Ha.

Selain itu nilai dari data seperti m2 akan saya jadikan sebagai nilai m² saja.

In [104]:
# Mengganti nilai data yang mirip seperti Ha, dan m²

# Mengganti nilai H", "HA". "Hektar", dan "hektar"
data_april = data_april.replace(to_replace =["H", "HA", "Hektar", "hektar"], value="Ha")

# Mengganti nilai "m2" menjadi "m²"
data_april = data_april.replace(to_replace = "m2", value="m²")

data_april["Satuan_Panjang/Luas"].value_counts()

m     30810
Ha     1530
m²       60
m³       30
km       30
Name: Satuan_Panjang/Luas, dtype: int64

In [105]:
# Mengecek kembali nilai NaN di masing-masing kolom yang ada di dataframe
data_april.isnull().sum()

Bulan                            0
Titik_Lokasi                     0
Kecamatan                        0
Wilayah                          0
Panjang/Luas                   930
Satuan_Panjang/Luas          20640
Tanggal                          0
Volume_Sampah_Perhari(M3)    17852
dtype: int64

In [106]:
# Mengganti nilai NaN yang ada disetiap kolom di dataframe data_maret dengan nilai mean
mean = data_april.mean()
data_april = data_april.replace(np.nan, mean)

data_april.isnull().sum()

Bulan                            0
Titik_Lokasi                     0
Kecamatan                        0
Wilayah                          0
Panjang/Luas                     0
Satuan_Panjang/Luas          20640
Tanggal                          0
Volume_Sampah_Perhari(M3)        0
dtype: int64

Setelah mengisi nilai kosong (NaN) dengan nilai mean (rata-rata) selanjutnya saya akan mengubah tipe data pada kolom "Panjang/Luas" dan "Volume_Sampah_Perhari(M3)" dari yang semula float menjadi integer.

In [107]:
# Mengubah tipe data pada kolom "Panjang/Luas" dan "Volume_Sampah_Perhari(M3)" dari float menjadi integer
data_april["Panjang/Luas"] = data_april["Panjang/Luas"].astype(int)
data_april["Volume_Sampah_Perhari(M3)"] = data_april["Volume_Sampah_Perhari(M3)"].astype(int)

data_april.tail()

Unnamed: 0,Bulan,Titik_Lokasi,Kecamatan,Wilayah,Panjang/Luas,Satuan_Panjang/Luas,Tanggal,Volume_Sampah_Perhari(M3)
53095,4,Kali Cakung Drain (Jembatan Tinggi-Perbatasan ...,Cakung,Jakarta Timur,800,m,30,3
53096,4,PHB Rawa Teratai,Cakung,Jakarta Timur,700,m,30,2
53097,4,PHB Rawa Gelam III,Cakung,Jakarta Timur,1000,m,30,2
53098,4,PHB Metropos KIP,Cakung,Jakarta Timur,1000,m,30,2
53099,4,PHB Warung Jengkol,Cakung,Jakarta Timur,400,m,30,2


In [108]:
# Mengecek nilai outliers untuk kolom "Panjang/Luas" dengan nilai quartil dan IQR
Q1 = data_april["Panjang/Luas"].quantile(0.25)
Q3 = data_april["Panjang/Luas"].quantile(0.75)

# Menghitung interquartile range maka rumusnya adalah quartil 3 (75%) - quartil 1 (25%)
IQR = Q3 - Q1

# Melihat ukuran (baris dan kolom) sebelum data yang outliers dibuang
print("Ukuran Data dari Kolom Panjang/Luas Sebelum Nilai Outliers Dibuang: ", data_april.shape)

# Menghapus nilai outlier dari kolom "Panjang/Luas"
data_april = data_april[~((data_april["Panjang/Luas"] < (Q1 - 1.5 * IQR)) | 
                          (data_april["Panjang/Luas"] > (Q3 + 1.5 * IQR)))]

# Melihat ukuran (baris dan kolom) setelah data outliers dibuang dari kolom "Panjang/Luas"
print("Ukuran Data dari Kolom Panjang/Luas Setelah Nilai Outliers Dibuang: ", data_april.shape)

Ukuran Data dari Kolom Panjang/Luas Sebelum Nilai Outliers Dibuang:  (53100, 8)
Ukuran Data dari Kolom Panjang/Luas Setelah Nilai Outliers Dibuang:  (42870, 8)


Terdapat 10.230 nilai outliers yang ada di kolom "Panjang/Luas" yang ada di dalam dataframe. Walaupun kolom "Panjang/Luas" tidak akan digunakan dalam proses prediksi tingkat pengangkutan volume sampah (kolom "Panjang/Luas" tidak termasuk ke dalam variabel independen maupun variabel dependen) tetapi penghapusan nilai outliers ini tetap saya lakukan karena pada tahap data visualisasi akan saya gunakan untuk melihat presentase berdasarkan wilayah dan juga melihat perbandingan data berdasarkan kolom "Satuan_Panjang/Luas".

In [109]:
# Menghapus kolom yang sudah tidak dibutuhkan yaitu kolom "Bulan"
data_april = data_april.drop(["Bulan"], axis=1)

## 3. Data Visualisasi + Analisis Data per Grafik