#Exploratory Data Analysis untuk Mengetahui Faktor-Faktor yang Mempengaruhi Jumlah Penumpang Kereta Api Jarak Jauh di Jawa Barat Menggunakan Dataset …

Kelompok 5:
1.   Jihan Aqilah Hartono (2306827)
2.   Muhammad Hafidh Fadhilah (2305672)
3.   Putra Hadiyanto Nugroho (2308163)
4.   Yazid Madarizel (2305328)

Pendahuluan

Sebagai moda transportasi yang penting di Jawa Barat, kereta api jarak jauh memegang peranan vital dalam mengakomodasi mobilitas masyarakat, baik untuk perjalanan bisnis, wisata, maupun keperluan lainnya. Dalam memilih moda transportasi, masyarakat sering kali dihadapkan pada berbagai pertimbangan, seperti kenyamanan, kecepatan, dan biaya. Bagi pemerintah dan pengelola transportasi, memahami pola perjalanan dan faktor-faktor yang memengaruhi jumlah penumpang kereta api sangat penting untuk perencanaan dan pengembangan infrastruktur yang lebih baik.

Penelitian ini bertujuan untuk menganalisis faktor-faktor yang memengaruhi jumlah penumpang kereta api jarak jauh di berbagai stasiun di Jawa Barat, khususnya di wilayah Daerah Operasi (DAOP) 1, 2, dan 3. Dengan menggunakan data yang bersumber dari Badan Pusat Statistik (BPS) dan Open Data Jabar, berbagai faktor seperti kepadatan penduduk, jumlah kendaraan bermotor, tingkat kemiskinan, dan upah minimum di setiap kabupaten/kota akan dievaluasi untuk melihat pengaruhnya terhadap jumlah penumpang kereta api.



In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# Input library dan dataset

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
pd.set_option('display.max_rows', None)

daop1 = pd.read_csv('/content/drive/MyDrive/data_mining_EDA/jumlah_penumpang_kereta_DAOP1.csv')
daop2 = pd.read_csv('/content/drive/MyDrive/data_mining_EDA/jumlah_penumpang_kereta_DAOP2.csv')
daop3 = pd.read_csv('/content/drive/MyDrive/data_mining_EDA/jumlah_penumpang_kereta_DAOP3.csv')

sumkendaraanmotor = pd.read_csv('/content/drive/MyDrive/data_mining_EDA/jumlah_kendaraan_bermotor_kabkot.csv')
padatpenduduk = pd.read_csv('/content/drive/MyDrive/data_mining_EDA/kepadatan_penduduk_kabkot.csv')

umk = pd.read_csv('/content/drive/MyDrive/data_mining_EDA/daftar_upah_minimum_kabupatenkota.csv')
jumlahpenduduk = pd.read_csv('/content/drive/MyDrive/data_mining_EDA/jumlah_penduduk_menurut_kabupaten_kota_di_provinsi_jawa_barat.csv')
luasdaerah = pd.read_csv('/content/drive/MyDrive/data_mining_EDA/luas_daerah_kabupatenkota_jabar.csv')

stasiun_pt_all = pd.read_excel('/content/drive/MyDrive/data_mining_EDA/stasiun_pt_all.xlsx')

# Penggabungan data

In [None]:
# Menggabungkan semua daerah operasional menjadi 1 data frame
sumpenggunakereta = pd.concat([daop1, daop2, daop3], ignore_index=True)

# menghapus spasi pada kolom untuk mencegah inkonsistensi
sumpenggunakereta['nama_stasiun']=sumpenggunakereta['nama_stasiun'].str.replace(' ', '')

In [None]:
# Filter data untuk mengambil data hanya dari jawa barat dan yang statusnya aktif
stasiun_pt_all_filtered = stasiun_pt_all[
    (stasiun_pt_all['provinsi'] == 'JAWA BARAT') &
    (stasiun_pt_all['status_operasi'] == 'Aktif')
]

# Menghapus spasi dan mengkapitalkan namaobj (nama stasiun) untuk menghindari inkonsisten
stasiun_pt_all_filtered['namobj'] = stasiun_pt_all_filtered['namobj'].str.upper().str.replace(' ', '')

result = stasiun_pt_all_filtered[['namobj', 'kabkot']]
sumpenggunakereta = pd.merge(sumpenggunakereta, result, left_on='nama_stasiun', right_on='namobj', how='left')

sumpenggunakereta = sumpenggunakereta.drop('namobj', axis=1)
# sumpenggunakereta

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  stasiun_pt_all_filtered['namobj'] = stasiun_pt_all_filtered['namobj'].str.upper().str.replace(' ', '')


# Pembersihan data


Hapus data sebelum 2022

In [None]:
# Menghapus data sebelum tahun 2022

sumkendaraanmotor = sumkendaraanmotor.drop(sumkendaraanmotor[sumkendaraanmotor['tahun'] < 2022].index)
# sumkendaraanmotor = sumkendaraanmotor[sumkendaraanmotor['tahun']>=2021]
sumkendaraanmotor

Unnamed: 0,id,kode_provinsi,nama_provinsi,kode_kabupaten_kota,nama_kabupaten_kota,mobil_penumpang,bus,truk,sepeda_motor,satuan,tahun
27,28,32,JAWA BARAT,3201,KABUPATEN BOGOR,174391,971,46175,1420066,UNIT,2022
28,29,32,JAWA BARAT,3202,KABUPATEN SUKABUMI,40188,454,19983,467256,UNIT,2022
29,30,32,JAWA BARAT,3203,KABUPATEN CIANJUR,38217,647,18949,407425,UNIT,2022
30,31,32,JAWA BARAT,3204,KABUPATEN BANDUNG,119820,964,36697,944465,UNIT,2022
31,32,32,JAWA BARAT,3205,KABUPATEN GARUT,33352,916,15799,385236,UNIT,2022
32,33,32,JAWA BARAT,3206,KABUPATEN TASIKMALAYA,21384,639,11154,282206,UNIT,2022
33,34,32,JAWA BARAT,3207,KABUPATEN CIAMIS,22074,930,11123,248261,UNIT,2022
34,35,32,JAWA BARAT,3208,KABUPATEN KUNINGAN,26843,750,8698,303618,UNIT,2022
35,36,32,JAWA BARAT,3209,KABUPATEN CIREBON,53290,1255,23831,649864,UNIT,2022
36,37,32,JAWA BARAT,3210,KABUPATEN MAJALENGKA,23476,879,12026,334837,UNIT,2022


In [None]:
# Menghapus data sebelum tahun 2022

padatpenduduk = padatpenduduk.drop(padatpenduduk[padatpenduduk['tahun'] < 2022].index)
# padatpenduduk = padatpenduduk[padatpenduduk['tahun'] >= 2021]
padatpenduduk

Unnamed: 0,id,kode_provinsi,nama_provinsi,kode_kabupaten_kota,nama_kabupaten_kota,kepadatan_penduduk,satuan,tahun
243,244,32,JAWA BARAT,3201,KABUPATEN BOGOR,1830,JIWA/KM2,2022
244,245,32,JAWA BARAT,3202,KABUPATEN SUKABUMI,663,JIWA/KM2,2022
245,246,32,JAWA BARAT,3203,KABUPATEN CIANJUR,690,JIWA/KM2,2022
246,247,32,JAWA BARAT,3204,KABUPATEN BANDUNG,2130,JIWA/KM2,2022
247,248,32,JAWA BARAT,3205,KABUPATEN GARUT,890,JIWA/KM2,2022
248,249,32,JAWA BARAT,3206,KABUPATEN TASIKMALAYA,717,JIWA/KM2,2022
249,250,32,JAWA BARAT,3207,KABUPATEN CIAMIS,794,JIWA/KM2,2022
250,251,32,JAWA BARAT,3208,KABUPATEN KUNINGAN,1021,JIWA/KM2,2022
251,252,32,JAWA BARAT,3209,KABUPATEN CIREBON,2239,JIWA/KM2,2022
252,253,32,JAWA BARAT,3210,KABUPATEN MAJALENGKA,1007,JIWA/KM2,2022


In [None]:
# Menghapus data sebelum tahun 2022

umk = umk.drop(umk[umk['tahun'] < 2022].index)
# umk = umk[umk['tahun'] >= 2021]
umk

Unnamed: 0,id,kode_provinsi,nama_provinsi,kode_kabupaten_kota,nama_kabupaten_kota,besaran_upah_minimum,satuan,tahun
135,136,32,JAWA BARAT,3201,KABUPATEN BOGOR,4217206.0,RUPIAH,2022
136,137,32,JAWA BARAT,3202,KABUPATEN SUKABUMI,3125444.72,RUPIAH,2022
137,138,32,JAWA BARAT,3203,KABUPATEN CIANJUR,2699814.4,RUPIAH,2022
138,139,32,JAWA BARAT,3204,KABUPATEN BANDUNG,3241929.67,RUPIAH,2022
139,140,32,JAWA BARAT,3205,KABUPATEN GARUT,1975220.92,RUPIAH,2022
140,141,32,JAWA BARAT,3206,KABUPATEN TASIKMALAYA,2326772.46,RUPIAH,2022
141,142,32,JAWA BARAT,3207,KABUPATEN CIAMIS,1897867.14,RUPIAH,2022
142,143,32,JAWA BARAT,3208,KABUPATEN KUNINGAN,1908102.17,RUPIAH,2022
143,144,32,JAWA BARAT,3209,KABUPATEN CIREBON,2279982.77,RUPIAH,2022
144,145,32,JAWA BARAT,3210,KABUPATEN MAJALENGKA,2027619.04,RUPIAH,2022


Menghapus kolom kode dan nama provinsi

In [None]:
# Menghapus kolom kode provinsi dan nama provinsi

jumlahpenduduk = jumlahpenduduk.drop('kode_provinsi', axis=1)
jumlahpenduduk = jumlahpenduduk.drop('nama_provinsi', axis=1)
jumlahpenduduk


Unnamed: 0,id,nama_kabupaten_penduduk,jumlah_penduduk_ribu,satuan,tahun
0,1,BOGOR,5556.31,ribu,2022
1,2,SUKABUMI,2775.31,ribu,2022
2,3,CIANJUR,2529.81,ribu,2022
3,4,BANDUNG,3687.25,ribu,2022
4,5,GARUT,2648.95,ribu,2022
5,6,TASIKMALAYA,1892.22,ribu,2022
6,7,CIAMIS,1243.32,ribu,2022
7,8,KUNINGAN,1189.01,ribu,2022
8,9,CIREBON,2331.36,ribu,2022
9,10,MAJALENGKA,1328.01,ribu,2022


In [None]:
# Menghapus kolom kode provinsi dan nama provinsi

sumpenggunakereta = sumpenggunakereta.drop('kode_provinsi', axis=1)
sumpenggunakereta = sumpenggunakereta.drop('nama_provinsi', axis=1)
sumpenggunakereta


Unnamed: 0,id,nama_stasiun,penumpang_naik_kereta,penumpang_turun_kereta,satuan,tahun,kabkot
0,1,BEKASI,461197,626845,ORANG,2022,KOTA BEKASI
1,2,CIKARANG,335566,337430,ORANG,2022,KAB. BEKASI
2,3,CIKAMPEK,145499,116867,ORANG,2022,KAB. KARAWANG
3,4,KARAWANG,125070,97745,ORANG,2022,KAB. KARAWANG
4,5,BEKASI,855945,922547,ORANG,2023,KOTA BEKASI
5,6,CIKARANG,355075,311223,ORANG,2023,KAB. BEKASI
6,7,CIKAMPEK,137079,137549,ORANG,2023,KAB. KARAWANG
7,8,KARAWANG,107343,100770,ORANG,2023,KAB. KARAWANG
8,1,PURWAKARTA,37205,44125,ORANG,2022,KAB. PURWAKARTA
9,2,PLERED,3211,2876,ORANG,2022,KAB. PURWAKARTA


In [None]:
# Menghapus kolom kode provinsi dan nama provinsi

sumkendaraanmotor = sumkendaraanmotor.drop('kode_provinsi', axis=1)
sumkendaraanmotor = sumkendaraanmotor.drop('nama_provinsi', axis=1)
sumkendaraanmotor

Unnamed: 0,id,kode_kabupaten_kota,nama_kabupaten_kota,mobil_penumpang,bus,truk,sepeda_motor,satuan,tahun
27,28,3201,KABUPATEN BOGOR,174391,971,46175,1420066,UNIT,2022
28,29,3202,KABUPATEN SUKABUMI,40188,454,19983,467256,UNIT,2022
29,30,3203,KABUPATEN CIANJUR,38217,647,18949,407425,UNIT,2022
30,31,3204,KABUPATEN BANDUNG,119820,964,36697,944465,UNIT,2022
31,32,3205,KABUPATEN GARUT,33352,916,15799,385236,UNIT,2022
32,33,3206,KABUPATEN TASIKMALAYA,21384,639,11154,282206,UNIT,2022
33,34,3207,KABUPATEN CIAMIS,22074,930,11123,248261,UNIT,2022
34,35,3208,KABUPATEN KUNINGAN,26843,750,8698,303618,UNIT,2022
35,36,3209,KABUPATEN CIREBON,53290,1255,23831,649864,UNIT,2022
36,37,3210,KABUPATEN MAJALENGKA,23476,879,12026,334837,UNIT,2022


In [None]:
# Menghapus kolom kode provinsi dan nama provinsi

padatpenduduk = padatpenduduk.drop('kode_provinsi', axis=1)
padatpenduduk = padatpenduduk.drop('nama_provinsi', axis=1)
padatpenduduk

In [None]:
# Menghapus kolom kode provinsi dan nama provinsi

umk = umk.drop('kode_provinsi', axis=1)
umk = umk.drop('nama_provinsi', axis=1)
umk

In [None]:
# Menghapus kolom kode provinsi dan nama provinsi

luasdaerah = luasdaerah.drop('kode_provinsi', axis=1)
luasdaerah = luasdaerah.drop('nama_provinsi', axis=1)
luasdaerah


# Merubah kolom dan menyamakan satuan

In [None]:
# Mengubah tipe data float menjadi integer

umk['besaran_upah_minimum'] = umk['besaran_upah_minimum'].astype(int)
# umk

In [None]:
# Menyamakan nama kolom kabupaten atau kota

sumpenggunakereta = sumpenggunakereta.rename(columns={'kabkot': 'kabupaten_kota'})
sumkendaraanmotor = sumkendaraanmotor.rename(columns={'nama_kabupaten_kota': 'kabupaten_kota'})
padatpenduduk = padatpenduduk.rename(columns={'nama_kabupaten_kota': 'kabupaten_kota'})
umk = umk.rename(columns={'nama_kabupaten_kota': 'kabupaten_kota'})
jumlahpenduduk = jumlahpenduduk.rename(columns={'nama_kabupaten_penduduk': 'kabupaten_kota'})
luasdaerah = luasdaerah.rename(columns={'nama_kabupaten_luas': 'kabupaten_kota'})

Menyamakan penulisan kabupaten dan kota

In [None]:
# Fungsi untuk

def clean_kabupaten_kota(value):
    if isinstance(value, str):
        if 'KOTA' in value:
            # Jika ada kata "KOTA", biarkan saja
            return value
        elif 'KAB.' in value:
            # Jika ada "KAB.", ganti dengan "KABUPATEN"
            return value.replace('KAB.', 'KABUPATEN')
        elif 'KABUPATEN' not in value and 'KOTA' not in value:
            # Jika tidak ada "KABUPATEN" dan juga "KOTA", tambahkan "KABUPATEN" di depan
            return 'KABUPATEN ' + value
        else:
            return value
    else:
        # Jika nilainya bukan string, misalnya NaN, biarkan
        return value


sumpenggunakereta['kabupaten_kota'] = sumpenggunakereta['kabupaten_kota'].apply(clean_kabupaten_kota)
jumlahpenduduk['kabupaten_kota'] = jumlahpenduduk['kabupaten_kota'].apply(clean_kabupaten_kota)
luasdaerah['kabupaten_kota'] = luasdaerah['kabupaten_kota'].apply(clean_kabupaten_kota)

# Eksplorasi data

In [None]:
daop1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   id                      8 non-null      int64 
 1   kode_provinsi           8 non-null      int64 
 2   nama_provinsi           8 non-null      object
 3   nama_stasiun            8 non-null      object
 4   penumpang_naik_kereta   8 non-null      int64 
 5   penumpang_turun_kereta  8 non-null      int64 
 6   satuan                  8 non-null      object
 7   tahun                   8 non-null      int64 
dtypes: int64(5), object(3)
memory usage: 640.0+ bytes


In [None]:
daop2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 34 entries, 0 to 33
Data columns (total 8 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   id                      34 non-null     int64 
 1   kode_provinsi           34 non-null     int64 
 2   nama_provinsi           34 non-null     object
 3   nama_stasiun            34 non-null     object
 4   penumpang_naik_kereta   34 non-null     int64 
 5   penumpang_turun_kereta  34 non-null     int64 
 6   satuan                  34 non-null     object
 7   tahun                   34 non-null     int64 
dtypes: int64(5), object(3)
memory usage: 2.2+ KB


In [None]:
daop3.info()

In [None]:
sumpenggunakereta.info()

In [None]:
sumkendaraanmotor.info()

In [None]:
padatpenduduk.info()

In [None]:
umk.info()

In [None]:
luasdaerah.info()

In [None]:
jumlahpenduduk.info()

In [None]:
# Urutkan data berdasarkan penumpang_naik_kereta (descending) tahun 2022
tahun_tertentu = sumpenggunakereta[sumpenggunakereta['tahun'] == 2022]
df_sorted = tahun_tertentu.sort_values(by='penumpang_naik_kereta', ascending=False)

df_sorted.head(5)


In [None]:
# Urutkan data berdasarkan penumpang_turun_kereta (descending) tahun 2022
tahun_tertentu = sumpenggunakereta[sumpenggunakereta['tahun'] == 2022]
df_sorted = tahun_tertentu.sort_values(by='penumpang_turun_kereta', ascending=False)

df_sorted.head(5)


In [None]:
# Urutkan data berdasarkan penumpang_naik_kereta (descending) tahun 2023
tahun_tertentu = sumpenggunakereta[sumpenggunakereta['tahun'] == 2023]
df_sorted = tahun_tertentu.sort_values(by='penumpang_naik_kereta', ascending=False)

df_sorted.head(5)


In [None]:
# Urutkan data berdasarkan penumpang_turun_kereta (descending) tahun 2023
tahun_tertentu = sumpenggunakereta[sumpenggunakereta['tahun'] == 2023]
df_sorted = tahun_tertentu.sort_values(by='penumpang_turun_kereta', ascending=False)

df_sorted.head(5)


In [None]:
# Kelompokkan data berdasarkan kota dan hitung total penumpang
jumlah_penumpang_per_kota = sumpenggunakereta.groupby('kabupaten_kota')['penumpang_naik_kereta'].sum()

# Urutkan berdasarkan jumlah penumpang (descending)
jumlah_penumpang_per_kota = jumlah_penumpang_per_kota.sort_values(ascending=False)

# Tampilkan 5 kota dengan jumlah penumpang tertinggi
jumlah_penumpang_per_kota.head(5)

In [None]:
# Melihat umk 5 terkecil

tahun_tertentu = umk[umk['tahun'] == 2022]
df_sorted = tahun_tertentu.sort_values(by='besaran_upah_minimum', ascending=False)
df_sorted.tail(5)

In [None]:
# Melihat umk 5 terkecil

tahun_tertentu = umk[umk['tahun'] == 2023]
df_sorted = tahun_tertentu.sort_values(by='besaran_upah_minimum', ascending=False)
df_sorted.tail(5)

In [None]:
# Melihat kota dengan luas daerah km2

df_sorted = luasdaerah.sort_values(by='luas_daerah_km2', ascending=False)
df_sorted.head(10)

In [None]:
# Melihat rata-rata UMK di jawa barat
umk_mean = umk['besaran_upah_minimum'].mean()
umk_mean

In [None]:
# Melihat jumlah sepeda motor terbanyak pada tahun 2022

tahun_tertentu = sumkendaraanmotor[sumkendaraanmotor['tahun'] == 2022]
df_sorted = tahun_tertentu.sort_values(by='sepeda_motor', ascending=False)
df_sorted.head(5)

In [None]:
# Menghitung berapa persen tiap kendaraan terhadap yang lain dimiliki oleh warga kota di jawa barat

# Hitung total kendaraan per baris
sumkendaraanmotor['total_kendaraan'] = sumkendaraanmotor[['mobil_penumpang', 'bus', 'truk', 'sepeda_motor']].sum(axis=1)

# Hitung persentase untuk masing-masing jenis kendaraan
sumkendaraanmotor['persen_mobil_penumpang'] = (sumkendaraanmotor['mobil_penumpang'] / sumkendaraanmotor['total_kendaraan']) * 100
sumkendaraanmotor['persen_bus'] = (sumkendaraanmotor['bus'] / sumkendaraanmotor['total_kendaraan']) * 100
sumkendaraanmotor['persen_truk'] = (sumkendaraanmotor['truk'] / sumkendaraanmotor['total_kendaraan']) * 100
sumkendaraanmotor['persen_sepeda_motor'] = (sumkendaraanmotor['sepeda_motor'] / sumkendaraanmotor['total_kendaraan']) * 100

# Set pandas display options untuk menampilkan hanya 2 angka di belakang koma
pd.options.display.float_format = '{:.2f}'.format
# Tampilkan hasilnya
print(sumkendaraanmotor[['kabupaten_kota', 'persen_mobil_penumpang', 'persen_bus', 'persen_truk', 'persen_sepeda_motor']])