# Tugas Data Mining Preprocessing

Nama : Rizqie Adri Ananto
NIM  : A11.2023.15187

Source Dataset : https://www.bps.go.id/id/statistics-table/2/MjQ2NSMy/rata-rata-pendapatan-bersih-sebulan-pekerja--berusaha-sendiri-menurut-provinsi-dan-lapangan-pekerjaan-utama--ribu-rupiah-.html

In [1]:
# 1. Impor Library dan Tentukan Nama File
import pandas as pd
import numpy as np

file_path = 'Rata-Rata Pendapatan Bersih Sebulan Pekerja  Berusaha Sendiri Menurut Provinsi dan Lapangan Pekerjaan Utama, 2025.csv'

print(f"Akan memproses file: {file_path}")

Akan memproses file: Rata-Rata Pendapatan Bersih Sebulan Pekerja  Berusaha Sendiri Menurut Provinsi dan Lapangan Pekerjaan Utama, 2025.csv


In [2]:
# 2. Muat dan Bersihkan Data
try:
    # skiprows=2 digunakan untuk melewati 2 baris judul di atas header tabel
    df = pd.read_csv(file_path, skiprows=2)
    print("Berhasil memuat file CSV.")
except FileNotFoundError:
    print(f"Error: File '{file_path}' tidak ditemukan.")
    print("Pastikan file CSV berada di folder yang sama dengan notebook ini.")

# Mengganti nama kolom pertama menjadi 'Provinsi'
df.rename(columns={df.columns[0]: 'Provinsi'}, inplace=True)

# Menghapus baris yang semua nilainya kosong (jika ada)
df.dropna(how='all', inplace=True)

df.head()

Berhasil memuat file CSV.


Unnamed: 0,Provinsi,Pertanian,Unnamed: 2,Unnamed: 3,Industri,Unnamed: 5,Unnamed: 6,Jasa,Unnamed: 8,Unnamed: 9,Jumlah,Unnamed: 11,Unnamed: 12
0,,2025,,,2025,,,2025,,,2025,,
1,,Februari,Agustus,Tahunan,Februari,Agustus,Tahunan,Februari,Agustus,Tahunan,Februari,Agustus,Tahunan
2,ACEH,2301.5,-,-,1790,-,-,2163.7,-,-,2126.7,-,-
3,SUMATERA UTARA,1157.2,-,-,1728.5,-,-,2140.5,-,-,1849.4,-,-
4,SUMATERA BARAT,1326.1,-,-,1569.3,-,-,2147.3,-,-,1828.7,-,-


In [3]:
# Sel 4: 3. Merapikan Data (Reshape dari Wide ke Long)

# Menggunakan pd.melt untuk mengubah bentuk tabel
# Ini mengubah kolom-kolom sektor pekerjaan menjadi satu kolom tunggal
df_long = pd.melt(
    df,
    id_vars=['Provinsi'],                  # Kolom ini akan dipertahankan
    var_name='Sektor_Pekerjaan',           # Nama kolom baru untuk sektor
    value_name='Pendapatan_Ribu_Rp'        # Nama kolom baru untuk nilai pendapatan
)

print("--- Data Setelah di-Melt (Long Format) ---")
df_long.head()

--- Data Setelah di-Melt (Long Format) ---


Unnamed: 0,Provinsi,Sektor_Pekerjaan,Pendapatan_Ribu_Rp
0,,Pertanian,2025
1,,Pertanian,Februari
2,ACEH,Pertanian,2301.5
3,SUMATERA UTARA,Pertanian,1157.2
4,SUMATERA BARAT,Pertanian,1326.1


In [4]:
# 4. Pembersihan Akhir dan Konversi Tipe Data

# Mengganti nilai non-numerik (seperti '-') dengan NaN (kosong)
df_long['Pendapatan_Ribu_Rp'] = df_long['Pendapatan_Ribu_Rp'].replace('-', np.nan)

# Menambahkan errors='coerce' untuk menangani teks yang tidak valid secara otomatis
# Ini akan mengubah 'Februari' dan teks lainnya menjadi nilai kosong (NaN)
df_long['Pendapatan_Ribu_Rp'] = pd.to_numeric(df_long['Pendapatan_Ribu_Rp'], errors='coerce')

# Menghapus baris di mana pendapatan tidak memiliki nilai (kosong/NaN)
df_long.dropna(subset=['Pendapatan_Ribu_Rp'], inplace=True)

# Mengubah tipe data kolom pendapatan kembali menjadi integer untuk kebersihan
df_long['Pendapatan_Ribu_Rp'] = df_long['Pendapatan_Ribu_Rp'].astype(int)

print("--- Info DataFrame Final ---")
df_long.info()

print("\n--- Contoh Data Acak yang Sudah Rapi ---")
display(df_long.sample(10))

--- Info DataFrame Final ---
<class 'pandas.core.frame.DataFrame'>
Index: 158 entries, 0 to 409
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Provinsi            154 non-null    object
 1   Sektor_Pekerjaan    158 non-null    object
 2   Pendapatan_Ribu_Rp  158 non-null    int64 
dtypes: int64(1), object(2)
memory usage: 4.9+ KB

--- Contoh Data Acak yang Sudah Rapi ---


Unnamed: 0,Provinsi,Sektor_Pekerjaan,Pendapatan_Ribu_Rp
255,LAMPUNG,Jasa,1922
382,JAWA BARAT,Jumlah,1939
253,SUMATERA SELATAN,Jasa,1930
157,PAPUA BARAT,Industri,1598
10,KEP. BANGKA BELITUNG,Pertanian,2521
248,ACEH,Jasa,2163
286,INDONESIA,Jasa,2093
262,JAWA TIMUR,Jasa,1669
15,DI YOGYAKARTA,Pertanian,785
127,SUMATERA BARAT,Industri,1569


In [5]:
# 5. Simpan Hasil ke CSV Baru

output_filename = 'pendapatan_bersih_2025.csv'
df_long.to_csv(output_filename, index=False)

print(f"Selesai! Data yang sudah bersih dan rapi telah disimpan sebagai '{output_filename}'")

Selesai! Data yang sudah bersih dan rapi telah disimpan sebagai 'pendapatan_bersih_2025.csv'


In [6]:
# Untuk membaca File CSV yang baru
import pandas as pd

nama_file = 'pendapatan_bersih_2025.csv'
df = pd.read_csv(nama_file)

# Menampilkan DataFrame
df

Unnamed: 0,Provinsi,Sektor_Pekerjaan,Pendapatan_Ribu_Rp
0,,Pertanian,2025
1,ACEH,Pertanian,2301
2,SUMATERA UTARA,Pertanian,1157
3,SUMATERA BARAT,Pertanian,1326
4,RIAU,Pertanian,2091
...,...,...,...
153,PAPUA,Jumlah,2461
154,PAPUA SELATAN,Jumlah,2636
155,PAPUA TENGAH,Jumlah,2168
156,PAPUA PEGUNUNGAN,Jumlah,1991


In [7]:
# Menampilkan sample acak dari file CSV yang baru
df.sample(5)

Unnamed: 0,Provinsi,Sektor_Pekerjaan,Pendapatan_Ribu_Rp
140,KALIMANTAN SELATAN,Jumlah,1992
66,SULAWESI SELATAN,Industri,1809
154,PAPUA SELATAN,Jumlah,2636
113,PAPUA,Jasa,2961
37,PAPUA TENGAH,Pertanian,1821
