## Preprocessing Data

In [1]:
# Melakukan import library yang akan digunakan
import numpy as np
import pandas as pd
from scipy.interpolate import UnivariateSpline

In [2]:
# Load data
data = pd.read_csv("data raw.csv")
data.head()

Unnamed: 0,Tahun,TPT Jabar,TPAK Jabar,Jumlah Angkatan Kerja Jabar,Pendaftaran Pencari Kerja Jabar,Lowongan Kerja Terdaftar Jabar,Pemenuhan Tenaga Kerja Jabar,Laju Pertumbuhan Ekonomi Indonesia,Laju Pertumbuhan PDRB Jabar,Laju Pertumbuhan Penduduk Jabar,Laju Inflasi Indonesia,Laju Inflasi Bandung,APM Indonesia,IPM Jabar
0,1986,10.35,52.0,10777.0,113425.0,14235.0,9938.0,,6.9,2.57,8.83,10.19,,
1,1987,3.74,51.8,12176912.0,170318.0,41504.0,35262.0,,5.44,2.57,8.9,8.63,,
2,1988,4.24,52.4,13034940.0,169643.0,50830.0,36029.0,,9.11,2.57,5.47,4.5,,
3,1989,4.09,51.1,12628900.0,226599.0,57720.0,49541.0,,8.74,2.57,5.97,5.07,,
4,1990,3.23,51.6,13152203.0,228231.0,66519.0,45556.0,,8.95,2.24,9.53,9.67,,


In [3]:
# Menampilkan informasi dataframe sebelum dilakukan interpolasi
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 14 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Tahun                               36 non-null     int64  
 1   TPT Jabar                           36 non-null     float64
 2   TPAK Jabar                          36 non-null     float64
 3   Jumlah Angkatan Kerja Jabar         33 non-null     float64
 4   Pendaftaran Pencari Kerja Jabar     29 non-null     float64
 5   Lowongan Kerja Terdaftar Jabar      29 non-null     float64
 6   Pemenuhan Tenaga Kerja Jabar        29 non-null     float64
 7   Laju Pertumbuhan Ekonomi Indonesia  24 non-null     float64
 8   Laju Pertumbuhan PDRB Jabar         35 non-null     float64
 9   Laju Pertumbuhan Penduduk Jabar     36 non-null     float64
 10  Laju Inflasi Indonesia              36 non-null     float64
 11  Laju Inflasi Bandung                36 non-null

In [4]:
# Menentukan kolom yang akan diisi missing value dengan spline
kolom_missing_value = ['Jumlah Angkatan Kerja Jabar', 
                'Pendaftaran Pencari Kerja Jabar', 
                'Lowongan Kerja Terdaftar Jabar', 
                'Pemenuhan Tenaga Kerja Jabar', 
                'Laju Pertumbuhan Ekonomi Indonesia', 
                'Laju Pertumbuhan PDRB Jabar',
                'APM Indonesia', 
                'IPM Jabar']
kolom_missing_value

['Jumlah Angkatan Kerja Jabar',
 'Pendaftaran Pencari Kerja Jabar',
 'Lowongan Kerja Terdaftar Jabar',
 'Pemenuhan Tenaga Kerja Jabar',
 'Laju Pertumbuhan Ekonomi Indonesia',
 'Laju Pertumbuhan PDRB Jabar',
 'APM Indonesia',
 'IPM Jabar']

In [5]:
## Iterasi melalui kolom yang perlu diisi missing value dengan spline
for kolom in kolom_missing_value:
    # Menentukan indeks non-null
    non_null_idx = data[data[kolom].notnull()].index
    
    # Membuat interpolasi spline menggunakan indeks non-null sebagai titik-titik kontrol
    spline = UnivariateSpline(non_null_idx, 
                              data[kolom].dropna(), k=1)
    
    # Mengisi missing value hanya jika nilai tersebut adalah missing value
    data[kolom] = data[kolom].mask(pd.isna(data[kolom]), 
                               data.index.to_series().apply(spline))


In [6]:
# Menampilkan informasi dataframe setelah dilakukan interpolasi spline
data.info() 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 14 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Tahun                               36 non-null     int64  
 1   TPT Jabar                           36 non-null     float64
 2   TPAK Jabar                          36 non-null     float64
 3   Jumlah Angkatan Kerja Jabar         36 non-null     float64
 4   Pendaftaran Pencari Kerja Jabar     36 non-null     float64
 5   Lowongan Kerja Terdaftar Jabar      36 non-null     float64
 6   Pemenuhan Tenaga Kerja Jabar        36 non-null     float64
 7   Laju Pertumbuhan Ekonomi Indonesia  36 non-null     float64
 8   Laju Pertumbuhan PDRB Jabar         36 non-null     float64
 9   Laju Pertumbuhan Penduduk Jabar     36 non-null     float64
 10  Laju Inflasi Indonesia              36 non-null     float64
 11  Laju Inflasi Bandung                36 non-null

In [7]:
# Kolom pada dataframe
data.columns

Index(['Tahun', 'TPT Jabar', 'TPAK Jabar', 'Jumlah Angkatan Kerja Jabar',
       'Pendaftaran Pencari Kerja Jabar', 'Lowongan Kerja Terdaftar Jabar',
       'Pemenuhan Tenaga Kerja Jabar', 'Laju Pertumbuhan Ekonomi Indonesia',
       'Laju Pertumbuhan PDRB Jabar', 'Laju Pertumbuhan Penduduk Jabar',
       'Laju Inflasi Indonesia', 'Laju Inflasi Bandung', 'APM Indonesia',
       'IPM Jabar'],
      dtype='object')

In [8]:
interpolated_data = pd.DataFrame(columns=data.columns)

# Jumlah penggandaan data yang diinginkan (dua kali lipat)
n_duplicates = 12

for i in range(len(data) - 1):
    for j in range(n_duplicates):
        t1, t2 = data.iloc[i], data.iloc[i + 1]
        interpolated_point = t1 + (t2 - t1) * (j + 1) / (n_duplicates + 1)
        
        interpolated_point[data.columns] = round(interpolated_point[data.columns], 2)
        interpolated_data = pd.concat([interpolated_data, 
                                       interpolated_point.to_frame().T])


In [9]:
# Menggabungkan baris data pada dataframe
interpolated_data = pd.concat([interpolated_data, 
                               data.iloc[-1].to_frame().T])

# Hasil data yang diperbanyak
interpolated_data.head() 

Unnamed: 0,Tahun,TPT Jabar,TPAK Jabar,Jumlah Angkatan Kerja Jabar,Pendaftaran Pencari Kerja Jabar,Lowongan Kerja Terdaftar Jabar,Pemenuhan Tenaga Kerja Jabar,Laju Pertumbuhan Ekonomi Indonesia,Laju Pertumbuhan PDRB Jabar,Laju Pertumbuhan Penduduk Jabar,Laju Inflasi Indonesia,Laju Inflasi Bandung,APM Indonesia,IPM Jabar
0,1986.08,9.84,51.98,946633.54,117801.38,16332.62,11886.0,2.08,6.79,2.57,8.84,10.07,5.62,67.18
0,1986.15,9.33,51.97,1882490.08,122177.77,18430.23,13834.0,2.09,6.68,2.57,8.84,9.95,5.64,67.18
0,1986.23,8.82,51.95,2818346.62,126554.15,20527.85,15782.0,2.1,6.56,2.57,8.85,9.83,5.65,67.18
0,1986.31,8.32,51.94,3754203.15,130930.54,22625.46,17730.0,2.11,6.45,2.57,8.85,9.71,5.67,67.17
0,1986.38,7.81,51.92,4690059.69,135306.92,24723.08,19678.0,2.13,6.34,2.57,8.86,9.59,5.68,67.17


In [10]:
data_sorted = interpolated_data.sort_values(by='Tahun', 
                                            ascending=True)

In [11]:
data_sorted.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 421 entries, 0 to 35
Data columns (total 14 columns):
 #   Column                              Non-Null Count  Dtype  
---  ------                              --------------  -----  
 0   Tahun                               421 non-null    float64
 1   TPT Jabar                           421 non-null    float64
 2   TPAK Jabar                          421 non-null    float64
 3   Jumlah Angkatan Kerja Jabar         421 non-null    float64
 4   Pendaftaran Pencari Kerja Jabar     421 non-null    float64
 5   Lowongan Kerja Terdaftar Jabar      421 non-null    float64
 6   Pemenuhan Tenaga Kerja Jabar        421 non-null    float64
 7   Laju Pertumbuhan Ekonomi Indonesia  421 non-null    float64
 8   Laju Pertumbuhan PDRB Jabar         421 non-null    float64
 9   Laju Pertumbuhan Penduduk Jabar     421 non-null    float64
 10  Laju Inflasi Indonesia              421 non-null    float64
 11  Laju Inflasi Bandung                421 non-nu