# **Import Library**

In [1]:
import io
from typing import Optional
import numpy as np
import pandas as pd

# **Load Dataset**

In [2]:
file_path = "datasets/data_inovasi.xlsx"
df = pd.read_excel(file_path)
df.head()

Unnamed: 0,No,Judul Inovasi,Pemda,Admin OPD,Inisiator,Nama Inisiator,Bentuk Inovasi,Jenis,Asta Cipta,Urusan Utama,Urusan lain yang beririsan,Kematangan,Tahapan Inovasi,Tanggal Input,Tanggal Penerapan,Tanggal Pengembangan,Koordinat,Video,Link Video
0,1,POP SURGA (Penghantaran Obat Pasien Sumberglagah),Provinsi Jawa Timur,Dinas Kesehatan UPT. RSK Sumberglagah Mojokert...,Kepala Daerah,"drg. SHINTA SAWITRI, M.Kes",Inovasi pelayanan publik,Digital,Memperkuat pembangunan sumber daya manusia (SD...,kesehatan,pekerjaan umum dan penataan ruang,85.0,Penerapan,22-07-2022,29-11-2023,-,"-7.60739065953564, 112.54078722662341",Ada,https://www.youtube.com/watch?v=o_TedznOu3U
1,2,PHEC (Pre Hospital Emergency Care),Provinsi Jawa Timur,Dinas Kesehatan UPT. RSK Sumberglagah Mojokert...,OPD,"drg. SHINTA SAWITRI, M.Kes",Inovasi pelayanan publik,Non Digital,Memperkuat pembangunan sumber daya manusia (SD...,pendidikan,kesehatan,92.0,Penerapan,22-07-2022,24-06-2023,-,"-7.6073109183015, 112.54072288029913",Ada,https://youtu.be/TJaII4_0UkI
2,3,Naskah Dinas Elektronik (NADINE),Provinsi Jawa Timur,Badan Koordinasi Wilayah Pamekasan Provinsi Ja...,OPD,"Dra. SUFI AGUSTINI, M.Si",Inovasi tata kelola pemerintahan daerah,Teknologi,"Memperkuat reformasi politik, hukum, dan birok...",kearsipan,Fungsi Penunjang lainnya sesuai dengan ketentu...,110.0,Penerapan,20-06-2023,31-12-2024,31-12-2024,"-7.158553824257441, 113.48272568540575",Ada,https://drive.google.com/file/d/192dhJGWtC4lDc...
3,4,PERMATA ( Pertanian Ramah Lingkungan menuju Ma...,Provinsi Jawa Timur,Dinas Pertanian dan Ketahanan Pangan (jatimpro...,OPD,-,Inovasi Daerah lainnya sesuai dengan Urusan Pe...,Digital,-,pertanian,,60.0,Uji Coba,26-06-2023,25-09-2023,-,,Tidak Ada,-
4,5,SIGALON,Provinsi Jawa Timur,Dinas Kesehatan UPT. RS Mata Masyarakat (jatim...,OPD,-,Inovasi pelayanan publik,Digital,-,kesehatan,,52.0,Penerapan,10-07-2023,10-07-2023,-,,Ada,https://drive.google.com/file/d/1JKCIqN4TRVL-O...


In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 679 entries, 0 to 678
Data columns (total 19 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   No                          679 non-null    int64  
 1   Judul Inovasi               679 non-null    object 
 2   Pemda                       679 non-null    object 
 3   Admin OPD                   679 non-null    object 
 4   Inisiator                   679 non-null    object 
 5   Nama Inisiator              679 non-null    object 
 6   Bentuk Inovasi              679 non-null    object 
 7   Jenis                       679 non-null    object 
 8   Asta Cipta                  679 non-null    object 
 9   Urusan Utama                679 non-null    object 
 10  Urusan lain yang beririsan  463 non-null    object 
 11  Kematangan                  679 non-null    float64
 12  Tahapan Inovasi             679 non-null    object 
 13  Tanggal Input               679 non

# **Exploratory Data Analysis (EDA)**

In [4]:
df["Judul Inovasi"].unique()

array(['POP SURGA (Penghantaran Obat Pasien Sumberglagah)',
       'PHEC (Pre Hospital Emergency Care)',
       'Naskah Dinas Elektronik (NADINE)',
       'PERMATA ( Pertanian Ramah Lingkungan menuju Masyarakat Tangguh dan Alamiah )',
       'SIGALON', 'e-DESI (Deteksi Hipertensi Secara Mandiri)',
       ' Si Onde ( aplikaSI ONe Day sErvice )',
       'SPORTOFOLIO - Portfolio Digital Pembelajaran PJOK di Indonesia',
       'SMANSI-ku - Aplikasi Panduan Informasi Untuk Siswa SMAN 1 SINE',
       '‘E-KOMITE’ SISTEM MONITORING PELAYANAN PARTISIPASI SUMBANGAN MASYARAKAT UNTUK PENINGKATAN  MUTU PENDIDIKAN',
       'MY FAVORITE TEMPE',
       'PEMBUATAN KAOS DAN SISIR KAYU INOVASI MODEL TERBARU',
       '"Inovasi Terkini dalam Pengolahan Makanan: Menciptakan Kelezatan dan Nutrisi yang Lebih Sehat"',
       '"GURITON" Yogurt Sari Beton Inovasi Minuman Fermentasi dari Beton Nangka  (Artocarpus Heterophyllus)',
       'APEL BAJA (APLIKASI PELAYANAN BARANG / JASA) Provinsi Jawa Timur',
       'S

In [5]:
total_inovasi = df["Judul Inovasi"].nunique()
print("Total inovasi:", total_inovasi)

Total inovasi: 664


In [6]:
df["Bentuk Inovasi"].unique()

array(['Inovasi pelayanan publik',
       'Inovasi tata kelola pemerintahan daerah',
       'Inovasi Daerah lainnya sesuai dengan Urusan Pemerintahan yang menjadi kewenangan Daerah'],
      dtype=object)

# **Preprocessing**

In [7]:
# Hapus duplikat
def remove_duplicates(df: pd.DataFrame) -> pd.DataFrame:
    return df.drop_duplicates()

In [8]:
# Konversi numerik
def clean_numeric_columns(df: pd.DataFrame) -> pd.DataFrame:
    if 'Kematangan' in df.columns:
        df['Kematangan'] = pd.to_numeric(df['Kematangan'], errors='coerce')
    return df

In [9]:
# parsing date
def clean_date_columns(df: pd.DataFrame, date_cols: list[str]) -> pd.DataFrame:
    for col in date_cols:
        if col in df.columns:
            df[col] = (
                df[col]
                .replace(['-', '', 'nan', 'NaN'], np.nan)
                .pipe(pd.to_datetime, errors='coerce', dayfirst=True)
            )
    return df

In [10]:
# Pemecahan koordinat
def clean_coordinates(df: pd.DataFrame) -> pd.DataFrame:
    if 'Koordinat' in df.columns:
        coords = df['Koordinat'].astype(str).str.split(',', n=1, expand=True)
        df['lat'] = pd.to_numeric(coords[0], errors='coerce')
        df['lon'] = pd.to_numeric(coords[1], errors='coerce')
    else:
        if 'lat' in df.columns:
            df['lat'] = pd.to_numeric(df['lat'], errors='coerce')
        if 'lon' in df.columns:
            df['lon'] = pd.to_numeric(df['lon'], errors='coerce')
    return df

In [11]:
# Cleaning kategorik
def clean_categorical_columns(
    df: pd.DataFrame,
    cat_cols: list[str]
) -> pd.DataFrame:
    for col in cat_cols:
        if col in df.columns:
            df[col] = (
                df[col]
                .astype(str)
                .replace(['nan', 'NaN', 'None'], np.nan)
            )
    return df

In [12]:
# Grouping admin OPD
def add_admin_opd_group(df: pd.DataFrame) -> pd.DataFrame:
    if 'Admin OPD' not in df.columns:
        return df

    def categorize(admin):
        if pd.isna(admin):
            return "Lainnya"

        text = str(admin).lower()
        if any(x in text for x in ['sma', 'smk', 'slb']):
            return "Dinas Pendidikan"
        if "iga2025.provinsi.jawa.timur" in text:
            return "Admin IGA 2025"

        return str(admin).split('.')[0].strip().title()

    df['Admin OPD Grouped'] = df['Admin OPD'].apply(categorize)
    return df

In [13]:
# Pipeline cleaning
def clean_data_pipeline(df: pd.DataFrame) -> pd.DataFrame:
    df = remove_duplicates(df)
    df = clean_numeric_columns(df)
    df = clean_date_columns(
        df,
        ['Tanggal Input', 'Tanggal Penerapan', 'Tanggal Pengembangan']
    )
    df = clean_coordinates(df)
    df = clean_categorical_columns(
        df,
        [
            'Jenis',
            'Bentuk Inovasi',
            'Admin OPD',
            'Kategori Admin OPD',
            'Urusan Utama',
            'Asta Cipta',
            'Daerah'
        ]
    )
    df = add_admin_opd_group(df)
    return df

df = clean_data_pipeline(df)
df.head()

Unnamed: 0,No,Judul Inovasi,Pemda,Admin OPD,Inisiator,Nama Inisiator,Bentuk Inovasi,Jenis,Asta Cipta,Urusan Utama,...,Tahapan Inovasi,Tanggal Input,Tanggal Penerapan,Tanggal Pengembangan,Koordinat,Video,Link Video,lat,lon,Admin OPD Grouped
0,1,POP SURGA (Penghantaran Obat Pasien Sumberglagah),Provinsi Jawa Timur,Dinas Kesehatan UPT. RSK Sumberglagah Mojokert...,Kepala Daerah,"drg. SHINTA SAWITRI, M.Kes",Inovasi pelayanan publik,Digital,Memperkuat pembangunan sumber daya manusia (SD...,kesehatan,...,Penerapan,2022-07-22,2023-11-29,NaT,"-7.60739065953564, 112.54078722662341",Ada,https://www.youtube.com/watch?v=o_TedznOu3U,-7.607391,112.540787,Dinas Kesehatan Upt
1,2,PHEC (Pre Hospital Emergency Care),Provinsi Jawa Timur,Dinas Kesehatan UPT. RSK Sumberglagah Mojokert...,OPD,"drg. SHINTA SAWITRI, M.Kes",Inovasi pelayanan publik,Non Digital,Memperkuat pembangunan sumber daya manusia (SD...,pendidikan,...,Penerapan,2022-07-22,2023-06-24,NaT,"-7.6073109183015, 112.54072288029913",Ada,https://youtu.be/TJaII4_0UkI,-7.607311,112.540723,Dinas Kesehatan Upt
2,3,Naskah Dinas Elektronik (NADINE),Provinsi Jawa Timur,Badan Koordinasi Wilayah Pamekasan Provinsi Ja...,OPD,"Dra. SUFI AGUSTINI, M.Si",Inovasi tata kelola pemerintahan daerah,Teknologi,"Memperkuat reformasi politik, hukum, dan birok...",kearsipan,...,Penerapan,2023-06-20,2024-12-31,2024-12-31,"-7.158553824257441, 113.48272568540575",Ada,https://drive.google.com/file/d/192dhJGWtC4lDc...,-7.158554,113.482726,Badan Koordinasi Wilayah Pamekasan Provinsi Ja...
3,4,PERMATA ( Pertanian Ramah Lingkungan menuju Ma...,Provinsi Jawa Timur,Dinas Pertanian dan Ketahanan Pangan (jatimpro...,OPD,-,Inovasi Daerah lainnya sesuai dengan Urusan Pe...,Digital,-,pertanian,...,Uji Coba,2023-06-26,2023-09-25,NaT,,Tidak Ada,-,,,Dinas Pertanian Dan Ketahanan Pangan (Jatimprov
4,5,SIGALON,Provinsi Jawa Timur,Dinas Kesehatan UPT. RS Mata Masyarakat (jatim...,OPD,-,Inovasi pelayanan publik,Digital,-,kesehatan,...,Penerapan,2023-07-10,2023-07-10,NaT,,Ada,https://drive.google.com/file/d/1JKCIqN4TRVL-O...,,,Dinas Kesehatan Upt


In [14]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 679 entries, 0 to 678
Data columns (total 22 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   No                          679 non-null    int64         
 1   Judul Inovasi               679 non-null    object        
 2   Pemda                       679 non-null    object        
 3   Admin OPD                   679 non-null    object        
 4   Inisiator                   679 non-null    object        
 5   Nama Inisiator              679 non-null    object        
 6   Bentuk Inovasi              679 non-null    object        
 7   Jenis                       679 non-null    object        
 8   Asta Cipta                  679 non-null    object        
 9   Urusan Utama                679 non-null    object        
 10  Urusan lain yang beririsan  463 non-null    object        
 11  Kematangan                  679 non-null    float64       

In [None]:
df['Kematangan'] = (
    df['Kematangan']
    .round(0)
    .astype('Int64')
)

In [None]:
df.to_csv("datasets/data_inovasi_clean.csv", index=False)