## Import Library 

In [50]:
import io
import re 
import numpy as np
import pandas as pd
import matplotlib as plt
from typing import Optional

## Load Dataset

In [None]:
file_path = "../data_inovasi.xlsx"
df = pd.read_excel(file_path)
df.head()

Unnamed: 0,No,Judul Inovasi,Pemda,Admin OPD,Inisiator,Nama Inisiator,Bentuk Inovasi,Jenis,Asta Cipta,Urusan Utama,Urusan lain yang beririsan,Kematangan,Tahapan Inovasi,Tanggal Input,Tanggal Penerapan,Tanggal Pengembangan,Koordinat,Video,Link Video
0,1,POP SURGA (Penghantaran Obat Pasien Sumberglagah),Provinsi Jawa Timur,Dinas Kesehatan UPT. RSK Sumberglagah Mojokert...,Kepala Daerah,"drg. SHINTA SAWITRI, M.Kes",Inovasi pelayanan publik,Digital,Memperkuat pembangunan sumber daya manusia (SD...,kesehatan,pekerjaan umum dan penataan ruang,85.0,Penerapan,22-07-2022,29-11-2023,-,"-7.60739065953564, 112.54078722662341",Ada,https://www.youtube.com/watch?v=o_TedznOu3U
1,2,PHEC (Pre Hospital Emergency Care),Provinsi Jawa Timur,Dinas Kesehatan UPT. RSK Sumberglagah Mojokert...,OPD,"drg. SHINTA SAWITRI, M.Kes",Inovasi pelayanan publik,Non Digital,Memperkuat pembangunan sumber daya manusia (SD...,pendidikan,kesehatan,92.0,Penerapan,22-07-2022,24-06-2023,-,"-7.6073109183015, 112.54072288029913",Ada,https://youtu.be/TJaII4_0UkI
2,3,Naskah Dinas Elektronik (NADINE),Provinsi Jawa Timur,Badan Koordinasi Wilayah Pamekasan Provinsi Ja...,OPD,"Dra. SUFI AGUSTINI, M.Si",Inovasi tata kelola pemerintahan daerah,Teknologi,"Memperkuat reformasi politik, hukum, dan birok...",kearsipan,Fungsi Penunjang lainnya sesuai dengan ketentu...,110.0,Penerapan,20-06-2023,31-12-2024,31-12-2024,"-7.158553824257441, 113.48272568540575",Ada,https://drive.google.com/file/d/192dhJGWtC4lDc...
3,4,PERMATA ( Pertanian Ramah Lingkungan menuju Ma...,Provinsi Jawa Timur,Dinas Pertanian dan Ketahanan Pangan (jatimpro...,OPD,-,Inovasi Daerah lainnya sesuai dengan Urusan Pe...,Digital,-,pertanian,,60.0,Uji Coba,26-06-2023,25-09-2023,-,,Tidak Ada,-
4,5,SIGALON,Provinsi Jawa Timur,Dinas Kesehatan UPT. RS Mata Masyarakat (jatim...,OPD,-,Inovasi pelayanan publik,Digital,-,kesehatan,,52.0,Penerapan,10-07-2023,10-07-2023,-,,Ada,https://drive.google.com/file/d/1JKCIqN4TRVL-O...


## Data Checking

In [52]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 679 entries, 0 to 678
Data columns (total 19 columns):
 #   Column                      Non-Null Count  Dtype  
---  ------                      --------------  -----  
 0   No                          679 non-null    int64  
 1   Judul Inovasi               679 non-null    object 
 2   Pemda                       679 non-null    object 
 3   Admin OPD                   679 non-null    object 
 4   Inisiator                   679 non-null    object 
 5   Nama Inisiator              679 non-null    object 
 6   Bentuk Inovasi              679 non-null    object 
 7   Jenis                       679 non-null    object 
 8   Asta Cipta                  679 non-null    object 
 9   Urusan Utama                679 non-null    object 
 10  Urusan lain yang beririsan  463 non-null    object 
 11  Kematangan                  679 non-null    float64
 12  Tahapan Inovasi             679 non-null    object 
 13  Tanggal Input               679 non

## Exploratory Data Analysis (EDA)

In [None]:
null_columns = df.isnull().sum()
null_columns[null_columns > 0]

Urusan lain yang beririsan    216
Koordinat                      92
dtype: int64

In [None]:
dash_count = (df == "-").sum()
dash_count[dash_count > 0].sort_values(ascending=False)

Tanggal Pengembangan    294
Link Video              108
Asta Cipta               92
Nama Inisiator           10
dtype: int64

In [55]:
# check uniqe value
unique_values = {col: df[col].nunique() for col in df.columns}
unique_values

{'No': 679,
 'Judul Inovasi': 664,
 'Pemda': 1,
 'Admin OPD': 292,
 'Inisiator': 4,
 'Nama Inisiator': 552,
 'Bentuk Inovasi': 3,
 'Jenis': 3,
 'Asta Cipta': 9,
 'Urusan Utama': 31,
 'Urusan lain yang beririsan': 132,
 'Kematangan': 89,
 'Tahapan Inovasi': 3,
 'Tanggal Input': 80,
 'Tanggal Penerapan': 378,
 'Tanggal Pengembangan': 243,
 'Koordinat': 418,
 'Video': 2,
 'Link Video': 569}

In [56]:
# Unique values for key categorical columns
categorical_cols = [
    "Bentuk Inovasi",
    "Jenis",
    "Tahapan Inovasi",
    "Inisiator",
    "Asta Cipta",
    "Urusan Utama",
    "Urusan lain yang beririsan"
]

for col in categorical_cols:
    print(f"\nDistribusi {col}:")
    temp = df[col].value_counts().reset_index()
    temp.columns = [col, "Jumlah"]
    print(temp)


Distribusi Bentuk Inovasi:
                                      Bentuk Inovasi  Jumlah
0                           Inovasi pelayanan publik     444
1  Inovasi Daerah lainnya sesuai dengan Urusan Pe...     185
2            Inovasi tata kelola pemerintahan daerah      50

Distribusi Jenis:
         Jenis  Jumlah
0  Non Digital     346
1      Digital     234
2    Teknologi      99

Distribusi Tahapan Inovasi:
  Tahapan Inovasi  Jumlah
0       Penerapan     648
1       Inisiatif      22
2        Uji Coba       9

Distribusi Inisiator:
       Inisiator  Jumlah
0            ASN     362
1            OPD     226
2  Kepala Daerah      49
3     Masyarakat      42

Distribusi Asta Cipta:
                                          Asta Cipta  Jumlah
0  Memperkuat pembangunan sumber daya manusia (SD...     400
1                                                  -      92
2  Meningkatkan lapangan kerja yang berkualitas, ...      62
3  Memperkuat penyelarasan kehidupan yang harmoni...      39
4  Memp

In [57]:
# Total Inovasi
total_inovasi = df["Judul Inovasi"].nunique()
print("Total inovasi:", total_inovasi)

Total inovasi: 664


In [58]:
print("Jumlah data duplikat:", df.duplicated(keep=False).sum())

Jumlah data duplikat: 0


In [59]:
# Check data Inovasi terduplikat
df_check = df.copy()
df_check["judul_raw"] = df_check["Judul Inovasi"].astype(str)

df_check["judul_clean"] = (
    df_check["judul_raw"]
    .str.strip()
    .str.replace(r"\s+", " ", regex=True)
)

df_check["judul_norm"] = (
    df_check["judul_clean"]
    .str.lower()
    .str.replace("“", '"')
    .str.replace("”", '"')
    .str.replace("’", "'")
    .str.replace("‘", "'")
    .str.replace(r"[^a-z0-9\s]", "", regex=True)
)

dup_group = (
    df_check
    .groupby("judul_norm")
    .size()
    .reset_index(name="jumlah")
    .query("jumlah > 1")
)

print("Jumlah judul yang terduplikat :", len(dup_group))

dup_norm = df_check[df_check.duplicated(subset=["judul_norm"], keep=False)]
columns = [
    "judul_raw",
    "judul_clean",
    "judul_norm",
    "Admin OPD",
    "Inisiator",
    "Nama Inisiator",
    "Jenis",
    "Kematangan",
    "Tahapan Inovasi",
    "Tanggal Input",
    "Tanggal Penerapan",
    "Tanggal Pengembangan"
]

df_duplicate = (
    dup_norm[columns]
    .sort_values(by=["judul_norm", "Admin OPD"])
    .reset_index(drop=True)
)

df_duplicate

Jumlah judul yang terduplikat : 20


Unnamed: 0,judul_raw,judul_clean,judul_norm,Admin OPD,Inisiator,Nama Inisiator,Jenis,Kematangan,Tahapan Inovasi,Tanggal Input,Tanggal Penerapan,Tanggal Pengembangan
0,BATA MERDEKA,BATA MERDEKA,bata merdeka,SMA Negeri 1 Jombang (iga2024.sma.n.1.jombang),ASN,"ZAGLUL RIJAL PASHA, S.Pd DKK",Non Digital,0.0,Penerapan,30-07-2025,01-11-2024,-
1,BATA MERDEKA,BATA MERDEKA,bata merdeka,SMA Negeri 1 Jombang (iga2024.sma.n.1.jombang),OPD,"ZAGHLUL RIJAL PHASA, S. Pd. DKK",Non Digital,101.0,Penerapan,01-08-2025,06-08-2024,-
2,DAKSA BUDAYA,DAKSA BUDAYA,daksa budaya,Dinas Kebudayaan dan Pariwisata Provinsi Jawa ...,OPD,"Evy Afianasari, S.T., M.M.A",Digital,111.0,Penerapan,20-08-2025,04-03-2024,04-03-2024
3,DAKSA BUDAYA,DAKSA BUDAYA,daksa budaya,admin.jawa.timur (iga2025.provinsi.jawa.timur),OPD,"Evy Afianasari, S.T, MMA",Digital,9.0,Penerapan,19-08-2025,02-01-2023,02-01-2024
4,DIGDAYA: Digitalisasi untuk Mewujudkan Kedisip...,DIGDAYA: Digitalisasi untuk Mewujudkan Kedisip...,digdaya digitalisasi untuk mewujudkan kedisipl...,SMAN 2 PONOROGO (jatimprov.dispendik.sman2pon...,ASN,"Zanwar Sugiartoko, S.Kom",Digital,107.0,Penerapan,29-07-2025,15-07-2024,-
5,DIGDAYA: Digitalisasi untuk Mewujudkan Kedisip...,DIGDAYA: Digitalisasi untuk Mewujudkan Kedisip...,digdaya digitalisasi untuk mewujudkan kedisipl...,SMAN 2 PONOROGO (iga2024.sman.2.ponorogo),ASN,"Zanwar Sugiartoko, S.Kom",Digital,99.0,Penerapan,05-08-2024,15-07-2024,-
6,‘E-KOMITE’ SISTEM MONITORING PELAYANAN PARTISI...,‘E-KOMITE’ SISTEM MONITORING PELAYANAN PARTISI...,ekomite sistem monitoring pelayanan partisipas...,"SMK NEGERI 1 KARE, KAB MADIUN (jatimprov.dispe...",ASN,-,Digital,0.0,Penerapan,15-07-2023,27-09-2023,-
7,‘E-KOMITE’ SISTEM MONITORING PELAYANAN PARTISI...,‘E-KOMITE’ SISTEM MONITORING PELAYANAN PARTISI...,ekomite sistem monitoring pelayanan partisipas...,"SMK NEGERI 1 KARE, KAB MADIUN (jatimprov.dispe...",ASN,"SEPTA KRISDIYANTO, M.Pd.",Digital,99.0,Penerapan,25-07-2024,27-09-2023,18-12-2023
8,“E-PKL (Elektronik Praktik Kerja Lapangan)” SM...,“E-PKL (Elektronik Praktik Kerja Lapangan)” SM...,epkl elektronik praktik kerja lapangan smkn 12...,Smkn 12 surabaya (iga2025.smkn12surabaya),ASN,Cone Kustarto Arifin,Digital,0.0,Penerapan,24-07-2025,02-01-2025,-
9,“E-PKL (Elektronik Praktik Kerja Lapangan)” SM...,“E-PKL (Elektronik Praktik Kerja Lapangan)” SM...,epkl elektronik praktik kerja lapangan smkn 12...,Smkn 12 surabaya (iga2025.smkn12surabaya),ASN,Cone Kustarto Arifin,Digital,82.0,Penerapan,24-07-2025,07-10-2024,-


# **Preprocessing**

In [60]:
df_clean = df.copy()

In [61]:
# merapikan nama kolom (lower case)
df_clean.columns = (
    df_clean.columns
    .str.lower()
    .str.replace(' ', '_')
    .str.replace('.', '', regex=False)
)

string_cols = df_clean.select_dtypes(include="object").columns
for col in string_cols:
    df_clean[col] = df_clean[col].str.strip()

In [62]:
# Standarisasi missing value ("-" diganti NaN (kecuali link_video))
for col in df_clean.columns:
    if col != "link_video":
        df_clean[col] = df_clean[col].replace("-", np.nan)

In [63]:
# Konversi column date
date_cols = [
    "tanggal_input",
    "tanggal_pengembangan",
    "tanggal_penerapan"
]

for col in date_cols:
    df_clean[col] = pd.to_datetime(df_clean[col], errors="coerce")

  df_clean[col] = pd.to_datetime(df_clean[col], errors="coerce")
  df_clean[col] = pd.to_datetime(df_clean[col], errors="coerce")
  df_clean[col] = pd.to_datetime(df_clean[col], errors="coerce")


In [64]:
# Penanganan kolom kategorikal null
df_clean["urusan_lain_yang_beririsan"] = (
    df_clean["urusan_lain_yang_beririsan"]
    .fillna("Tidak Ada")
)

df_clean["nama_inisiator"] = (
    df_clean["nama_inisiator"]
    .replace("-", pd.NA)
    .fillna("Tidak Disebutkan")
)

df_clean["asta_cipta"] = (
    df_clean["asta_cipta"]
    .replace("-", pd.NA)
    .fillna("Tidak Diisi")
)

In [65]:
# Konversi numerik column 'kematangan'
df_clean['kematangan'] = pd.to_numeric(
    df_clean['kematangan'],
    errors='coerce'
)

# hanya hapus nilai negatif
df_clean.loc[
    df_clean['kematangan'] < 0,
    'kematangan'
] = np.nan

In [66]:
# hapus data duplikat berdasarkan nilai kematangan tertinggi
df_clean["judul_key"] = (
    df_clean["judul_inovasi"]
    .astype(str)
    .str.lower()
    .str.strip()
    .str.replace(r"\s+", " ", regex=True)
    .str.replace(r"[^\w\s]", "", regex=True)
)

idx = df_clean.groupby("judul_key")["kematangan"].idxmax()
df_clean = df_clean.loc[idx]
df_clean = df_clean.sort_index()
df_clean = df_clean.drop(columns=["judul_key"])

In [67]:
# labeling nilai kematangan
def label_kematangan(nilai):
    if pd.isna(nilai):
        return np.nan
    elif 0 <= nilai <= 44.99:
        return "Kurang Inovatif"
    elif 45 <= nilai <= 64.99:
        return "Inovatif"
    elif 65 <= nilai <= 111:
        return "Sangat Inovatif"
    else:
        return np.nan

df_clean["label_kematangan"] = df_clean["kematangan"].apply(label_kematangan)

In [68]:
# normalisasi koordinat (lat & lon)
def clean_coordinates(df: pd.DataFrame) -> pd.DataFrame:
    df['lat'] = np.nan
    df['lon'] = np.nan
    
    if 'koordinat' not in df.columns:
        return df

    def parse_coord(text):
        if pd.isna(text) or text == '' or text == '-':
            return np.nan, np.nan
            
        text = str(text).strip()
        
        # POLA 1: Format Decimal Standar (e.g., -7.123, 112.123)
        match_decimal = re.search(r'(-?\d+\.\d+)[,\s]+.*?(-?\d+\.\d+)', text)
        if match_decimal:
            return float(match_decimal.group(1)), float(match_decimal.group(2))

        # POLA 2: Format Koma sebagai Desimal (e.g., -7,123, 112,123).731
        match_comma = re.findall(r'(-?\d+)', text)
        if len(match_comma) >= 4:
            try:
                lat = float(f"{match_comma[0]}.{match_comma[1]}")
                lon = float(f"{match_comma[2]}.{match_comma[3]}")
                if -11 <= lat <= -6 and 110 <= lon <= 116: 
                    return lat, lon
            except:
                pass
        
        return np.nan, np.nan

    coords = df['koordinat'].apply(parse_coord)
    
    df['lat'] = [c[0] for c in coords]
    df['lon'] = [c[1] for c in coords]
    
    df.drop(columns=['koordinat'], inplace=True)
    
    return df

df_clean = clean_coordinates(df_clean)

print(df_clean[['lat', 'lon']].info())
print("\nContoh data yang berhasil diekstrak:")
print(df_clean[['lat', 'lon']].dropna().head())

<class 'pandas.core.frame.DataFrame'>
Index: 659 entries, 0 to 678
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   lat     522 non-null    float64
 1   lon     522 non-null    float64
dtypes: float64(2)
memory usage: 15.4 KB
None

Contoh data yang berhasil diekstrak:
         lat         lon
0  -7.607391  112.540787
1  -7.607311  112.540723
2  -7.158554  113.482726
5  -7.325387  112.731079
14 -6.993797  110.420183


In [69]:
# title case
title_case_cols = [
    "bentuk_inovasi",
    "urusan_utama",
    "urusan_lain_yang_beririsan",
]

for col in title_case_cols:
    df_clean[col] = (
        df_clean[col]
        .astype(str)
        .str.strip()
        .replace("nan", pd.NA)   
        .str.title()
    )

## Pipeline Preprocessing

In [70]:
# # pipeline preprocessing (untuk backend)
# def preprocessing_pipeline(df):
#     df_clean = df.copy()

#     # 1. Rapikan nama kolom
#     df_clean.columns = (
#         df_clean.columns
#         .str.lower()
#         .str.replace(" ", "_")
#         .str.replace(".", "", regex=False)
#     )

#     # 2. Trim semua string
#     string_cols = df_clean.select_dtypes(include="object").columns
#     for col in string_cols:
#         df_clean[col] = df_clean[col].astype(str).str.strip()

#     # 3. Standarisasi missing value kecuali link_video
#     for col in df_clean.columns:
#         if col != "link_video":
#             df_clean[col] = df_clean[col].replace("-", np.nan)

#     # 4. Title Case kolom tertentu
#     title_case_cols = [
#         "bentuk_inovasi",
#         "urusan_utama",
#         "urusan_lain_yang_beririsan",
#         "jenis",
#         "tahapan_inovasi",
#         "video"
#     ]
#     for col in title_case_cols:
#         if col in df_clean.columns:
#             df_clean[col] = df_clean[col].str.title()

#     # 5. Pemecahan koordinat
#     if "koordinat" in df_clean.columns:
#         coords = df_clean["koordinat"].astype(str).str.split(",", n=1, expand=True)
#         df_clean["lat"] = pd.to_numeric(coords[0], errors="coerce")
#         df_clean["lon"] = pd.to_numeric(coords[1], errors="coerce")
#         df_clean.drop(columns=["koordinat"], inplace=True)

#     # 6. Hapus duplikat berdasarkan kematangan tertinggi
#     if "kematangan" in df_clean.columns:
#         df_clean = (
#             df_clean.sort_values("kematangan", ascending=False)
#                     .drop_duplicates(subset=["judul_inovasi", "admin_opd"], keep="first")
#         )

#     # 7. Labeling kematangan
#     def label_kematangan(x):
#         if pd.isna(x):
#             return np.nan
#         elif x < 45:
#             return "Kurang Inovatif"
#         elif x < 65:
#             return "Inovatif"
#         else:
#             return "Sangat Inovatif"

#     if "kematangan" in df_clean.columns:
#         df_clean["label_kematangan"] = df_clean["kematangan"].apply(label_kematangan)

#     return df_clean

# df_clean = preprocessing_pipeline(df)

In [71]:
df_clean.head()

Unnamed: 0,no,judul_inovasi,pemda,admin_opd,inisiator,nama_inisiator,bentuk_inovasi,jenis,asta_cipta,urusan_utama,...,kematangan,tahapan_inovasi,tanggal_input,tanggal_penerapan,tanggal_pengembangan,video,link_video,label_kematangan,lat,lon
0,1,POP SURGA (Penghantaran Obat Pasien Sumberglagah),Provinsi Jawa Timur,Dinas Kesehatan UPT. RSK Sumberglagah Mojokert...,Kepala Daerah,"drg. SHINTA SAWITRI, M.Kes",Inovasi Pelayanan Publik,Digital,Memperkuat pembangunan sumber daya manusia (SD...,Kesehatan,...,85.0,Penerapan,2022-07-22,2023-11-29,NaT,Ada,https://www.youtube.com/watch?v=o_TedznOu3U,Sangat Inovatif,-7.607391,112.540787
1,2,PHEC (Pre Hospital Emergency Care),Provinsi Jawa Timur,Dinas Kesehatan UPT. RSK Sumberglagah Mojokert...,OPD,"drg. SHINTA SAWITRI, M.Kes",Inovasi Pelayanan Publik,Non Digital,Memperkuat pembangunan sumber daya manusia (SD...,Pendidikan,...,92.0,Penerapan,2022-07-22,2023-06-24,NaT,Ada,https://youtu.be/TJaII4_0UkI,Sangat Inovatif,-7.607311,112.540723
2,3,Naskah Dinas Elektronik (NADINE),Provinsi Jawa Timur,Badan Koordinasi Wilayah Pamekasan Provinsi Ja...,OPD,"Dra. SUFI AGUSTINI, M.Si",Inovasi Tata Kelola Pemerintahan Daerah,Teknologi,"Memperkuat reformasi politik, hukum, dan birok...",Kearsipan,...,110.0,Penerapan,2023-06-20,2024-12-31,2024-12-31,Ada,https://drive.google.com/file/d/192dhJGWtC4lDc...,Sangat Inovatif,-7.158554,113.482726
3,4,PERMATA ( Pertanian Ramah Lingkungan menuju Ma...,Provinsi Jawa Timur,Dinas Pertanian dan Ketahanan Pangan (jatimpro...,OPD,Tidak Disebutkan,Inovasi Daerah Lainnya Sesuai Dengan Urusan Pe...,Digital,Tidak Diisi,Pertanian,...,60.0,Uji Coba,2023-06-26,2023-09-25,NaT,Tidak Ada,-,Inovatif,,
4,5,SIGALON,Provinsi Jawa Timur,Dinas Kesehatan UPT. RS Mata Masyarakat (jatim...,OPD,Tidak Disebutkan,Inovasi Pelayanan Publik,Digital,Tidak Diisi,Kesehatan,...,52.0,Penerapan,2023-07-10,2023-07-10,NaT,Ada,https://drive.google.com/file/d/1JKCIqN4TRVL-O...,Inovatif,,


In [72]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 659 entries, 0 to 678
Data columns (total 21 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   no                          659 non-null    int64         
 1   judul_inovasi               659 non-null    object        
 2   pemda                       659 non-null    object        
 3   admin_opd                   659 non-null    object        
 4   inisiator                   659 non-null    object        
 5   nama_inisiator              659 non-null    object        
 6   bentuk_inovasi              659 non-null    object        
 7   jenis                       659 non-null    object        
 8   asta_cipta                  659 non-null    object        
 9   urusan_utama                659 non-null    object        
 10  urusan_lain_yang_beririsan  659 non-null    object        
 11  kematangan                  659 non-null    float64       
 12 

In [73]:
# df.to_csv('data_inovasi_clean.csv', index=False)

In [74]:
df_clean.to_csv("data_inovasi_clean.csv", index=False)