In [27]:
import pandas as pd

# Memuat data alamat
alamat_df = pd.read_excel('Data Alamat.xlsx', sheet_name='SMT')
print(alamat_df.head())
print(f"Baris: {len(alamat_df)} | Kolom: {list(alamat_df.columns)}")


                                              ALAMAT           kecamatan  \
0  SRINANTI RT/RW 005/003 DESA SUNGAI GERONG KEC ...    KEC. BANYUASIN.I   
1  JL. KELAPA LK IV KEL. SUKA MAJU KEC. BINJAI BA...  KEC. BINJAI BARAT    
2  UJUNG PADANG RT/RW -/- KEL. SASAK KEC. SASAK R...                 NaN   
3  DESA ONOWAEMBO KEC. GUNUNGSITOLI IDANOI KOTA G...                 NaN   
4  JL. HUTA DOLOK III RT/RW 000/000 KEL. LBN DOLO...                 NaN   

           kabupaten        area_polreg Province_polreg  
0          BANYUASIN          BANYUASIN  South Sumatera  
1             BINJAI             Binjai  North Sumatera  
2  KAB PASAMAN BARAT  KAB PASAMAN BARAT   West Sumatera  
3      GUNUNG SITOLI               Nias  North Sumatera  
4               TOBA            Samosir  North Sumatera  
Baris: 47815 | Kolom: ['ALAMAT', 'kecamatan', 'kabupaten', 'area_polreg', 'Province_polreg']


In [28]:
# Memuat data referensi kecamatan (BPS 2017)
kecamatan_df = pd.read_excel('Daftar Kecamatan Indonesia BPS 2017.xlsx')
print(kecamatan_df.head())
print(f"Baris: {len(kecamatan_df)} | Kolom: {list(kecamatan_df.columns)}")

   Kecamatan_ID        Kecamatan  Kabupaten_ID      Kabupaten  Provinsi_ID  \
0             0            HUTAN             7         SORONG           91   
1            23     BALABALAKANG             1  ACEH TENGGARA           11   
2           710  CILACAP SELATAN             1       BANYUMAS           33   
3            46        AIR GARAM             2   BOVEN DIGOEL           17   
4           192    AMFOANG TIMUR             1     JAYAWIJAYA           32   

      Provinsi  
0  PAPUA BARAT  
1         ACEH  
2  JAWA TENGAH  
3     BENGKULU  
4       BANTEN  
Baris: 171 | Kolom: ['Kecamatan_ID', 'Kecamatan', 'Kabupaten_ID', 'Kabupaten', 'Provinsi_ID', 'Provinsi']


In [29]:
import re
from rapidfuzz import process, fuzz

STOP_TOKENS = {
    'KABUPATEN', 'KAB', 'KOTA', 'KECAMATAN', 'KEC', 'PROVINSI', 'PROV',
    'KELURAHAN', 'KEL', 'DESA', 'DS', 'RT', 'RW', 'JL', 'JLN', 'JALAN',
    'LINGKUNGAN', 'LK', 'NO', 'NOMOR', 'GANG', 'GG', 'LAINNYA', 'PS', 'PASAR',
    'BLOK', 'DUSUN', 'DSN', 'KOMP', 'COMPLEX'
}

ABBREV_MAP = {
    'KAB.': 'KABUPATEN',
    'KAB ': 'KABUPATEN ',
    'KAB-': 'KABUPATEN ',
    'KOTA ': 'KOTA ',
    'KOT.': 'KOTA',
    'KOTAAdm': 'KOTA',
    'KEC.': 'KECAMATAN',
    'KEC ': 'KECAMATAN ',
    'KCAMATAN': 'KECAMATAN',
    'KCAM.': 'KECAMATAN',
    'KCM.': 'KECAMATAN',
    'KEM.': 'KECAMATAN',
    'D.K.': 'DKI',
}

PUNCT_PATTERN = re.compile(r"[.,/\\-]")
MULTISPACE_PATTERN = re.compile(r"\s+")


def normalize_text(text: str) -> str:
    text = text.upper()
    for src, dst in ABBREV_MAP.items():
        text = text.replace(src, dst)
    text = PUNCT_PATTERN.sub(' ', text)
    text = MULTISPACE_PATTERN.sub(' ', text)
    return text.strip()


def clean_candidate(candidate: str) -> str:
    tokens = []
    for token in candidate.strip().split():
        if token in STOP_TOKENS:
            break
        tokens.append(token)
    return ' '.join(tokens).strip()


def extract_keyword_segment(text: str, keyword: str) -> str:
    keyword = keyword.upper()
    if keyword not in text:
        return ''
    start = text.index(keyword) + len(keyword)
    tail = text[start:]
    # Berhenti ketika menemukan token kata kunci lain
    split = re.split(r"\b(KABUPATEN|KOTA|KECAMATAN|PROVINSI|KELURAHAN|DESA|RT|RW|JL|JALAN|LINGKUNGAN|LK)\b", tail, maxsplit=1)
    candidate = split[0] if split else tail
    return clean_candidate(candidate)


def fuzzy_match(name: str, choices, scorer=fuzz.WRatio, score_cutoff=85, processor=None):
    if not name:
        return ''
    match = process.extractOne(
        name,
        choices,
        scorer=scorer,
        score_cutoff=score_cutoff,
        processor=processor,
    )
    return match[0] if match else ''


In [30]:
# Prepare normalized reference data
kecamatan_df['Kecamatan_norm'] = kecamatan_df['Kecamatan'].apply(normalize_text)
kabupaten_df = kecamatan_df[['Kabupaten']].drop_duplicates().copy()
kabupaten_df['Kabupaten_norm'] = kabupaten_df['Kabupaten'].apply(normalize_text)

kecamatan_choices = list(dict.fromkeys(kecamatan_df['Kecamatan']))
kabupaten_choices = list(dict.fromkeys(kabupaten_df['Kabupaten']))

kecamatan_norm_map = {}
for original, norm in zip(kecamatan_df['Kecamatan'], kecamatan_df['Kecamatan_norm']):
    kecamatan_norm_map.setdefault(norm, original)

kabupaten_norm_map = {}
for original, norm in zip(kabupaten_df['Kabupaten'], kabupaten_df['Kabupaten_norm']):
    kabupaten_norm_map.setdefault(norm, original)


def contains_reference(text: str, norm_map: dict) -> str:
    for norm_name, original in norm_map.items():
        if norm_name and norm_name in text:
            return original
    return ''


def resolve_kecamatan(text: str) -> str:
    candidate = extract_keyword_segment(text, 'KECAMATAN')
    if candidate:
        candidate_norm = normalize_text(candidate)
        if candidate_norm in kecamatan_norm_map:
            return kecamatan_norm_map[candidate_norm]
        match = fuzzy_match(candidate, kecamatan_choices, processor=normalize_text)
        if match:
            return match
    direct = contains_reference(text, kecamatan_norm_map)
    if direct:
        return direct
    match = fuzzy_match(text, kecamatan_choices, processor=normalize_text, score_cutoff=90)
    return match or ''


def resolve_kabupaten(text: str) -> str:
    for keyword in ('KABUPATEN', 'KOTA'):
        candidate = extract_keyword_segment(text, keyword)
        if candidate:
            candidate_norm = normalize_text(candidate)
            if candidate_norm in kabupaten_norm_map:
                return kabupaten_norm_map[candidate_norm]
            match = fuzzy_match(candidate, kabupaten_choices, processor=normalize_text)
            if match:
                return match
    direct = contains_reference(text, kabupaten_norm_map)
    if direct:
        return direct
    match = fuzzy_match(text, kabupaten_choices, processor=normalize_text, score_cutoff=88)
    return match or ''


In [31]:
import numpy as np


def is_nullish(value) -> bool:
    if value is None or (isinstance(value, float) and np.isnan(value)):
        return True
    if isinstance(value, str):
        stripped = value.strip()
        return stripped == '' or stripped.upper() == 'NULL'
    return False


alamat_df['alamat_norm'] = alamat_df['ALAMAT'].astype(str).apply(normalize_text)
needs_kec = alamat_df['kecamatan'].apply(is_nullish)
needs_kab = alamat_df['kabupaten'].apply(is_nullish)

updated_kec = alamat_df['kecamatan'].astype(object).copy()
updated_kab = alamat_df['kabupaten'].astype(object).copy()

for idx, row in alamat_df.loc[needs_kec | needs_kab, ['alamat_norm']].itertuples():
    text = row
    if needs_kec.at[idx]:
        resolved_kec = resolve_kecamatan(text)
        if resolved_kec:
            updated_kec.at[idx] = resolved_kec
    if needs_kab.at[idx]:
        resolved_kab = resolve_kabupaten(text)
        if resolved_kab:
            updated_kab.at[idx] = resolved_kab

alamat_df['kecamatan'] = updated_kec
alamat_df['kabupaten'] = updated_kab

still_missing_kec = alamat_df.loc[alamat_df['kecamatan'].apply(is_nullish), 'kecamatan'].shape[0]
still_missing_kab = alamat_df.loc[alamat_df['kabupaten'].apply(is_nullish), 'kabupaten'].shape[0]

filled_kec = (needs_kec & alamat_df['kecamatan'].apply(lambda x: not is_nullish(x))).sum()
filled_kab = (needs_kab & alamat_df['kabupaten'].apply(lambda x: not is_nullish(x))).sum()

print(f"Kecamatan newly filled: {filled_kec} of {needs_kec.sum()} originally missing")
print(f"Kabupaten newly filled: {filled_kab} of {needs_kab.sum()} originally missing")
print(f"Remaining NULL kecamatan: {still_missing_kec}")
print(f"Remaining NULL kabupaten: {still_missing_kab}")

alamat_df.drop(columns=['alamat_norm'], inplace=True)


Kecamatan yang baru diisi: 6408 dari 24233 yang awalnya kosong
Kabupaten yang baru diisi: 0 dari 0 yang awalnya kosong
Kecamatan yang masih NULL: 17825
Kabupaten yang masih NULL: 0


In [32]:
remaining_rows = alamat_df[alamat_df['kecamatan'].apply(is_nullish) | alamat_df['kabupaten'].apply(is_nullish)]
print(f"Baris yang masih kosong kecamatan/kabupaten: {len(remaining_rows)}")
remaining_rows[['ALAMAT', 'kecamatan', 'kabupaten']].head(10)

Baris yang masih kosong kecamatan/kabupaten: 17825


Unnamed: 0,ALAMAT,kecamatan,kabupaten
3,DESA ONOWAEMBO KEC. GUNUNGSITOLI IDANOI KOTA G...,,GUNUNG SITOLI
4,JL. HUTA DOLOK III RT/RW 000/000 KEL. LBN DOLO...,,TOBA
5,JL. MISTAR NO. 50 DESA LASARA BAHILI KEC. GUNU...,,GUNUNG SITOLI
9,PALANGAS DESA SIPAHO SIPAHO HALONGONAN KABUPAT...,,PADANG LAWAS UTARA
11,HUTA IX BANDAR TONGAH BANDAR TONGAH BANDAR HUL...,,SIMALUNGUN
13,JL. TUAMANG NO. 149 MEDAN KEL. SIDOREJO HILIR ...,,MEDAN
14,JL GAGAK HITAM RING ROAD LK XIV NO 35 KEL. SEI...,,MEDAN
15,LINGK II TANGKAHAN BATU KEL. PANGKALAN BATU KE...,,LANGKAT
16,JL. BUNGA RINTE RAYA KOMP PURI ZAHARA BLOK C N...,,MEDAN
18,"DUSUN V DESA . BESAR II TERJUN, KEC. PANTAI CE...",,SERDANG BEDAGAI


In [33]:
# Simpan pembaruan kembali ke sheet SMT (tutup file Excel sebelum menjalankan cell ini)
output_path = 'Data Alamat.xlsx'
with pd.ExcelWriter(output_path, engine='openpyxl', mode='a', if_sheet_exists='replace') as writer:
    alamat_df.to_excel(writer, sheet_name='SMT', index=False)

print('Sheet SMT yang diperbarui telah ditulis ke Data Alamat.xlsx')

Sheet SMT yang diperbarui telah ditulis ke Data Alamat.xlsx
