<h1><b> CLUSTERING-CITRA-SATELIT </b></h1>

📝 **Notebook: 1_preprocessing_data.ipynb**

Notebook ini digunakan untuk melakukan **preprocessing data** sebelum analisis clustering citra satelit bangunan sekolah untuk **14.927 SMA di Indonesia**.  

---

📂 **Sumber Data**

Data input yang digunakan berasal dari tahap sebelumnya, yaitu:  
1. **SCRAPING-DATA-SEKOLAH** → berisi informasi nama sekolah, kabupaten/kota, dan provinsi.  
2. **SCRAPING-CITRA-SATELIT** → berisi citra satelit sekolah (gambar bangunan sekolah).  

Dataset gabungan tersedia dalam file:  

📄 **`../data/data_scraping_maps.csv`**  
File ini diperoleh dari proses **scraping maps** pada proyek **SCRAPING-CITRA-SATELIT**.

---

⚙️ **Tahapan EDA**  

Beberapa langkah eksplorasi data yang dilakukan di notebook ini:  

1. **LIBRARY**  
   - Import library yang dibutuhkan untuk analisis data dan visualisasi (`pandas`, `numpy`, `matplotlib`, `seaborn`, dll).  

2. **CONFIGURATION**  
   - Menyiapkan direktori untuk metadata dan output hasil analisis.  
   - Mengatur style visualisasi dan parameter plotting.  

3. **LOAD METADATA**  
   - Memuat dataset hasil preprocessing dari file `../data/data_preprocessing.csv`.  
   - Mengecek jumlah data, kolom, dan informasi dasar dataset.  

4. **EXPLORATORY DATA ANALYSIS (EDA)**  
   - **Statistika Deskriptif** → Ringkasan data numerik (longitude, latitude, jumlah sekolah).  
   - **Analisis Data Kategorikal** → Distribusi akreditasi sekolah (A, B, C), distribusi per provinsi.  
   - **Analisis Data Geografis** → Visualisasi sebaran sekolah pada peta koordinat, termasuk berdasarkan akreditasi.  
   - **Menyimpan hasil** → Plot/gambar ke direktori `../hasil/eda/` dalam format `.png` atau `.html` untuk dokumentasi dan analisis lebih lanjut.  

---


📊 **Hasil yang Diperoleh**  

Proses preprocessing akan menghasilkan:  

- Dataset sekolah yang **siap digunakan untuk ekstraksi fitur dan clustering**  
- Validasi path citra satelit (hanya menyisakan data dengan status **valid**)  
- Metadata preprocessing dalam bentuk CSV untuk tahap selanjutnya  

Output utama akan disimpan di folder:  
📂 **`../data/data_preprocessing.csv`**  

---


---
# **LIBRARY**
---

In [111]:
# ============================
# Standard Library
# ============================
import os               # operasi terkait file system (path, direktori, file)

# ============================
# Third-Party Libraries
# ============================
import pandas as pd     # manipulasi dan analisis data dalam bentuk tabel (DataFrame)
pd.set_option('display.max_colwidth', None)
import numpy as np      # komputasi numerik dan operasi array/matriks


---
# **CONFIGURATION**
---

In [112]:
# ============================
# Path Configuration
# ============================

# Input dataset hasil scraping
METADATA_PATH = "../data/data_scraping_maps.csv"

# Output directory untuk hasil preprocessing
OUTPUT_DIR = "../data/"

---
# **LOAD METADATA**
---

In [113]:
df_ori = pd.read_csv(METADATA_PATH, sep=",")
df_ori.head()

Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,kabupaten,kota,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan
0,1,10100139,SMA NEGERI 1 LEMBAH SEULAWAH,"JL. BANDA ACEH-MEDAN KM.57,5 Lamtamot Kec. Lembah Seulawah Kab. Aceh Besar Prov. Aceh",Aceh Besar,,Aceh,A,95.682881,5.370129,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_1_lembah_seulawah.jpg,sukses
1,2,10100170,SMA NEGERI MODAL BANGSA,"JL. BANDARA SIM KM. 12,5 Cot Geundreut Kec. Blang Bintang Kab. Aceh Besar Prov. Aceh",Aceh Besar,,Aceh,A,95.395695,5.508437,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_modal_bangsa.jpg,sukses
2,3,10100176,SMAS MALEM PUTRA 1,JL.SYEH ABDULLAH KAN-AN Leugeu Kec. Darul Imarah Kab. Aceh Besar Prov. Aceh,Aceh Besar,,Aceh,C,95.330857,5.493038,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/smp_malem_putra_1.jpg,sukses
3,4,10100177,SMA NEGERI 1 LEUPUNG,JL. BANDA ACEH CALANG KM-18 DAYAH MAMPLAM Kec. Leupung Kab. Aceh Besar Prov. Aceh,Aceh Besar,,Aceh,B,95.241723,5.435694,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sman_1_leupung.jpg,sukses
4,5,10100179,SMA NEGERI 1 PULO ACEH,JL. RAJA KANDANG Alue Riyeung Kec. Pulo Aceh Kab. Aceh Besar Prov. Aceh,Aceh Besar,,Aceh,B,95.144949,5.615454,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_1_pulo_aceh.jpg,sukses


In [114]:
df_ori.shape

(14927, 14)

Data telah berhasil dimuat dengan rincian sebagai berikut:
- Jumlah baris: 14.927 
- Jumlah kolom: 14

Selanjutnya akan dilakukan preprocessing data.

---
# **PREPROCESSING**
---

Pada tahap ini, dataset asli disalin menjadi sebuah dataframe baru bernama `df_preprocessing_0`.  
Tujuannya adalah agar proses preprocessing dapat dilakukan tanpa mengubah data mentah (*raw data*), sehingga data asli tetap terjaga dan dapat digunakan kembali bila diperlukan.

In [115]:
df_preprocessing_0 = df_ori.copy()

## **Missing Value**

In [116]:
df_preprocessing_0.isnull().sum()

nomor                            0
kode_sekolah                     0
nama_sekolah                     0
alamat                           0
kabupaten                     3598
kota                         11341
provinsi                        12
akreditasi                      25
long                           202
lat                            202
dir_gambar_ori                 202
dir_gambar_titik               202
dir_gambar_kotak_dan_yolo      202
keterangan                       0
dtype: int64

Interpretasi  

- Sebagian besar kolom memiliki data lengkap, seperti **nomor**, **kode_sekolah**, **nama_sekolah**, **link_profil**, dan **alamat**.  
- Kolom **kabupaten** dan **kota** memiliki jumlah *missing values* cukup besar, terutama pada kolom **kota**.  
- Kolom **provinsi** dan **akreditasi** hanya memiliki sedikit *missing values*.  
- Kolom koordinat (**long**, **lat**) serta direktori gambar (**dir_gambar_ori**, **dir_gambar_titik**, **dir_gambar_kotak_dan_yolo**) masing-masing hilang pada 202 baris.  
- Kolom **keterangan** tidak memiliki *missing values*.  

Tahapan preprocessing selanjutnya akan difokuskan pada **penanganan nilai yang hilang** agar dataset lebih bersih dan siap digunakan.  

Untuk melihat lebih lanjut, prosesnya akan dibagi menjadi 4.
1. Kolom **kabupaten** dan **kota** (3598 + 11341 baris)
2. Kolom **provinsi** (12 baris)
3. Kolom **akreditasi** (25 baris)
4. Kolom koordinat **long**, **lat** serta direktori gambar **dir_gambar_ori**, **dir_gambar_titik**, **dir_gambar_kotak_dan_yolo**(Masing-masing 202 baris)


### 1. Kolom `kabupaten` dan `kota`

In [117]:
kondisi = df_preprocessing_0['kabupaten'].isnull()
df_preprocessing_0[kondisi].head()

Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,kabupaten,kota,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan
132,133,10104040,SMA NEGERI 1 SIMPANG KIRI,JL. SYEKH ABDURRAUF NO. 1 Subulussalam Selatan Kec. Simpang Kiri Kota Subulussalam Prov. Aceh,,Kota Subulussalam,Aceh,A,97.999012,2.645893,../hasil/gambar_ori/ACEH/KOTA SUBULUSSALAM/sma_negeri_1_simpang_kiri.jpg,../hasil/gambar_titik/ACEH/KOTA SUBULUSSALAM/sma_negeri_1_simpang_kiri.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KOTA SUBULUSSALAM/img/sma_negeri_1_simpang_kiri.jpg,sukses
133,134,10104041,SMA HIDAYATULLAH,Jln. Hamzah Fansyuri No. 86 Subulussalam Selatan Kec. Simpang Kiri Kota Subulussalam Prov. Aceh,,Kota Subulussalam,Aceh,C,97.997368,2.645271,../hasil/gambar_ori/ACEH/KOTA SUBULUSSALAM/mtss_hidayatullah_subulussalam.jpg,../hasil/gambar_titik/ACEH/KOTA SUBULUSSALAM/mtss_hidayatullah_subulussalam.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KOTA SUBULUSSALAM/img/mtss_hidayatullah_subulussalam.jpg,cek kembali
136,137,10104044,SMA NEGERI 1 SULTAN DAULAT,Jl. Darul Makmur No. 1 Jambi Kec. Sultan Daulat Kota Subulussalam Prov. Aceh,,Kota Subulussalam,Aceh,B,97.90161,2.792601,../hasil/gambar_ori/ACEH/KOTA SUBULUSSALAM/sma_negeri_1_sultan_daulat.jpg,../hasil/gambar_titik/ACEH/KOTA SUBULUSSALAM/sma_negeri_1_sultan_daulat.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KOTA SUBULUSSALAM/img/sma_negeri_1_sultan_daulat.jpg,sukses
141,142,10104059,SMAN 1 RUNDENG,JL. PERJUANGAN NO.14 Muara Batu-Batu Kec. Rundeng Kota Subulussalam Prov. Aceh,,Kota Subulussalam,Aceh,B,97.857891,2.669041,../hasil/gambar_ori/ACEH/KOTA SUBULUSSALAM/sma_negeri_1_rundeng.jpg,../hasil/gambar_titik/ACEH/KOTA SUBULUSSALAM/sma_negeri_1_rundeng.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KOTA SUBULUSSALAM/img/sma_negeri_1_rundeng.jpg,sukses
179,180,10105272,SMAN 2 SABANG,JL. TINJAU ALAM Aneuk Laot Kec. Sukakarya Kota Sabang Prov. Aceh,,Kota Sabang,Aceh,A,95.329182,5.874299,../hasil/gambar_ori/ACEH/KOTA SABANG/sma_negeri_2_sabang.jpg,../hasil/gambar_titik/ACEH/KOTA SABANG/sma_negeri_2_sabang.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KOTA SABANG/img/sma_negeri_2_sabang.jpg,sukses


In [118]:
kondisi = df_preprocessing_0['kota'].isnull()
df_preprocessing_0[kondisi].head()

Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,kabupaten,kota,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan
0,1,10100139,SMA NEGERI 1 LEMBAH SEULAWAH,"JL. BANDA ACEH-MEDAN KM.57,5 Lamtamot Kec. Lembah Seulawah Kab. Aceh Besar Prov. Aceh",Aceh Besar,,Aceh,A,95.682881,5.370129,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_1_lembah_seulawah.jpg,sukses
1,2,10100170,SMA NEGERI MODAL BANGSA,"JL. BANDARA SIM KM. 12,5 Cot Geundreut Kec. Blang Bintang Kab. Aceh Besar Prov. Aceh",Aceh Besar,,Aceh,A,95.395695,5.508437,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_modal_bangsa.jpg,sukses
2,3,10100176,SMAS MALEM PUTRA 1,JL.SYEH ABDULLAH KAN-AN Leugeu Kec. Darul Imarah Kab. Aceh Besar Prov. Aceh,Aceh Besar,,Aceh,C,95.330857,5.493038,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/smp_malem_putra_1.jpg,sukses
3,4,10100177,SMA NEGERI 1 LEUPUNG,JL. BANDA ACEH CALANG KM-18 DAYAH MAMPLAM Kec. Leupung Kab. Aceh Besar Prov. Aceh,Aceh Besar,,Aceh,B,95.241723,5.435694,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sman_1_leupung.jpg,sukses
4,5,10100179,SMA NEGERI 1 PULO ACEH,JL. RAJA KANDANG Alue Riyeung Kec. Pulo Aceh Kab. Aceh Besar Prov. Aceh,Aceh Besar,,Aceh,B,95.144949,5.615454,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_1_pulo_aceh.jpg,sukses


Dapat dilihat bahwa nilai `null` pada kolom **kabupaten** terjadi ketika sekolah tersebut berada di kota, 
dan sebaliknya nilai `null` pada kolom **kota** muncul ketika sekolah berada di kabupaten.  

Untuk mengatasi hal ini, kedua kolom tersebut akan digabungkan menjadi satu kolom baru bernama **kabupaten_kota**:  
- Jika data berasal dari kota, maka nilainya tetap menggunakan nama kota.  
- Jika data berasal dari kabupaten, maka nama kabupaten akan ditambahkan awalan **"KAB "** agar lebih konsisten dalam format penamaan.  


In [119]:
df_preprocessing_1 = df_preprocessing_0.copy()

data_kabupaten_kota = []

# Iterasi baris demi baris pada dataframe
for _, row in df_preprocessing_1.iterrows():
    # Jika kolom 'kabupaten' kosong, gunakan nilai dari 'kota'
    # Jika ada nilai 'kabupaten', tambahkan prefix "Kab " di depannya
    data_kabupaten_kota.append(
        row['kota'] if pd.isnull(row['kabupaten']) else f"Kab {row['kabupaten']}"
    )

df_preprocessing_1['kabupaten_kota'] = data_kabupaten_kota
df_preprocessing_1.head()


Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,kabupaten,kota,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan,kabupaten_kota
0,1,10100139,SMA NEGERI 1 LEMBAH SEULAWAH,"JL. BANDA ACEH-MEDAN KM.57,5 Lamtamot Kec. Lembah Seulawah Kab. Aceh Besar Prov. Aceh",Aceh Besar,,Aceh,A,95.682881,5.370129,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_1_lembah_seulawah.jpg,sukses,Kab Aceh Besar
1,2,10100170,SMA NEGERI MODAL BANGSA,"JL. BANDARA SIM KM. 12,5 Cot Geundreut Kec. Blang Bintang Kab. Aceh Besar Prov. Aceh",Aceh Besar,,Aceh,A,95.395695,5.508437,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_modal_bangsa.jpg,sukses,Kab Aceh Besar
2,3,10100176,SMAS MALEM PUTRA 1,JL.SYEH ABDULLAH KAN-AN Leugeu Kec. Darul Imarah Kab. Aceh Besar Prov. Aceh,Aceh Besar,,Aceh,C,95.330857,5.493038,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/smp_malem_putra_1.jpg,sukses,Kab Aceh Besar
3,4,10100177,SMA NEGERI 1 LEUPUNG,JL. BANDA ACEH CALANG KM-18 DAYAH MAMPLAM Kec. Leupung Kab. Aceh Besar Prov. Aceh,Aceh Besar,,Aceh,B,95.241723,5.435694,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sman_1_leupung.jpg,sukses,Kab Aceh Besar
4,5,10100179,SMA NEGERI 1 PULO ACEH,JL. RAJA KANDANG Alue Riyeung Kec. Pulo Aceh Kab. Aceh Besar Prov. Aceh,Aceh Besar,,Aceh,B,95.144949,5.615454,../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_1_pulo_aceh.jpg,sukses,Kab Aceh Besar


In [120]:
df_preprocessing_1.isnull().sum()

nomor                            0
kode_sekolah                     0
nama_sekolah                     0
alamat                           0
kabupaten                     3598
kota                         11341
provinsi                        12
akreditasi                      25
long                           202
lat                            202
dir_gambar_ori                 202
dir_gambar_titik               202
dir_gambar_kotak_dan_yolo      202
keterangan                       0
kabupaten_kota                  12
dtype: int64

Setelah dilakukan proses penggabungan, masih terdapat **12 data** pada kolom kabupaten_kota yang bernilai kosong.

In [121]:
kondisi = df_preprocessing_1['kabupaten_kota'].isnull()
df_preprocessing_1[kondisi]

Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,kabupaten,kota,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan,kabupaten_kota
14912,14913,90101003,SMA Sekolah Indonesia Den Haag,"Rijksstraatweg 679, 2245 CB Wassenaar, T... Wassenaar Wassenaar Belanda Luar Negeri",,,,A,4.374131,52.114105,../hasil/gambar_ori/indonesian_school_of_the_hague.jpg,../hasil/gambar_titik/indonesian_school_of_the_hague.jpg,../hasil/gambar_kotak_dan_yolo/img/indonesian_school_of_the_hague.jpg,sukses,
14913,14914,90101006,SEKOLAH SI CAIRO TINGKAT SMA,"63 MUSADDAK STR. DOKKI , PO. BOX 1661, C... Cairo Cairo Mesir Luar Negeri",,,,A,31.258464,30.059489,../hasil/gambar_ori/kairo.jpg,../hasil/gambar_titik/kairo.jpg,../hasil/gambar_kotak_dan_yolo/img/kairo.jpg,cek kembali,
14914,14915,90101009,SEKOLAH INDONESIA RIYADH TINGKAT SMA,"8561 Abdullah Ibn Muammar, Umm Al Hamam ... Riyadh Riyadh Arab Saudi Luar Negeri",,,,A,46.644902,24.697719,../hasil/gambar_ori/(new)_indonesian_embassy_school_in_riyadh.jpg,../hasil/gambar_titik/(new)_indonesian_embassy_school_in_riyadh.jpg,../hasil/gambar_kotak_dan_yolo/img/(new)_indonesian_embassy_school_in_riyadh.jpg,sukses,
14915,14916,90101016,SEKOLAH INDONESIA JEDDAH TINGKAT SMA,"Districk 7155,5421 Az Zilaq, Ar Rehab, J... Jeddah Jeddah Arab Saudi Luar Negeri",,,,A,39.234882,21.545279,../hasil/gambar_ori/indonesian_embassy_school_jeddah_-_sekolah_indonesia_jeddah.jpg,../hasil/gambar_titik/indonesian_embassy_school_jeddah_-_sekolah_indonesia_jeddah.jpg,../hasil/gambar_kotak_dan_yolo/img/indonesian_embassy_school_jeddah_-_sekolah_indonesia_jeddah.jpg,sukses,
14916,14917,90101019,SEKOLAH SI KUALA LUMPUR TINGKAT SMA,"No. 1 Lorong Tun Ismail 50480, Kuala Lum... Kuala Lumpur Kuala Lumpur Malaysia Luar Negeri",,,,A,101.690729,3.164676,../hasil/gambar_ori/sekolah_indonesia_kuala_lumpur.jpg,../hasil/gambar_titik/sekolah_indonesia_kuala_lumpur.jpg,../hasil/gambar_kotak_dan_yolo/img/sekolah_indonesia_kuala_lumpur.jpg,sukses,
14917,14918,90101022,SEKOLAH INDONESIA (SINGAPURA) TINGKAT SMA,SINGAPURA SIGLAP ROAD SINGAPORE 455859 Singapura Singapura Singapura Luar Negeri,,,,A,103.926097,1.31075,../hasil/gambar_ori/sekolah_indonesia.jpg,../hasil/gambar_titik/sekolah_indonesia.jpg,../hasil/gambar_kotak_dan_yolo/img/sekolah_indonesia.jpg,sukses,
14918,14919,90101025,Sekolah SI Tokyo Tingkat SMA,"Sekolah Indonesia Tokyo No. 4-6-6, Megur... Meguro-ku Tokyo Japan Luar Negeri",,,,A,110.460236,-7.006764,../hasil/gambar_ori/universitas_stekom_cdc_komputer_desain_grafis_akuntansi_p2k_kuliah_kelas_karyawan_online.jpg,../hasil/gambar_titik/universitas_stekom_cdc_komputer_desain_grafis_akuntansi_p2k_kuliah_kelas_karyawan_online.jpg,../hasil/gambar_kotak_dan_yolo/img/universitas_stekom_cdc_komputer_desain_grafis_akuntansi_p2k_kuliah_kelas_karyawan_online.jpg,sukses,
14919,14920,90101028,SEKOLAH SI BANGKOK TINGKAT SMA,Indonesian Embassy 600-602 Petchburi Roa... Phayathai Bangkok Thailand Luar Negeri,,,,A,100.535955,13.750365,../hasil/gambar_ori/sekolah_indonesia_bangkok_(the_indonesian_school_of_bangkok).jpg,../hasil/gambar_titik/sekolah_indonesia_bangkok_(the_indonesian_school_of_bangkok).jpg,../hasil/gambar_kotak_dan_yolo/img/sekolah_indonesia_bangkok_(the_indonesian_school_of_bangkok).jpg,sukses,
14920,14921,90101031,SEKOLAH SI YANGON TINGKAT SMA,"100, LOWER KYIMYINDINE ROAD, AHLONE YANG... Yangon Yangon Myanmar Luar Negeri",,,,A,96.133895,16.78288,../hasil/gambar_ori/sekolah_indonesia_yangon.jpg,../hasil/gambar_titik/sekolah_indonesia_yangon.jpg,../hasil/gambar_kotak_dan_yolo/img/sekolah_indonesia_yangon.jpg,cek kembali,
14921,14922,90101034,SEKOLAH SI DAVAO TINGKAT SMA,KONSULAT JENDERAL RI ECOLAND SUBDIVISION... Davao City Davao City Filipina Luar Negeri,,,,A,125.597527,7.049427,../hasil/gambar_ori/indonesian_school_of_davao.jpg,../hasil/gambar_titik/indonesian_school_of_davao.jpg,../hasil/gambar_kotak_dan_yolo/img/indonesian_school_of_davao.jpg,sukses,


Setelah dicek, ternyata **12 data** yang kosong pada kolom kabupaten_kota juga merupakan data yang kosong pada kolom `provinsi`. <br>
Oleh karena itu, perbaikan terhadap data ini akan ditindaklanjuti bersamaan dengan penanganan pada kolom `provinsi`.

### 2. Kolom `provinsi`

In [122]:
kondisi = df_preprocessing_1['provinsi'].isnull()
df_preprocessing_1[kondisi]

Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,kabupaten,kota,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan,kabupaten_kota
14912,14913,90101003,SMA Sekolah Indonesia Den Haag,"Rijksstraatweg 679, 2245 CB Wassenaar, T... Wassenaar Wassenaar Belanda Luar Negeri",,,,A,4.374131,52.114105,../hasil/gambar_ori/indonesian_school_of_the_hague.jpg,../hasil/gambar_titik/indonesian_school_of_the_hague.jpg,../hasil/gambar_kotak_dan_yolo/img/indonesian_school_of_the_hague.jpg,sukses,
14913,14914,90101006,SEKOLAH SI CAIRO TINGKAT SMA,"63 MUSADDAK STR. DOKKI , PO. BOX 1661, C... Cairo Cairo Mesir Luar Negeri",,,,A,31.258464,30.059489,../hasil/gambar_ori/kairo.jpg,../hasil/gambar_titik/kairo.jpg,../hasil/gambar_kotak_dan_yolo/img/kairo.jpg,cek kembali,
14914,14915,90101009,SEKOLAH INDONESIA RIYADH TINGKAT SMA,"8561 Abdullah Ibn Muammar, Umm Al Hamam ... Riyadh Riyadh Arab Saudi Luar Negeri",,,,A,46.644902,24.697719,../hasil/gambar_ori/(new)_indonesian_embassy_school_in_riyadh.jpg,../hasil/gambar_titik/(new)_indonesian_embassy_school_in_riyadh.jpg,../hasil/gambar_kotak_dan_yolo/img/(new)_indonesian_embassy_school_in_riyadh.jpg,sukses,
14915,14916,90101016,SEKOLAH INDONESIA JEDDAH TINGKAT SMA,"Districk 7155,5421 Az Zilaq, Ar Rehab, J... Jeddah Jeddah Arab Saudi Luar Negeri",,,,A,39.234882,21.545279,../hasil/gambar_ori/indonesian_embassy_school_jeddah_-_sekolah_indonesia_jeddah.jpg,../hasil/gambar_titik/indonesian_embassy_school_jeddah_-_sekolah_indonesia_jeddah.jpg,../hasil/gambar_kotak_dan_yolo/img/indonesian_embassy_school_jeddah_-_sekolah_indonesia_jeddah.jpg,sukses,
14916,14917,90101019,SEKOLAH SI KUALA LUMPUR TINGKAT SMA,"No. 1 Lorong Tun Ismail 50480, Kuala Lum... Kuala Lumpur Kuala Lumpur Malaysia Luar Negeri",,,,A,101.690729,3.164676,../hasil/gambar_ori/sekolah_indonesia_kuala_lumpur.jpg,../hasil/gambar_titik/sekolah_indonesia_kuala_lumpur.jpg,../hasil/gambar_kotak_dan_yolo/img/sekolah_indonesia_kuala_lumpur.jpg,sukses,
14917,14918,90101022,SEKOLAH INDONESIA (SINGAPURA) TINGKAT SMA,SINGAPURA SIGLAP ROAD SINGAPORE 455859 Singapura Singapura Singapura Luar Negeri,,,,A,103.926097,1.31075,../hasil/gambar_ori/sekolah_indonesia.jpg,../hasil/gambar_titik/sekolah_indonesia.jpg,../hasil/gambar_kotak_dan_yolo/img/sekolah_indonesia.jpg,sukses,
14918,14919,90101025,Sekolah SI Tokyo Tingkat SMA,"Sekolah Indonesia Tokyo No. 4-6-6, Megur... Meguro-ku Tokyo Japan Luar Negeri",,,,A,110.460236,-7.006764,../hasil/gambar_ori/universitas_stekom_cdc_komputer_desain_grafis_akuntansi_p2k_kuliah_kelas_karyawan_online.jpg,../hasil/gambar_titik/universitas_stekom_cdc_komputer_desain_grafis_akuntansi_p2k_kuliah_kelas_karyawan_online.jpg,../hasil/gambar_kotak_dan_yolo/img/universitas_stekom_cdc_komputer_desain_grafis_akuntansi_p2k_kuliah_kelas_karyawan_online.jpg,sukses,
14919,14920,90101028,SEKOLAH SI BANGKOK TINGKAT SMA,Indonesian Embassy 600-602 Petchburi Roa... Phayathai Bangkok Thailand Luar Negeri,,,,A,100.535955,13.750365,../hasil/gambar_ori/sekolah_indonesia_bangkok_(the_indonesian_school_of_bangkok).jpg,../hasil/gambar_titik/sekolah_indonesia_bangkok_(the_indonesian_school_of_bangkok).jpg,../hasil/gambar_kotak_dan_yolo/img/sekolah_indonesia_bangkok_(the_indonesian_school_of_bangkok).jpg,sukses,
14920,14921,90101031,SEKOLAH SI YANGON TINGKAT SMA,"100, LOWER KYIMYINDINE ROAD, AHLONE YANG... Yangon Yangon Myanmar Luar Negeri",,,,A,96.133895,16.78288,../hasil/gambar_ori/sekolah_indonesia_yangon.jpg,../hasil/gambar_titik/sekolah_indonesia_yangon.jpg,../hasil/gambar_kotak_dan_yolo/img/sekolah_indonesia_yangon.jpg,cek kembali,
14921,14922,90101034,SEKOLAH SI DAVAO TINGKAT SMA,KONSULAT JENDERAL RI ECOLAND SUBDIVISION... Davao City Davao City Filipina Luar Negeri,,,,A,125.597527,7.049427,../hasil/gambar_ori/indonesian_school_of_davao.jpg,../hasil/gambar_titik/indonesian_school_of_davao.jpg,../hasil/gambar_kotak_dan_yolo/img/indonesian_school_of_davao.jpg,sukses,


Dapat dilihat bahwa **12 data** tersebut kosong pada kolom `kabupaten`, `kota`, maupun `provinsi`.  
Berdasarkan alamat dan koordinatnya, lokasi sekolah tersebut **tidak berada di Indonesia**.  

Dengan demikian, **12 sekolah** ini merupakan **sekolah Indonesia yang berlokasi di luar negeri**, sehingga akan **dihapus (drop)** dari dataset.


In [123]:
# Menghapus 12 sekolah yang berada di luar negeri (tanpa kabupaten, kota, dan provinsi)
df_preprocessing_2 = df_preprocessing_1.dropna(subset=["provinsi"])

print("Jumlah data sebelum drop:", len(df_preprocessing_1))
print("Jumlah data setelah drop:", len(df_preprocessing_2))

kondisi = df_preprocessing_2[df_preprocessing_2['provinsi'].isnull()]
df_preprocessing_2.isnull().sum()

Jumlah data sebelum drop: 14927
Jumlah data setelah drop: 14915


nomor                            0
kode_sekolah                     0
nama_sekolah                     0
alamat                           0
kabupaten                     3586
kota                         11329
provinsi                         0
akreditasi                      25
long                           202
lat                            202
dir_gambar_ori                 202
dir_gambar_titik               202
dir_gambar_kotak_dan_yolo      202
keterangan                       0
kabupaten_kota                   0
dtype: int64

### 3. Kolom `akreditasi`

In [124]:
kondisi = df_preprocessing_2['akreditasi'].isnull()
df_preprocessing_2[kondisi].head()

Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,kabupaten,kota,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan,kabupaten_kota
1828,1829,10495729,SMAS NUR HASANAH,JL. LINTAS TANJUNG MEDAN BAKTI MAKMUR Kec. Bagan Sinembah Kab. Rokan Hilir Prov. Riau,Rokan Hilir,,Riau,,98.701055,3.547577,../hasil/gambar_ori/RIAU/KAB ROKAN HILIR/sekolah_menengah_kejuruan_i_nur_hasanah.jpg,../hasil/gambar_titik/RIAU/KAB ROKAN HILIR/sekolah_menengah_kejuruan_i_nur_hasanah.jpg,../hasil/gambar_kotak_dan_yolo/RIAU/KAB ROKAN HILIR/img/sekolah_menengah_kejuruan_i_nur_hasanah.jpg,sukses,Kab Rokan Hilir
3539,3540,20107367,SMAS AL JIHAD JAKARTA,JL. JIHAD PAPANGGO I Papango Kec. Tanjung Priok Kota Adm. Jakarta Utara Prov. D.K.I. Jakarta,,Kota Adm. Jakarta Utara,D.K.I. Jakarta,,106.882097,-6.130116,../hasil/gambar_ori/D.K.I. JAKARTA/KOTA ADM. JAKARTA UTARA/madrasah-madrasah_aliyah_al-jihad.jpg,../hasil/gambar_titik/D.K.I. JAKARTA/KOTA ADM. JAKARTA UTARA/madrasah-madrasah_aliyah_al-jihad.jpg,../hasil/gambar_kotak_dan_yolo/D.K.I. JAKARTA/KOTA ADM. JAKARTA UTARA/img/madrasah-madrasah_aliyah_al-jihad.jpg,cek kembali,Kota Adm. Jakarta Utara
3954,3955,20219723,SMAS BPN,JL.DESA CIPADUNG NO.213 Cipadung Kec. Cibiru Kota Bandung Prov. Jawa Barat,,Kota Bandung,Jawa Barat,,107.717654,-6.92636,../hasil/gambar_ori/JAWA BARAT/KOTA BANDUNG/smas_bpn.jpg,../hasil/gambar_titik/JAWA BARAT/KOTA BANDUNG/smas_bpn.jpg,../hasil/gambar_kotak_dan_yolo/JAWA BARAT/KOTA BANDUNG/img/smas_bpn.jpg,sukses,Kota Bandung
3981,3982,20219770,SMAS PAHLAWAN TOHA,Jl. Peta (Sukamulya I) Suka Asih Kec. Bojong Loa Kaler Kota Bandung Prov. Jawa Barat,,Kota Bandung,Jawa Barat,,107.591123,-6.935669,../hasil/gambar_ori/JAWA BARAT/KOTA BANDUNG/smas_pahlawan_toha_bandung.jpg,../hasil/gambar_titik/JAWA BARAT/KOTA BANDUNG/smas_pahlawan_toha_bandung.jpg,../hasil/gambar_kotak_dan_yolo/JAWA BARAT/KOTA BANDUNG/img/smas_pahlawan_toha_bandung.jpg,sukses,Kota Bandung
4911,4912,20306193,SMAS DARUL HIKMAH,"JL. S. PARMAN, KUTOARJO Kutoarjo Kec. Kutoarjo Kab. Purworejo Prov. Jawa Tengah",Purworejo,,Jawa Tengah,,109.910789,-7.716324,../hasil/gambar_ori/JAWA TENGAH/KAB PURWOREJO/darul_hikmah_kutoarjo_islamic_school.jpg,../hasil/gambar_titik/JAWA TENGAH/KAB PURWOREJO/darul_hikmah_kutoarjo_islamic_school.jpg,../hasil/gambar_kotak_dan_yolo/JAWA TENGAH/KAB PURWOREJO/img/darul_hikmah_kutoarjo_islamic_school.jpg,sukses,Kab Purworejo


Terdapat **25 data** yang kosong pada kolom `akreditasi`.  
Selain itu, kita juga perlu mengetahui **nilai** apa saja yang terdapat pada kolom `akreditasi` untuk memahami distribusi kategorinya.

In [125]:
df_preprocessing_2['akreditasi'].value_counts()

akreditasi
A                      6785
B                      5288
C                      2189
-                       568
Tidak Terakreditasi      60
Name: count, dtype: int64

Berdasarkan hasil eksplorasi, terdapat **5 kategori akreditasi** pada data, yaitu:  
- **A** : 6.785 sekolah  
- **B** : 5.288 sekolah  
- **C** : 2.189 sekolah  
- **-** : 568 sekolah  
- **Tidak Terakreditasi** : 60 sekolah  

Selain itu, masih ada **25 data kosong (null)** pada kolom `akreditasi`.  

Karena tujuan penelitian ini adalah membuat **sistem analisis kelayakan** yang dapat dievaluasi, maka kategori **"-"**, **"Tidak Terakreditasi"**, dan **nilai kosong** akan menyulitkan proses analisis.  
Oleh karena itu, sekolah dengan kategori tersebut **tidak akan disertakan dalam analisis**.  

Catatan: <br>
Jumlah data yang akan dihapus (kategori "-", "Tidak Terakreditasi", dan nilai kosong) adalah **653 sekolah**, atau sekitar **4,37%** dari total keseluruhan data (14.927 sekolah).  
Dengan persentase yang relatif kecil ini, penghapusan data tersebut **tidak akan memberikan dampak signifikan** terhadap hasil analisis.



In [126]:
# Daftar akreditasi yang ingin dihapus
hapus_akreditasi = ["-", "Tidak Terakreditasi"]

# Menghapus baris dengan akreditasi "-", "Tidak Terakreditasi", atau null
df_preprocessing_3 = df_preprocessing_2[~df_preprocessing_2["akreditasi"].isin(hapus_akreditasi)]
df_preprocessing_3 = df_preprocessing_3.dropna(subset=["akreditasi"]).reset_index(drop=True)

# Jumlah data setelah filter
print("Jumlah data sebelum drop:", len(df_preprocessing_2))
print("Jumlah data setelah drop:", len(df_preprocessing_3))

# Distribusi akreditasi yang tersisa
print(df_preprocessing_3["akreditasi"].value_counts())
df_preprocessing_3.isnull().sum()

Jumlah data sebelum drop: 14915
Jumlah data setelah drop: 14262
akreditasi
A    6785
B    5288
C    2189
Name: count, dtype: int64


nomor                            0
kode_sekolah                     0
nama_sekolah                     0
alamat                           0
kabupaten                     3420
kota                         10842
provinsi                         0
akreditasi                       0
long                           186
lat                            186
dir_gambar_ori                 186
dir_gambar_titik               186
dir_gambar_kotak_dan_yolo      186
keterangan                       0
kabupaten_kota                   0
dtype: int64

### 4. Kolom koordinat `long`, `lat` serta direktori gambar `dir_gambar_ori`, `dir_gambar_titik`, `dir_gambar_kota_dan_yolo`

In [127]:
kondisi = df_preprocessing_3['long'].isnull()
df_preprocessing_3[kondisi]

Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,kabupaten,kota,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan,kabupaten_kota
1569,1573,10400846,SMAN 2 BANTAN,JL. BUDI LUHUR Desa Sukamaju Kec. Bantan Kab. Bengkalis Prov. Riau,Bengkalis,,Riau,A,,,,,,tidak ditemukan,Kab Bengkalis
1577,1581,10400857,SMAN 1 BANTAN,JL. SOEKARNO-HATTA Selat Baru Kec. Bantan Kab. Bengkalis Prov. Riau,Bengkalis,,Riau,A,,,,,,tidak ditemukan,Kab Bengkalis
1583,1587,10400868,SMA NEGERI 1 TASIK PUTRI PUYU,Jl. H. Tamrin no 01 kudap Kudap Kec. Tasik Putri Puyu Kab. Kepulauan Meranti Prov. Riau,Kepulauan Meranti,,Riau,B,,,,,,tidak ditemukan,Kab Kepulauan Meranti
1593,1597,10401512,SMAS PGRI RENGAT,JL. SULTAN KM. 3 RENGAT Kampung Dagang Kec. Rengat Kab. Indragiri Hulu Prov. Riau,Indragiri Hulu,,Riau,B,,,,,,tidak ditemukan,Kab Indragiri Hulu
1597,1601,10401519,SMAN 2 RENGAT,JL. HANG TUAH KM. 3 RENGAT Sungai Beringin Kec. Rengat Kab. Indragiri Hulu Prov. Riau,Indragiri Hulu,,Riau,A,,,,,,tidak ditemukan,Kab Indragiri Hulu
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
13851,13933,70029996,SMA IT SOEMAN HS,Jalan Gunung Raya No.43 Rejosari Kec. Tenayan Raya Kota Pekanbaru Prov. Riau,,Kota Pekanbaru,Riau,A,,,,,,tidak ditemukan,Kota Pekanbaru
13853,13935,70030131,SMA IT KAHAR RAHMAN,JL.AZKI ARIS RT.015/ RW.003 Kampung Dagang Kec. Rengat Kab. Indragiri Hulu Prov. Riau,Indragiri Hulu,,Riau,B,,,,,,tidak ditemukan,Kab Indragiri Hulu
14040,14137,70038448,SMAS GLOBAL SAINS HALMAHERA TIMUR,Desa Lolosita Lolasita Kec. Maba Utara Kab. Halmahera Timur Prov. Maluku Utara,Halmahera Timur,,Maluku Utara,C,,,,,,tidak ditemukan,Kab Halmahera Timur
14142,14290,70042240,SMA NEGERI 3 ROKAN IV KOTO,Jl. Kabupaten Banjar Datar - Tandikat Cipang Kiri Hilir Kec. Rokan IV Koto Kab. Rokan Hulu Prov. Riau,Rokan Hulu,,Riau,C,,,,,,tidak ditemukan,Kab Rokan Hulu


In [128]:
df_preprocessing_3['keterangan'].value_counts()

keterangan
sukses             13187
cek kembali          889
tidak ditemukan      186
Name: count, dtype: int64

Terdapat **186 data kosong** pada kolom `long`, `lat`, `dir_gambar_ori`, `dir_gambar_titik`, dan `dir_gambar_kotak_dan_yolo`.  

Diketahui bahwa data ini merupakan hasil **gagal scraping citra satelit** pada tahap sebelumnya.  
Karena nilai-nilai ini tidak dapat diperbaiki, maka **186 baris ini akan dihapus (drop)** dari dataset.

In [129]:
# Kolom yang harus dicek untuk missing values
kolom_gambar = ["long", "lat", "dir_gambar_ori", "dir_gambar_titik", "dir_gambar_kotak_dan_yolo"]

# Menghapus baris yang memiliki missing values di salah satu kolom tersebut
df_preprocessing_4 = df_preprocessing_3.dropna(subset=kolom_gambar).reset_index(drop=True)

# Jumlah data setelah penghapusan
print("Jumlah data sebelum menghapus baris dengan gambar/koordinat kosong:", len(df_preprocessing_3))
print("Jumlah data setelah menghapus baris dengan gambar/koordinat kosong:", len(df_preprocessing_4))

df_preprocessing_4.isnull().sum()

Jumlah data sebelum menghapus baris dengan gambar/koordinat kosong: 14262
Jumlah data setelah menghapus baris dengan gambar/koordinat kosong: 14076


nomor                            0
kode_sekolah                     0
nama_sekolah                     0
alamat                           0
kabupaten                     3413
kota                         10663
provinsi                         0
akreditasi                       0
long                             0
lat                              0
dir_gambar_ori                   0
dir_gambar_titik                 0
dir_gambar_kotak_dan_yolo        0
keterangan                       0
kabupaten_kota                   0
dtype: int64

Data sekarang sudah **bersih** dari nilai kosong yang bermasalah.  
Kolom **kabupaten** dan **kota** kini **diwakilkan oleh kolom baru** `kabupaten_kota`, sehingga kolom asli akan dihapus jika tidak diperlukan lagi.

In [130]:
# Menghapus kolom kabupaten dan kota karena sudah digantikan oleh kabupaten_kota
df_preprocessing_5 = df_preprocessing_4.drop(columns=["kabupaten", "kota"])
print("Shape dataframe setelah drop kolom:", df_preprocessing_5.shape)

# Cek jumlah missing values di setiap kolom
print("\nJumlah missing values per kolom:")
print(df_preprocessing_5.isnull().sum())


Shape dataframe setelah drop kolom: (14076, 13)

Jumlah missing values per kolom:
nomor                        0
kode_sekolah                 0
nama_sekolah                 0
alamat                       0
provinsi                     0
akreditasi                   0
long                         0
lat                          0
dir_gambar_ori               0
dir_gambar_titik             0
dir_gambar_kotak_dan_yolo    0
keterangan                   0
kabupaten_kota               0
dtype: int64


Karena dataset sekarang sudah bersih dari nilai kosong, tahap selanjutnya adalah melakukan **pengecekan duplikat** pada data.  

## Duplicate Value

In [131]:
df_preprocessing_5.duplicated().sum()

0

Setelah pengecekan duplikat, diketahui bahwa **tidak ada data yang duplikat** pada dataset.  
Tahap selanjutnya adalah melakukan **penyesuaian direktori file gambar** agar path direktori citra sesuai dengan struktur folder saat ini dan memudahkan proses selanjutnya.

## Penyesuaian Direktori

In [132]:
print(df_preprocessing_5['dir_gambar_ori'][0])
print(df_preprocessing_5['dir_gambar_titik'][0])
print(df_preprocessing_5['dir_gambar_kotak_dan_yolo'][0])

../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg
../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg
../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_1_lembah_seulawah.jpg


Direktori file gambar saat ini berasal dari proyek sebelumnya **"SCRAPING-CITRA-SATELIT"**, dengan path seperti:  
```
../hasil/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg
../hasil/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg
../hasil/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_1_lembah_seulawah.jpg
```
Untuk kebutuhan proyek **CLUSTERING-CITRA-SATELIT**, direktori akan **disesuaikan menjadi**:  
```
../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg
../data/gambar
/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg
../data/gambar
/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_1_lembah_seulawah.jpg
```

Langkah ini bertujuan agar struktur folder lebih konsisten dan memudahkan proses pemrosesan citra selanjutnya.

In [133]:
# Membuat salinan dataframe
df_preprocessing_6 = df_preprocessing_5.copy()

# Menyesuaikan direktori gambar
df_preprocessing_6["dir_gambar_ori"] = df_preprocessing_6["dir_gambar_ori"].str.replace("../hasil/", "../data/gambar/")
df_preprocessing_6["dir_gambar_titik"] = df_preprocessing_6["dir_gambar_titik"].str.replace("../hasil/", "../data/gambar/")
df_preprocessing_6["dir_gambar_kotak_dan_yolo"] = df_preprocessing_6["dir_gambar_kotak_dan_yolo"].str.replace("../hasil/", "../data/gambar/")

# Cek hasil perubahan untuk 1 baris pertama
print(df_preprocessing_6['dir_gambar_ori'][0])
print(df_preprocessing_6['dir_gambar_titik'][0])
print(df_preprocessing_6['dir_gambar_kotak_dan_yolo'][0])
df_preprocessing_6.head()

../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg
../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg
../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_1_lembah_seulawah.jpg


Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan,kabupaten_kota
0,1,10100139,SMA NEGERI 1 LEMBAH SEULAWAH,"JL. BANDA ACEH-MEDAN KM.57,5 Lamtamot Kec. Lembah Seulawah Kab. Aceh Besar Prov. Aceh",Aceh,A,95.682881,5.370129,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_1_lembah_seulawah.jpg,sukses,Kab Aceh Besar
1,2,10100170,SMA NEGERI MODAL BANGSA,"JL. BANDARA SIM KM. 12,5 Cot Geundreut Kec. Blang Bintang Kab. Aceh Besar Prov. Aceh",Aceh,A,95.395695,5.508437,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_modal_bangsa.jpg,sukses,Kab Aceh Besar
2,3,10100176,SMAS MALEM PUTRA 1,JL.SYEH ABDULLAH KAN-AN Leugeu Kec. Darul Imarah Kab. Aceh Besar Prov. Aceh,Aceh,C,95.330857,5.493038,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/smp_malem_putra_1.jpg,sukses,Kab Aceh Besar
3,4,10100177,SMA NEGERI 1 LEUPUNG,JL. BANDA ACEH CALANG KM-18 DAYAH MAMPLAM Kec. Leupung Kab. Aceh Besar Prov. Aceh,Aceh,B,95.241723,5.435694,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sman_1_leupung.jpg,sukses,Kab Aceh Besar
4,5,10100179,SMA NEGERI 1 PULO ACEH,JL. RAJA KANDANG Alue Riyeung Kec. Pulo Aceh Kab. Aceh Besar Prov. Aceh,Aceh,B,95.144949,5.615454,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_1_pulo_aceh.jpg,sukses,Kab Aceh Besar


## Pengecekkan Gambar

Sebelum menyimpan dataset, perlu dilakukan pengecekan apakah file gambar **benar-benar ada** di direktori yang telah disesuaikan.  
Hal ini penting untuk memastikan bahwa setiap entri pada kolom:

- `dir_gambar_ori`  
- `dir_gambar_titik`  
- `dir_gambar_kotak_dan_yolo`  

merujuk pada file gambar yang valid.

In [134]:
# Fungsi untuk cek keberadaan file
def cek_file(path):
    return os.path.exists(path)

# Membuat kolom baru untuk menandai apakah file ada atau tidak
df_preprocessing_6['ori_exists'] = df_preprocessing_6['dir_gambar_ori'].apply(cek_file)
df_preprocessing_6['titik_exists'] = df_preprocessing_6['dir_gambar_titik'].apply(cek_file)
df_preprocessing_6['kotak_yolo_exists'] = df_preprocessing_6['dir_gambar_kotak_dan_yolo'].apply(cek_file)

# Cek hasil, jumlah file yang tidak ditemukan
print("File ori tidak ada:", (~df_preprocessing_6['ori_exists']).sum())
print("File titik tidak ada:", (~df_preprocessing_6['titik_exists']).sum())
print("File kotak yolo tidak ada:", (~df_preprocessing_6['kotak_yolo_exists']).sum())


File ori tidak ada: 0
File titik tidak ada: 0
File kotak yolo tidak ada: 0


Setelah dicek, variabel `file_hilang` ternyata kosong.  
Artinya semua gambar tersedia di direktori masing-masing tanpa ada yang hilang.


---
# **EXPORT CLEANED DATASET**
---

In [143]:
# Membuat salinan dataframe hasil preprocessing
df_bersih = df_preprocessing_6.copy()
df_bersih = df_bersih[['nomor', 'kode_sekolah', 'nama_sekolah', 'alamat', 'kabupaten_kota', 'provinsi',
       'akreditasi', 'long', 'lat', 'dir_gambar_ori', 'dir_gambar_titik',
       'dir_gambar_kotak_dan_yolo', 'keterangan']]
print(df_bersih.shape)
df_bersih.head()

(14076, 13)


Unnamed: 0,nomor,kode_sekolah,nama_sekolah,alamat,kabupaten_kota,provinsi,akreditasi,long,lat,dir_gambar_ori,dir_gambar_titik,dir_gambar_kotak_dan_yolo,keterangan
0,1,10100139,SMA NEGERI 1 LEMBAH SEULAWAH,"JL. BANDA ACEH-MEDAN KM.57,5 Lamtamot Kec. Lembah Seulawah Kab. Aceh Besar Prov. Aceh",Kab Aceh Besar,Aceh,A,95.682881,5.370129,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_1_lembah_seulawah.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_1_lembah_seulawah.jpg,sukses
1,2,10100170,SMA NEGERI MODAL BANGSA,"JL. BANDARA SIM KM. 12,5 Cot Geundreut Kec. Blang Bintang Kab. Aceh Besar Prov. Aceh",Kab Aceh Besar,Aceh,A,95.395695,5.508437,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/sma_negeri_modal_bangsa.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_negeri_modal_bangsa.jpg,sukses
2,3,10100176,SMAS MALEM PUTRA 1,JL.SYEH ABDULLAH KAN-AN Leugeu Kec. Darul Imarah Kab. Aceh Besar Prov. Aceh,Kab Aceh Besar,Aceh,C,95.330857,5.493038,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/smp_malem_putra_1.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/smp_malem_putra_1.jpg,sukses
3,4,10100177,SMA NEGERI 1 LEUPUNG,JL. BANDA ACEH CALANG KM-18 DAYAH MAMPLAM Kec. Leupung Kab. Aceh Besar Prov. Aceh,Kab Aceh Besar,Aceh,B,95.241723,5.435694,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/sman_1_leupung.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sman_1_leupung.jpg,sukses
4,5,10100179,SMA NEGERI 1 PULO ACEH,JL. RAJA KANDANG Alue Riyeung Kec. Pulo Aceh Kab. Aceh Besar Prov. Aceh,Kab Aceh Besar,Aceh,B,95.144949,5.615454,../data/gambar/gambar_ori/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../data/gambar/gambar_titik/ACEH/KAB ACEH BESAR/sma_1_pulo_aceh.jpg,../data/gambar/gambar_kotak_dan_yolo/ACEH/KAB ACEH BESAR/img/sma_1_pulo_aceh.jpg,sukses


Setelah semua tahapan preprocessing selesai, dataset kini sudah **bersih, lengkap, dan direktori gambar sudah disesuaikan** sebanyak **14.076 sekolah dengan 13 kolom**.  
Dataset ini akan disimpan ke file CSV pada direktori output:

`../data/data_preprocessing.csv`

File ini nantinya akan digunakan sebagai **input untuk proses selanjutnya** pada proyek **CLUSTERING-CITRA-SATELIT**.

In [144]:
# Menyimpan dataframe bersih ke file CSV di folder OUTPUT_DIR
df_bersih.to_csv(f"{OUTPUT_DIR}/data_preprocessing.csv", index=False)