![Image](https://github.com/user-attachments/assets/9bb79de6-7332-470d-92cd-d74310a14961)

## Import Library

Langkah pertama yang perlu dilakukan adalah import seluruh library yang akan digunakan. Library dalam python adalah kumpulan kode yang sudah dikompilasi sebelumnya dan dapat digunakan berulang kali dalam program yang berbeda. Library juga disebut sebagai pustaka atau paket. Ada beberapa manfaat library, yaitu:

1. Membuat pemrograman Python lebih sederhana dan nyaman
2. Memperluas kemampuan dan mempercepat pemrosesan data
3. Memudahkan tugas sehari-hari

![](https://online.binus.ac.id/computer-science/wp-content/uploads/sites/4/2024/09/Python-Libraries-Studyopedia.png)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import MinMaxScaler, LabelEncoder
from sklearn.cluster import KMeans
from sklearn.metrics import davies_bouldin_score, silhouette_score

import warnings
warnings.filterwarnings('ignore')
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)

# Linear Regression

In [None]:
# 📊 2. Load Data
data = pd.read_excel('isi dengan nama file')  # Ganti dengan nama file Excel yang sesuai

In [None]:
# 📊 3. Model Regresi Linier
X = data[['Tahun']]  # Ganti dengan kolom fitur yang sesuai, misalnya 'Tahun'
y = data['isi dengan kolom target']  # Ganti dengan kolom target, misalnya 'Jumlah_Penduduk'

In [None]:
# Inisialisasi model regresi linier
model = LinearRegression()

# Latih model
model.fit(X, y)

In [None]:
# 🧮 5. Prediksi
data['Prediksi'] = model.predict(X)  # Buat kolom baru untuk menyimpan hasil prediksi

In [None]:
# 📉 6. Visualisasi Hasil Regresi
plt.figure(figsize=(10, 6))
sns.scatterplot(x='Tahun', y='isi dengan kolom target', data=data, label='Data Aktual')  # Ganti dengan kolom target
sns.lineplot(x='Tahun', y='Prediksi', data=data, color='red', label='Regresi Linier')
plt.title('Regresi Linier Jumlah Penduduk Miskin (Perkotaan) per Tahun')
plt.xlabel('Tahun')
plt.ylabel('Jumlah Penduduk (Ribu Jiwa)')  # Ganti dengan label yang sesuai
plt.legend()
plt.grid(True)
plt.show()

In [None]:
# 🧾 7. Evaluasi Model
mse = mean_squared_error(y, data['Prediksi'])  # Hitung Mean Squared Error
r2 = r2_score(y, data['Prediksi'])  # Hitung R-squared

print(f"Mean Squared Error (MSE): {mse}")
print(f"R-squared (R²): {r2}")

# Clustering

## Overview

Lalu kita perlu melakukan import dataset yang sudah dipersiapkan. Dataset yang bersumber dari BPS ini kita import menggunakan library Pandas yang sudah kita running sebelumnya. 

In [None]:
# 📊 2. Load Data
df = pd.read_csv('/kaggle/input/cluster-perkotaan-x-perdesaan/Jumlah Penduduk Miskin (Ribu Jiwa) Menurut Provinsi dan Daerah 2024.csv') #ubah kode sesuai dengan path masing-masing
df

## Exploratory Data Analysis

Exploratory Data Analysis (EDA) adalah proses analisis data untuk memahami karakteristik, pola, dan struktur data. EDA juga dikenal sebagai analisis data eksploratif. Ada beberapa tujuan EDA, yaitu:
1. Mengidentifikasi pola, tren, anomali, atau kecenderungan yang menonjol
2. Menemukan wawasan awal sebelum melakukan pemodelan yang lebih kompleks
3. Memeriksa asumsi dasar, seperti normalitas dan linearitas
4. Membantu dalam merumuskan pertanyaan
5. Mengungkap wawasan yang berharga dari data

![](https://media.geeksforgeeks.org/wp-content/uploads/20240509161456/Steps-for-Performing-Exploratory-Data-Analysis.png)

> Disini kita menggunakan `df.shape` untuk melihat jumlah baris dan kolom dalam dataset. Bisa dilihat kita memiliki 38 baris dan 5 kolom

In [None]:
#silahkan isi dengan code yang sesuai keterangan diatas ini


> Pada `df.info()` kita bisa menampilkan informasi ringkas mengenai dataset kita, seperti jumlah total baris dan kolom, nama dan tipe data tiap kolom, jumlah nilai non-null per kolom, dan penggunaan memori. Terlihat dari output diatas kita memiliki 5 kolom, 38 baris untuk tabel `Provinsi`, `Semester 1 (Maret) Perkotaan`, `Semester 2 (September) Perkotaan`. Lalu untuk kolom `Semester 1 (Maret) Perdesaan` dan `Semester 2 (September) Perdesaan` memiliki 37 baris yang mengindikasikan adanya nilai kosong/null values. Lalu untuk tipe data yang digunakan pada data ini ada 2, yaitu object dan float. Memory yang digunakan juga cukup kecil, hanya 1.6+ KB.

In [None]:
#silahkan isi dengan code yang sesuai keterangan diatas ini


Disini kita menggunakan `df.isnull.sum()` untuk melihat apakah data yang kita gunakan memiliki nilai kosong. Namun jika hanya menggunakan `isnull` hanya akan menampilkan nilai true atau false, tidak menampilkan jumlah nilai kosongnya. Oleh karena itu, kita gunakan `sum` untuk melihat ada berapa jumlah nilai yang kosong. Dapat dilihat pada kolom `Semester 1 (Maret) Perdesaan` dan `Semester 2 (September) Perdesaan` memiliki nilai kosong sebanyak 1

In [None]:
#silahkan isi dengan code yang sesuai keterangan diatas ini


> Pada `df.describe().T` digunakan untuk melihat statistik deskriptif dari data. Lalu untuk `T` digunakan untuk men transpose datanya sehingga memudahkan kita dalam membacanya. Terdapat statistik dasar seperti `count`, `mean`, `deviation standard`, `min`, `max`, `quartile 1`, `quartile 2`, dan `quartile 3`.

In [None]:
#silahkan isi dengan code yang sesuai keterangan diatas ini


> Kode dibawah kita membuat histogram. Histogram adalah grafik yang menggambarkan distribusi frekuensi data numerik. Kegunaan dari histogram yaitu dapat membantu memahami variabilitas data. Dari histogram diatas, dapat dilihat bahwa pola distribusi penduduk miskin perdesaan juga menunjukkan kecondongan ke kanan (right-skewed). Lalu secara umum tampak adanya sedikit penurunan jumlah penduduk miskin dari Semester 1 ke Semester 2, baik di perkotaan maupun perdesaan.

In [None]:
def plot_histograms(data):
    data.hist(bins=10, figsize=(15,10), layout=(3,3))
    plt.suptitle("Histogram Data Tingkat Kemiskinan di Indonesia")
    plt.show()

plot_histograms(df)

## Preprocessing

Pada kode `df.dropna()` kita menghapus kolom yang mempunyai nilai kosong, sehingga pada seluruh data tidak terdapat nilai yang kosong

In [None]:
#silahkan isi dengan code yang sesuai keterangan diatas ini
df = 

> Lalu disini kita melakukan encoding. Encoding adalah proses mengubah data atau informasi ke dalam format tertentu. Dalam konteks ini, encoding dilakukan untuk mengubah data kategorikal menjadi data numerik yang dapat dipahami oleh algoritma.

![](https://miro.medium.com/v2/resize:fit:802/1*J_GTKle7phrecheHa-sjYQ.png)

In [None]:
encoder = LabelEncoder()

df[['Provinsi']] = df[['Provinsi']].apply(encoder.fit_transform)

> Selanjutnya kita menggunakan scaling pada data yang akan di prediksi. Scaling adalah transformasi linier yang mengubah nilai fitur dalam data agar memiliki skala yang sama. Hal ini bertujuan agar algoritma machine learning dapat beroperasi dengan lebih baik dan menghasilkan performa yang lebih baik. Scaling mempunyai banyak macam dan jenis, namun disini kita menggunakan minmax scaler. MinMaxScaler adalah sebuah transformer yang dapat digunakan untuk mentransformasikan fitur-fitur numerik ke dalam rentang yang ditentukan, biasanya [0, 1] atau [-1, 1]

In [None]:
scaler = MinMaxScaler()

x = scaler.fit_transform(df)

## Modelling

### K-Means

Disini kita akan memprediksi kluster menggunakan algoritma K-Means. K-Means Clustering adalah algoritma yang mengelompokkan data menjadi beberapa cluster atau kelompok. Kelebihan dari algoritma ini yaitu cepat dalam proses clustering, mudah digunakan, dan fleksibel sebab dapat menentukan jumlah cluster yang akan dibuat. Cara kerja K-Means clustering yaitu:

1. Menentukan jumlah cluster (K)
2. Menginisialisasi centroid secara acak
3. Mengelompokkan data ke cluster berdasarkan jarak terdekat (biasanya Euclidean Distance)
4. Menghitung ulang posisi centroid
5. Mengulangi langkah 3 dan 4 hingga centroid stabil atau jumlah iterasi tercapai

![](https://lh6.googleusercontent.com/gI4ZFjYSRQj4MsbBlD_QjocICL6SsiTImLCC130DZn4QZx5szJ11m_nPXaRGY-GV40ujlhL1xrMVSZxZ5RStkXDDyDIAUWmptPqnpk9BDWgjscoq6sOqfy4Kfzco1Gg6GNiEGoFsEYqWvclrSPGenkA)


In [None]:
wcss = []
for i in range(1, 10):
  kmeans = KMeans(n_clusters=i, init = 'k-means++', random_state=42)
  kmeans.fit(x)
  wcss.append(kmeans.inertia_)
plt.plot(range(1, 10), wcss)
plt.title('Elbow Method')
plt.xlabel('Jumlah clusters')
plt.ylabel('WCSS')
plt.show()

Elbow method merupakan pendekatan yang mencari titik dimana penurunan inersia mulai melambat, membentuk grafik yang merupai bentuk elbow. Inersia mengukur seberapa dekat titik-titik data dengan pusat cluster. Pengukuran inersia dilakukan dengan menggunakan Within-Cluster Sum of Squares (WCSS). Penentuan jumlah cluster didasarkan pada penurunan inersia pada grafik. Dari elbow method diatas jumlah cluster optimal yang bisa digunakan yaitu 3 cluster, karena terlihat penurunan inersia yang mulai melambat pada cluster 3

![](https://miro.medium.com/v2/resize:fit:670/0*aY163H0kOrBO46S-.png)

In [None]:
model = KMeans(n_clusters=3, init='k-means++', random_state=42)
y_pred = model.fit_predict(x)

In [None]:
plt.scatter(x[:, 0], x[:, 1], c=y_pred, cmap='viridis', marker='o', edgecolor='k', alpha=0.7)
plt.scatter(model.cluster_centers_[:, 0], model.cluster_centers_[:, 1], s=200, c='red', marker='X', label='Centroids')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.title('Visualisasi')
plt.legend()
plt.show()

In [None]:
km = silhouette_score(x, y_pred)
dbi_km = davies_bouldin_score(x, y_pred)

print('Silhouette Score K-Means:', km)
print('Davies-Bouldin Index K-Means:', dbi_km)