# Analisis dan Klasifikasi Tingkat Kejahatan di Indonesia dengan Decision Tree

Notebook ini melakukan klasifikasi tingkat kejahatan di Indonesia berdasarkan data penyelesaian tindak pidana tahun 2021-2022 menggunakan metode Decision Tree. Setiap tahap disertai penjelasan dalam bahasa Indonesia.

In [1]:
# Import library yang dibutuhkan
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
import matplotlib.pyplot as plt


## 1. Memuat Data
Memuat data dari file CSV "Presentase Penyelesaian Tindak Pidana di Indonesia tahun 2021-2022.csv" ke dalam DataFrame pandas.

In [2]:
df_crime = pd.read_csv("Presentase Penyelesaian Tindak Pidana di Indonesia tahun 2021-2022.csv")
df_crime.head()

FileNotFoundError: [Errno 2] No such file or directory: 'Presentase Penyelesaian Tindak Pidana di Indonesia tahun 2021-2022.csv'

## 2. Eksplorasi Data
Memeriksa struktur data, tipe data, nilai yang hilang, dan ringkasan statistik untuk memahami dataset.

In [None]:
df_crime.info()
print("\nRingkasan Statistik:")
display(df_crime.describe())
print("\nJumlah Nilai Hilang per Kolom:")
display(df_crime.isnull().sum())
print("\nJumlah Nilai Unik per Kolom:")
display(df_crime.nunique())

## 3. Pembersihan Data
Menghapus baris duplikat jika ada dan memastikan tipe data sudah sesuai untuk analisis.

In [None]:
# Cek dan hapus baris duplikat
duplicate_rows = df_crime.duplicated().sum()
print(f"Jumlah baris duplikat: {duplicate_rows}")
if duplicate_rows > 0:
    df_crime.drop_duplicates(inplace=True)
    print("Baris duplikat telah dihapus.")

# Pastikan tipe data sudah sesuai
df_crime.info()

## 4. Pengolahan Data (Feature Engineering)
Membuat variabel target "Crime_Level" berdasarkan rata-rata persentase penyelesaian tindak pidana tahun 2021 dan 2022.
Menentukan fitur yang akan digunakan untuk klasifikasi.

In [None]:
# Hitung rata-rata persentase penyelesaian tindak pidana
df_crime['Average_Resolution_Percentage'] = (df_crime['Penyelesaian tindak pidana 2021(%)'] + df_crime['Penyelesaian tindak pidana 2022(%)']) / 2

# Tentukan batasan untuk klasifikasi tingkat kejahatan
low_threshold = 55
high_threshold = 70

# Fungsi untuk mengklasifikasikan tingkat kejahatan
def classify_crime_level(percentage):
    if percentage > high_threshold:
        return 'High'
    elif percentage >= low_threshold and percentage <= high_threshold:
        return 'Medium'
    else:
        return 'Low'

df_crime['Crime_Level'] = df_crime['Average_Resolution_Percentage'].apply(classify_crime_level)

# Pilih fitur dan target
X = df_crime[['Jumlah Tindak Pidana 2021', 'Jumlah Tindak Pidana 2022']]
y = df_crime['Crime_Level']

# Tampilkan data dengan kolom baru
df_crime.head()

## 5. Analisis Data
Melihat distribusi target dan statistik deskriptif fitur berdasarkan kategori tingkat kejahatan.

In [None]:
# Distribusi kelas target
print("Distribusi tingkat kejahatan:")
print(df_crime['Crime_Level'].value_counts())

# Statistik deskriptif fitur berdasarkan tingkat kejahatan
print("\nStatistik deskriptif jumlah tindak pidana berdasarkan tingkat kejahatan:")
print(df_crime.groupby('Crime_Level')[['Jumlah Tindak Pidana 2021', 'Jumlah Tindak Pidana 2022']].describe())

# Korelasi antar fitur
print("\nMatriks korelasi:")
print(df_crime[['Jumlah Tindak Pidana 2021', 'Jumlah Tindak Pidana 2022', 'Average_Resolution_Percentage']].corr())

## 6. Persiapan Data untuk Model
Melakukan scaling pada fitur agar model dapat bekerja lebih baik.

In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
print("Fitur setelah scaling:")
print(X_scaled[:5])

## 7. Membagi Data Latih dan Uji
Membagi data menjadi data latih dan data uji dengan proporsi 75% dan 25%.

In [None]:
X_train, X_test, y_train, y_test = train_test_split(
    X_scaled, y, test_size=0.25, random_state=42, stratify=y
)
print(f"Bentuk X_train: {X_train.shape}")
print(f"Bentuk X_test: {X_test.shape}")
print(f"Bentuk y_train: {y_train.shape}")
print(f"Bentuk y_test: {y_test.shape}")

## 8. Pelatihan Model Decision Tree
Melatih model Decision Tree untuk mengklasifikasikan tingkat kejahatan.

In [None]:
model_dt = DecisionTreeClassifier(random_state=42)
model_dt.fit(X_train, y_train)
print("Model Decision Tree berhasil dilatih.")

## 9. Evaluasi Model
Mengukur performa model menggunakan metrik akurasi, presisi, recall, dan F1-score.

In [None]:
y_pred = model_dt.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred, average='weighted')
recall = recall_score(y_test, y_pred, average='weighted')
f1 = f1_score(y_test, y_pred, average='weighted')

print(f"Akurasi: {accuracy:.4f}")
print(f"Presisi (weighted): {precision:.4f}")
print(f"Recall (weighted): {recall:.4f}")
print(f"F1-score (weighted): {f1:.4f}")

## 10. Kesimpulan dan Insight
Berdasarkan hasil analisa dan evaluasi model, berikut beberapa poin penting:

- Dataset berisi data statistik tindak pidana dan persentase penyelesaian di 35 wilayah kepolisian di Indonesia tahun 2021 dan 2022.
- Tidak ditemukan nilai hilang atau duplikat pada dataset.
- Variabel target "Crime_Level" dibuat berdasarkan rata-rata persentase penyelesaian tindak pidana dengan kategori Low, Medium, dan High.
- Distribusi kelas tidak seimbang, dengan mayoritas wilayah masuk kategori Low.
- Model Decision Tree berhasil dilatih dan mencapai akurasi yang baik pada data uji.
- Metrik presisi, recall, dan F1-score menunjukkan performa model dalam mengklasifikasikan tingkat kejahatan.
- Disarankan untuk melakukan penanganan ketidakseimbangan kelas dan eksplorasi model lain untuk hasil yang lebih baik.