In [None]:
# Bagian 1: Memuat Data dari File Excel

import pandas as pd

# Load the data from the Excel file
file_path = 'Data_Kecelakaan_Padang_Lawas_Utara.xlsx'
df = pd.read_excel(file_path)

# Display the first few rows of the data
df.head()


In [None]:
# Bagian 2: Normalisasi Data dan Penerapan Algoritma K-Means

from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Pilih fitur yang relevan untuk clustering
features = ["Jumlah Kecelakaan", "Jumlah Meninggal", "Jumlah Luka Berat", "Jumlah Luka Ringan"]
X = df[features]

# Normalisasi data
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Tentukan jumlah klaster
k = 4  # untuk Aman, Berpotensi Rawan, Rawan, Sangat Rawan

# Terapkan K-Means clustering
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X_scaled)
df['Cluster'] = kmeans.labels_

# Display the first few rows of the resulting data with clusters
df.head()


In [None]:
# Bagian 3: Memetakan Klaster ke Tingkat Kerawanan

# Map the clusters to the risk levels
cluster_map = {
    0: "Aman",
    1: "Berpotensi Rawan",
    2: "Rawan",
    3: "Sangat Rawan"
}

df['Tingkat Kerawanan'] = df['Cluster'].map(cluster_map)

# Display the first few rows of the resulting data with risk levels
df.head()


In [None]:
# Bagian 4: Menyimpan Hasil ke File Excel

# Save the result to a new Excel file
output_path = 'Hasil_Klastering_Kecelakaan_Padang_Lawas_Utara.xlsx'
df.to_excel(output_path, index=False)

# Display the path to the saved file
output_path


In [None]:
import numpy as np

def calculate_purity(y_true, y_pred):
    contingency_matrix = pd.crosstab(y_true, y_pred)
    return np.sum(np.amax(contingency_matrix.values, axis=0)) / np.sum(contingency_matrix.values)

# Misalnya, Anda memiliki label asli untuk validasi
# Ini adalah contoh label asli. Dalam kasus nyata, Anda akan memiliki label asli dari data yang sudah diketahui.
# Contoh ini menggunakan label acak untuk tujuan demonstrasi.
np.random.seed(42)
true_labels = np.random.randint(0, 4, size=len(df))

# Hitung purity keseluruhan
purity = calculate_purity(true_labels, df['Cluster'])
print(f"Purity keseluruhan: {purity:.2f}")

# Menampilkan matriks kontingensi sebagai tabel untuk evaluasi lebih lanjut
contingency_matrix = pd.crosstab(true_labels, df['Cluster'])
print(contingency_matrix)

# Menghitung purity untuk setiap klaster
def calculate_purity_per_cluster(contingency_matrix):
    purity_per_cluster = {}
    for cluster in contingency_matrix.columns:
        max_value = contingency_matrix[cluster].max()
        total = contingency_matrix[cluster].sum()
        purity_per_cluster[cluster] = max_value / total if total > 0 else 0
    return purity_per_cluster

# Menghitung purity per klaster
purity_per_cluster = calculate_purity_per_cluster(contingency_matrix)

# Menampilkan purity per klaster
for cluster, purity in purity_per_cluster.items():
    print(f"Purity Klaster {cluster}: {purity:.2f}")

In [None]:
# Bagian 6: Visualisasi Clustering dengan Scatter Plot

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Memuat data
file_path = 'Data_Kecelakaan_Padang_Lawas_Utara.xlsx'
df = pd.read_excel(file_path)

# Pilih fitur yang relevan untuk clustering
features = ["Jumlah Kecelakaan", "Jumlah Meninggal", "Jumlah Luka Berat", "Jumlah Luka Ringan"]
X = df[features]

# Normalisasi data
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Tentukan jumlah klaster
k = 4  # untuk Aman, Berpotensi Rawan, Rawan, Sangat Rawan

# Terapkan K-Means clustering
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X_scaled)
df['Cluster'] = kmeans.labels_

# Menghitung centroid untuk setiap klaster
centroids = kmeans.cluster_centers_

# Visualisasi scatter plot
plt.figure(figsize=(10, 8))
colors = ['r', 'g', 'b', 'y']
for i in range(k):
    # Plot data points
    cluster_data = df[df['Cluster'] == i]
    plt.scatter(cluster_data[features[0]], cluster_data[features[1]], 
                s=50, c=colors[i], label=f'Klaster {i}')

    # Plot centroids
    plt.scatter(centroids[i, 0], centroids[i, 1], 
                s=200, c=colors[i], marker='X')

plt.title('Visualisasi Clustering dengan Scatter Plot')
plt.xlabel('Jumlah Kecelakaan (Standardized)')
plt.ylabel('Jumlah Meninggal (Standardized)')
plt.legend()
plt.show()


In [None]:
# Bagian 7: Visualisasi Jumlah Tingkat Keparahan Kecelakaan Per Tahun

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Memuat data
file_path = 'Data_Kecelakaan_Padang_Lawas_Utara.xlsx'
df = pd.read_excel(file_path)

# Pilih fitur yang relevan untuk clustering
features = ["Jumlah Kecelakaan", "Jumlah Meninggal", "Jumlah Luka Berat", "Jumlah Luka Ringan"]
X = df[features]

# Normalisasi data
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

# Tentukan jumlah klaster
k = 4  # untuk Aman, Berpotensi Rawan, Rawan, Sangat Rawan

# Terapkan K-Means clustering
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(X_scaled)
df['Cluster'] = kmeans.labels_

# Map the clusters to the risk levels
cluster_map = {
    0: "Aman",
    1: "Berpotensi Rawan",
    2: "Rawan",
    3: "Sangat Rawan"
}
df['Tingkat Kerawanan'] = df['Cluster'].map(cluster_map)

# Group by year and severity level
severity_by_year = df.groupby(['Tahun', 'Tingkat Kerawanan']).size().unstack(fill_value=0)

# Visualisasi jumlah tingkat keparahan kecelakaan per tahun
severity_by_year.plot(kind='bar', stacked=True, figsize=(12, 8))
plt.title('Jumlah Tingkat Keparahan Kecelakaan Per Tahun')
plt.xlabel('Tahun')
plt.ylabel('Jumlah Kasus')
plt.legend(title='Tingkat Kerawanan')
plt.show()


In [None]:
import plotly.express as px
# Mengelompokkan data berdasarkan kecamatan, tahun, dan menghitung jumlahnya
summary_by_year_kecamatan = df.groupby(['Tahun', 'Kecamatan']).agg({
    'Jumlah Meninggal': 'sum',
    'Jumlah Luka Berat': 'sum',
    'Jumlah Luka Ringan': 'sum'
}).reset_index()

# Membuat data dalam format long untuk visualisasi
summary_melted = summary_by_year_kecamatan.melt(id_vars=['Tahun', 'Kecamatan'], 
                                                value_vars=['Jumlah Meninggal', 'Jumlah Luka Berat', 'Jumlah Luka Ringan'],
                                                var_name='Kategori', value_name='Jumlah')

# Plot jumlah meninggal, luka berat, dan luka ringan per tahun berdasarkan kecamatan dalam satu grafik stacked bar chart
fig = px.bar(summary_melted, x='Kecamatan', y='Jumlah', color='Kategori', barmode='stack',
             facet_col='Tahun', height=600, title='Jumlah Meninggal, Luka Berat, dan Luka Ringan Per Tahun Berdasarkan Kecamatan')
fig.update_layout(xaxis_title='Kecamatan', yaxis_title='Jumlah', legend_title='Kategori')
fig.update_xaxes(tickangle=45)
fig.show()

In [None]:
# Mengelompokkan data berdasarkan kecamatan, tahun, dan menghitung total kecelakaan
total_accidents_by_year_kecamatan = df.groupby(['Tahun', 'Kecamatan']).agg({
    'Jumlah Kecelakaan': 'sum'
}).reset_index()

# Plot perkembangan total kecelakaan per tahun berdasarkan kecamatan dalam satu grafik line chart
fig = px.line(total_accidents_by_year_kecamatan, x='Tahun', y='Jumlah Kecelakaan', color='Kecamatan',
              title='Perkembangan Total Kecelakaan Per Tahun Berdasarkan Kecamatan',
              labels={'Jumlah Kecelakaan': 'Total Kecelakaan'})
fig.update_layout(xaxis_title='Tahun', yaxis_title='Total Kecelakaan', legend_title='Kecamatan')
fig.show()

In [None]:
import pandas as pd
import numpy as np
import folium
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import silhouette_score
from sklearn.impute import SimpleImputer
from IPython.display import display

# Koordinat kecamatan
kecamatan_coords = {
    "Batang Onang": [1.3166932, 99.4458336],
    "Dolok": [1.6577, 98.5525],
    "Halongonan": [1.6514398, 99.6593041],
    "Padang Bolak": [3.5685536, 98.7273622],
    "Padang Bolak Julu": [1.415091, 99.5576002],
    "Portibi": [1.4375683, 99.7032047],
    "Simangambat": [1.8957231, 99.7846397],
    "Ujung Batu": [1.1896051, 99.99013],
    "Dolok Sigompulon": [1.9700433, 99.5356889],
    "Halongonan Timur": [1.6373489, 99.4558203],
    "Hulu Sihapas": [1.458091, 99.4268896],
    "Padang Bolak Tenggara": [1.54001,99.3234082]
}

# Memuat data
file_path = 'Data_Kecelakaan_Padang_Lawas_Utara.xlsx'
df = pd.read_excel(file_path)

# Pilih fitur yang relevan untuk clustering
features = ["Jumlah Kecelakaan", "Jumlah Meninggal", "Jumlah Luka Berat", "Jumlah Luka Ringan"]
X = df[features]

# Menangani nilai yang hilang
imputer = SimpleImputer(strategy='mean')
X_imputed = imputer.fit_transform(X)

# Normalisasi data
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X_imputed)

# Menentukan jumlah klaster optimal menggunakan silhouette score
max_clusters = 10
silhouette_scores = []

for k in range(2, max_clusters + 1):
    kmeans = KMeans(n_clusters=k, random_state=42, n_init=10)
    cluster_labels = kmeans.fit_predict(X_scaled)
    silhouette_avg = silhouette_score(X_scaled, cluster_labels)
    silhouette_scores.append(silhouette_avg)

optimal_clusters = silhouette_scores.index(max(silhouette_scores)) + 2
print(f"Jumlah klaster optimal: {optimal_clusters}")

# Terapkan K-Means clustering dengan jumlah klaster optimal
kmeans = KMeans(n_clusters=optimal_clusters, random_state=42, n_init=10)
df['Cluster'] = kmeans.fit_predict(X_scaled)

# Memetakan klaster ke tingkat risiko secara dinamis
cluster_centers = kmeans.cluster_centers_
risk_order = np.argsort(np.sum(cluster_centers, axis=1))
risk_levels = ["Aman", "Berpotensi Rawan", "Rawan", "Sangat Rawan"]
cluster_map = {i: risk_levels[min(i, len(risk_levels)-1)] for i in range(optimal_clusters)}
df['Tingkat Kerawanan'] = df['Cluster'].map(lambda x: cluster_map[risk_order[x]])

# Menghitung kepentingan fitur
feature_importance = np.abs(kmeans.cluster_centers_).mean(axis=0)
for feature, importance in zip(features, feature_importance):
    print(f"{feature}: {importance:.4f}")

# Menambahkan koordinat ke DataFrame
df['Coordinates'] = df['Kecamatan'].map(kecamatan_coords)

# Hanya menyimpan baris yang memiliki koordinat yang valid
df = df[df['Coordinates'].notna()]

# Convert coordinates to string for groupby operation
df['Coordinates_str'] = df['Coordinates'].astype(str)

# Warna untuk setiap tingkat kerawanan
color_map = {
    "Aman": "green",
    "Berpotensi Rawan": "yellow",
    "Rawan": "orange",
    "Sangat Rawan": "red"
}

# Loop through years 2019 to 2023
for year in range(2019, 2024):
    # Filter data for the current year
    df_year = df[df['Tahun'] == year]
    
    # Mengelompokkan data berdasarkan kecamatan untuk tahun ini
    severity_by_kecamatan = df_year.groupby(['Kecamatan', 'Tingkat Kerawanan', 'Coordinates_str']).size().reset_index(name='Jumlah')
    
    # Convert coordinates back to list for mapping
    severity_by_kecamatan['Coordinates'] = severity_by_kecamatan['Coordinates_str'].apply(eval)
    
    # Membuat peta dasar
    m = folium.Map(location=[1.4099, 99.7092], zoom_start=10)
    
    # Menambahkan pin ke peta
    for _, row in severity_by_kecamatan.iterrows():
        coords = row['Coordinates']
        folium.Marker(
            location=coords,
            popup=f"{row['Kecamatan']}: {row['Jumlah']} kasus, Tingkat Kerawanan: {row['Tingkat Kerawanan']}",
            icon=folium.Icon(color=color_map[row['Tingkat Kerawanan']])
        ).add_to(m)
    
    # Display the map in the notebook
    display(m)
    print(f"Peta untuk tahun {year}")

print("Analisis selesai. Semua peta telah ditampilkan.")