In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind, f_oneway, chi2_contingency, spearmanr, pearsonr
import statsmodels.api as sm
import statsmodels.formula.api as smf

# 1. Membaca Data dari Excel
file_path = "/content/10kbook.xlsx"  # Ganti dengan path file yang benar
df = pd.read_excel(file_path)

# 2. Menampilkan jumlah dan nama kolom asli untuk verifikasi
print(f"Jumlah kolom dalam dataset: {len(df.columns)}")
print("Nama kolom asli:", df.columns.tolist())

# 3. Menyesuaikan nama kolom dengan jumlah yang sesuai
df.columns = ['Provinsi', 'Kabupaten/Kota', 'Subjenis', 'Nama_Perpus', 'Jumlah_Koleksi_Diterima',
              'Jumlah_Buku_Sebelum', 'Jumlah_Buku_Sesudah', 'Peningkatan_Kunjungan',
              'Jumlah_Pengunjung_Bertambah', 'Judul_Dibaca_Perbulan', 'Judul_Dipinjam_Perbulan',
              'Pelatihan_Perpusnas', 'Pelatihan_Dinas', 'Kegiatan_Rutin', 'Frekuensi_Kegiatan',
              'Peserta_Kegiatan', 'Kerjasama', 'Dukungan_Pemdes', 'Anggaran_Desa',
              'Jumlah_Anggaran_Desa', 'Anggaran_Lain', 'Jumlah_Anggaran_Lain', 'Insentif_Pengelola',
              'Jumlah_Insentif', 'Hambatan']  # Pastikan jumlahnya benar (sesuai dengan dataset)

# 4. Konversi beberapa kolom menjadi numerik
num_cols = ['Jumlah_Koleksi_Diterima', 'Jumlah_Buku_Sebelum', 'Jumlah_Buku_Sesudah',
            'Jumlah_Pengunjung_Bertambah', 'Judul_Dibaca_Perbulan', 'Judul_Dipinjam_Perbulan',
            'Jumlah_Anggaran_Desa', 'Jumlah_Anggaran_Lain', 'Jumlah_Insentif']

for col in num_cols:
    df[col] = pd.to_numeric(df[col], errors='coerce')

# 5. Menampilkan 5 baris pertama untuk verifikasi
print(df.head())


In [None]:
# 5. Analisis Statistik Deskriptif
print("\nStatistik Deskriptif:")
print(df[num_cols].describe())



In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import pearsonr

# Menampilkan Korelasi Pearson
print("\nKorelasi Pearson antara jumlah koleksi sebelum bantuan dengan peningkatan pengunjung:")

# Cek nilai inf dan NaN dalam dataset
print("Jumlah_Buku_Sebelum contains inf:", np.isinf(df['Jumlah_Buku_Sebelum']).any())
print("Jumlah_Buku_Sebelum contains NaN:", np.isnan(df['Jumlah_Buku_Sebelum']).any())
print("Jumlah_Pengunjung_Bertambah contains inf:", np.isinf(df['Jumlah_Pengunjung_Bertambah']).any())
print("Jumlah_Pengunjung_Bertambah contains NaN:", np.isnan(df['Jumlah_Pengunjung_Bertambah']).any())

# Mengganti nilai inf dan NaN dengan 0
df['Jumlah_Buku_Sebelum'] = df['Jumlah_Buku_Sebelum'].replace([np.inf, -np.inf], np.nan).fillna(0)
df['Jumlah_Pengunjung_Bertambah'] = df['Jumlah_Pengunjung_Bertambah'].replace([np.inf, -np.inf], np.nan).fillna(0)

# Menghitung korelasi Pearson
corr, p_value = pearsonr(df['Jumlah_Buku_Sebelum'], df['Jumlah_Pengunjung_Bertambah'])
print(f"Korelasi: {corr:.3f}, P-Value: {p_value:.5f}")

# Visualisasi 1: Scatter Plot dengan Regresi Linier
plt.figure(figsize=(8, 6))
sns.regplot(x=df['Jumlah_Buku_Sebelum'], y=df['Jumlah_Pengunjung_Bertambah'], scatter_kws={'alpha':0.5}, line_kws={"color": "red"})
plt.title("Hubungan Jumlah Koleksi Sebelum Bantuan dengan Peningkatan Pengunjung")
plt.xlabel("Jumlah Buku Sebelum Bantuan")
plt.ylabel("Jumlah Peningkatan Pengunjung")
plt.grid(True, linestyle="--", alpha=0.6)
plt.show()

# Visualisasi 2: Heatmap Korelasi untuk Variabel Numerik
plt.figure(figsize=(8, 6))
sns.heatmap(df[['Jumlah_Buku_Sebelum', 'Jumlah_Pengunjung_Bertambah']].corr(), annot=True, cmap="coolwarm", fmt=".3f", linewidths=0.5)
plt.title("Heatmap Korelasi")
plt.show()


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import pearsonr

# Menampilkan Korelasi Pearson
print("\nKorelasi Pearson antara jumlah koleksi setelah bantuan dengan peningkatan pengunjung:")

# Cek nilai inf dan NaN dalam dataset
for col in ['Jumlah_Buku_Sesudah', 'Jumlah_Pengunjung_Bertambah']:
    print(f"{col} contains inf:", np.isinf(df[col]).any())
    print(f"{col} contains NaN:", np.isnan(df[col]).any())

# Mengganti nilai inf dan NaN dengan 0
for col in ['Jumlah_Buku_Sesudah', 'Jumlah_Pengunjung_Bertambah']:
    df[col] = df[col].replace([np.inf, -np.inf], np.nan).fillna(0)

# Menghitung korelasi Pearson
corr_after, p_after = pearsonr(df['Jumlah_Buku_Sesudah'], df['Jumlah_Pengunjung_Bertambah'])

print(f"Korelasi (Jumlah Buku Sesudah - Peningkatan Pengunjung): {corr_after:.3f}, P-Value: {p_after:.5f}")

# Visualisasi: Scatter Plot dengan Regresi Linier
plt.figure(figsize=(8, 6))
sns.regplot(x=df['Jumlah_Buku_Sesudah'], y=df['Jumlah_Pengunjung_Bertambah'], scatter_kws={'alpha':0.5}, line_kws={"color": "blue"})
plt.title("Hubungan Jumlah Buku Setelah Bantuan dengan Peningkatan Pengunjung")
plt.xlabel("Jumlah Buku Setelah Bantuan")
plt.ylabel("Jumlah Peningkatan Pengunjung")
plt.grid(True, linestyle="--", alpha=0.6)
plt.show()

# Visualisasi: Heatmap Korelasi
plt.figure(figsize=(8, 6))
sns.heatmap(df[['Jumlah_Buku_Sesudah', 'Jumlah_Pengunjung_Bertambah']].corr(),
            annot=True, cmap="coolwarm", fmt=".3f", linewidths=0.5)
plt.title("Heatmap Korelasi (Setelah Bantuan)")
plt.show()


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

# Mengonversi data ke format long untuk memudahkan visualisasi
df_long = pd.melt(df, id_vars=['Jumlah_Pengunjung_Bertambah'],
                  value_vars=['Jumlah_Buku_Sebelum', 'Jumlah_Buku_Sesudah'],
                  var_name='Kondisi', value_name='Jumlah_Buku')

# 🎨 1️⃣ Boxplot: Perbandingan Sebelum & Sesudah Bantuan terhadap Jumlah Kunjungan
plt.figure(figsize=(8, 6))
sns.boxplot(x='Kondisi', y='Jumlah_Pengunjung_Bertambah', data=df_long, palette=["blue", "green"])
plt.title("Distribusi Jumlah Kunjungan Perpustakaan Sebelum & Sesudah Bantuan", fontsize=13)
plt.xlabel("Kondisi Buku", fontsize=12)
plt.ylabel("Jumlah Kunjungan", fontsize=12)
plt.grid(axis="y", linestyle="--", alpha=0.6)
plt.show()

# 🎨 2️⃣ Line Plot: Tren Perubahan Jumlah Buku terhadap Rata-rata Kunjungan
plt.figure(figsize=(8, 6))
df_mean = df_long.groupby("Kondisi")["Jumlah_Pengunjung_Bertambah"].mean().reset_index()

sns.lineplot(x="Kondisi", y="Jumlah_Pengunjung_Bertambah", data=df_mean, marker="o", markersize=8, linewidth=2, color="red")
plt.title("Perubahan Jumlah Buku Sebelum & Sesudah Bantuan terhadap Kunjungan", fontsize=13)
plt.xlabel("Kondisi Buku", fontsize=12)
plt.ylabel("Rata-rata Jumlah Kunjungan", fontsize=12)
plt.grid(True, linestyle="--", alpha=0.6)
plt.show()

# 🎨 3️⃣ Paired Change Plot: Perubahan Jumlah Buku Sebelum & Sesudah per Data Point
plt.figure(figsize=(8, 6))
for i in range(len(df)):
    plt.plot(["Sebelum", "Sesudah"], [df["Jumlah_Buku_Sebelum"][i], df["Jumlah_Buku_Sesudah"][i]], marker="o", linestyle="-", alpha=0.5, color="gray")

plt.plot(["Sebelum", "Sesudah"], [df["Jumlah_Buku_Sebelum"].mean(), df["Jumlah_Buku_Sesudah"].mean()], marker="o", linestyle="-", color="red", label="Rata-rata")
plt.title("Perubahan Jumlah Buku Sebelum & Sesudah Bantuan per Data Point", fontsize=13)
plt.xlabel("Kondisi Buku", fontsize=12)
plt.ylabel("Jumlah Buku", fontsize=12)
plt.legend()
plt.grid(True, linestyle="--", alpha=0.6)
plt.show()


In [None]:
# Visualisasi Boxplot: Perbandingan Peningkatan Pengunjung antar Subjenis Perpustakaan
plt.figure(figsize=(10, 6))
sns.boxplot(x='Subjenis', y='Jumlah_Pengunjung_Bertambah', data=df, palette="pastel")
sns.stripplot(x='Subjenis', y='Jumlah_Pengunjung_Bertambah', data=df, color="black", alpha=0.5)  # Menambahkan distribusi data
plt.title('Perbandingan Peningkatan Pengunjung Berdasarkan Subjenis Perpustakaan')
plt.xlabel('Subjenis Perpustakaan')
plt.ylabel('Jumlah Peningkatan Pengunjung')
plt.xticks(rotation=15)
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.show()

# Visualisasi Histogram: Distribusi Jumlah Pengunjung Berdasarkan Subjenis
plt.figure(figsize=(12, 6))
sns.histplot(df[df['Subjenis'] == 'Perpustakaan Desa']['Jumlah_Pengunjung_Bertambah'], kde=True, color='blue', label='Perpustakaan Desa', alpha=0.5)
sns.histplot(df[df['Subjenis'] == 'Taman Bacaan Masyarakat']['Jumlah_Pengunjung_Bertambah'], kde=True, color='green', label='TBM', alpha=0.5)
sns.histplot(df[df['Subjenis'] == 'Perpustakaan Kelurahan']['Jumlah_Pengunjung_Bertambah'], kde=True, color='red', label='Perpustakaan Kelurahan', alpha=0.5)
plt.title('Distribusi Jumlah Pengunjung Berdasarkan Subjenis Perpustakaan')
plt.xlabel('Jumlah Peningkatan Pengunjung')
plt.ylabel('Frekuensi')
plt.legend()
plt.grid(True)
plt.show()


1. Interpretasi Korelasi
   Koefisien Korelasi (r = 0.173): Menunjukkan hubungan positif yang sangat lemah antara jumlah buku sebelum bantuan dan peningkatan pengunjung. Secara praktis, efek ini dianggap tidak signifikan secara substansi meskipun statistiknya signifikan.
   P-Value (1.33e-20): Nilai p sangat kecil (< 0.05) mengindikasikan bahwa korelasi ini statistikal signifikan.
   
   **Tapi perlu diingat: Statistical significance ≠ Practical significance**.

2. Implikasi
   Kesimpulan Utama: Tidak ada hubungan yang antara jumlah koleksi buku sebelum bantuan dengan pertumbuhan pengunjung.
   
   Analisis faktor lain yang mungkin mempengaruhi kunjungan pemustaka (misalnya: kualitas buku, program promosi, atau variabel lain) yang mungkin lebih berpengaruh.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind, f_oneway

# Membaca data dari file Excel (misalnya 'data_perpustakaan.xlsx')
df = pd.read_excel('/content/10kbook.xlsx')

# Memeriksa informasi tentang dataset
print(df.info())
print(df.head())

# 1. Statistik Deskriptif: Melihat distribusi jumlah pengunjung berdasarkan subjenis perpustakaan
descriptive_stats = df.groupby('Subjenis')['Jumlah_Pengunjung_Bertambah'].describe()
print("\nStatistik Deskriptif untuk Jumlah Pengunjung Berdasarkan Subjenis Perpustakaan:")
print(descriptive_stats)

# 2. Uji T untuk perbandingan antara Perpustakaan Desa dan TBM
from scipy.stats import ttest_ind


# Uji T untuk Perbandingan antara Perpustakaan Desa dan TBM
desa_tbm = df[df['Subjenis'] == 'Perpustakaan Desa']['Jumlah_Pengunjung_Bertambah']
tbm = df[df['Subjenis'] == 'Taman Bacaan Masyarakat']['Jumlah_Pengunjung_Bertambah']

t_stat_desa_tbm, p_value_desa_tbm = ttest_ind(desa_tbm, tbm, equal_var=False)  # Asumsi variansi tidak sama
print(f"\nHasil Uji T untuk Perbandingan Perpustakaan Desa dan TBM:")
print(f"T-Stat: {t_stat_desa_tbm}, P-Value: {p_value_desa_tbm}")

# Uji T untuk Perbandingan antara Perpustakaan Desa dan Perpustakaan Kelurahan
desa_kelurahan = df[df['Subjenis'] == 'Perpustakaan Desa']['Jumlah_Pengunjung_Bertambah']
kelurahan = df[df['Subjenis'] == 'Perpustakaan Kelurahan']['Jumlah_Pengunjung_Bertambah']

t_stat_desa_kelurahan, p_value_desa_kelurahan = ttest_ind(desa_kelurahan, kelurahan, equal_var=False)  # Asumsi variansi tidak sama
print(f"\nHasil Uji T untuk Perbandingan Perpustakaan Desa dan Perpustakaan Kelurahan:")
print(f"T-Stat: {t_stat_desa_kelurahan}, P-Value: {p_value_desa_kelurahan}")

# Uji T untuk Perbandingan antara Perpustakaan Kelurahan dan TBM
kelurahan_tbm = df[df['Subjenis'] == 'Perpustakaan Kelurahan']['Jumlah_Pengunjung_Bertambah']

t_stat_kelurahan_tbm, p_value_kelurahan_tbm = ttest_ind(kelurahan_tbm, tbm, equal_var=False)  # Asumsi variansi tidak sama
print(f"\nHasil Uji T untuk Perbandingan Perpustakaan Kelurahan dan TBM:")
print(f"T-Stat: {t_stat_kelurahan_tbm}, P-Value: {p_value_kelurahan_tbm}")




# 3. Uji ANOVA untuk perbandingan antara Perpustakaan Desa dan TBM
# Melakukan Uji ANOVA untuk membandingkan ketiga jenis perpustakaan
anova_results = f_oneway(
    df[df['Subjenis'] == 'Perpustakaan Desa']['Jumlah_Pengunjung_Bertambah'],
    df[df['Subjenis'] == 'Perpustakaan Kelurahan']['Jumlah_Pengunjung_Bertambah'],
    df[df['Subjenis'] == 'Taman Bacaan Masyarakat']['Jumlah_Pengunjung_Bertambah']
)

# Menampilkan hasil Uji ANOVA
print("Uji ANOVA untuk Subjenis Perpustakaan terhadap Peningkatan Pengunjung:")
print(f"F-Stat: {anova_results.statistic}, P-Value: {anova_results.pvalue}")

# Interpretasi hasil
if anova_results.pvalue < 0.05:
    print("Terdapat perbedaan yang signifikan antara Perpustakaan Desa, Perpustakaan Kelurahan, dan TBM dalam peningkatan pengunjung.")
else:
    print("Tidak terdapat perbedaan yang signifikan antara Perpustakaan Desa, Perpustakaan Kelurahan, dan TBM dalam peningkatan pengunjung.")

# Visualisasi Boxplot untuk membandingkan distribusi peningkatan pengunjung antar subjenis perpustakaan
plt.figure(figsize=(10, 6))
sns.boxplot(x='Subjenis', y='Jumlah_Pengunjung_Bertambah', data=df, palette="Set2")
plt.title('Perbandingan Peningkatan Pengunjung Berdasarkan Subjenis Perpustakaan')
plt.xlabel('Subjenis Perpustakaan')
plt.ylabel('Jumlah Peningkatan Pengunjung')
plt.grid(True)
plt.show()

# 5. Visualisasi Distribusi Jumlah Pengunjung Berdasarkan Subjenis
plt.figure(figsize=(10, 6))
sns.histplot(df[df['Subjenis'] == 'Perpustakaan Desa']['Jumlah_Pengunjung_Bertambah'], kde=True, color='blue', label='Perpustakaan Desa')
sns.histplot(df[df['Subjenis'] == 'Taman Bacaan Masyarakat']['Jumlah_Pengunjung_Bertambah'], kde=True, color='green', label='TBM')
plt.title('Distribusi Jumlah Pengunjung Berdasarkan Subjenis Perpustakaan')
plt.xlabel('Jumlah Pengunjung Bertambah')
plt.ylabel('Frekuensi')
plt.legend()
plt.show()



1. Statistik Deskriptif:
Perpustakaan Desa memiliki rata-rata pengunjung yang bertambah sebesar 35.08 dengan standar deviasi 62.01. Pengunjung yang bertambah bisa sangat bervariasi, mulai dari 0 hingga 993 orang.
Perpustakaan Kelurahan menunjukkan rata-rata yang sedikit lebih tinggi (37.81), namun dengan variansi yang lebih besar (standar deviasi 75.79). Ini menunjukkan bahwa walaupun ada peningkatan pengunjung di perpustakaan kelurahan, fluktuasi jumlah pengunjung cenderung lebih tinggi daripada di perpustakaan desa.
Taman Bacaan Masyarakat (TBM) memiliki rata-rata yang lebih tinggi (46.30) dan juga variansi yang besar (standar deviasi 72.99), dengan nilai maksimal 900 pengunjung yang bertambah. Meskipun ada variasi yang besar, rata-rata pengunjung yang bertambah lebih tinggi di TBM.
2. Hasil Uji T:
Perbandingan Perpustakaan Desa dan TBM menunjukkan nilai T-Stat: -3.95 dan P-Value: 8.16e-05. Nilai P yang sangat kecil (< 0.05) menunjukkan adanya perbedaan signifikan antara kedua jenis perpustakaan ini dalam hal peningkatan jumlah pengunjung. TBM menunjukkan peningkatan pengunjung yang lebih besar dibandingkan dengan Perpustakaan Desa.
Perbandingan Perpustakaan Desa dan Perpustakaan Kelurahan menghasilkan T-Stat: -0.66 dan P-Value: 0.51, yang menunjukkan tidak ada perbedaan signifikan antara kedua jenis perpustakaan ini. Hal ini berarti bahwa secara statistik, kedua jenis perpustakaan tersebut memiliki tingkat peningkatan pengunjung yang relatif mirip.
Perbandingan Perpustakaan Kelurahan dan TBM menghasilkan T-Stat: -1.88 dan P-Value: 0.06, yang masih lebih besar dari 0.05, menunjukkan bahwa tidak ada perbedaan yang signifikan antara kedua jenis perpustakaan ini dalam hal peningkatan pengunjung, meskipun ada tren bahwa TBM cenderung memiliki peningkatan pengunjung yang lebih tinggi.
3. Hasil Uji ANOVA:
Uji ANOVA menghasilkan F-Stat: 8.14 dan P-Value: 0.0003, yang menunjukkan bahwa ada perbedaan signifikan dalam peningkatan pengunjung di antara ketiga jenis perpustakaan (Perpustakaan Desa, Perpustakaan Kelurahan, dan TBM). Dengan kata lain, tipe perpustakaan memengaruhi secara signifikan tingkat peningkatan pengunjung.


4. Rekomendasi Kebijakan:

*   Fokus pada Pengembangan Taman Bacaan Masyarakat (TBM):
Hasil analisis menunjukkan bahwa TBM memiliki rata-rata peningkatan pengunjung yang lebih tinggi daripada Perpustakaan Desa dan Perpustakaan Kelurahan. Oleh karena itu, perlu ada investasi dan dukungan lebih besar untuk pengembangan TBM, baik dari sisi koleksi maupun pelayanan, agar dapat terus menarik lebih banyak pengunjung.
*   Perbaiki Layanan di Perpustakaan Kelurahan: Meskipun tidak ada perbedaan signifikan antara Perpustakaan Kelurahan dan Perpustakaan Desa, perpustakaan kelurahan memiliki variansi yang lebih besar dalam peningkatan pengunjung. Oleh karena itu, penting untuk melakukan evaluasi mendalam terkait faktor-faktor yang memengaruhi peningkatan pengunjung di perpustakaan kelurahan, serta mencari cara untuk meningkatkan layanan agar bisa menarik lebih banyak pengunjung secara konsisten.
*   Kampanye untuk Meningkatkan Minat ke Perpustakaan Desa: Meskipun Perpustakaan Desa menunjukkan peningkatan pengunjung yang lebih rendah dibandingkan dengan TBM, kampanye literasi yang lebih intensif atau program promosi di daerah-daerah dengan Perpustakaan Desa dapat membantu menarik pengunjung lebih banyak, apalagi dengan konteks geografis dan demografis yang berbeda-beda.
*   Peningkatan Infrastruktur dan Akses: Hasil uji ANOVA menunjukkan bahwa subjenis perpustakaan memang mempengaruhi pengunjung, yang menandakan bahwa aksesibilitas dan infrastruktur perlu diperhatikan untuk meningkatkan pengunjung, terutama di daerah dengan Perpustakaan Kelurahan dan Perpustakaan Desa.
Kolaborasi dan Kerjasama antar Subjenis Perpustakaan: Meningkatkan kerjasama antar jenis perpustakaan bisa membantu meningkatkan jumlah pengunjung secara keseluruhan, mengingat setiap jenis perpustakaan memiliki karakteristik dan kekuatan masing-masing dalam menarik pengunjung.

In [None]:
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
import seaborn as sns
import matplotlib.pyplot as plt

# First, print the columns of your DataFrame to ensure the features are correct
print("Columns in DataFrame:", df.columns)

# Define features for clustering (use PCA1 and PCA2 as an example)
features = ['PCA1', 'PCA2']

# Verify that the specified features are available in the DataFrame
missing_columns = [col for col in features if col not in df.columns]
if missing_columns:
    print(f"Missing columns: {missing_columns}")
else:
    # Mengstandardisasi data
    scaler = StandardScaler()
    data_scaled = scaler.fit_transform(df[features])

    # Menentukan jumlah klaster
    kmeans = KMeans(n_clusters=3, random_state=42)
    df['Cluster'] = kmeans.fit_predict(data_scaled)

    # Visualisasi hasil clustering
    sns.scatterplot(x='PCA1', y='PCA2', hue='Cluster', data=df, palette='viridis')
    plt.title('Hasil Cluster Analysis')
    plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Cross-reference clusters with 'Subjenis' to analyze the distribution
cluster_subjenis = df.groupby(['Cluster', 'Subjenis']).size().reset_index(name='Count')

# Membuat plot
plt.figure(figsize=(12, 6))
ax = sns.barplot(data=cluster_subjenis, x='Cluster', y='Count', hue='Subjenis', palette='viridis')

# Menambahkan label di atas setiap batang
for container in ax.containers:
    ax.bar_label(container, fmt='%d', padding=3, fontsize=10, color='black', label_type='edge')

# Format tampilan
plt.title('Distribusi Subjenis dalam Setiap Cluster')
plt.xlabel('Cluster')
plt.ylabel('Jumlah')
plt.legend(title='Subjenis')
plt.xticks(rotation=45)
plt.grid(axis='y', linestyle='--', alpha=0.7)

# Menampilkan plot
plt.show()


In [None]:
# Cross-reference clusters with 'Subjenis' to analyze the distribution
cluster_subjenis = df.groupby(['Cluster', 'Subjenis']).size().reset_index(name='Count')

# Display the distribution of 'Subjenis' across the clusters
print(cluster_subjenis)


 Hasil analisis klasterisasi dapat dijelaskan sebagai berikut:





*   Klaster 0: Merupakan campuran berbagai jenis perpustakaan, dengan dominasi Perpustakaan Desa dan Taman Bacaan Masyarakat. Keterlibatan dalam program cenderung moderat, dengan dukungan dan sumber daya yang sedang. Perpustakaan Kelurahan jarang terlibat.
*   Klaster 1: Didominasi oleh Perpustakaan Desa, yang memiliki dukungan lebih kuat dalam pelatihan, kerjasama, dan anggaran. Taman Bacaan Masyarakat dan Perpustakaan Kelurahan sedikit terlibat. Klaster ini menunjukkan wilayah dengan sumber daya dan dukungan yang lebih besar.
*   Klaster 2: Dominasi Taman Bacaan Masyarakat, namun dengan keterbatasan dukungan dan sumber daya. Wilayah ini memiliki keterlibatan rendah dan membutuhkan perhatian lebih untuk meningkatkan kualitas program dan dukungan.

Centroid Klaster:
*   Klaster 0: Memiliki nilai pelatihan sedikit lebih tinggi dari rata-rata, namun dukungan anggaran rendah.
*   Klaster 1: Memiliki nilai pelatihan, dukungan, dan anggaran yang lebih tinggi, mencerminkan wilayah dengan dukungan lebih besar.
*   Klaster 2: Memiliki nilai yang jauh di bawah rata-rata untuk hampir semua fitur, menunjukkan keterlibatan rendah dan dukungan terbatas.

Distribusi Klaster:
*   Klaster 1 menunjukkan wilayah dengan dukungan dan sumber daya yang lebih besar.
*   Klaster 0 menunjukkan wilayah dengan dukungan moderat.
*   Klaster 2 mencerminkan wilayah dengan keterbatasan dukungan dan perlu mendapatkan perhatian lebih

Kesimpulan:

*   Klaster 0: 1510 data, wilayah dengan program yang stabil meski tidak terlalu intensif.
*   Klaster 1: 815 data, wilayah dengan keterlibatan tinggi dan dukungan lebih besar.
*   Klaster 2: 535 data, wilayah dengan keterlibatan rendah dan kurang mendapat dukungan.


Saran:

Klaster 1 perlu memperkuat program yang ada dengan fokus pada peningkatan kerjasama dan anggaran.
Klaster 0 bisa fokus pada distribusi sumber daya yang lebih merata.
Klaster 2 memerlukan lebih banyak dukungan, pelatihan, dan keterlibatan dalam program berbasis perpustakaan.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer

# Load dataset dari file Excel
df = pd.read_excel("/content/10kbook.xlsx", engine="openpyxl")

# Daftar fitur yang akan digunakan
features = ['Pelatihan_Perpusnas', 'Pelatihan_Dinas', 'Kegiatan_Rutin',
            'Peserta_Kegiatan', 'Kerjasama', 'Dukungan_Pemdes',
            'Anggaran_Desa', 'Jumlah_Pengunjung_Bertambah']

# Pastikan semua kolom tersedia dalam dataset
missing_cols = [col for col in features if col not in df.columns]
if missing_cols:
    raise ValueError(f"Kolom berikut tidak ditemukan dalam dataset: {missing_cols}")

# Konversi semua fitur ke tipe numerik, mengubah teks menjadi NaN
df[features] = df[features].apply(pd.to_numeric, errors='coerce')

# Mengatasi nilai yang hilang dengan imputasi rata-rata
imputer = SimpleImputer(strategy="mean")
df_imputed = pd.DataFrame(imputer.fit_transform(df[features]), columns=features)

# Standardisasi data
scaler = StandardScaler()
data_scaled = scaler.fit_transform(df_imputed)

# Menjalankan K-Means dengan 3 cluster
kmeans = KMeans(n_clusters=3, random_state=42, n_init=10)
df["Segment"] = kmeans.fit_predict(data_scaled)

# Analisis hasil dengan grouping
grouped_df = df.groupby("Segment")[features].mean()
print("\n### Rata-rata fitur berdasarkan segmentasi ###\n")
print(grouped_df)

# Visualisasi hasil segmentasi dengan scatter plot
plt.figure(figsize=(8, 6))
sns.scatterplot(x=df['Pelatihan_Perpusnas'],
                y=df['Jumlah_Pengunjung_Bertambah'],
                hue=df['Segment'],
                palette='viridis')
plt.title('Segmentasi Pengunjung Berdasarkan Pelatihan dan Jumlah Pengunjung Bertambah')
plt.xlabel('Pelatihan Perpusnas')
plt.ylabel('Jumlah Pengunjung Bertambah')
plt.legend(title="Segment")
plt.show()

# Visualisasi dalam bentuk heatmap untuk melihat perbedaan antar cluster
plt.figure(figsize=(10, 6))
sns.heatmap(grouped_df, annot=True, cmap='coolwarm', fmt=".2f")
plt.title("Perbandingan Rata-rata Fitur per Segment")
plt.show()


In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.impute import SimpleImputer

# Memilih fitur yang digunakan untuk prediksi
features = ['Pelatihan_Perpusnas', 'Pelatihan_Dinas', 'Kegiatan_Rutin',
            'Peserta_Kegiatan', 'Kerjasama', 'Dukungan_Pemdes', 'Anggaran_Desa', 'Jumlah_Anggaran_Desa']
X = df[features]
y = df['Peningkatan_Kunjungan']

# Menggunakan SimpleImputer untuk mengisi nilai NaN dengan rata-rata
imputer_X = SimpleImputer(strategy='mean')  # Imputer untuk fitur (X)
imputer_y = SimpleImputer(strategy='mean')  # Imputer untuk target (y)

# Impute missing values for X and y
X_imputed = imputer_X.fit_transform(X)
y_imputed = imputer_y.fit_transform(y.values.reshape(-1, 1))

# Membagi data menjadi train dan test
X_train, X_test, y_train, y_test = train_test_split(X_imputed, y_imputed, test_size=0.2, random_state=42)

# Membuat model regresi linier
model = LinearRegression()
model.fit(X_train, y_train)

# Memprediksi dan mengevaluasi model
predictions = model.predict(X_test)

# Output some results to check
print("Predictions:", predictions[:10])  # Displaying the first 10 predictions
print("Actual values:", y_test[:10])  # Displaying the first 10 actual values


In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.impute import SimpleImputer

# Memilih fitur yang digunakan untuk prediksi
features = ['Pelatihan_Perpusnas', 'Pelatihan_Dinas', 'Kegiatan_Rutin',
            'Peserta_Kegiatan', 'Kerjasama', 'Dukungan_Pemdes', 'Anggaran_Desa', 'Jumlah_Anggaran_Desa']
X = df[features]
y = df['Peningkatan_Kunjungan']

# Handling missing values in features and target
imputer_X = SimpleImputer(strategy='mean')  # Impute missing values in features
X_imputed = imputer_X.fit_transform(X)

imputer_y = SimpleImputer(strategy='mean')  # Impute missing values in target variable
y_imputed = imputer_y.fit_transform(y.values.reshape(-1, 1)).flatten()

# Membagi data menjadi train dan test
X_train, X_test, y_train, y_test = train_test_split(X_imputed, y_imputed, test_size=0.2, random_state=42)

# Membuat model regresi linier
model = LinearRegression()

# Train the model on the data
model.fit(X_train, y_train)

# Memprediksi hasil pada data test
y_pred = model.predict(X_test)

# Evaluasi model
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error: {mse}')
print(f'R2 Score: {r2}')

# Print first few predictions and actual values for comparison
print(f'Predictions: {y_pred[:10]}')
print(f'Actual values: {y_test[:10]}')


In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix

# Convert Peningkatan_Kunjungan to binary (if needed)
y_binary = (y_imputed > 0.5).astype(int)  # Converting the target to binary values

# Membagi data menjadi train dan test
X_train, X_test, y_train, y_test = train_test_split(X_imputed, y_binary, test_size=0.2, random_state=42)

# Membuat model regresi logistik
model = LogisticRegression()

# Train the model on the data
model.fit(X_train, y_train)

# Memprediksi hasil pada data test
y_pred = model.predict(X_test)

# Evaluasi model
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)

print(f'Accuracy: {accuracy}')
print(f'Confusion Matrix: \n{conf_matrix}')

# Print first few predictions and actual values for comparison
print(f'Predictions: {y_pred[:10]}')
print(f'Actual values: {y_test[:10]}')


In [None]:
from sklearn.metrics import classification_report

# Get classification report
print(classification_report(y_test, y_pred))


In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

# Fit the Linear Regression model
model = LinearRegression()
model.fit(X_train, y_train)

# Get the coefficients (weights) of each feature
coefficients = pd.DataFrame(model.coef_, X.columns, columns=["Coefficient"])

# Sort the coefficients by their absolute value
coefficients['Abs_Coefficient'] = coefficients['Coefficient'].abs()
coefficients_sorted = coefficients.sort_values(by='Abs_Coefficient', ascending=False)

print(coefficients_sorted)


Berdasarkan koefisien dari model regresi linier, berikut adalah interpretasi mengenai pentingnya setiap fitur dalam memprediksi Peningkatan_Kunjungan:

Fitur yang Diurutkan Berdasarkan Kepentingan (dalam hal nilai koefisien absolut):
1. Pelatihan_Perpusnas: 0.045169 (paling penting)
2. Kerjasama: 0.031052
3. Pelatihan_Dinas: 0.024506
4. Dukungan_Pemdes: 0.007515
5. Anggaran_Desa: 0.001650
6. Peserta_Kegiatan: 0.000686
7. Jumlah_Anggaran_Desa: 0 (hampir nol, tidak signifikan dalam prediksi)
8. Kegiatan_Rutin: 0 (hampir nol, tidak signifikan dalam prediksi)

Insight  :

*   Pelatihan_Perpusnas memiliki koefisien terbesar dan dengan demikian memberikan dampak terbesar pada Peningkatan_Kunjungan. Fitur ini kemungkinan memainkan peran yang paling penting dalam mempengaruhi hasil.
*   Kerjasama dan Pelatihan_Dinas juga memiliki koefisien yang cukup besar,
sehingga mereka turut berpengaruh signifikan terhadap hasil, meskipun tidak sebesar Pelatihan_Perpusnas.
*   Kegiatan_Rutin dan Jumlah_Anggaran_Desa memiliki koefisien yang sangat kecil atau hampir nol, yang menunjukkan bahwa fitur-fitur ini tidak berkontribusi banyak dalam prediksi.

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression

# Fit the Linear Regression model
model = LinearRegression()
model.fit(X_train, y_train)

# Get the coefficients (weights) of each feature
coefficients = pd.DataFrame(model.coef_, X.columns, columns=["Coefficient"])

# Sort the coefficients by their absolute value
coefficients['Abs_Coefficient'] = coefficients['Coefficient'].abs()
coefficients_sorted = coefficients.sort_values(by='Abs_Coefficient', ascending=False)

# Visualizing the coefficients
plt.figure(figsize=(10, 6))
sns.barplot(y=coefficients_sorted.index, x=coefficients_sorted["Coefficient"], palette="coolwarm")

plt.axvline(x=0, color="black", linestyle="--")  # Garis tengah untuk membedakan pengaruh positif & negatif
plt.xlabel("Coefficient Value")
plt.ylabel("Features")
plt.title("Feature Importance in Linear Regression Model")
plt.show()
