In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Baca data dari file Excel (ganti 'data.xlsx' dengan nama file yang sesuai)
df = pd.read_excel("/content/pelibatan_masy.xlsx")

# Pastikan kolom yang dipilih benar
print(df.head())  # Cek apakah data terbaca dengan benar

# Uji Shapiro-Wilk
shapiro_2022 = stats.shapiro(df["Tahun_2022"])
shapiro_2023 = stats.shapiro(df["Tahun_2023"])

print(f"Shapiro-Wilk Test Tahun 2022: W={shapiro_2022.statistic}, p-value={shapiro_2022.pvalue}")
print(f"Shapiro-Wilk Test Tahun 2023: W={shapiro_2023.statistic}, p-value={shapiro_2023.pvalue}")

# Uji Kolmogorov-Smirnov
ks_2022 = stats.kstest(df["Tahun_2022"], 'norm')
ks_2023 = stats.kstest(df["Tahun_2023"], 'norm')

print(f"Kolmogorov-Smirnov Test Tahun 2022: D={ks_2022.statistic}, p-value={ks_2022.pvalue}")
print(f"Kolmogorov-Smirnov Test Tahun 2023: D={ks_2023.statistic}, p-value={ks_2023.pvalue}")

# Visualisasi Histogram & QQ Plot
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

sns.histplot(df["Tahun_2022"], kde=True, ax=axes[0], color="blue")
axes[0].set_title("Distribusi Bandwidth 2022")

sns.histplot(df["Tahun_2023"], kde=True, ax=axes[1], color="red")
axes[1].set_title("Distribusi Bandwidth 2023")

plt.show()

# QQ Plot
fig, axes = plt.subplots(1, 2, figsize=(10, 4))

stats.probplot(df["Tahun_2022"], dist="norm", plot=axes[0])
axes[0].set_title("QQ Plot 2022")

stats.probplot(df["Tahun_2023"], dist="norm", plot=axes[1])
axes[1].set_title("QQ Plot 2023")

plt.show()


In [None]:
import pandas as pd
import scipy.stats as stats

# Baca data dari file Excel (ganti 'data.xlsx' dengan nama file yang sesuai)
df = pd.read_excel("/content/pelibatan_masy.xlsx")

# Pastikan kolom yang dipilih benar
print(df.head())  # Cek apakah data terbaca dengan benar

# Wilcoxon Signed-Rank Test
wilcoxon_test = stats.wilcoxon(df["Tahun_2022"], df["Tahun_2023"])

print(f"Wilcoxon Test Statistic: {wilcoxon_test.statistic}")
print(f"Wilcoxon Test P-value: {wilcoxon_test.pvalue}")

# Interpretasi
if wilcoxon_test.pvalue < 0.05:
    print("Terdapat perbedaan signifikan antara Tahun 2022 dan Tahun 2023.")
else:
    print("Tidak ada perbedaan signifikan antara Tahun 2022 dan Tahun 2023.")

# Hitung Effect Size (r)
n = len(df)
r_effect_size = wilcoxon_test.statistic / (n ** 0.5)
print(f"Wilcoxon r Effect Size: {r_effect_size:.4f}")


In [None]:
import numpy as np
import scipy.stats as stats

# Jumlah sampel (pastikan ini adalah jumlah data dalam df)
N = len(df)

# Konversi Statistik Wilcoxon menjadi Z-score
Z = stats.norm.ppf(1 - (2.692547767540229e-06 / 2))  # Konversi p-value ke Z-score

# Hitung Effect Size (r)
r_effect_size = Z / np.sqrt(N)

print(f"Wilcoxon r Effect Size: {r_effect_size:.4f}")


Wilcoxon r Effect Size = 0.3621
Berdasarkan kriteria Cohen (1988):
r < 0.3 → Kecil
0.3 ≤ r < 0.5 → Sedang ✅ (hasil Anda masuk dalam kategori ini)
r ≥ 0.5 → Besar
✅ Kesimpulan:
Perubahan dari Tahun 2022 ke 2023 memiliki efek sedang. Artinya, perbedaan yang terjadi memiliki dampak yang cukup berarti, tetapi tidak terlalu besar.
histogram, atau violin plot) untuk melihat perbedaan sebelum dan sesudah campur tangan TPBIS

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd

data = pd.read_excel("/content/pelibatan_masy.xlsx")
# Konversi ke DataFrame
df = pd.DataFrame(data)

# Ubah data menjadi format long untuk seaborn
df_melted = df.melt(id_vars=["Kabupaten/Kota"], var_name="Tahun", value_name="Bandwidth")

# Plot
plt.figure(figsize=(10, 5))

# Boxplot
plt.subplot(1, 2, 1)
sns.boxplot(x="Tahun", y="Bandwidth", data=df_melted, palette="Set2")
plt.title("Boxplot Perbandingan Tahun 2022 vs 2023")

# Violin Plot
plt.subplot(1, 2, 2)
sns.violinplot(x="Tahun", y="Bandwidth", data=df_melted, palette="Set3")
plt.title("Violin Plot Perbandingan Tahun 2022 vs 2023")

plt.tight_layout()
plt.show()


In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Baca data dari file Excel (ganti 'data.xlsx' dengan nama file yang sesuai)
df = pd.read_excel("/content/kunj_masy.xlsx")

# Pastikan kolom yang dipilih benar
print(df.head())  # Cek apakah data terbaca dengan benar
print("Kolom dalam dataset:", df.columns)  # Tampilkan nama kolom dalam dataset

# Normalisasi nama kolom agar tidak ada typo
df.columns = df.columns.str.strip().str.replace(" ", "_").str.lower()

# Periksa apakah kolom yang diharapkan ada dalam dataset
expected_cols = {"kunjungan_2022", "kunjungan_2023"}
if not expected_cols.issubset(df.columns):
    raise KeyError(f"Kolom yang diharapkan tidak ditemukan! Pastikan nama kolom dalam dataset: {df.columns}")

# Uji Shapiro-Wilk
shapiro_2022 = stats.shapiro(df["kunjungan_2022"])
shapiro_2023 = stats.shapiro(df["kunjungan_2023"])

print(f"Shapiro-Wilk Test Kunjungan_2022: W={shapiro_2022.statistic:.4f}, p-value={shapiro_2022.pvalue:.4e}")
print(f"Shapiro-Wilk Test Kunjungan_2023: W={shapiro_2023.statistic:.4f}, p-value={shapiro_2023.pvalue:.4e}")

# Uji Kolmogorov-Smirnov
ks_2022 = stats.kstest(df["kunjungan_2022"], 'norm')
ks_2023 = stats.kstest(df["kunjungan_2023"], 'norm')

print(f"Kolmogorov-Smirnov Test Kunjungan_2022: D={ks_2022.statistic:.4f}, p-value={ks_2022.pvalue:.4e}")
print(f"Kolmogorov-Smirnov Test Kunjungan_2023: D={ks_2023.statistic:.4f}, p-value={ks_2023.pvalue:.4e}")

# Visualisasi Histogram dengan KDE
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.histplot(df["kunjungan_2022"], kde=True, ax=axes[0], color="blue", bins=15)
axes[0].set_title("Distribusi Kunjungan 2022")
axes[0].set_xlabel("Jumlah Kunjungan")
axes[0].set_ylabel("Frekuensi")

sns.histplot(df["kunjungan_2023"], kde=True, ax=axes[1], color="red", bins=15)
axes[1].set_title("Distribusi Kunjungan 2023")
axes[1].set_xlabel("Jumlah Kunjungan")
axes[1].set_ylabel("Frekuensi")

plt.tight_layout()
plt.show()

# Visualisasi QQ Plot
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

stats.probplot(df["kunjungan_2022"], dist="norm", plot=axes[0])
axes[0].set_title("QQ Plot Kunjungan 2022")

stats.probplot(df["kunjungan_2023"], dist="norm", plot=axes[1])
axes[1].set_title("QQ Plot Kunjungan 2023")

plt.tight_layout()
plt.show()


Hasil Uji Normalitas (Shapiro-Wilk)
W=0.3928, p-value=1.5119e-23 (Kunjungan_2022)
W=0.4411, p-value=9.8853e-23 (Kunjungan_2023)
👉 Interpretasi:

Nilai p-value yang sangat kecil (p < 0.05) menunjukkan bahwa data tidak terdistribusi normal.
Nilai W sangat rendah juga mengindikasikan distribusi data jauh dari normal.. Hasil Uji Kolmogorov-Smirnov
D=0.9702, p-value=7.5168e-257 (Kunjungan_2022)
D=0.9881, p-value=9.8813e-324 (Kunjungan_2023)
👉 Interpretasi:

D yang sangat tinggi dan p-value yang sangat kecil menegaskan bahwa distribusi data sangat jauh dari distribusi normal.
Biasanya, jika data tidak normal, kita tidak bisa menggunakan uji parametrik seperti t-test. Sebagai gantinya, kita bisa pakai uji non-parametrik seperti Mann-Whitney U Test atau Wilcoxon Signed-Rank Test.


In [None]:
import pandas as pd
import scipy.stats as stats

# Baca data dari file Excel
df = pd.read_excel("/content/kunj_masy.xlsx")

# Pastikan nama kolom benar
kolom_2022 = "Kunjungan_2022"
kolom_2023 = "Kunjungan_2023"

# Uji Mann-Whitney (untuk data tidak berpasangan - kemungkinan kurang cocok di sini)
mann_whitney = stats.mannwhitneyu(df[kolom_2022], df[kolom_2023])
print(f"Mann-Whitney U Test: U={mann_whitney.statistic:.4f}, p-value={mann_whitney.pvalue:.4e}")

# Uji Wilcoxon Signed-Rank (untuk data berpasangan - lebih cocok untuk dataset ini)
wilcoxon_test = stats.wilcoxon(df[kolom_2022], df[kolom_2023])
print(f"Wilcoxon Signed-Rank Test: W={wilcoxon_test.statistic:.4f}, p-value={wilcoxon_test.pvalue:.4e}")


Wilcoxon Signed-Rank Test

W = 3445.5000, p-value = 8.1191e-08 (jauh lebih kecil dari 0.05)
Sangat signifikan, berarti ada perbedaan yang signifikan antara jumlah kunjungan tahun 2022 dan 2023.

In [None]:
from scipy.stats import wilcoxon
import numpy as np

# Pastikan tidak ada missing values
df = df.dropna(subset=["Kunjungan_2022", "Kunjungan_2023"])

# Wilcoxon Signed-Rank Test
wilcoxon_stat, p_value = wilcoxon(df["Kunjungan_2022"], df["Kunjungan_2023"])

# Jumlah sampel
N = len(df)

# Konversi Wilcoxon Statistic (W) ke Z-score
Z = (wilcoxon_stat - (N * (N + 1) / 4)) / np.sqrt((N * (N + 1) * (2 * N + 1)) / 24)

# Perhitungan Wilcoxon r Effect Size
r_effect = abs(Z) / np.sqrt(N)
print(f"Wilcoxon Signed-Rank Test: W={wilcoxon_stat:.4f}, p-value={p_value:.4e}")
print(f"Wilcoxon r Effect Size: {r_effect:.4f}")

# Menghitung total Kunjungan setiap tahun
total_Kunjungan_2022 = df["Kunjungan_2022"].sum()
total_Kunjungan_2023 = df["Kunjungan_2023"].sum()

# Menghitung selisih perubahan total
total_change = total_Kunjungan_2023 - total_Kunjungan_2022
percentage_change = (total_change / total_Kunjungan_2022) * 100

# Menampilkan hasil
print(f"Total Kunjungan 2022: {total_Kunjungan_2022}")
print(f"Total Kunjungan 2023: {total_Kunjungan_2023}")
print(f"Perubahan Total: {total_change} kunjungan ({percentage_change:.2f}%)")


✅ Wilcoxon Signed-Rank Test:

p-value = 8.1191e-08 → Perbedaan jumlah kunjungan antara tahun 2022 dan 2023 signifikan secara statistik.

r Effect Size = 0.4463 → Efek perubahan cukup kuat (sedang ke besar).



✅ Total Kunjungan:

2022: 2,337,740
2023: 3,406,528
Perubahan: +1,068,788 kunjungan (+45.72% peningkatan)


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Set ukuran figure
plt.figure(figsize=(12, 6))

# Box Plot
plt.subplot(1, 2, 1)
sns.boxplot(data=df[["Kunjungan_2022", "Kunjungan_2023"]], palette=["blue", "red"])
plt.title("Box Plot Kunjungan 2022 vs 2023")
plt.ylabel("Jumlah Kunjungan")

# Violin Plot
plt.subplot(1, 2, 2)
sns.violinplot(data=df[["Kunjungan_2022", "Kunjungan_2023"]], palette=["blue", "red"])
plt.title("Violin Plot Kunjungan 2022 vs 2023")
plt.ylabel("Jumlah Kunjungan")

# Tampilkan plot
plt.tight_layout()
plt.show()


In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Baca data dari file Excel (ganti 'data.xlsx' dengan nama file yang sesuai)
df = pd.read_excel("/content/Bandwith_Internet.xlsx")

# Pastikan kolom yang dipilih benar
print(df.head())  # Cek apakah data terbaca dengan benar
print("Kolom dalam dataset:", df.columns)  # Tampilkan nama kolom dalam dataset

# Periksa apakah kolom yang diharapkan ada dalam dataset
expected_cols = {"Bandwidt_2022", "Bandwidt_2023"}
if not expected_cols.issubset(df.columns):
    raise KeyError(f"Kolom yang diharapkan tidak ditemukan! Pastikan nama kolom dalam dataset: {df.columns}")

# Uji Shapiro-Wilk
shapiro_2022 = stats.shapiro(df["Bandwidt_2022"])
shapiro_2023 = stats.shapiro(df["Bandwidt_2023"])

print(f"Shapiro-Wilk Test Bandwidt_2022: W={shapiro_2022.statistic:.4f}, p-value={shapiro_2022.pvalue:.4e}")
print(f"Shapiro-Wilk Test Bandwidt_2023: W={shapiro_2023.statistic:.4f}, p-value={shapiro_2023.pvalue:.4e}")

# Uji Kolmogorov-Smirnov
ks_2022 = stats.kstest(df["Bandwidt_2022"], 'norm')
ks_2023 = stats.kstest(df["Bandwidt_2023"], 'norm')

print(f"Kolmogorov-Smirnov Test Bandwidt_2022: D={ks_2022.statistic:.4f}, p-value={ks_2022.pvalue:.4e}")
print(f"Kolmogorov-Smirnov Test Bandwidt_2023: D={ks_2023.statistic:.4f}, p-value={ks_2023.pvalue:.4e}")

# Visualisasi Histogram dengan KDE
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.histplot(df["Bandwidt_2022"], kde=True, ax=axes[0], color="blue", bins=15)
axes[0].set_title("Distribusi Bandwidth 2022")
axes[0].set_xlabel("Bandwidth (Mbps)")
axes[0].set_ylabel("Frekuensi")

sns.histplot(df["Bandwidt_2023"], kde=True, ax=axes[1], color="red", bins=15)
axes[1].set_title("Distribusi Bandwidth 2023")
axes[1].set_xlabel("Bandwidth (Mbps)")
axes[1].set_ylabel("Frekuensi")

plt.tight_layout()
plt.show()

# Visualisasi QQ Plot
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

stats.probplot(df["Bandwidt_2022"], dist="norm", plot=axes[0])
axes[0].set_title("QQ Plot Bandwidth 2022")

stats.probplot(df["Bandwidt_2023"], dist="norm", plot=axes[1])
axes[1].set_title("QQ Plot Bandwidth 2023")

plt.tight_layout()
plt.show()


Hasil uji normalitas menunjukkan bahwa data Bandwidt_2022 dan Bandwidt_2023 tidak berdistribusi normal karena:

Shapiro-Wilk Test → p-value < 0.05, menolak hipotesis nol (H₀) bahwa data berdistribusi normal.
Kolmogorov-Smirnov Test → p-value sangat kecil (< 0.05), juga menolak H₀.

In [None]:
from scipy.stats import wilcoxon
import numpy as np

# Wilcoxon Signed-Rank Test
wilcoxon_stat, p_value = wilcoxon(df["Bandwidt_2022"], df["Bandwidt_2023"])


# Menampilkan hasil uji
print(f"Wilcoxon Signed-Rank Test: W={wilcoxon_stat:.4f}, p-value={p_value:.4e}")

# Interpretasi hasil
if p_value < 0.05:
    print("Hasil: Terdapat perbedaan signifikan antara Bandwidth 2022 dan 2023.")
else:
    print("Hasil: Tidak terdapat perbedaan signifikan antara Bandwidth 2022 dan 2023.")


In [None]:
import pandas as pd
import numpy as np
from scipy.stats import wilcoxon

# Load data
file_path = "/content/Bandwith_Internet.xlsx"
df = pd.read_excel(file_path)

# Pastikan kolom yang diperlukan ada dalam data
required_columns = ["Bandwidt_2022", "Bandwidt_2023"]
if all(col in df.columns for col in required_columns):
    # Mengambil nilai Bandwidth 2022 dan 2023
    before = df["Bandwidt_2022"].dropna().values
    after = df["Bandwidt_2023"].dropna().values

    # Pastikan panjang data sama sebelum Wilcoxon test
    if len(before) == len(after):
        # Wilcoxon signed-rank test dengan metode approx
        wilcoxon_stat, p_value = wilcoxon(before, after, method="approx")

        # Menghitung effect size (r) dengan normalisasi
        n = len(before)  # Jumlah sampel
        r_effect_size = wilcoxon_stat / (n * (n + 1) / 2)  # Normalisasi sesuai ukuran sampel

        # Interpretasi ukuran efek (r)
        if r_effect_size < 0.1:
            effect_size_interpretation = "Kecil"
        elif r_effect_size < 0.3:
            effect_size_interpretation = "Sedang"
        else:
            effect_size_interpretation = "Besar"

        # Output hasil
        print(f"Wilcoxon Statistic: {wilcoxon_stat:.4f}")
        print(f"p-value: {p_value:.4f}")
        print(f"Effect Size (r): {r_effect_size:.4f}")
        print(f"Interpretasi Effect Size: {effect_size_interpretation}")
    else:
        print("Jumlah data antara Bandwidt_2022 dan Bandwidt_2023 tidak sama.")
else:
    print("Kolom yang dibutuhkan tidak ditemukan dalam file.")


Hasil perhitungan menunjukkan bahwa meskipun perubahan bandwidth signifikan secara statistik (p-value = 0.0000), effect size (r) sangat kecil (0.0414).

Analisis Hasil
Wilcoxon Statistic (W) tinggi, tetapi effect size kecil

Ini terjadi karena ukuran sampel cukup besar sehingga nilai Wilcoxon Statistic tidak selalu mencerminkan efek yang besar.
Effect size (r) dihitung dengan normalisasi yang lebih tepat

Dengan
𝑟
=
𝑊
𝑛
(
𝑛
+
1
)
2
r=
2
n(n+1)
​

W
​
 , hasilnya lebih realistis dan tetap dalam rentang 0-1.
Interpretasi

p-value sangat kecil → Ada perbedaan yang signifikan antara Bandwidth 2022 dan 2023.
Effect size kecil → Meskipun perbedaannya signifikan, dampak perubahan bandwidth dalam konteks ini mungkin tidak terlalu besar.

In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Baca data dari file Excel (ganti 'data.xlsx' dengan nama file yang sesuai)
df = pd.read_excel("/content/Bandwith_Internet.xlsx")

# Periksa nama kolom dalam dataset
print("Kolom dalam dataset sebelum normalisasi:", df.columns)

# Normalisasi nama kolom agar tidak ada kesalahan ketik
df.columns = df.columns.str.strip().str.replace(" ", "_").str.lower()
print("Kolom dalam dataset setelah normalisasi:", df.columns)

# Pastikan kolom yang diharapkan ada dalam dataset
expected_cols = {"bandwidt_2022", "bandwidt_2023"}
if not expected_cols.issubset(df.columns):
    raise KeyError(f"Kolom yang diharapkan tidak ditemukan! Pastikan nama kolom dalam dataset: {df.columns}")

# Uji Wilcoxon Signed-Rank
wilcoxon_stat, p_value = stats.wilcoxon(df["bandwidt_2022"], df["bandwidt_2023"])

# Hitung Effect Size r
  # Menghitung effect size (r) dengan normalisasi
n = len(before)  # Jumlah sampel
r_effect_size = wilcoxon_stat / (n * (n + 1) / 2)  # Normalisasi sesuai ukuran sampel
# Tampilkan hasil
print(f"Wilcoxon Signed-Rank Test: W={wilcoxon_stat:.4f}, p-value={p_value:.4e}")
print(f"Wilcoxon r Effect Size: {effect_size_r:.4f}")

# Interpretasi hasil
if p_value < 0.05:
    print("Hasil: Terdapat perbedaan signifikan antara Bandwidth 2022 dan 2023.")
else:
    print("Hasil: Tidak terdapat perbedaan signifikan antara Bandwidth 2022 dan 2023.")

# Interpretasi Effect Size berdasarkan Cohen (1988)
if effect_size_r < 0.1:
    interpretasi = "Kecil"
elif effect_size_r < 0.3:
    interpretasi = "Sedang"
else:
    interpretasi = "Besar"

print(f"Interpretasi Effect Size: {interpretasi}")

# Visualisasi dengan Boxplot dan Violin Plot
fig, axes = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
sns.boxplot(data=df[["bandwidt_2022", "bandwidt_2023"]], ax=axes[0], palette="coolwarm")
axes[0].set_title("Boxplot Perbandingan Bandwidth 2022 vs 2023")

# Violin Plot
sns.violinplot(data=df[["bandwidt_2022", "bandwidt_2023"]], ax=axes[1], palette="coolwarm")
axes[1].set_title("Violin Plot Perbandingan Bandwidth 2022 vs 2023")

plt.tight_layout()
plt.show()


In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Baca data dari file Excel
file_path = "/content/tambah_kol.xlsx"  # Pastikan path benar
df = pd.read_excel(file_path)

# Pastikan kolom yang dipilih benar
print(df.head())  # Cek apakah data terbaca dengan benar
print("Kolom dalam dataset:", df.columns)  # Tampilkan nama kolom dalam dataset

# Periksa apakah kolom yang diharapkan ada dalam dataset
expected_cols = {"Tambah_kol_2022", "Tambah_kol_2023"}
if not expected_cols.issubset(df.columns):
    raise KeyError(f"Kolom yang diharapkan tidak ditemukan! Pastikan nama kolom dalam dataset: {df.columns}")

# Fungsi untuk melakukan uji normalitas (Shapiro-Wilk dan Kolmogorov-Smirnov)
def normality_tests(column_name):
    data = df[column_name].dropna()  # Hapus nilai NaN jika ada
    shapiro_test = stats.shapiro(data)
    ks_test = stats.kstest(data, 'norm')

    print(f"Shapiro-Wilk Test {column_name}: W={shapiro_test.statistic:.4f}, p-value={shapiro_test.pvalue:.4e}")
    print(f"Kolmogorov-Smirnov Test {column_name}: D={ks_test.statistic:.4f}, p-value={ks_test.pvalue:.4e}")

# Uji normalitas untuk setiap kolom
for col in expected_cols:
    normality_tests(col)

# Visualisasi Histogram dengan KDE
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.histplot(df["Tambah_kol_2022"], kde=True, ax=axes[0], color="green", bins=15)
axes[0].set_title("Distribusi Tambah_kol_2022")
axes[0].set_xlabel("Nilai")
axes[0].set_ylabel("Frekuensi")

sns.histplot(df["Tambah_kol_2023"], kde=True, ax=axes[1], color="purple", bins=15)
axes[1].set_title("Distribusi Tambah_kol_2023")
axes[1].set_xlabel("Nilai")
axes[1].set_ylabel("Frekuensi")

plt.tight_layout()
plt.show()

# Visualisasi QQ Plot
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

stats.probplot(df["Tambah_kol_2022"], dist="norm", plot=axes[0])
axes[0].set_title("QQ Plot Tambah_kol_2022")

stats.probplot(df["Tambah_kol_2023"], dist="norm", plot=axes[1])
axes[1].set_title("QQ Plot Tambah_kol_2023")

plt.tight_layout()
plt.show()

# Uji Wilcoxon Signed-Rank Test (untuk data berpasangan)
x = df["Tambah_kol_2022"].dropna()
y = df["Tambah_kol_2023"].dropna()

if len(x) != len(y):
    raise ValueError("Data 2022 dan 2023 harus memiliki jumlah pasangan yang sama untuk Wilcoxon Test!")

wilcoxon_test = stats.wilcoxon(x, y)
print(f"Wilcoxon Signed-Rank Test: Statistik={wilcoxon_test.statistic:.4f}, p-value={wilcoxon_test.pvalue:.4e}")

# Perhitungan Effect Size (Cohen's d)
def cohen_d(x, y):
    mean_x, mean_y = x.mean(), y.mean()
    std_x, std_y = x.std(), y.std()
    pooled_std = ((std_x**2 + std_y**2) / 2) ** 0.5
    return (mean_x - mean_y) / pooled_std

effect_size_r = cohen_d(x, y)

# Interpretasi Effect Size berdasarkan Cohen (1988)
if effect_size_r < 0.1:
    interpretasi = "Kecil"
elif effect_size_r < 0.3:
    interpretasi = "Sedang"
else:
    interpretasi = "Besar"

print(f"Effect Size (Cohen's d): {effect_size_r:.4f} ({interpretasi})")


In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Baca data dari file Excel
df = pd.read_excel("/content/tambah_kol.xlsx")

# Pastikan kolom yang dipilih benar
print(df.head())  # Cek apakah data terbaca dengan benar
print("Kolom dalam dataset:", df.columns)  # Tampilkan nama kolom dalam dataset

# Periksa apakah kolom yang diharapkan ada dalam dataset
expected_cols = {"Tambah_kol_2022", "Tambah_kol_2023"}
if not expected_cols.issubset(df.columns):
    raise KeyError(f"Kolom yang diharapkan tidak ditemukan! Pastikan nama kolom dalam dataset: {df.columns}")

# Fungsi untuk melakukan uji normalitas (Shapiro-Wilk dan Kolmogorov-Smirnov)
def normality_tests(column_name):
    shapiro_test = stats.shapiro(df[column_name])
    ks_test = stats.kstest(df[column_name], 'norm')

    print(f"Shapiro-Wilk Test {column_name}: W={shapiro_test.statistic:.4f}, p-value={shapiro_test.pvalue:.4e}")
    print(f"Kolmogorov-Smirnov Test {column_name}: D={ks_test.statistic:.4f}, p-value={ks_test.pvalue:.4e}")

# Uji normalitas untuk setiap kolom
for col in expected_cols:
    normality_tests(col)

# Visualisasi Histogram dengan KDE
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.histplot(df["Tambah_kol_2022"], kde=True, ax=axes[0], color="green", bins=15)
axes[0].set_title("Distribusi Tambah_kol_2022")
axes[0].set_xlabel("Nilai")
axes[0].set_ylabel("Frekuensi")

sns.histplot(df["Tambah_kol_2023"], kde=True, ax=axes[1], color="purple", bins=15)
axes[1].set_title("Distribusi Tambah_kol_2023")
axes[1].set_xlabel("Nilai")
axes[1].set_ylabel("Frekuensi")

plt.tight_layout()
plt.show()

# Visualisasi QQ Plot
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

stats.probplot(df["Tambah_kol_2022"], dist="norm", plot=axes[0])
axes[0].set_title("QQ Plot Tambah_kol_2022")

stats.probplot(df["Tambah_kol_2023"], dist="norm", plot=axes[1])
axes[1].set_title("QQ Plot Tambah_kol_2023")

plt.tight_layout()
plt.show()


In [None]:
import pandas as pd
import numpy as np
from scipy.stats import wilcoxon

# Load data
file_path = "/content/tambah_kol.xlsx"
df = pd.read_excel(file_path)

# Pastikan kolom yang diperlukan ada dalam data
if "Tambah_kol_2022" in df.columns and "Tambah_kol_2023" in df.columns:
    # Mengambil nilai Tambah_kol_2022 dan Tambah_kol_2023
    before = df["Tambah_kol_2022"].dropna().values
    after = df["Tambah_kol_2023"].dropna().values

  # Pastikan panjang data sama sebelum Wilcoxon test
    if len(before) == len(after):
        # Wilcoxon signed-rank test
        wilcoxon_stat, p_value = wilcoxon(before, after)

        # Menghitung effect size (r) dengan menggunakan jumlah peringkat (T)
        n = len(before)  # Jumlah sampel
        r_effect_size = wilcoxon_stat / (n * (n + 1) / 2)  # Menggunakan jumlah total peringkat sebagai pembagi

        # Interpretasi ukuran efek (r)
        if r_effect_size < 0.1:
            effect_size_interpretation = "Kecil"
        elif r_effect_size < 0.3:
            effect_size_interpretation = "Sedang"
        else:
            effect_size_interpretation = "Besar"

        # Output hasil
        print(f"Wilcoxon Statistic: {wilcoxon_stat:.4f}")
        print(f"p-value: {p_value:.4f}")
        print(f"Effect Size (r): {r_effect_size:.4f}")
        print(f"Interpretasi Effect Size: {effect_size_interpretation}")

    else:
        print("Error: Jumlah data antara Tambah_kol_2022 dan Tambah_kol_2023 tidak sama.")
else:
    print("Error: Kolom yang dibutuhkan tidak ditemukan dalam file.")

In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Baca data dari file Excel (ganti 'data.xlsx' dengan nama file yang sesuai)
df = pd.read_excel("/content/tambah_kol.xlsx")

# Periksa nama kolom dalam dataset
print("Kolom dalam dataset sebelum normalisasi:", df.columns)

# Normalisasi nama kolom agar tidak ada kesalahan ketik
df.columns = df.columns.str.strip().str.replace(" ", "_").str.lower()
print("Kolom dalam dataset setelah normalisasi:", df.columns)

# Pastikan kolom yang diharapkan ada dalam dataset
expected_cols = {"tambah_kol_2022", "tambah_kol_2023"}
if not expected_cols.issubset(df.columns):
    raise KeyError(f"Kolom yang diharapkan tidak ditemukan! Pastikan nama kolom dalam dataset: {df.columns}")

# Uji Wilcoxon Signed-Rank
wilcoxon_stat, p_value = stats.wilcoxon(df["tambah_kol_2022"], df["tambah_kol_2023"])

# Hitung Effect Size r
n = len(df)  # Jumlah pasangan sampel
effect_size_r = abs(wilcoxon_stat) / (n ** 0.5)

# Tampilkan hasil
print(f"Wilcoxon Signed-Rank Test: W={wilcoxon_stat:.4f}, p-value={p_value:.4e}")
print(f"Wilcoxon r Effect Size: {effect_size_r:.4f}")

# Interpretasi hasil
if p_value < 0.05:
    print("Hasil: Terdapat perbedaan signifikan antara Tambah_kol_2022 dan Tambah_kol_2023.")
else:
    print("Hasil: Tidak terdapat perbedaan signifikan antara Tambah_kol_2022 dan Tambah_kol_2023.")

# Interpretasi Effect Size berdasarkan Cohen (1988)
if effect_size_r < 0.1:
    interpretasi = "Kecil"
elif effect_size_r < 0.3:
    interpretasi = "Sedang"
else:
    interpretasi = "Besar"

print(f"Interpretasi Effect Size: {interpretasi}")

# Visualisasi dengan Boxplot dan Violin Plot
fig, axes = plt.subplots(1, 2, figsize=(12, 6))

# Boxplot
sns.boxplot(data=df[["tambah_kol_2022", "tambah_kol_2023"]], ax=axes[0], palette="coolwarm")
axes[0].set_title("Boxplot Perbandingan Tambah_kol_2022 vs Tambah_kol_2023")

# Violin Plot
sns.violinplot(data=df[["tambah_kol_2022", "tambah_kol_2023"]], ax=axes[1], palette="coolwarm")
axes[1].set_title("Violin Plot Perbandingan Tambah_kol_2022 vs Tambah_kol_2023")

plt.tight_layout()
plt.show()


In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Baca data dari file Excel
file_path = "/content/tambah_dig.xlsx"  # Pastikan path benar
df = pd.read_excel(file_path)

# Pastikan kolom yang dipilih benar
print(df.head())  # Cek apakah data terbaca dengan benar
print("Kolom dalam dataset:", df.columns)  # Tampilkan nama kolom dalam dataset

# Periksa apakah kolom yang diharapkan ada dalam dataset
expected_cols = {"Tb_digi_buk_2022", "Tb_digi_buk_2023"}
if not expected_cols.issubset(df.columns):
    raise KeyError(f"Kolom yang diharapkan tidak ditemukan! Pastikan nama kolom dalam dataset: {df.columns}")

# Fungsi untuk melakukan uji normalitas (Shapiro-Wilk dan Kolmogorov-Smirnov)
def normality_tests(column_name):
    data = df[column_name].dropna()  # Hapus nilai NaN jika ada
    shapiro_test = stats.shapiro(data)
    ks_test = stats.kstest(data, 'norm')

    print(f"Shapiro-Wilk Test {column_name}: W={shapiro_test.statistic:.4f}, p-value={shapiro_test.pvalue:.4e}")
    print(f"Kolmogorov-Smirnov Test {column_name}: D={ks_test.statistic:.4f}, p-value={ks_test.pvalue:.4e}")

# Uji normalitas untuk setiap kolom
for col in expected_cols:
    normality_tests(col)

# Visualisasi Histogram dengan KDE
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.histplot(df["Tb_digi_buk_2022"], kde=True, ax=axes[0], color="blue", bins=15)
axes[0].set_title("Distribusi Tb_digi_buk_2022")
axes[0].set_xlabel("Nilai")
axes[0].set_ylabel("Frekuensi")

sns.histplot(df["Tb_digi_buk_2023"], kde=True, ax=axes[1], color="red", bins=15)
axes[1].set_title("Distribusi Tb_digi_buk_2023")
axes[1].set_xlabel("Nilai")
axes[1].set_ylabel("Frekuensi")

plt.tight_layout()
plt.show()

# Visualisasi QQ Plot
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

stats.probplot(df["Tb_digi_buk_2022"], dist="norm", plot=axes[0])
axes[0].set_title("QQ Plot Tb_digi_buk_2022")

stats.probplot(df["Tb_digi_buk_2023"], dist="norm", plot=axes[1])
axes[1].set_title("QQ Plot Tb_digi_buk_2023")

plt.tight_layout()
plt.show()

# Uji Wilcoxon Signed-Rank Test (untuk data berpasangan)
x = df["Tb_digi_buk_2022"].dropna()
y = df["Tb_digi_buk_2023"].dropna()

if len(x) != len(y):
    raise ValueError("Data 2022 dan 2023 harus memiliki jumlah pasangan yang sama untuk Wilcoxon Test!")

wilcoxon_test = stats.wilcoxon(x, y)
print(f"Wilcoxon Signed-Rank Test: Statistik={wilcoxon_test.statistic:.4f}, p-value={wilcoxon_test.pvalue:.4e}")

# Perhitungan Effect Size (Cohen's d)
def cohen_d(x, y):
    mean_x, mean_y = x.mean(), y.mean()
    std_x, std_y = x.std(), y.std()
    pooled_std = ((std_x**2 + std_y**2) / 2) ** 0.5
    return (mean_x - mean_y) / pooled_std

effect_size_r = cohen_d(x, y)

# Interpretasi Effect Size berdasarkan Cohen (1988)
if effect_size_r < 0.1:
    interpretasi = "Kecil"
elif effect_size_r < 0.3:
    interpretasi = "Sedang"
else:
    interpretasi = "Besar"

print(f"Effect Size (Cohen's d): {effect_size_r:.4f} ({interpretasi})")


In [None]:
import pandas as pd
import numpy as np
from scipy.stats import wilcoxon

# Load data
file_path = "/content/tambah_dig.xlsx"  # Pastikan path benar
df = pd.read_excel(file_path)

# Pastikan kolom yang diperlukan ada dalam data
required_columns = ["Tb_digi_buk_2022", "Tb_digi_buk_2023"]
if all(col in df.columns for col in required_columns):
    # Mengambil nilai Tb_digi_buk_2022 dan Tb_digi_buk_2023
    before = df["Tb_digi_buk_2022"].dropna().values
    after = df["Tb_digi_buk_2023"].dropna().values

    # Pastikan panjang data sama sebelum Wilcoxon test
    if len(before) == len(after):
        # Wilcoxon signed-rank test dengan metode approx
        wilcoxon_stat, p_value = wilcoxon(before, after, method="approx")

        # Menghitung effect size (r) dengan normalisasi
        n = len(before)  # Jumlah sampel
        r_effect_size = wilcoxon_stat / (n * (n + 1) / 2)  # Normalisasi sesuai ukuran sampel

        # Interpretasi ukuran efek (r)
        if r_effect_size < 0.1:
            effect_size_interpretation = "Kecil"
        elif r_effect_size < 0.3:
            effect_size_interpretation = "Sedang"
        else:
            effect_size_interpretation = "Besar"

        # Output hasil
        print(f"Wilcoxon Statistic: {wilcoxon_stat:.4f}")
        print(f"p-value: {p_value:.4f}")
        print(f"Effect Size (r): {r_effect_size:.4f}")
        print(f"Interpretasi Effect Size: {effect_size_interpretation}")
    else:
        print("Jumlah data antara Tb_digi_buk_2022 dan Tb_digi_buk_2023 tidak sama.")
else:
    print("Kolom yang dibutuhkan tidak ditemukan dalam file.")


In [None]:
import pandas as pd
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

# Baca data dari file Excel
file_path = "/content/keg_masy.xlsx"  # Pastikan path benar
df = pd.read_excel(file_path)

# Pastikan kolom yang dipilih benar
print(df.head())  # Cek apakah data terbaca dengan benar
print("Kolom dalam dataset:", df.columns)  # Tampilkan nama kolom dalam dataset

# Periksa apakah kolom yang diharapkan ada dalam dataset
expected_cols = {"peserta_keg_2022", "peserta_keg_2023"}
if not expected_cols.issubset(df.columns):
    raise KeyError(f"Kolom yang diharapkan tidak ditemukan! Pastikan nama kolom dalam dataset: {df.columns}")

# Fungsi untuk melakukan uji normalitas (Shapiro-Wilk dan Kolmogorov-Smirnov)
def normality_tests(column_name):
    data = df[column_name].dropna()  # Hapus nilai NaN jika ada
    shapiro_test = stats.shapiro(data)
    ks_test = stats.kstest(data, 'norm')

    print(f"Shapiro-Wilk Test {column_name}: W={shapiro_test.statistic:.4f}, p-value={shapiro_test.pvalue:.4e}")
    print(f"Kolmogorov-Smirnov Test {column_name}: D={ks_test.statistic:.4f}, p-value={ks_test.pvalue:.4e}")

# Uji normalitas untuk setiap kolom
for col in expected_cols:
    normality_tests(col)

# Visualisasi Histogram dengan KDE
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

sns.histplot(df["peserta_keg_2022"], kde=True, ax=axes[0], color="blue", bins=15)
axes[0].set_title("Distribusi peserta_keg_2022")
axes[0].set_xlabel("Nilai")
axes[0].set_ylabel("Frekuensi")

sns.histplot(df["peserta_keg_2023"], kde=True, ax=axes[1], color="red", bins=15)
axes[1].set_title("Distribusi peserta_keg_2023")
axes[1].set_xlabel("Nilai")
axes[1].set_ylabel("Frekuensi")

plt.tight_layout()
plt.show()

# Visualisasi QQ Plot
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

stats.probplot(df["peserta_keg_2022"], dist="norm", plot=axes[0])
axes[0].set_title("QQ Plot peserta_keg_2022")

stats.probplot(df["peserta_keg_2023"], dist="norm", plot=axes[1])
axes[1].set_title("QQ Plot peserta_keg_2023")

plt.tight_layout()
plt.show()

# Uji Wilcoxon Signed-Rank Test (untuk data berpasangan)
x = df["peserta_keg_2022"].dropna()
y = df["peserta_keg_2023"].dropna()

if len(x) != len(y):
    raise ValueError("Data 2022 dan 2023 harus memiliki jumlah pasangan yang sama untuk Wilcoxon Test!")

wilcoxon_test = stats.wilcoxon(x, y)
print(f"Wilcoxon Signed-Rank Test: Statistik={wilcoxon_test.statistic:.4f}, p-value={wilcoxon_test.pvalue:.4e}")

# Perhitungan Effect Size (Cohen's d)
def cohen_d(x, y):
    mean_x, mean_y = x.mean(), y.mean()
    std_x, std_y = x.std(), y.std()
    pooled_std = ((std_x**2 + std_y**2) / 2) ** 0.5
    return (mean_x - mean_y) / pooled_std

effect_size_r = cohen_d(x, y)

# Interpretasi Effect Size berdasarkan Cohen (1988)
if effect_size_r < 0.1:
    interpretasi = "Kecil"
elif effect_size_r < 0.3:
    interpretasi = "Sedang"
else:
    interpretasi = "Besar"

print(f"Effect Size (Cohen's d): {effect_size_r:.4f} ({interpretasi})")


In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from scipy.stats import wilcoxon

# Load data
file_path = "/content/keg_masy.xlsx"  # Pastikan path benar
df = pd.read_excel(file_path)

# Pastikan kolom yang diperlukan ada dalam data
required_columns = ["peserta_keg_2022", "peserta_keg_2023"]
if all(col in df.columns for col in required_columns):
    # Mengambil nilai peserta_keg_2022 dan peserta_keg_2023
    before = df["peserta_keg_2022"].dropna().values
    after = df["peserta_keg_2023"].dropna().values

    # Pastikan panjang data sama sebelum Wilcoxon test
    if len(before) == len(after):
        # Wilcoxon signed-rank test dengan metode approx
        wilcoxon_stat, p_value = wilcoxon(before, after, method="approx")

        # Menghitung effect size (r) dengan normalisasi
        n = len(before)  # Jumlah sampel
        r_effect_size = wilcoxon_stat / (n * (n + 1) / 2)  # Normalisasi sesuai ukuran sampel

        # Interpretasi ukuran efek (r)
        if r_effect_size < 0.1:
            effect_size_interpretation = "Kecil"
        elif r_effect_size < 0.3:
            effect_size_interpretation = "Sedang"
        else:
            effect_size_interpretation = "Besar"

        # Output hasil
        print(f"Wilcoxon Statistic: {wilcoxon_stat:.4f}")
        print(f"p-value: {p_value:.4f}")
        print(f"Effect Size (r): {r_effect_size:.4f}")
        print(f"Interpretasi Effect Size: {effect_size_interpretation}")

        # Buat dataframe untuk visualisasi
        plot_data = pd.melt(df[required_columns].dropna(), var_name="Tahun", value_name="Jumlah Peserta")

        # Box Plot
        plt.figure(figsize=(8, 5))
        sns.boxplot(x="Tahun", y="Jumlah Peserta", data=plot_data, palette=["blue", "red"])
        plt.title("Box Plot Peserta Kegiatan 2022 vs 2023")
        plt.xlabel("Tahun")
        plt.ylabel("Jumlah Peserta")
        plt.show()

        # Violin Plot
        plt.figure(figsize=(8, 5))
        sns.violinplot(x="Tahun", y="Jumlah Peserta", data=plot_data, palette=["blue", "red"])
        plt.title("Violin Plot Peserta Kegiatan 2022 vs 2023")
        plt.xlabel("Tahun")
        plt.ylabel("Jumlah Peserta")
        plt.show()

    else:
        print("Jumlah data antara peserta_keg_2022 dan peserta_keg_2023 tidak sama.")
else:
    print("Kolom yang dibutuhkan tidak ditemukan dalam file.")