**1. Estimasi rata-rata jumlah penyandang disabilitas per kelurahan di DKI Jakarta**

In [None]:
# Load data
data = pd.read_csv("penyandang_disabilitas.csv", delimiter = ";")
data.head(10)

Unnamed: 0,nama_kecamatan,nama_kelurahan,penyandang_disabilitas
0,CAKUNG,CAKUNG BARAT,12
1,CAKUNG,CAKUNG TIMUR,7
2,CAKUNG,JATINEGARA,10
3,CAKUNG,PENGGILINGAN,91
4,CAKUNG,PULO GEBANG,7
5,CAKUNG,RAWA TERATE,5
6,CAKUNG,UJUNG MENTENG,4
7,CEMPAKA PUTIH,CEMPAKA PUTIH BARAT,2
8,CEMPAKA PUTIH,CEMPAKA PUTIH TIMUR,1
9,CEMPAKA PUTIH,RAWASARI,7


Data penyandang disabilitas terdiri beberapa kolom:


*   `nama_kecamatan` = Nama kecamatan di Provinsi DKI Jakarta
*   `nama_kelurahan` = Nama kelurahan di Provinsi DKI Jakarta
*   `penyandang_disabilitas` = Jumlah penyandang disabilitas di tiap kelurahan

Diketahui:
* Sejumlah 10 kecamatan akan diambil sebagai PSU

* Antarkeluarahan memiliki jumlah penyandang disabilitas yang tidak sama




In [None]:
# Summary variables
N = 44                 # jumlah seluruh kecamatan di DKI Jakarta
n = 10                 # jumlah kecamatan yang disampel 
pop_mean = np.mean(data['penyandang_disabilitas'])

print(f"Jumlah kecamatan di DKI Jakarta                               : {N} kecamatan")
print(f"Jumlah kecamatan yang disampel                                : {n} kecamatan")
print(f'Rata-rata penyandang disabilitas per kelurahan di DKI Jakarta : {pop_mean:.0f} orang  ')

Jumlah kecamatan di DKI Jakarta                               : 44 kecamatan
Jumlah kecamatan yang disampel                                : 10 kecamatan
Rata-rata penyandang disabilitas per kelurahan di DKI Jakarta : 23 orang  


In [None]:
# Random sample 10 kecamatan 
unique_kecamatan = data.groupby('nama_kecamatan', group_keys=False).apply(lambda data: data.sample(1))
sample_kecamatan = unique_kecamatan['nama_kecamatan'].sample(n = 10, random_state = 3)
sample_kecamatan

181         PASAR MINGGU
244          TANAH ABANG
155              MENTENG
147     MAMPANG PRAPATAN
39               CIRACAS
57     GROGOL PETAMBURAN
26             CILINCING
189          PENJARINGAN
223           TAMAN SARI
100          KEBON JERUK
Name: nama_kecamatan, dtype: object

In [None]:
# 10 Kecamatan terpilih
kecamatan = data['nama_kecamatan']

jumlah_kelurahan = data[kecamatan.isin(['PASAR MINGGU',
 'TANAH ABANG',
 'MENTENG',
 'MAMPANG PRAPATAN',
 'CIRACAS',
 'GROGOL PETAMBURAN',
 'CILINCING',
 'PENJARINGAN',
 'TAMAN SARI',
 'KEBON JERUK'])].groupby('nama_kecamatan')['nama_kelurahan'].count()\
.reset_index(name = 'jumlah_kelurahan')

jumlah_penyandang_disabilitas = data[kecamatan.isin(['PASAR MINGGU',
 'TANAH ABANG',
 'MENTENG',
 'MAMPANG PRAPATAN',
 'CIRACAS',
 'GROGOL PETAMBURAN',
 'CILINCING',
 'PENJARINGAN',
 'TAMAN SARI',
 'KEBON JERUK'])].groupby('nama_kecamatan')['penyandang_disabilitas'].sum()\
.reset_index(name = 'penyandang_disabilitas')

kecamatan_terpilih = pd.merge(jumlah_kelurahan, jumlah_penyandang_disabilitas, on=['nama_kecamatan'])
kecamatan_terpilih

Unnamed: 0,nama_kecamatan,jumlah_kelurahan,penyandang_disabilitas
0,CILINCING,7,48
1,CIRACAS,5,114
2,GROGOL PETAMBURAN,7,501
3,KEBON JERUK,7,132
4,MAMPANG PRAPATAN,5,55
5,MENTENG,5,17
6,PASAR MINGGU,7,98
7,PENJARINGAN,5,102
8,TAMAN SARI,8,51
9,TANAH ABANG,7,37


In [None]:
# Mencari nilai mu_r
# y_total adalah jumlah penyandang disabilitas dari kecamatan yang disample
y_total = np.sum(kecamatan_terpilih['penyandang_disabilitas'])

# M adalah jumlah kelurahan dari kecamatan yang disample
M = np.sum(kecamatan_terpilih['jumlah_kelurahan'])

mu_r = y_total / M

print(f'Total penyandang disabilitas dari seluruh kecamatan yang disampel  : {y_total} orang')
print(f'Total jumlah kelurahan dari seluruh kecamatan yang disampel        : {M} kelurahan')
print(f'Estimasi rata-rata jumlah penyandang disabilitas                   : {mu_r:.0f} orang')

Total penyandang disabilitas dari seluruh kecamatan yang disampel  : 1155 orang
Total jumlah kelurahan dari seluruh kecamatan yang disampel        : 63 kelurahan
Estimasi rata-rata jumlah penyandang disabilitas                   : 18 orang


**2. Estimasi 95% Confidence Interval**

In [None]:
# hitung sample varians terlebih dahulu
sc_square = np.sum((kecamatan_terpilih["penyandang_disabilitas"] - mu_r*kecamatan_terpilih["jumlah_kelurahan"])**2) / (n-1)
print(f"Varians sampel                        : ({np.sqrt(sc_square):.0f})^2")

# selanjutnya hitung estimator varians total populasi
var_y_total_est = N*(N-n)*(sc_square/n)
print(f'Varians dari estimator total populasi : ({np.sqrt(var_y_total_est):.0f}^2)')

Varians sampel                        : (138)^2
Varians dari estimator total populasi : (1687^2)


In [None]:
# cari rata-rata kelurahan dari tiap keamatan yang sample
M_bar = np.mean(kecamatan_terpilih["jumlah_kelurahan"])
print(f"Rata-rata jumlah kelurahan per kecamatan                : {M_bar:.0f}")


# hitung total dari populasi berdasarkan rata-rata
M_tot_est = N * M_bar
print(f"Estimasi jumlah kelurahan dari kecamatan yang disample  : {M_tot_est:.0f}")


# hitung varians dari rata-rata
var_y_mean_est = var_y_total_est / (M_tot_est**2)
print(f"The variance of mean ssu. est.                          : ({np.sqrt(var_y_mean_est):.0f})^2")

Rata-rata jumlah kelurahan per kecamatan                : 6
Estimasi jumlah kelurahan dari kecamatan yang disample  : 277
The variance of mean ssu. est.                          : (6)^2


In [None]:
# hitung z_stat @ 95% CI
alpha = 0.05
z_stat = stats.norm.ppf(1 - alpha/2.)
print(f"z_stat              : {z_stat:.2f}")

# hitung margin of error (d)
d = z_stat * np.sqrt(var_y_mean_est)
print(f"margin of error (d) : {d:.0f}")

z_stat              : 1.96
margin of error (d) : 12


In [None]:
# hitung confidence interval
lb = mu_r - d
ub = mu_r + d

print(f'Dengan 95% confidence interval, nilai rata-rata asli jumlah penyandang disabilitas per kelurahan di DKI Jakarta\
berkisar antara {lb:.0f} sampai {ub:.0f} orang')

Dengan 95% confidence interval, nilai rata-rata asli jumlah penyandang disabilitas per kelurahan di DKI Jakartaberkisar antara 6 sampai 30 orang


**3. Menghitung jumlah kecamatan yang dibutuhkan apabila ingin mengurangi MoE**


In [None]:
# Margin error yang baru
B = 5

D = ((B*M_bar)**2) / 4
print(D)

248.0625


In [None]:
# Jumlah kecamatan yang dibutuhkan
n_new = (N*sc_square) / (N*D + sc_square)
print(f'Untuk mendapatkan margin error sebesar 5, maka kita harus mengambil sampel sebanyak {n_new:.0f} kecamatan')

Untuk mendapatkan margin error sebesar 5, maka kita harus mengambil sampel sebanyak 28 kecamatan
